Size: a a a

2018 July 26

TS

Timur S. in PyData SPb
Я думаю это один из ответов на вопрос об р в дс
источник

AZ

Alex Zveryansky in PyData SPb
простенькую архитектуру можно на чем хочешь сделать
источник

AZ

Alex Zveryansky in PyData SPb
ну ладно тебе, есть жизнь кроме нейронок)
источник

TS

Timur S. in PyData SPb
Статистикой напрямую сыт не будешь
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Недавно копал в Luigi, Airflow и нашёл вот такую надстройку над Luigi:
https://github.com/pharmbio/sciluigi

Чуваки делали биоинформатику на Python. Сейчас перешли на Go. Потому что быстро) Теперь вот это пилят:
http://scipipe.org/
источник

A

Alex in PyData SPb
Timur S.
А как на р со всякими нейронными сетями и прочим мейнстримом?
у меня на семинаре пытался товарищ сделать на R resnet.
Ничего не вышло.
источник

TS

Timur S. in PyData SPb
Я даже не хочу уточнять ничего
источник

TS

Timur S. in PyData SPb
Можешь порекламить plaidml, чтобы он быстрее развивался)
источник

E

Eugene in PyData SPb
Stepan
Всем привет! В эту субботу на itgm я буду рассказывать про тренды в Python мире. Я уже накидал много чего общего, но так как я фуллстэк-работяга, то не очень в курсе, что происходи в научном сообществе.

Поэтому расскажите пожалуйста: что проиошло нового в научной экосистеме Python в этом году?
Посмотри материалы конфы https://scipy2018.scipy.org/ehome/index.php?eventid=299527&
источник
2018 August 07

E

Eugene in PyData SPb
Доброй ночи!
Внезапно возник вопрос, pandas помрёт если попытаться прочитать csv файл размером 700 мегабайт в DataFrame? Как вообще pandas работает с большим количеством данных или какие есть "рецепты" для работы с немаленькими датасетами в pandas?

Вопрос возник, потому как я уже минут 10 жду пока отработает функция read_csv, а мне там надо ещё всякие groupby делать фильтрацию и сортировку
источник

ES

Elena Savelieva in PyData SPb
700 мегабайт - это большой датасет??
источник

ES

Elena Savelieva in PyData SPb
(погладила R)
источник

E

Eugene in PyData SPb
Elena Savelieva
700 мегабайт - это большой датасет??
10 минут читается в DataFrame уже. видимо для pandas большой :)
источник

E

Eugene in PyData SPb
просто я взял 100 строк из csv, написал функцию, которая делает что мне надо, проверил - работает. запустил на 700-мегабайтном файлике и оно умерло ещё на этапе загрузки в DataFrame. Вот у меня и возник вопрос, а как быть с 10 гигабайтными датасетами тогда? :)
источник

E

Eugene in PyData SPb
Кажется, ясно. не стоит делать parse_dates в read_csv 😀🙄

https://stackoverflow.com/questions/29882573/pandas-slow-date-conversion
источник

AZ

Alex Zveryansky in PyData SPb
Eugene
10 минут читается в DataFrame уже. видимо для pandas большой :)
Там нужно ему пояснить тип данных в колонках и приведение дат пооптимизить, будет заметно быстрее. 700м это не большой датасет
источник

AL

Aleksander Lifanov in PyData SPb
Ещё не все поля можно грузить
источник

E

Eugene in PyData SPb
Alex Zveryansky
Там нужно ему пояснить тип данных в колонках и приведение дат пооптимизить, будет заметно быстрее. 700м это не большой датасет
Типы я, конечно, указываю. Это как минимум экономит память, но на скорость загрузки не сильно влияет. Основная проблема была в парсинге дат.
источник

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb
Eugene
Доброй ночи!
Внезапно возник вопрос, pandas помрёт если попытаться прочитать csv файл размером 700 мегабайт в DataFrame? Как вообще pandas работает с большим количеством данных или какие есть "рецепты" для работы с немаленькими датасетами в pandas?

Вопрос возник, потому как я уже минут 10 жду пока отработает функция read_csv, а мне там надо ещё всякие groupby делать фильтрацию и сортировку
Вот это можешь взглянуть:
https://dask.pydata.org/en/latest/dataframe.html
источник

E

Eugene in PyData SPb
Спасибо, интересно! Для данных, которые в память не влезают, самое то.
700 мб - это у меня только пример, а реальные датасеты будут гораздо больше.
источник