Телеграмм чат группы pydata

Недавно копал в Luigi, Airflow и нашёл вот такую надстройку над Luigi:
https://github.com/pharmbio/sciluigi

Чуваки делали биоинформатику на Python. Сейчас перешли на Go. Потому что быстро) Теперь вот это пилят:
http://scipipe.org/

GitHub

pharmbio/sciluigi

sciluigi - A light-weight wrapper library around Spotify's Luigi workflow system to make writing scientific workflows more fluent, flexible and modular

источник

17:05пожаловаться

A

Alex in PyData SPb

Timur S.

А как на р со всякими нейронными сетями и прочим мейнстримом?

у меня на семинаре пытался товарищ сделать на R resnet.
Ничего не вышло.

источник

17:06пожаловаться

TS

Timur S. in PyData SPb

Я даже не хочу уточнять ничего

источник

17:06пожаловаться

TS

Timur S. in PyData SPb

Можешь порекламить plaidml, чтобы он быстрее развивался)

E

Всем привет! В эту субботу на itgm я буду рассказывать про тренды в Python мире. Я уже накидал много чего общего, но так как я фуллстэк-работяга, то не очень в курсе, что происходи в научном сообществе.

Поэтому расскажите пожалуйста: что проиошло нового в научной экосистеме Python в этом году?

Посмотри материалы конфы https://scipy2018.scipy.org/ehome/index.php?eventid=299527&

scipy2018.scipy.org

Home | SciPy 2018 Conference

источник

18:01пожаловаться

2018 August 07

E

Eugene in PyData SPb

Доброй ночи!
Внезапно возник вопрос, pandas помрёт если попытаться прочитать csv файл размером 700 мегабайт в DataFrame? Как вообще pandas работает с большим количеством данных или какие есть "рецепты" для работы с немаленькими датасетами в pandas?

Вопрос возник, потому как я уже минут 10 жду пока отработает функция read_csv, а мне там надо ещё всякие groupby делать фильтрацию и сортировку

источник

03:01пожаловаться

ES

Elena Savelieva in PyData SPb

700 мегабайт - это большой датасет??

источник

03:02пожаловаться

ES

Elena Savelieva in PyData SPb

(погладила R)

E

700 мегабайт - это большой датасет??

10 минут читается в DataFrame уже. видимо для pandas большой :)

источник

03:03пожаловаться

E

Eugene in PyData SPb

просто я взял 100 строк из csv, написал функцию, которая делает что мне надо, проверил - работает. запустил на 700-мегабайтном файлике и оно умерло ещё на этапе загрузки в DataFrame. Вот у меня и возник вопрос, а как быть с 10 гигабайтными датасетами тогда? :)

источник

03:06пожаловаться

E

Eugene in PyData SPb

Кажется, ясно. не стоит делать parse_dates в read_csv 😀🙄

https://stackoverflow.com/questions/29882573/pandas-slow-date-conversion

Stack Overflow

Pandas: slow date conversion

I'm reading a huge CSV with a date field in the format YYYYMMDD and I'm using the following lambda to convert it when reading:

import pandas as pd

df = pd.read_csv(filen,
index_col=

источник

03:10пожаловаться

AZ

Alex Zveryansky in PyData SPb

Eugene

10 минут читается в DataFrame уже. видимо для pandas большой :)

Там нужно ему пояснить тип данных в колонках и приведение дат пооптимизить, будет заметно быстрее. 700м это не большой датасет

источник

07:53пожаловаться

AL

Aleksander Lifanov in PyData SPb

Ещё не все поля можно грузить

E

Там нужно ему пояснить тип данных в колонках и приведение дат пооптимизить, будет заметно быстрее. 700м это не большой датасет

Типы я, конечно, указываю. Это как минимум экономит память, но на скорость загрузки не сильно влияет. Основная проблема была в парсинге дат.

источник

09:34пожаловаться

'o

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ in PyData SPb

Eugene

Доброй ночи!
Внезапно возник вопрос, pandas помрёт если попытаться прочитать csv файл размером 700 мегабайт в DataFrame? Как вообще pandas работает с большим количеством данных или какие есть "рецепты" для работы с немаленькими датасетами в pandas?

Вопрос возник, потому как я уже минут 10 жду пока отработает функция read_csv, а мне там надо ещё всякие groupby делать фильтрацию и сортировку

Вот это можешь взглянуть:
https://dask.pydata.org/en/latest/dataframe.html

источник

09:58пожаловаться

E

Eugene in PyData SPb

' or 1=1 -- `ǤŘΔΜ` σяsιηιυм official (っ◔◡◔)っ

Вот это можешь взглянуть:
https://dask.pydata.org/en/latest/dataframe.html

Спасибо, интересно! Для данных, которые в память не влезают, самое то.
700 мб - это у меня только пример, а реальные датасеты будут гораздо больше.

источник

10:05пожаловаться