Size: a a a

2019 August 06

ПФ

Паша Финкельштейн in Data Engineers
у нас есть mapGroups
источник

ПФ

Паша Финкельштейн in Data Engineers
В который прилетает какой-то итераблов кейс-классиков
В нём мы пытаемся делать агрегации по разным полям — строковым и и числовым
источник

ПФ

Паша Финкельштейн in Data Engineers
Агрегация — max.
источник

ПФ

Паша Финкельштейн in Data Engineers
То есть мы ищем максимальные стринги по определённому полю и максимальные чиселки в определённом поле
источник

ПФ

Паша Финкельштейн in Data Engineers
И вот внезапно в этих агрегациях работает корректно Math.max внутри reduceLeft
источник

ПФ

Паша Финкельштейн in Data Engineers
При этом iterable.map(…).max не работает с той же ошибкой примерно
источник

ПФ

Паша Финкельштейн in Data Engineers
А вот reduceLeft по строковому полю с поиском максимального через Seq — не работает
источник

ПФ

Паша Финкельштейн in Data Engineers
Если итератор превращать в лист — то работает всё
источник

ПФ

Паша Финкельштейн in Data Engineers
то есть прирнудительно его фетчить
источник

ПФ

Паша Финкельштейн in Data Engineers
Так, что ещё важно: этот датасет потом джойнится к другому датасету и мы из него тащим данные
источник

ПФ

Паша Финкельштейн in Data Engineers
Кажется, история закончилась
источник

GP

Grigory Pomadchin in Data Engineers
давай примеры, код покажи который скомплиировать можно;
и типы конкретные (можешь синтетический же пример написать чтоб падал и / или работал)
источник

GP

Grigory Pomadchin in Data Engineers
не ясно что за кейс классы
источник

GP

Grigory Pomadchin in Data Engineers
и что там строки или цифры и где они
источник

K

KrivdaTheTriewe in Data Engineers
я бы все на датафреймах сделал и всё, потому что другие люди(питонисты) смогут это поддерживать
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
я бы все на датафреймах сделал и всё, потому что другие люди(питонисты) смогут это поддерживать
это уже детали на самом деле; датасеты легко поднять в датафреймы
источник

K

KrivdaTheTriewe in Data Engineers
это да, просто оч часто у тебя есть  20 колонок и по каждой колонке нужно по 5 - 6 фич нагенерировать и оно раздувается условно до 120 колонок, тут типы не сильно нужны
источник

GP

Grigory Pomadchin in Data Engineers
не, под капотом все же надо типы сохранять) не питонисты же мы
источник

GP

Grigory Pomadchin in Data Engineers
а то так строками все будешь писать
источник

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
я бы все на датафреймах сделал и всё, потому что другие люди(питонисты) смогут это поддерживать
Слушай, ну я учусь же. Надо понимать что и как работает. Конечно я всё мог оставить как было
источник