Size: a a a

2020 March 05

S

Stanislav in Data Engineers
нет (
кое-кто не захотел приехать
в канале найфай спроси
очень много таких
источник

S

Stanislav in Data Engineers
KrivdaTheTriewe
думаю чем грузить с фтп консистентно много данных
курлом конечно, проверяя мд5 )
источник

K

KrivdaTheTriewe in Data Engineers
а скедулите как
источник

K

KrivdaTheTriewe in Data Engineers
и следите что все перекачалось и прочие радости
источник

AS

Andrey Smirnov in Data Engineers
очень похоже, скорость закрытия блокеров поражает
источник

S

Stanislav in Data Engineers
KrivdaTheTriewe
и следите что все перекачалось и прочие радости
тут не зависит от найфая
1) сначала снять список всех файлов, поток выкачать новое из этого списка
2) реализовать перемещение заказченного на локальных фс, если ты можешь это делать на стороне сервера или ты и есть сервер
источник

K

KrivdaTheTriewe in Data Engineers
Stanislav
тут не зависит от найфая
1) сначала снять список всех файлов, поток выкачать новое из этого списка
2) реализовать перемещение заказченного на локальных фс, если ты можешь это делать на стороне сервера или ты и есть сервер
дая мног раз такуюштуку в жизни делал
источник

K

KrivdaTheTriewe in Data Engineers
но типа каждый раз как первый
источник

K

KrivdaTheTriewe in Data Engineers
хочется что-то технологиччное
источник

S

Stanislav in Data Engineers
да вся бигдата - это греп, курл и авк
куда уж технологичнее
источник

AS

Andrey Smirnov in Data Engineers
вы как-то решили эту проблему или просто лучше меня гуглите?
источник

SS

Sergey Sheremeta in Data Engineers
Stanislav
да вся бигдата - это греп, курл и авк
куда уж технологичнее
ДА!!! вот ДА!
источник

S

Stanislav in Data Engineers
Andrey Smirnov
вы как-то решили эту проблему или просто лучше меня гуглите?
лучше гуглю
обрабатываю без джойнов
а какой-нибудь хак типа кеширования дф не позволяет обойти?
источник

K

KrivdaTheTriewe in Data Engineers
оч грустно
источник

AS

Andrey Smirnov in Data Engineers
Stanislav
лучше гуглю
обрабатываю без джойнов
а какой-нибудь хак типа кеширования дф не позволяет обойти?
без джойна не вариант, я конечно могу устроить закат солнца вручную через map, буду думать, вообщем спасибо
источник

S

Stanislav in Data Engineers
Andrey Smirnov
без джойна не вариант, я конечно могу устроить закат солнца вручную через map, буду думать, вообщем спасибо
с джойном, но заставить не прокидываться пушдаун в хбейз
источник

AS

Andrey Smirnov in Data Engineers
Stanislav
с джойном, но заставить не прокидываться пушдаун в хбейз
Это как?
источник

S

Stanislav in Data Engineers
Andrey Smirnov
Это как?
закешировать датафрейм в память перед джойном
чтобы сначала прошло считывание
а потом джойн
а не попытка оптимизации с пробросом на сторону хбейза
источник

AS

Andrey Smirnov in Data Engineers
Таблицу hbase не скачать всю, слишком много
источник

S

Stanislav in Data Engineers
а фильтр на нее работает?
источник