Телеграмм чат группы hadoopusers страница 2916

17:23пожаловаться #1

Nikita Blagodarnyy in Data Engineers

17:24пожаловаться #2

Nikita Blagodarnyy in Data Engineers

и еще пару увлекательных названий есть

17:25пожаловаться #3

Алексей

опция

option("inferSchema", "true")

не подходит для автоматического определения схемы при чтении?

не

17:30пожаловаться #4

Alexey Evdokimov

у меня тут чё. у меня тут разнородные датасеты с кучей полей, к которым хочется сделать SELECT, но схема ни фига не задана. известно, что в каждой записи есть штук пять более-менее одинаковых пропертей, и вот по ним хочется чё-нить выбрать для анализа

schema-on-read как она есть, парсить и плакать

17:33пожаловаться #5

Al T in Data Engineers

прям вспомнил пару случаев что-то... слезы навернулись

17:42пожаловаться #6

ну я в итоге таки напишу нечто SQL-подобное через пару итераций :/

17:47пожаловаться #7

жить-то как-то надо

17:47пожаловаться #8

Al T

прям вспомнил пару случаев что-то... слезы навернулись

эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно

17:48пожаловаться #10

Я как лиспер времён универа тоже хочу чтобы все вокруг отказались от схем в пользу какого-нибудь edn и спеки, но меня сразу уволят по статье тогда

17:48пожаловаться #11

Alexey Evdokimov

эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно

Без обид но со стороны кажется что к вас градус велосипедизма опасно высок

Алексей Артамонов... in Data Engineers

17:49пожаловаться #12

АА

подскажиет, а где вообще находятся hadoop-daemon.sh скрипт ?

Алексей Артамонов... in Data Engineers

17:50пожаловаться #13

АА

мне надо yarn-site.yml применить

17:51пожаловаться #14

АР

Alexey Evdokimov

эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно

извините, а нельзя а эти датасеты хотя бы через рдд обрабатывать?

17:51пожаловаться #15

АР

просто те же рдд-шки можно в датафрейм конвертнуть

17:51пожаловаться #16

АР

а там уже здравствуй spark-sql

17:51пожаловаться #17

АР

или это нельзя из-за ограничения по памяти?

17:52пожаловаться #18

если формулировать чё мы творим в целом, то эт будет так.
1. пришол заказчик, сказал, ребяты у вас крутая эвристика, вот вам датасет (в произвольном формате)
2. мы собрали ему pipeline из наших эвристик. каждая берёт и классифицирует, фильтурет, аугментит или ещё как измывается над записями датасета. состав наших полей в процессе меняется, но они только добавляются, а исходные все остаются. смысла большей части из них мы даже не знаем.
3. мы выгрузили ему перехераченный датасет. плюс ещё суммарный репорт по нему. точнее, десяток или сотню репортов по неким наборам критериев.
а потом такие
4. повторить на следующий раз с другим датасетом (с немного другими полями) и, возможно, чуточку иными настройками эвристик (ну это заказчик скажет).
5. автоматизировать это всё.

18:06пожаловаться #19

а, ну ещё каждая запись классифицируется в составе цепочки записей. и классификатор может выкинуть на лету целый кусок, если он по его мнению нецелевой например