Size: a a a

2020 November 02

N

Nikita Blagodarnyy in Data Engineers
на 4 день будет про инжиринг
источник

N

Nikita Blagodarnyy in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
и еще пару увлекательных названий есть
источник

AE

Alexey Evdokimov in Data Engineers
Алексей
опция
option("inferSchema", "true")
не подходит для автоматического определения схемы при чтении?
не
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
у меня тут чё. у меня тут разнородные датасеты с кучей полей, к которым хочется сделать SELECT, но схема ни фига не задана. известно, что в каждой записи есть штук пять более-менее одинаковых пропертей, и вот по ним хочется чё-нить выбрать для анализа
schema-on-read как она есть, парсить и плакать
источник

AT

Al T in Data Engineers
прям вспомнил пару случаев что-то... слезы навернулись
источник

AE

Alexey Evdokimov in Data Engineers
ну я в итоге таки напишу нечто SQL-подобное через пару итераций :/
источник

AE

Alexey Evdokimov in Data Engineers
жить-то как-то надо
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
прям вспомнил пару случаев что-то... слезы навернулись
источник

AE

Alexey Evdokimov in Data Engineers
эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно
источник

AZ

Anton Zadorozhniy in Data Engineers
Я как лиспер времён универа тоже хочу чтобы все вокруг отказались от схем в пользу какого-нибудь edn и спеки, но меня сразу уволят по статье тогда
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно
Без обид но со стороны кажется что к вас градус велосипедизма опасно высок
источник

АА

Алексей Артамонов... in Data Engineers
подскажиет, а где вообще находятся hadoop-daemon.sh скрипт ?
источник

АА

Алексей Артамонов... in Data Engineers
мне надо yarn-site.yml применить
источник

АР

Андрей Романов... in Data Engineers
Alexey Evdokimov
эт блин дико интересно, сцука.

было бы неинтерестно, свалил бы с этого проекта уже давно
извините, а нельзя а эти датасеты хотя бы через рдд обрабатывать?
источник

АР

Андрей Романов... in Data Engineers
просто те же рдд-шки можно в датафрейм конвертнуть
источник

АР

Андрей Романов... in Data Engineers
а там уже здравствуй spark-sql
источник

АР

Андрей Романов... in Data Engineers
или это нельзя из-за ограничения по памяти?
источник

AE

Alexey Evdokimov in Data Engineers
если формулировать чё мы творим в целом, то эт будет так.
1. пришол заказчик, сказал, ребяты у вас крутая эвристика, вот вам датасет (в произвольном формате)
2. мы собрали ему pipeline из наших эвристик. каждая берёт и классифицирует, фильтурет, аугментит или ещё как измывается над записями датасета. состав наших полей в процессе меняется, но они только добавляются, а исходные все остаются. смысла большей части из них мы даже не знаем.
3. мы выгрузили ему перехераченный датасет. плюс ещё суммарный репорт по нему. точнее, десяток или сотню репортов по неким наборам критериев.
а потом такие
4. повторить на следующий раз с другим датасетом (с немного другими полями) и, возможно, чуточку иными настройками эвристик (ну это заказчик скажет).
5. автоматизировать это всё.
источник

AE

Alexey Evdokimov in Data Engineers
а, ну ещё каждая запись классифицируется в составе цепочки записей. и классификатор может выкинуть на лету целый кусок, если он по его мнению нецелевой например
источник