Size: a a a

2020 March 20

MV

Mitya Volodin in Data Engineers
Или не на китайском
источник

СХ

Старый Хрыч in Data Engineers
Mitya Volodin
Или не на китайском
китайский самый топ
источник

СХ

Старый Хрыч in Data Engineers
статьи на китайском сохранять это нечто
источник

СХ

Старый Хрыч in Data Engineers
и потом полнотекстовый поиск делать
источник

A

Aleksandr in Data Engineers
Mitya Volodin
Игнорировать названия колонок, читать отдельно header и обрабатывать, потом читать тело.
Либо всё делать вместе - как удобней
это как?
источник

MV

Mitya Volodin in Data Engineers
скипать первую строку
источник

A

Aleksandr in Data Engineers
это я понял, но потом же как-то надо это склеить все равно
источник

AS

Andrey Smirnov in Data Engineers
Aleksandr
это я понял, но потом же как-то надо это склеить все равно
.toDF("col1", "col2")
источник

AE

Alexey Evdokimov in Data Engineers
Старый Хрыч
и потом полнотекстовый поиск делать
NLP is hard. на японском полнотекст интереснее, там тебе и кандзи, и обе каны.
источник

СХ

Старый Хрыч in Data Engineers
Alexey Evdokimov
NLP is hard. на японском полнотекст интереснее, там тебе и кандзи, и обе каны.
японский хотя бы имеет 2 варианта оснвоных, а китайский 12
источник

AE

Alexey Evdokimov in Data Engineers
да ну, на китайском n-грамов c n<=3 достаточно для почти любых practical purposes
источник

AE

Alexey Evdokimov in Data Engineers
редко что-то сложнее нужно
источник

A

Aleksandr in Data Engineers
Andrey Smirnov
.toDF("col1", "col2")
а если таких колонок 50?)
источник

АБ

Александр Булатов in Data Engineers
Вопрос по elasticsearch. Есть какие-то ограничения по вложениям в JSON? Пытался с несколькими вложенностями вставить структуру, но хоть ждал минут 10, но запрос не отработал
источник

AE

Alexey Evdokimov in Data Engineers
китайский язык вообще похож а английский по модели словоизменения, он аналитический. а японский агглютинативный, там сам строй языка мешается сильно.
(впрочем, я по NLP не большой специалист, окромя русского и аглийского FTS-ы не проектировал. но русский со словоформами таки когда-то делал.)
источник

ЕГ

Евгений Глотов in Data Engineers
Aleksandr
а если таких колонок 50?)
df.select([c.replace(" ", "_") for c in df.columns])
источник

t

tenKe in Data Engineers
Александр Булатов
Вопрос по elasticsearch. Есть какие-то ограничения по вложениям в JSON? Пытался с несколькими вложенностями вставить структуру, но хоть ждал минут 10, но запрос не отработал
не встречал, хотя работал с документами относительно большой вложенности
источник

OM

Olga M. in Data Engineers
не знаю, релевантно каналу или нет - но у нас анонсировали онлайн хакатон (стартует через неделю). кому интересно - https://www.codevscovid19.org/
источник
2020 March 22

SF

Sergey Filatov in Data Engineers
ребята, подскажите плз какой самый простой способ(желательно из коробки) сделать примитивный предиктивный анализ на основе данных в kylin? мне нужно на основе timeseries данных спрогнозировать значения в будущем. датасорс под kylin - clickhouse
источник

DZ

Dmitry Zuev in Data Engineers
Самый простой всегда линия тренда
источник