Size: a a a

2019 June 03

K

KrivdaTheTriewe in Data Engineers
Alex
ну для pyarrow я выше кинул линк, они заявляют что напрямую могут с hdfs работать (через одну из 2х основных либ)
Ну я поэтому и решил его взять
источник

A

Alex in Data Engineers
я что-то подумал что у вас он есть и вы пытаетесь как-то данные через снейкбит в него кормить
источник
2019 June 04

K

Kirill M in Data Engineers
Всем привет
пытаюсь из оракла с помощью SQOOP перегрузить тестовую табличку в HIVE. Запускаю Sqoop-команду. Она нормально высасывает данные, кладет их в hdfs. Дальше он должен вызвать hiveCLI и загрузить им данные в хайв. Но этого не происходит, sqoop просто выходит и всё. Последние сообщения в verbose output скупа
INFO hive.HiveImport: Loading uploaded data into Hive
DEBUG hive.HiveImport: Using in-process Hive instance.
Logging initialized using configuration in jar:file .. somejarfile

после этого скуп выходит. Ошибок и ворнингов никаких нет.
Перед этим скуп еще пишет команды CREATE TABLE/LOAD DATA INPATH, которые собирается выполнить в хайве. Если я отдельно просто запускаю hive из командной строки,   то они там нормально выполняются, данные перекладываются в хайв.
Куда смотреть почему скуп не запускает нормально хайв?
источник

ЕГ

Евгений Глотов in Data Engineers
Раз уж у вас тестовые загрузки, рекомендую посмотреть сюда: https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html
источник

ЕГ

Евгений Глотов in Data Engineers
Чтоб не мучиться с хайвом, достаточно просто использовать спарк)
источник

MB

Mikhail Butalin in Data Engineers
Подскажите пожалуйста а KYLIN вообще умеет работать/устанавливаться в несколько нод, ну как HBASE?
источник

MB

Mikhail Butalin in Data Engineers
или ему одна нода нужна но мощная?
источник

MB

Mikhail Butalin in Data Engineers
Вопрос снят, кажется нашёл
http://kylin.apache.org/images/install/kylin_server_modes.png
источник

MB

Mikhail Butalin in Data Engineers
источник

AS

Andrey Sutugin in Data Engineers
KrivdaTheTriewe
Проще bash вызывать из питон кода
Это правда!
источник

GG

George Gaál in Data Engineers
Звучит круто, раньше не видел такой штуки
источник
2019 June 05

SP

Sergey Pechenko in Data Engineers
Алексей Пахомов
Как фанат ml в data engineering Вкину свои 5 копеек. Логи как сгенерированая информация я так понимаю может быть распаршена, зная алгоритмы генерации. Задача извлечения паттернов - здравствуй nlp
Упрлс.
Не надо так. Достаточно поставить разарботчикам задачу по нормлаьной записи логов - адекватной, с метаданными. После её выполнения нет нужды потрачивать ресурсы на логстеш или там какой бит - всё just works.
источник

OP

O. Petr in Data Engineers
Sergey Pechenko
Упрлс.
Не надо так. Достаточно поставить разарботчикам задачу по нормлаьной записи логов - адекватной, с метаданными. После её выполнения нет нужды потрачивать ресурсы на логстеш или там какой бит - всё just works.
Там было про другое, человек хочет диплом по такой задаче написать )
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Pechenko
Упрлс.
Не надо так. Достаточно поставить разарботчикам задачу по нормлаьной записи логов - адекватной, с метаданными. После её выполнения нет нужды потрачивать ресурсы на логстеш или там какой бит - всё just works.
А чем нормальный формат логов отменяет стеш?
источник

SP

Sergey Pechenko in Data Engineers
Dmitry Zuev
А чем нормальный формат логов отменяет стеш?
Вся информация уже в сообщениях, нет нужды что-то процессить перед заливом в хранилище.
источник

АП

Алексей Пахомов in Data Engineers
Sergey Pechenko
Упрлс.
Не надо так. Достаточно поставить разарботчикам задачу по нормлаьной записи логов - адекватной, с метаданными. После её выполнения нет нужды потрачивать ресурсы на логстеш или там какой бит - всё just works.
Я хотел сказать, что процесс генерации логов, может дать информацию для обработки этих логов. Вы хотите ещё и повлиять на генерацию, что конечно лучше, но условия не всегда дают эту возможность.
источник

SP

Sergey Pechenko in Data Engineers
Алексей Пахомов
Я хотел сказать, что процесс генерации логов, может дать информацию для обработки этих логов. Вы хотите ещё и повлиять на генерацию, что конечно лучше, но условия не всегда дают эту возможность.
Lolwut?
источник

АП

Алексей Пахомов in Data Engineers
Короче в идеале как вы сказали, но если решать озвученную задачу, бейзлайн я предложил.
источник

N

Nikita Blagodarnyy in Data Engineers
Слушайте, ну ладно, че вы, что товарищ на 90 страниц диплома напишет?
1. Парсинг логов в отечественной литературе.
2. Парсинг логов в зарубежной литературе.
3. Общественная важность парсинга логов.
4. Список регекспов.
5. Бжд.
6. Заключение
?
источник

N

Nikita Blagodarnyy in Data Engineers
А так красиво будет, машын ленинг, графики падения/нарастания ошибки на валидационном множестве, описание решения проблемы затухания градиентов,нейросети прогнозируют будущие логи, красота.
источник