Телеграмм чат группы hadoopusers страница 3772

Size: a a a

Data Engineers

2587 membersпожаловаться на группу

2021 June 17

Вячеслав in Data Engineers

Тут логстэш в названии индекса же, скорее всего никакого источника и нету уже.

источник

14:24пожаловаться #1

Anton Zadorozhniy in Data Engineers

Если в логстеше что-то ценное (видимо из-за чего спарком выкачивают), то обычно логстеш пишет ещё куда-нибудь в кафку, и дальше в объектный сторадж или базу

источник

14:42пожаловаться #2

МК

Михаил Королев... in Data Engineers

полностью поддерживаю мысль - эластик не есть источник для select *, он на это просто не рассчитан. Я когда в него писал (те самые миллионы, о которых выше) картинка была прикольная: он 20 секунд пишет, 20 секунд стоит. Я - к админам (что за фигня!), оказалось, это сборка мусора... Так и жили

Поэтому да - в кафку и оттуда спокойно, быстро и надежно

источник

14:45пожаловаться #3

Anton Zadorozhniy in Data Engineers

Все так, эластик это FTS индекс, вторичная структура для специального поиска; как data management она много чего не умеет, от нормальных бэкапов, до репликаций и экспорта

источник

15:01пожаловаться #4

МК

Михаил Королев... in Data Engineers

да, но - блин: если ее (или solr, что один фиг) использовать (для поиска), то получаем полное дублирование... так и не переварил, как лучше сделать (у нас нужно было найти все записи в этих миллионах по вину авто, без индексов это утопия...). Или через hdfs но медленно, или через эластик (=полное дублирование плюс доп инфраструктура) и быстро...

источник

15:03пожаловаться #5

Anton Zadorozhniy in Data Engineers

Так а как вы ищете из HDFS?

источник

15:04пожаловаться #6

МК

Михаил Королев... in Data Engineers

спарк

источник

15:04пожаловаться #7

МК

Михаил Королев... in Data Engineers

в смысле select через внешнюю таблицу

источник

15:04пожаловаться #8

Anton Zadorozhniy in Data Engineers

Spark вроде не умеет FTS

источник

15:05пожаловаться #9

Anton Zadorozhniy in Data Engineers

Были какие-то ранние поделки, но в ванили ничего такого нет

источник

15:05пожаловаться #10

МК

Михаил Королев... in Data Engineers

да, так, НО, там у нас была "мега идея" (опять же блин - я не смог ее задавить): мы сделали "витрину", вытянув JSON (котрый из эластика) в плоскую таблицу а 500 полей (с полями вида "водитель1", "водитель2", ...) и вот в ней ищем по "любому полю" - это требование заказчиков (я неаккуртано написал выше, забыл уже, ибо дело прошлое)

источник

15:07пожаловаться #11

Anton Zadorozhniy in Data Engineers

Так может заказчику был нужен полнотекстовый поиск, а не просто сиквельные равенства и лайки?

источник

15:11пожаловаться #12

МК

Михаил Королев... in Data Engineers

не, там в данных - запросы на получение страхового тарифа, там цифры и буквы вполне себе структурированные. Лайки тоже нужны (только не просто лайки, а фузилайки - на предмет ошибок и подбора тарифа). "Заказчик" он внутренний (его уговорить было можно, а вот CDO на предмет не делать такую "витрину" - никак. Еле уговорил (вместе, кстати, с заказчиком) вынести хотя бы ЛДУ в отдельную "витрину" и связать их...

источник

15:14пожаловаться #13

Anton Zadorozhniy in Data Engineers

тогда видимо по месту эластик применен, туда можно всяких матчеров понаписать, удобно (а если скажем поиск сразу по нескольким языкам - вообще без вариантов)

источник

15:21пожаловаться #14

Anton Zadorozhniy in Data Engineers

по моей практике эластик для логов большинству не нужен, достаточно локи или баз каких-нибудь, ну и в объектном сторадже хранить для ад-хок анализа

источник

15:23пожаловаться #15

Vasiliy in Data Engineers

"все записи в этих миллионах по вину авто" - а порядок миллионов не озвучите? Пока все это не выглядит чем то проблемным, кроме использования самого поискового движка в непредназначеном для него амплуа.

источник

15:26пожаловаться #16

Vasiliy in Data Engineers

Просто любопытно сколько записей) для себя и общего развития

источник

15:27пожаловаться #17

МК

Михаил Королев... in Data Engineers

дык выше писал: 4 года по миллиону (грубо) в день

источник

15:36пожаловаться #18

2021 June 18

Lyudmila Lapitskaia in Data Engineers

Привет, кто-нибудь видел хорошую статью про то, как Спарк читает hive таблицу? Я хочу понять из-за чего может происходить OOM при чтении списка партишенов, если партишенов 300-400 штук. Сохраняет ли Спарк пути к каждому файлу в памяти, и если файлов много происходит ООМ? С другой стороны, зачем ему сохранять пути к каждому файлу, если он может сохранить путь к папке с партишеном - не понятно
Хочется разобраться, как это работает

источник

08:25пожаловаться #19

Andrey Bel in Data Engineers

А как вы запускаете джобу?
Локально или на кластере?
Оом на драйвере или на экзекьюторе?
Сколько памяти выделяете при запуске джобы?

источник

08:31пожаловаться #20