Size: a a a

2021 February 15

R

Roman in Data Engineers
Andrey Smirnov
А причём тут кагл? Там табличные датасеты в csv  в память помещаются, ну или алгоритмы поддерживающие out of core используются
При том, что инструменты/либы, которые там становятся хайповыми, уходят в продакшн с некоторым временным лагом. Например, тот же xgboost в итоге портировали/интегрировали много где, в том числе для распределенного обучения и применения на спарке. И мой посыл был о том, что успех и хайп на кэгле и подобных площадках - это один из возможных путей продать технологию дальше в энтерпрайзе, если она для него +- готова.
источник

AZ

Anton Zadorozhniy in Data Engineers
Roman
При том, что инструменты/либы, которые там становятся хайповыми, уходят в продакшн с некоторым временным лагом. Например, тот же xgboost в итоге портировали/интегрировали много где, в том числе для распределенного обучения и применения на спарке. И мой посыл был о том, что успех и хайп на кэгле и подобных площадках - это один из возможных путей продать технологию дальше в энтерпрайзе, если она для него +- готова.
Мы говорили про поиск и подготовку данных, то что происходит в компаниях перед выкладыванием датасета на каггл
источник

AS

Andrey Smirnov in Data Engineers
Roman
При том, что инструменты/либы, которые там становятся хайповыми, уходят в продакшн с некоторым временным лагом. Например, тот же xgboost в итоге портировали/интегрировали много где, в том числе для распределенного обучения и применения на спарке. И мой посыл был о том, что успех и хайп на кэгле и подобных площадках - это один из возможных путей продать технологию дальше в энтерпрайзе, если она для него +- готова.
На кашле никогда не было на хранение данных, или сырые данные или дамп постгре/MySQL
источник

R

Roman in Data Engineers
Видимо, я не смог выразить своё мнение нормально(
источник

K

KrivdaTheTriewe in Data Engineers
Переслано от sabina
Добрый день! ACM (Association for Computing Machinery) Student Chapter проводит опрос, направленный на изучение рынка разработчиков. Опрос состоит из 3 блоков - общая информация, информация об образовании и о работе. В среднем, прохождение опроса занимает не более 2 минут.
Опрос создан в рамках HackNU 2021, который проводит ACM при поддержки Facebook, Microsoft и Google.
С результатами опроса можно будет ознакомиться на канале https://t.me/hacknu
Будем очень благодарны за помощь:)
https://fdier.co/EPaE7Z
источник

AS

Alexey Shpakov in Data Engineers
Всем привет! Кто-нибудь может подсказать какие-нибудь статьи или туториалы по Hadoop DataLake и Disaggregated DataLake, и как они связаны?)
источник

AP

Abi Palagashvili in Data Engineers
Вечер добрый,можете подсказать книгу по spark+scala?желательно со ссылкой на pdf
источник

ПФ

Паша Финкельштейн... in Data Engineers
Abi Palagashvili
Вечер добрый,можете подсказать книгу по spark+scala?желательно со ссылкой на pdf
Пиратить нехорошо же. Так что вряд ли тут прямо книгу дадут. Но Spark in Action вроде норм
источник

А

Алексей in Data Engineers
Abi Palagashvili
Вечер добрый,можете подсказать книгу по spark+scala?желательно со ссылкой на pdf
источник

AP

Abi Palagashvili in Data Engineers
Спасибо)
источник
2021 February 16

AS

Andrey Smirnov in Data Engineers
Паша Финкельштейн
Пиратить нехорошо же. Так что вряд ли тут прямо книгу дадут. Но Spark in Action вроде норм
вторая часть там на java (но вроде есть гитхаб с примерами на scala)
источник

GP

Grigory Pomadchin in Data Engineers
Andrey Smirnov
вторая часть там на java (но вроде есть гитхаб с примерами на scala)
Глиняно конечно
источник

P

Pavel in Data Engineers
Паша Финкельштейн
Пиратить нехорошо же. Так что вряд ли тут прямо книгу дадут. Но Spark in Action вроде норм
Жееесть
источник

WR

William Reed in Data Engineers
Change settings
источник

Oleg אולג in Data Engineers
Spark in action хороший, но воды там ух
источник

Oleg אולג in Data Engineers
Лишнее разжовывание, или предыстории к примерам, типа вот что такое СД диск..
источник

AC

Alexander Chushkin in Data Engineers
Привет! Подскажите, с проблемой недоступности старых репозиториев ambari здесь кто-нибудь сталкивался или канал больше про другое и вопросы эксплуатации не разбираются?
источник

AB

Andrey Bel in Data Engineers
Oleg אולג
Spark in action хороший, но воды там ух
ты про новый? на русском?
источник

Oleg אולג in Data Engineers
Andrey Bel
ты про новый? на русском?
Русский такая дичь, я жалею что деньги потратил
источник

Oleg אולג in Data Engineers
Нет, я про оригинал
источник