Size: a a a

2021 March 09

☭S

☭ ⤳ λ Shinkevich... in Data Engineers
А по ошибке очень похоже, что какая-то орк-таблица неожиданно имеет разные по структуре орк файлы
источник

SO

Simon Osipov in Data Engineers
☭ ⤳ λ Shinkevich
А по ошибке очень похоже, что какая-то орк-таблица неожиданно имеет разные по структуре орк файлы
а можно пример того, как это происходит (было / стало)?
источник

☭S

☭ ⤳ λ Shinkevich... in Data Engineers
Simon Osipov
а можно пример того, как это происходит (было / стало)?
таблица в хайве подключена как внешняя, а файлы стали записываться по-другому....
источник

☭S

☭ ⤳ λ Shinkevich... in Data Engineers
Simon Osipov
а можно пример того, как это происходит (было / стало)?
можно попробовать поселектить исходные таблицы
источник

SO

Simon Osipov in Data Engineers
ага, уже в личке посоветовали
источник

SO

Simon Osipov in Data Engineers
☭ ⤳ λ Shinkevich
А по ошибке очень похоже, что какая-то орк-таблица неожиданно имеет разные по структуре орк файлы
такое может быть, если сменился тип колонок? или там ошибка сравнения разных типов была бы?
источник

AM

Almaz Murzabekov in Data Engineers
Simon Osipov
Доброе утро! Друзья, подскажите, в чем может быть проблема?
Спарком 2.3.3 собирается витрина, простой ETL, прочитали несколько таблиц, поджойнили, записали в ORC
Месяцы все работало прекрасно, тут запись начала валиться с ошибкой


java.lang.IndexOutOfBoundsException: toIndex = 46
at java.util.ArrayList.subListRangeCheck(ArrayList.java:1012)
at java.util.ArrayList.subList(ArrayList.java:1004)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.getSchemaOnRead(RecordReaderFactory.java:161)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.createTreeReader(RecordReaderFactory.java:66)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderImpl.<init>(RecordReaderImpl.java:202)
at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.rowsOptions(ReaderImpl.java:539)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$ReaderPair.<init>(OrcRawRecordMerger.java:183)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$OriginalReaderPair.<init>(OrcRawRecordMerger.java:226)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:437)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getReader(OrcInputFormat.java:1215)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:1113)


сделал refresh table для всех таблиц источников, но это не помогло.
Никаких изменений в коде не было, параметры фильтров такие же, как и были все время
Куда копать?
Посмотри в багтрекере у spark, у нас была такая ж проблема с совместимостью spark&orc. Перепрыгнули с 2.3 на 2.4 из-за этого
источник

AM

Almaz Murzabekov in Data Engineers
Almaz Murzabekov
Посмотри в багтрекере у spark, у нас была такая ж проблема с совместимостью spark&orc. Перепрыгнули с 2.3 на 2.4 из-за этого
вот тикет из баг-трекера, в коментах есть ссылка в какой версии это решено

https://issues.apache.org/jira/browse/SPARK-24472
источник

А

Андрей in Data Engineers
Всем привет! Подскажите, пожалуйста, хороший источник, чтоб почитать/посмотреть про конкарренси, транзакции и локи в Hive и Spark. На данный момент переехали на Cloudera Hive 3, юзаем Spark 2.4.0, но также планируем переходить на Spark 3
источник

E

Eldar in Data Engineers
Grigory Pomadchin
🚨ГОТОВЬТЕСЬ!🚨
И не говорите, что мы вас не предупреждали.

Уже 10 марта стартует флагманский онлайн-курс
"Data Engineer 8.0". Присоединяйтесь: https://clck.ru/TXLLN

🧑🏻‍💻Приглашаем дата инженеров, администраторов баз данных и менеджеров по развитию продуктов систематизировать свои знания и овладеть новыми востребованными навыками в области дата инжиниринга.

7-недельная образовательная программа по построению ETL-пайплайнов: Hadoop, Kafka, Spark, Airflow, ElasticSearch и пр:
✔️21 практическое занятие;
✔️10+ современных инструментов по обработке данных;
✔️6 лабораторий-суперавчиков.

Обучают: Антон Пилипенко (Sbermarket), Николай Марков (Aligned Research Group), Андрей Титов (NVIDIA) и Егор Матешук (Qvant),

Преподаватели, не нуждающиеся в дополнительном представлении. Они поделятся с вами своим бесценным опытом, датасетами из реальной жизни и помогут обойти многие подводные камни.
а есть какие-нибудь планы на даты проведения DATA ENGINEER 9.0?
источник

С

Сюткин in Data Engineers
Eldar
а есть какие-нибудь планы на даты проведения DATA ENGINEER 9.0?
Планируется на сентябрь-октябрь этого года
источник

AZ

Anton Zadorozhniy in Data Engineers
А кто-то на русском читает уже курсы ML Engineer, или пока не освоена поляна?
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
А кто-то на русском читает уже курсы ML Engineer, или пока не освоена поляна?
яндекс (ШАД и практикой)
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
яндекс (ШАД и практикой)
Спасибо
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
Спасибо
да не за что, на самом деле их довольно много, на хайпе в 300k/s
я собеседовал людей прошедших яндекс.практику (4-5), одного из них взяли, остальные были на уровне я умею прогонять ноутбуки
источник

PK

Pavel Klemenkov in Data Engineers
Anton Zadorozhniy
А кто-то на русском читает уже курсы ML Engineer, или пока не освоена поляна?
Ну раз Гриша и сотоварищи не против рекламы в чатике, то я прорекламируюсь. Вот мой курс https://ozonmasters.ru/big_data. Весь курс крутится на стыке ML моделей и дата инжиниринга. Домашки - это проекты по предиктивной аналитике на разных фреймворках. С этого года еще про воспроизводимые эксперименты и MLflow будет
источник

PK

Pavel Klemenkov in Data Engineers
Проблема, как и в ШАДе, поступить
источник

PK

Pavel Klemenkov in Data Engineers
Хотя можно пойти работать в Ozon, для сотрудников без поступления ))
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel Klemenkov
Ну раз Гриша и сотоварищи не против рекламы в чатике, то я прорекламируюсь. Вот мой курс https://ozonmasters.ru/big_data. Весь курс крутится на стыке ML моделей и дата инжиниринга. Домашки - это проекты по предиктивной аналитике на разных фреймворках. С этого года еще про воспроизводимые эксперименты и MLflow будет
Ага, спасибо; мне показалось что больше про DE, в плане ключевых слов
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
Ага, спасибо; мне показалось что больше про DE, в плане ключевых слов
посмотри задачи на вступительные, один матан
источник