Size: a a a

2021 March 08

T

T in Data Engineers
Dmitriy Novikov
еще чуть чуть и будут про сейфт скилы
Что такое сейфт скилы?
источник

DN

Dmitriy Novikov in Data Engineers
T
Что такое сейфт скилы?
софт*
источник

T

T in Data Engineers
О они очень важны
источник

ME

Max Efremov in Data Engineers
Кудаж без них)
источник

DN

Dmitriy Novikov in Data Engineers
T
О они очень важны
источник

DN

Dmitriy Novikov in Data Engineers
моих хватает чтобы не слать людей на..й)
источник

AZ

Anton Zadorozhniy in Data Engineers
Они часто и safety skills тоже
источник

GP

Grigory Pomadchin in Data Engineers
^ может этот разговор в жобс перенести?)
источник
2021 March 09

С

Сергей in Data Engineers
No Name
И? Их же не за набор знаний платят в первую очередь, а за решённые задачи.
Честно, хотелось бы, чтобы это было так и можно было взять первого попавшегося с улицы, только если он "не в теме" то таких дров наломает.

Яркий пример - небольшая фирма, занимается резанием по дереву, поручили сотруднику подключить аналитику, ага...
формально задачу выполнили, но это далеко не их основной профиль и отсюда все вытекающие

Вот и ловите архитектуру из экселей :)))

А как быть, если человек - исламский радикал? Вы тут старательно на скале всё делаете, а он своим питончиком елозит по вашему идеальному проекту и является ярым ненавистником вашей технологии.

Ммм....
источник

o

odba in Data Engineers
Сергей
Честно, хотелось бы, чтобы это было так и можно было взять первого попавшегося с улицы, только если он "не в теме" то таких дров наломает.

Яркий пример - небольшая фирма, занимается резанием по дереву, поручили сотруднику подключить аналитику, ага...
формально задачу выполнили, но это далеко не их основной профиль и отсюда все вытекающие

Вот и ловите архитектуру из экселей :)))

А как быть, если человек - исламский радикал? Вы тут старательно на скале всё делаете, а он своим питончиком елозит по вашему идеальному проекту и является ярым ненавистником вашей технологии.

Ммм....
Интересно, а не могли бы вы описать минимальные знания, которыми должен обладать некоторый усредненный джун, чтобы вы его взяли к себе? Спасибо заранее👍
источник

С

Сергей in Data Engineers
odba
Интересно, а не могли бы вы описать минимальные знания, которыми должен обладать некоторый усредненный джун, чтобы вы его взяли к себе? Спасибо заранее👍
0. Жесткое соблюдение дисциплины
1. Уметь читать
2. уметь рисовать квадратики и стрелочки
3. уметь грамотно составить более чем 2 предложения на русском языке.

Вот и все требования.
источник

A

Alex in Data Engineers
Почему то 0 пункту от ника на китайском и не удивлён
источник

A

Alex in Data Engineers
Из опыта работы с китайцами:
Так они могут быть неплохими специалистами, и даже понимать что делаем говно
Но раз начальник сказал это делать, то мы делаем, даже если параллельно ищем вариант куда свалить, так как текущий проект летит в....
источник

A

Alex in Data Engineers
А начальник будет рассказывать что все в команде его поддерживают
источник

С

Сергей in Data Engineers
Вот собственно в этом и суть, что это головная боль руководства, если проект идёт в жопу - то это полностью ответственность руководства.
Если сотрудники делают говно - это тоже ответственность руководства.
Либо плохо нанимали, либо плохо обучали, либо не смогли встроить в текущие процессы и т.д.

Технарь будет технарить, бухгалтер-бухгалтерить, а дизайнер-дизайнить. Это их собственный выбор заниматься именно этой деятельностью и за эти границы мало кто заглядывает, каждый выбирает по душе.

Даже если ты выполнишь идеально свою часть работы - это может вообще никак не сказаться на общих показателях, либо вообще навредить конечному продукту.

Например просто тупо - затрачиваешь больше времени на единицу продукта - продукт дорожает, а конечному покупателю это нахер не сдалось - будет винить, что кругом 10 посредников развелось(вот подобные фразы больше всего бесят), что все зажрались и не станет покупать в вашей фирме.

Простой пример одежды, которая сейчас вся шьется из дешевых тканей и с использованием дешевой рабочей силы.
КАК ТОЛЬКО СТОИМОСТЬ ВАШЕЙ РУБАШКИ ВЗЛЕТИТ В 5-10 РАЗ, ВЫ БУДЕТЕ СМОТРЕТЬ НА КАЧЕСТВО ПРИ СРЕДНЕЙ СТАТИСТИЧЕСКОЙ ЗАРПЛАТЕ?

Кроме того, материалы дорогие - потому что затрачивается больше ресурсов, а значит мы сможем выпустить меньше продукции.
И представьте страну, в которой 10% населения ходит в высококачественой одежде, а все остальные будут ходить абсолютно голыми.

Просто потому что для них вообще нет никакой одежды, а всё потому что решили делать супер-качественно.

С другой стороны конечно так же стоит понимать, что и низкокачественные материалы - это другая крайность.
Сами по себе они не самоцель. Где-то это можно заменить, без влияния на конечный продукт, а где-то это очень сильно ударит.
Опять же - это всё головная боль руководства, а не сотрудников.

Если проект идёт в жопу, значит изначально нужно было более внимательно подойти к этому вопросу, грамотно подготовиться.
Либо если компания его не может нормально потянуть - может и вообще не начинать.
А может им собственно и нужен подобный кастрированый проект и все это прекрасно понимают.

Это не ваша забота и не должно быть ей.
источник

SD

Stanislav Demchenko in Data Engineers
вот это тебя накрыло. я тоже так хочу
источник

SO

Simon Osipov in Data Engineers
Доброе утро! Друзья, подскажите, в чем может быть проблема?
Спарком 2.3.3 собирается витрина, простой ETL, прочитали несколько таблиц, поджойнили, записали в ORC
Месяцы все работало прекрасно, тут запись начала валиться с ошибкой


java.lang.IndexOutOfBoundsException: toIndex = 46
at java.util.ArrayList.subListRangeCheck(ArrayList.java:1012)
at java.util.ArrayList.subList(ArrayList.java:1004)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.getSchemaOnRead(RecordReaderFactory.java:161)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.createTreeReader(RecordReaderFactory.java:66)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderImpl.<init>(RecordReaderImpl.java:202)
at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.rowsOptions(ReaderImpl.java:539)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$ReaderPair.<init>(OrcRawRecordMerger.java:183)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$OriginalReaderPair.<init>(OrcRawRecordMerger.java:226)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:437)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getReader(OrcInputFormat.java:1215)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:1113)


сделал refresh table для всех таблиц источников, но это не помогло.
Никаких изменений в коде не было, параметры фильтров такие же, как и были все время
Куда копать?
источник

A

Alex in Data Engineers
Сергей
Вот собственно в этом и суть, что это головная боль руководства, если проект идёт в жопу - то это полностью ответственность руководства.
Если сотрудники делают говно - это тоже ответственность руководства.
Либо плохо нанимали, либо плохо обучали, либо не смогли встроить в текущие процессы и т.д.

Технарь будет технарить, бухгалтер-бухгалтерить, а дизайнер-дизайнить. Это их собственный выбор заниматься именно этой деятельностью и за эти границы мало кто заглядывает, каждый выбирает по душе.

Даже если ты выполнишь идеально свою часть работы - это может вообще никак не сказаться на общих показателях, либо вообще навредить конечному продукту.

Например просто тупо - затрачиваешь больше времени на единицу продукта - продукт дорожает, а конечному покупателю это нахер не сдалось - будет винить, что кругом 10 посредников развелось(вот подобные фразы больше всего бесят), что все зажрались и не станет покупать в вашей фирме.

Простой пример одежды, которая сейчас вся шьется из дешевых тканей и с использованием дешевой рабочей силы.
КАК ТОЛЬКО СТОИМОСТЬ ВАШЕЙ РУБАШКИ ВЗЛЕТИТ В 5-10 РАЗ, ВЫ БУДЕТЕ СМОТРЕТЬ НА КАЧЕСТВО ПРИ СРЕДНЕЙ СТАТИСТИЧЕСКОЙ ЗАРПЛАТЕ?

Кроме того, материалы дорогие - потому что затрачивается больше ресурсов, а значит мы сможем выпустить меньше продукции.
И представьте страну, в которой 10% населения ходит в высококачественой одежде, а все остальные будут ходить абсолютно голыми.

Просто потому что для них вообще нет никакой одежды, а всё потому что решили делать супер-качественно.

С другой стороны конечно так же стоит понимать, что и низкокачественные материалы - это другая крайность.
Сами по себе они не самоцель. Где-то это можно заменить, без влияния на конечный продукт, а где-то это очень сильно ударит.
Опять же - это всё головная боль руководства, а не сотрудников.

Если проект идёт в жопу, значит изначально нужно было более внимательно подойти к этому вопросу, грамотно подготовиться.
Либо если компания его не может нормально потянуть - может и вообще не начинать.
А может им собственно и нужен подобный кастрированый проект и все это прекрасно понимают.

Это не ваша забота и не должно быть ей.
Вы наверное забыли про азиатское "потеря лица"

Когда все уровни знают что жопа, но никто не признает ошибку
источник

☭S

☭ ⤳ λ Shinkevich... in Data Engineers
Simon Osipov
Доброе утро! Друзья, подскажите, в чем может быть проблема?
Спарком 2.3.3 собирается витрина, простой ETL, прочитали несколько таблиц, поджойнили, записали в ORC
Месяцы все работало прекрасно, тут запись начала валиться с ошибкой


java.lang.IndexOutOfBoundsException: toIndex = 46
at java.util.ArrayList.subListRangeCheck(ArrayList.java:1012)
at java.util.ArrayList.subList(ArrayList.java:1004)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.getSchemaOnRead(RecordReaderFactory.java:161)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.createTreeReader(RecordReaderFactory.java:66)
at org.apache.hadoop.hive.ql.io.orc.RecordReaderImpl.<init>(RecordReaderImpl.java:202)
at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.rowsOptions(ReaderImpl.java:539)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$ReaderPair.<init>(OrcRawRecordMerger.java:183)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$OriginalReaderPair.<init>(OrcRawRecordMerger.java:226)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:437)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getReader(OrcInputFormat.java:1215)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:1113)


сделал refresh table для всех таблиц источников, но это не помогло.
Никаких изменений в коде не было, параметры фильтров такие же, как и были все время
Куда копать?
DDL Самих таблиц не менялось?
источник

SO

Simon Osipov in Data Engineers
☭ ⤳ λ Shinkevich
DDL Самих таблиц не менялось?
нет
источник