Телеграмм чат группы hadoopusers страница 3343

Честно, хотелось бы, чтобы это было так и можно было взять первого попавшегося с улицы, только если он "не в теме" то таких дров наломает.

Яркий пример - небольшая фирма, занимается резанием по дереву, поручили сотруднику подключить аналитику, ага...
формально задачу выполнили, но это далеко не их основной профиль и отсюда все вытекающие

Вот и ловите архитектуру из экселей :)))

А как быть, если человек - исламский радикал? Вы тут старательно на скале всё делаете, а он своим питончиком елозит по вашему идеальному проекту и является ярым ненавистником вашей технологии.

Ммм....

источник

04:01пожаловаться #9

o

odba in Data Engineers

Сергей

Честно, хотелось бы, чтобы это было так и можно было взять первого попавшегося с улицы, только если он "не в теме" то таких дров наломает.

Яркий пример - небольшая фирма, занимается резанием по дереву, поручили сотруднику подключить аналитику, ага...
формально задачу выполнили, но это далеко не их основной профиль и отсюда все вытекающие

Вот и ловите архитектуру из экселей :)))

А как быть, если человек - исламский радикал? Вы тут старательно на скале всё делаете, а он своим питончиком елозит по вашему идеальному проекту и является ярым ненавистником вашей технологии.

Ммм....

Интересно, а не могли бы вы описать минимальные знания, которыми должен обладать некоторый усредненный джун, чтобы вы его взяли к себе? Спасибо заранее👍

источник

06:18пожаловаться #10

С

Сергей in Data Engineers

odba

Интересно, а не могли бы вы описать минимальные знания, которыми должен обладать некоторый усредненный джун, чтобы вы его взяли к себе? Спасибо заранее👍

0. Жесткое соблюдение дисциплины
1. Уметь читать
2. уметь рисовать квадратики и стрелочки
3. уметь грамотно составить более чем 2 предложения на русском языке.

Вот и все требования.

источник

06:29пожаловаться #11

A

Alex in Data Engineers

Почему то 0 пункту от ника на китайском и не удивлён

источник

06:30пожаловаться #12

A

Alex in Data Engineers

Из опыта работы с китайцами:
Так они могут быть неплохими специалистами, и даже понимать что делаем говно
Но раз начальник сказал это делать, то мы делаем, даже если параллельно ищем вариант куда свалить, так как текущий проект летит в....

источник

06:33пожаловаться #13

A

Alex in Data Engineers

А начальник будет рассказывать что все в команде его поддерживают

источник

06:34пожаловаться #14

С

Сергей in Data Engineers

Вот собственно в этом и суть, что это головная боль руководства, если проект идёт в жопу - то это полностью ответственность руководства.
Если сотрудники делают говно - это тоже ответственность руководства.
Либо плохо нанимали, либо плохо обучали, либо не смогли встроить в текущие процессы и т.д.

Технарь будет технарить, бухгалтер-бухгалтерить, а дизайнер-дизайнить. Это их собственный выбор заниматься именно этой деятельностью и за эти границы мало кто заглядывает, каждый выбирает по душе.

Даже если ты выполнишь идеально свою часть работы - это может вообще никак не сказаться на общих показателях, либо вообще навредить конечному продукту.

Например просто тупо - затрачиваешь больше времени на единицу продукта - продукт дорожает, а конечному покупателю это нахер не сдалось - будет винить, что кругом 10 посредников развелось(вот подобные фразы больше всего бесят), что все зажрались и не станет покупать в вашей фирме.

Простой пример одежды, которая сейчас вся шьется из дешевых тканей и с использованием дешевой рабочей силы.
КАК ТОЛЬКО СТОИМОСТЬ ВАШЕЙ РУБАШКИ ВЗЛЕТИТ В 5-10 РАЗ, ВЫ БУДЕТЕ СМОТРЕТЬ НА КАЧЕСТВО ПРИ СРЕДНЕЙ СТАТИСТИЧЕСКОЙ ЗАРПЛАТЕ?

Кроме того, материалы дорогие - потому что затрачивается больше ресурсов, а значит мы сможем выпустить меньше продукции.
И представьте страну, в которой 10% населения ходит в высококачественой одежде, а все остальные будут ходить абсолютно голыми.

Просто потому что для них вообще нет никакой одежды, а всё потому что решили делать супер-качественно.

С другой стороны конечно так же стоит понимать, что и низкокачественные материалы - это другая крайность.
Сами по себе они не самоцель. Где-то это можно заменить, без влияния на конечный продукт, а где-то это очень сильно ударит.
Опять же - это всё головная боль руководства, а не сотрудников.

Если проект идёт в жопу, значит изначально нужно было более внимательно подойти к этому вопросу, грамотно подготовиться.
Либо если компания его не может нормально потянуть - может и вообще не начинать.
А может им собственно и нужен подобный кастрированый проект и все это прекрасно понимают.

Это не ваша забота и не должно быть ей.

источник

07:21пожаловаться #15

SD

Stanislav Demchenko in Data Engineers

вот это тебя накрыло. я тоже так хочу

источник

07:33пожаловаться #16

SO

Simon Osipov in Data Engineers

Доброе утро! Друзья, подскажите, в чем может быть проблема?
Спарком 2.3.3 собирается витрина, простой ETL, прочитали несколько таблиц, поджойнили, записали в ORC
Месяцы все работало прекрасно, тут запись начала валиться с ошибкой


java.lang.IndexOutOfBoundsException: toIndex = 46
 at java.util.ArrayList.subListRangeCheck(ArrayList.java:1012)
 at java.util.ArrayList.subList(ArrayList.java:1004)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.getSchemaOnRead(RecordReaderFactory.java:161)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.createTreeReader(RecordReaderFactory.java:66)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderImpl.<init>(RecordReaderImpl.java:202)
 at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.rowsOptions(ReaderImpl.java:539)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$ReaderPair.<init>(OrcRawRecordMerger.java:183)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$OriginalReaderPair.<init>(OrcRawRecordMerger.java:226)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:437)
 at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getReader(OrcInputFormat.java:1215)
 at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:1113)

сделал refresh table для всех таблиц источников, но это не помогло.
Никаких изменений в коде не было, параметры фильтров такие же, как и были все время
Куда копать?

источник

07:40пожаловаться #17

A

Alex in Data Engineers

Сергей

Вот собственно в этом и суть, что это головная боль руководства, если проект идёт в жопу - то это полностью ответственность руководства.
Если сотрудники делают говно - это тоже ответственность руководства.
Либо плохо нанимали, либо плохо обучали, либо не смогли встроить в текущие процессы и т.д.

Технарь будет технарить, бухгалтер-бухгалтерить, а дизайнер-дизайнить. Это их собственный выбор заниматься именно этой деятельностью и за эти границы мало кто заглядывает, каждый выбирает по душе.

Даже если ты выполнишь идеально свою часть работы - это может вообще никак не сказаться на общих показателях, либо вообще навредить конечному продукту.

Например просто тупо - затрачиваешь больше времени на единицу продукта - продукт дорожает, а конечному покупателю это нахер не сдалось - будет винить, что кругом 10 посредников развелось(вот подобные фразы больше всего бесят), что все зажрались и не станет покупать в вашей фирме.

Простой пример одежды, которая сейчас вся шьется из дешевых тканей и с использованием дешевой рабочей силы.
КАК ТОЛЬКО СТОИМОСТЬ ВАШЕЙ РУБАШКИ ВЗЛЕТИТ В 5-10 РАЗ, ВЫ БУДЕТЕ СМОТРЕТЬ НА КАЧЕСТВО ПРИ СРЕДНЕЙ СТАТИСТИЧЕСКОЙ ЗАРПЛАТЕ?

Кроме того, материалы дорогие - потому что затрачивается больше ресурсов, а значит мы сможем выпустить меньше продукции.
И представьте страну, в которой 10% населения ходит в высококачественой одежде, а все остальные будут ходить абсолютно голыми.

Просто потому что для них вообще нет никакой одежды, а всё потому что решили делать супер-качественно.

С другой стороны конечно так же стоит понимать, что и низкокачественные материалы - это другая крайность.
Сами по себе они не самоцель. Где-то это можно заменить, без влияния на конечный продукт, а где-то это очень сильно ударит.
Опять же - это всё головная боль руководства, а не сотрудников.

Если проект идёт в жопу, значит изначально нужно было более внимательно подойти к этому вопросу, грамотно подготовиться.
Либо если компания его не может нормально потянуть - может и вообще не начинать.
А может им собственно и нужен подобный кастрированый проект и все это прекрасно понимают.

Это не ваша забота и не должно быть ей.

Вы наверное забыли про азиатское "потеря лица"

Когда все уровни знают что жопа, но никто не признает ошибку

источник

07:58пожаловаться #18

☭S

☭ ⤳ λ Shinkevich... in Data Engineers

Simon Osipov

Доброе утро! Друзья, подскажите, в чем может быть проблема?
Спарком 2.3.3 собирается витрина, простой ETL, прочитали несколько таблиц, поджойнили, записали в ORC
Месяцы все работало прекрасно, тут запись начала валиться с ошибкой


java.lang.IndexOutOfBoundsException: toIndex = 46
 at java.util.ArrayList.subListRangeCheck(ArrayList.java:1012)
 at java.util.ArrayList.subList(ArrayList.java:1004)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.getSchemaOnRead(RecordReaderFactory.java:161)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderFactory.createTreeReader(RecordReaderFactory.java:66)
 at org.apache.hadoop.hive.ql.io.orc.RecordReaderImpl.<init>(RecordReaderImpl.java:202)
 at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.rowsOptions(ReaderImpl.java:539)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$ReaderPair.<init>(OrcRawRecordMerger.java:183)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger$OriginalReaderPair.<init>(OrcRawRecordMerger.java:226)
 at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:437)
 at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getReader(OrcInputFormat.java:1215)
 at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:1113)

сделал refresh table для всех таблиц источников, но это не помогло.
Никаких изменений в коде не было, параметры фильтров такие же, как и были все время
Куда копать?

DDL Самих таблиц не менялось?

источник

08:30пожаловаться #19

SO

Simon Osipov in Data Engineers

☭ ⤳ λ Shinkevich

DDL Самих таблиц не менялось?

нет

источник

08:30пожаловаться #20