Size: a a a

2021 February 06

GP

Grigory Pomadchin in Data Engineers
какое?
источник

GP

Grigory Pomadchin in Data Engineers
я не помню что бы для спарка нативные либки ставить надо было
источник
2021 February 07

В

Вячеслав in Data Engineers
El-Yaz
Не, не содержимое файла, а содержимое, которое упаковано в одной команде)
Если я вообще правильно изъясняюсь))
А что значит "содержимое упакованное в команде"? Это по сути либо алиас (что вряд ли), либо исполняемый файл.
Можно попробовать найти этот исполняемый файл (типа which kymsu) и посмотреть что там внутри. Это может быть как скрипт, так и вообще бинарник.
источник

D

Dmitry in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
так оно наверное только не работало с локальными файлами
источник

GP

Grigory Pomadchin in Data Engineers
ну у тебя ж винда запусти под всл и не занимайся костылями
источник

Oleg אולג in Data Engineers
источник

D

Dmitry in Data Engineers
Grigory Pomadchin
ну у тебя ж винда запусти под всл и не занимайся костылями
нет смысла, тогда уж проще на кластере. без хадуп бинарников mr у меня не пашет. если нет winutils, прямо требует HADOOP_HOME и что бы там был winutils.exe, если только winutils.exe положить, падает
Exception in thread "main" java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
       at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
       at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:606)
       at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:963)
       at org.apache.hadoop.fs.FileUtil.list(FileUtil.java:1168)
       at org.apache.hadoop.fs.RawLocalFileSystem.listStatus(RawLocalFileSystem.java:468)
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry
нет смысла, тогда уж проще на кластере. без хадуп бинарников mr у меня не пашет. если нет winutils, прямо требует HADOOP_HOME и что бы там был winutils.exe, если только winutils.exe положить, падает
Exception in thread "main" java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
       at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
       at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:606)
       at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:963)
       at org.apache.hadoop.fs.FileUtil.list(FileUtil.java:1168)
       at org.apache.hadoop.fs.RawLocalFileSystem.listStatus(RawLocalFileSystem.java:468)
не понял, почему под всл2 не работает?
источник

GP

Grigory Pomadchin in Data Engineers
зачем винутилс там
источник

D

Dmitry in Data Engineers
ну например потому что идея запущена не из wsl
источник

GP

Grigory Pomadchin in Data Engineers
ясно
источник

GP

Grigory Pomadchin in Data Engineers
ну хадуп всегда ниоч под виндой был
источник

D

Dmitry in Data Engineers
но вопрос в другом, вот запустилось, почему однопоточно все там ?
источник

GP

Grigory Pomadchin in Data Engineers
где ‘там’?
источник

D

Dmitry in Data Engineers
там в mr джобе под виндой. я задаю 8 редюсеров, создается 8 файлов, но в виндовом диспетчере задач вижу один унылый поток и 10-15% знятого cpu
источник

D

Dmitry in Data Engineers
и маперы,  содал 8 файликов, ожидал 8 маперов поднимутся, а в логе лишь Executor #0
[main] INFO org.apache.hadoop.mapreduce.Job -  map 2% reduce 0%
[SpillThread] INFO org.apache.hadoop.mapred.MapTask - Finished spill 108
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - (RESET) equator 95684599 kv 23921144(95684576) kvi 23255396(93021584)
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - Spilling map output
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - bufstart = 95684599; bufend = 64200946; bufvoid = 104857600
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - kvstart = 23921144(95684576); kvend = 21293100(85172400); length = 2628045/6553600
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - (EQUATOR) 66863970 kvi 16715988(66863952)
[SpillThread] INFO org.apache.hadoop.mapred.MapTask - Finished spill 109
[LocalJobRunner Map Task Executor #0] INFO org.apache.hadoop.mapred.MapTask - (RESET) equator 66863970 kv 16715988(66863952) kvi 16050244(64200976)
источник

T

T in Data Engineers
El-Yaz
Так это аутпут в файл(
Тебе походу нужна команда tee, если я правильно тебя понял, вот пример: https://unix.stackexchange.com/questions/178752/using-tee-to-output-intermediate-results-to-stdout-instead-of-files
источник
2021 February 08

GP

Grigory Pomadchin in Data Engineers
Рибята у нас сейчас реклама! Но хоть и реклама, смотрите кто в преподах (там ж Андрееей, мне кричат что и Егор!)
—————
"Apache Spark на Scala" - практический онлайн интенсив и ключ ко всем дверям в области Big Data.

Программа стартует уже 16 февраля. По промокоду "DE_21" действует дополнительная скидка 12 000 руб. от цены, указанной на сайте.
Оставляйте заявку - задавайте вопросы: https://clck.ru/TAk6d

В программе:
- 11 живых вебинаров, где мы подробно рассматриваем работу с Dataframe/Dataset API и Structured Streaming API.
- 5 практических лаб, объединенных в пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.
- 5 инструментов для формирования витрин данных и последующего анализа: Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS.

🔥Программа построена на Scala и дает возможность получить практические навыки работы с Apache Spark и глубоко изучить Spark Structured Streaming.

NewProLab
предлагает широкую линейку программ по работе с данными для инженеров, разработчиков и дата сайентистов всех мастей ♣️
Выбирайте и присоединяйтесь!
источник

t

tenKe in Data Engineers
источник