Телеграмм чат группы hadoopusers страница 1329

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 May 28

VE

Vladimir E. in Data Engineers

Суть в чём:
hdfs://sandbox-hdp.hortonworks.com:8020" - это правильно

Там алгоритм такой:
1. Java client конектится к неймноде по 8020 и спрашивает куда записывать данные
2. Неймнода смотрит на свои ноды и даёт айпи одной из датанод куда писать (или хостнейм, зависит от настроек)
3. Java client принимает айпи (или хостнейм) и пытается записать данные. НО, так как у тебя это всё в докере, неймнода думает что айпи дата ноды это 127.0.01

источник

12:19пожаловаться #1

AB

Andrey Bel in Data Engineers

понял, пробую испрвить

источник

12:20пожаловаться #2

AB

Andrey Bel in Data Engineers

10.1.*.* localhost sandbox-hdp.hortonworks.com sandbox-hdf

источник

12:21пожаловаться #3

VE

Vladimir E. in Data Engineers

и в итоге клиент пытается законектится на локалхост, вместо того чтобы на сам сервис в ноде

источник

12:21пожаловаться #4

VE

Vladimir E. in Data Engineers

https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html#Clients_use_Hostnames_when_connecting_to_DataNodes

источник

12:21пожаловаться #5

VE

Vladimir E. in Data Engineers

Это настройка которая показывает что использует неймнода, айпишники или хостнеймы

источник

12:22пожаловаться #6

AB

Andrey Bel in Data Engineers

ок спасибо,проверяю

источник

12:22пожаловаться #7

VE

Vladimir E. in Data Engineers

Не помню уже какую магию там делал с хостсом, но это очень частая проблема с любой виртуалкой которая за НАТом или типа того

источник

12:23пожаловаться #8

VE

Vladimir E. in Data Engineers

в общем надо просто удостовериться что неймнода/датанода видит саму себя точно так же как и её видит клиент. Может быть 127.0.0.1 и нормально, главное удостовериться что от клиента 127.0.0.1:50011 ведёт именно к сервису датаноды а не в пустоту

источник

12:25пожаловаться #9

AB

Andrey Bel in Data Engineers

источник

12:38пожаловаться #10

AB

Andrey Bel in Data Engineers

чтото ничего не понятно

источник

12:39пожаловаться #11

ФЧ

Филипп Чистяков in Data Engineers

Ребят, а можно пару комментов по друиду, стоит смотреть в его сторону или нет?

источник

13:31пожаловаться #12

AS

Andrey Smirnov in Data Engineers

Филипп Чистяков

Ребят, а можно пару комментов по друиду, стоит смотреть в его сторону или нет?

была хорошая статья от однокласников на хабре, зависит от задач, в большинстве случаев можно обойтись кликхаусом

источник

13:34пожаловаться #13

ФЧ

Филипп Чистяков in Data Engineers

Спасибо. Погуглю

источник

13:35пожаловаться #14

R

Renarde in Data Engineers

всем привет!
вопрос такой - есть паркетная таблица:

create table db.table 
(...)
PARTITIONED BY(dt string)
BUCKETED BY (KEY) INTO 128 BUCKETS
SORTED BY (KEY)

делаю в нее:

df.insertInto("db.table")

Инзерт пролетает, но файлы внутри партиций неравномерного размера - от 100 до 300mb. Это так задумано, или где-то нужно форсировать repartition?

источник

13:39пожаловаться #15

OP

O. Petr in Data Engineers

пустую строку спарк цсв же не может прочитать ?

источник

13:46пожаловаться #16

OP

O. Petr in Data Engineers

единственное что нашел коммит 2х недельной давности https://github.com/apache/spark/commit/7a2d4895c75d4c232c377876b61c05a083eab3c8#diff-eb708fbebdf6d20d1ab1b109f5f2cd56

[SPARK-17916][SQL] Fix empty string being parsed as null when nullVal… · apache/spark@7a2d489

…ue is set.

## What changes were proposed in this pull request?

I propose to bump version of uniVocity parser up to 2.6.3 where quoted empty strings are replaced by the empty value (passed to `se...

источник

13:47пожаловаться #17

OP

O. Petr in Data Engineers

типа на 2.3 нельзя вообще никак в csv для спарка пустую строку передать?

источник

13:48пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

всем привет!
вопрос такой - есть паркетная таблица:

create table db.table 
(...)
PARTITIONED BY(dt string)
BUCKETED BY (KEY) INTO 128 BUCKETS
SORTED BY (KEY)

делаю в нее:

df.insertInto("db.table")

Инзерт пролетает, но файлы внутри партиций неравномерного размера - от 100 до 300mb. Это так задумано, или где-то нужно форсировать repartition?

репартишн можно сделать по ключу какому

источник

13:56пожаловаться #19

VS

Vitaliy Shevchenko in Data Engineers

Всем привет. Может сталкивался кто, хочу курлом записать создать директорию в HDFS. Но выдает ошибку

Server IPC version 9 cannot communicate with client version 470

Куда копать ?

источник

15:44пожаловаться #20