Size: a a a

2019 September 05

AK

Alena Korogodova in Moscow Spark
Не оправдал надежд?
источник

PK

Pavel Klemenkov in Moscow Spark
Блин, я мимо кнопок махнул по ходу)
источник
2019 September 06

PK

Pavel Kashchenko in Moscow Spark
доброй ночи. Ктонибудь пробовал читать данные егюл спарком? Помогите разобраться что я не так делаю?
источник

PK

Pavel Kashchenko in Moscow Spark
spark.read.format('xml').options(rowTag='СвЮЛ').options(rootTag='EGRUL').options(charset='cp1251').load('***/test')
источник

PK

Pavel Kashchenko in Moscow Spark
в итоге ни одна запись не читается.
источник

PK

Pavel Kashchenko in Moscow Spark
df.columns
['_corrupt_record']
источник
2019 September 07

MV

Mitya Volodin in Moscow Spark
А xml ник plain или nested? У тебя есть к нему xslt?
источник

ТС

Тимофей Смирнов... in Moscow Spark
Всем привет)
есть проблема: у меня много датафреймов c десятками колонок, у каждого из которых две колонки одинаковые, размер у всех тоже одинаковый. Мне нужно все эти датафреймы соединить вместе, по сути сконкатенировать по горизонтали.
Сейчас я это решаю просто джоином в цикле, кажется, что это долго и неоптимально, может кто сталкивался с подобным, как решали ?
источник
2019 September 08

PK

Pavel Kashchenko in Moscow Spark
Mitya Volodin
А xml ник plain или nested? У тебя есть к нему xslt?
nested
источник

LS

Lookuut Struchkov in Moscow Spark
Тимофей Смирнов
Всем привет)
есть проблема: у меня много датафреймов c десятками колонок, у каждого из которых две колонки одинаковые, размер у всех тоже одинаковый. Мне нужно все эти датафреймы соединить вместе, по сути сконкатенировать по горизонтали.
Сейчас я это решаю просто джоином в цикле, кажется, что это долго и неоптимально, может кто сталкивался с подобным, как решали ?
Привет , можно перевести таблицы в рдд далее repartitionsortwithin по одинаковым колонкам,  потом зипнуть их
источник
2019 September 09

G

Gev in Moscow Spark
Народ, не подскажете, что за фигня. Может и мой косяк. Вычитываю в один DataFrame несколько файликов ORC и получаю дубли значений на границах значений этих файлов? Суть в том что файлы - это данные одной таблицы, разбитые по часам. Проверил запрос, который льет в файл - дублей нет. И в самом файле ( в каждом по отдельности ) тоже. П вот если объединяю их в один DataFrame получаю дубли на границах.
источник

AK

Alena Korogodova in Moscow Spark
Gev
Народ, не подскажете, что за фигня. Может и мой косяк. Вычитываю в один DataFrame несколько файликов ORC и получаю дубли значений на границах значений этих файлов? Суть в том что файлы - это данные одной таблицы, разбитые по часам. Проверил запрос, который льет в файл - дублей нет. И в самом файле ( в каждом по отдельности ) тоже. П вот если объединяю их в один DataFrame получаю дубли на границах.
А дубли-то по часам или каким-то другим ключам?
источник

C

Combot in Moscow Spark
Airdrop BNB has been banned! Reason: CAS ban.
источник

G

Gev in Moscow Spark
Alena Korogodova
А дубли-то по часам или каким-то другим ключам?
Дубли по часам. Четко на границе. Причем если беру 3-4 файла то они кратны
источник
2019 September 10

C

Combot in Moscow Spark
Airdrop BNB has been banned! Reason: CAS ban.
источник

OK

Oleg Kovalov in Moscow Spark
Combot
Airdrop BNB has been banned! Reason: CAS ban.
Лол, а красиво
источник
2019 September 11

R

Rogoley in Moscow Spark
KrivdaTheTriewe
Переслано от Oleg ℕizhnik
Внимание!

Этой осенью в Москве нас ждёт сразу две крупных встречи, посвящённых Scala

🔸 28 сентября Митап Scala Russia при поддержке tinkoff.ru

🔸 26 ноября  ScalaConf https://scalaconf.ru/:

————————————————
28 сентября:

Митап Scala Russia при поддержке tinkoff.ru

Продолжается прием заявок на доклады
Для удобства подачи сделали формы :

RUS https://forms.gle/bAYzgXJ3JKH6q9Jx6
ENG https://forms.gle/KX1gunrRDeo4yEd37
Если хочется рассказать что-то небольшое, то можно воспользоваться формой для Lightning talks :
https://forms.gle/vS6h6PuVk4gFRB7C6

Специальный гость — John De Goes.  Джон выступит с докладом и проведет воркшоп.

Нас ждет:

🔹 2 потока,
🔹 7 докладов,
🔹 2 воркшопа.

Комфортная атмосфера нетворкинга. Еда. Бомбическое афтерпати

Участие — бесплатное.

Регистрация откроется чуть позже.
————————————————


Конференция ScalaConf

Подавайте доклады или берите билеты!

Дедлайн по подаче: 26 сентября
Билеты: цены зависят от даты покупки - чекайте график повышения на сайте.

Вся инфа и кнопки подачи на сайте: https://scalaconf.ru/2019

Группа для всех интересующихся https://t.me/ScalaConfTalks
Простите, регистрация на митап в конце сентября открылась уже?
источник

ZM

ZLoyer Matveev in Moscow Spark
да
источник

ZM

ZLoyer Matveev in Moscow Spark
источник

R

Rogoley in Moscow Spark
Спасибо
источник