Size: a a a

2021 October 22

t

tenKe in Moscow Spark
источник

NN

No Name in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
Больше всего нравится секция с адвантажами
источник

GP

Grigory Pomadchin in Moscow Spark
но вообще конечно челикам которые все на питонах делают было бы проще из среды не вылезать
источник

GP

Grigory Pomadchin in Moscow Spark
Эх
источник

А

Александр in Moscow Spark
Какие сейчас существуют работающие корректоры spark-hbase? Тот что от апача работает со Спарком не старше 1.6(когда уже существует spark3). Тот что от хортонворкс, последний коммит 4 года назад. Неужели hbase настолько уже древний ?
источник

N

Nikita Blagodarnyy in Moscow Spark
Неправда, на гитхабе в апач коннекторе есть ветки под разные версии. Сходу он не собирается, надо попотеть. Мы собрали по спарк 2.4.5 на 2.11.
источник

А

Александр in Moscow Spark
Спасибо за совет, посмотрю. У меня как раз 2.11 и хочется подружить с pyspark+Kerberos. Вторую неделю батхерд
источник

N

Nikita Blagodarnyy in Moscow Spark
Ну как мы. @ssheremeta потел.
источник

А

Александр in Moscow Spark
Тут вроде знаешь питон, все вроде норм. Но Спарк на скале.. вроде бы приемлемо… но и hbase на джаве -> зоопарк, и горящий стул
источник

N

Nikita Blagodarnyy in Moscow Spark
Кому сейчас легко.
источник

GP

Grigory Pomadchin in Moscow Spark
я так понимаю только это https://github.com/apache/hbase-connectors/blob/master/spark/pom.xml

опенсорс ж обнови под нужный спарк

или собери для себя

mvn -Dspark.version=3.0.1 -Dscala.version=2.12.10 -Dscala.binary.version=2.12 -Dhbase.version=2.2.4 -Dhadoop.profile=3.0 -Dhadoop-three.version=3.2.0 -DskipTests -Dcheckstyle.skip -U clean package _должно работать_
источник

А

Александр in Moscow Spark
Для начала как умеем - map на Python(либо pyspark), reduce, пишущий в hbase  на java. Итог-mapreduce в 2021 году. Но коммон, spark технология будущего, должно быть 100500 разных коннекторов, а их всего 2, и то, многие ответы на форумах датированы 2017 годом. Значит люди могут, умеют. Но мы же разрабы, кто захочет делиться опытом
источник

А

Александр in Moscow Spark
Есть советы какой механизм лучше использовать в связке parquet-> hbase?
источник

А

Александр in Moscow Spark
Спасибо, разведуем в пн, надеюсь соберётся, без зависимостей-зависимостей, который уже не поддерживаются))
источник

GP

Grigory Pomadchin in Moscow Spark
это жава
классика торчать в завсимостях столетей давности
источник

GP

Grigory Pomadchin in Moscow Spark
то что слуилось после ждк11 это отклонение от обычной нормы так было не всегда
до этого было столько лет ‘великого ничего'
источник
2021 October 23

CO

Chern Oleksander in Moscow Spark
Всем привет, может кто стыкался, а как возможно переименовать файл (json), который формируется в AWS Glue
не могу понять документацию хоть ты тресни ((
источник

МК

Мария Колесникова... in Moscow Spark
Всем привет!  Подскажите, как оптимальнее решить задачу по поиску слова в колонке с текстом? При чем текст может состоять как из 100 слов, так и из 50 000.  
Решать просто через contains/like? Или лучше попробовать udf сочинить? Поможет ли вначале текст разбить на отдельные слова и искать по списку?
источник

k

kvadratura in Moscow Spark
уже пробовали все эти разные подходы на локальном спарке потестить и замерить время исполнения?
источник