Size: a a a

2021 September 01

AZ

Anton Zadorozhniy in Data Engineers
А разве не весь Спарк так работает :troll-peek:
источник

NN

No Name in Data Engineers
источник

D

Dmitriy in Data Engineers
Я не шарю в спарках, поясните мемес, я хочу быть как все.
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну, кстати, 90% работы, если не больше, идёт сразу в мусорку, всякие тмп, врк, рнд
источник

ЕГ

Евгений Глотов... in Data Engineers
На прод уже только алмазы попадают)
источник

AZ

Anton Zadorozhniy in Data Engineers
Спарк коры занимает (и «занимает»), а толку мало
источник

D

Dmitriy in Data Engineers
аааа ))) кек
источник

NN

No Name in Data Engineers
Ага
источник

AZ

Anton Zadorozhniy in Data Engineers
Настолько хорошо работает что главный создатель сказал: «фу, все перепишу»
источник

AM

Almaz Murzabekov in Data Engineers
Эм, меня в прод не сразу пустили 😏
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

D

Dmitry in Data Engineers
Привет! Надеюсь, тут есть знатоки кафки, есть вопросы на понимание


1. Правильно ли я понимаю, что при включенном enable.idempotence=true надо генерить уникальный client.id и не прибивать его руками (т.е. нельзя шарить client.id между перезапусками одного и того же продьюсера), потому что  The broker will reject a producer request if its sequence number is not exactly one greater than the last committed message from that PID(producer id)/TopicPartition pair

2. Рассмотрим продьюсера с transactional.id. Он открыл транзакцию, шлет сообщения. В какой момент сообщения попадает в топик + пачкой или по-одному? Откуда вопрос. Я вычитал, что консьюмер, елси не проставить isolation level = read commited прочитает даже сфейленные (aborted) транзакции. Из этого следует, что брокер складывает сообщения  сразу в топик => при одновременной записи нескольких транзакций оффсеты сообщений идут непоследовательно => имеем проблемы с тем, чтобы эту транзакцию обработать в консьюмере. Где я ошибся?

3. Правильно ли я понимаю, что exacly once продьюсер -- фикция в том смысле, что возможен *только* если сам продьюсер будет персистить свой стейт куда-то еще при успешной транзакции, чтобы при перезапуске суметь понять, что "мы уже это записали".

4. Возможен ли exacly once без транзакций? Это будет блокирующий send с персистом каждого успешного send-а в какой-то свой  безопасный стор?
источник

D

Dmitry in Data Engineers
О, спасибо
источник
2021 September 02

C

Combot in Data Engineers
gcyhsse fdwzf has been banned! Reason: CAS ban.
источник

AS

Andrey Smirnov in Data Engineers
почему?
источник

SS

Sergey Sheremeta in Data Engineers
бонджорно!
тут есть успешные господа, которые используют Databricks "SQL Endpoint"?
источник

ЕГ

Евгений Глотов... in Data Engineers
Потому что для этого как минимум нужно привязать датафрейм к переменной. Если после присваивания выполнять какие-то операции над датафреймом, они в эту переменную не попадут, и в итоге вот такие ошибки, как выше скидывали
Зачем вносить в код что-то изначально лишнее?
источник

ЕГ

Евгений Глотов... in Data Engineers
col("column"), исполняясь внутри методов датафрейма, сам определит, к какому датафрейму он относится, этот код можно вынести в общую функцию, например, и использовать с разными датафреймами
источник

DT

Danz The Deadly in Data Engineers
Зачем не использовать спарк SQL .........
источник

ЕГ

Евгений Глотов... in Data Engineers
В идеале, простыни спарковского кода не должны содержать ни единого присвоения, как sql-запрос, только кодом
источник