Size: a a a

2021 July 14

N

Nail in Data Engineers
Я не спец по стримингу, но мне кажется Спарк не умеет читать с локальных файловых систем
источник

N

Nikita Blagodarnyy in Data Engineers
С чего бы вдруг?
источник

N

Nail in Data Engineers
Ну значит я ошибаюсь. Просто не использовал такое и слабо себе представляю для чего так делать
источник

GP

Grigory Pomadchin in Data Engineers
умеет отовсюду что имплементит хадуп ио
источник

GP

Grigory Pomadchin in Data Engineers
в том числе локальные фс
источник

GP

Grigory Pomadchin in Data Engineers
надо что б тесты писать и локально разрабатывать без мороки с фс другими, можно отложить на потом это или других людей занять разборками с фс
источник

N

Nail in Data Engineers
Такой себе пример конечно
источник

GP

Grigory Pomadchin in Data Engineers
почему? ты чтоб бизнес логику какуюто разрабатывать и покрывать тестами сразу хдфс поднимаешь?
источник

N

Nail in Data Engineers
Мы не работаем с "единичными файликами", поэтому локально особо ничего не протестируешь. Для хранилищ плохо подходят стандартные методики тестирования принесенные из классической разработки ПО.
источник

N

Nikita Blagodarnyy in Data Engineers
А в чём сложность минидфс кластер поднять?
источник

GP

Grigory Pomadchin in Data Engineers
долг
источник

GP

Grigory Pomadchin in Data Engineers
минидфс поднимаешь когда хоть чтото готово
источник

N

Nikita Blagodarnyy in Data Engineers
Вам чтобы логику трансформации протестировать обязательно надо 100500 файлов на hdfs и запуск через ярн? 5 локальных файлов из ресурсов в локальной сессии никаких не подойдут?
источник

N

Nail in Data Engineers
К сожалению нет
источник

N

Nail in Data Engineers
Во-первых, некоторые источники могут быть вовсе не файловыми
источник

N

Nail in Data Engineers
Во-вторых, на 5 локальных файлах у вас на первых же этапах трансформации получится пустая выборка, что в дальнейшем сводит на нет всё тестирование
источник

N

Nikita Blagodarnyy in Data Engineers
Даже интересно стало, что за источник нельзя поднять в контейнере и запопулейтить тестовыми данными.
источник

N

Nail in Data Engineers
Вы предлагаете всё используемые источники локально поднимать?
источник

N

Nail in Data Engineers
Нет, спасибо
источник

N

Nail in Data Engineers
Да и нельзя нам вообще копировать данные на локальные АРМы. А самому генерить такое - не
источник