Size: a a a

2020 March 10

SS

Sergey Shushkov in Data Engineers
На самом деле нет. Довольно объемно получаеться
источник

R

Renarde in Data Engineers
типа вот так:


import org.apache.spark.sql.execution.streaming.MemoryStream
val visitsStream = MemoryStream[PageVisit]

 val pageVisitsTypedStream: Dataset[PageVisit] = visitsStream.toDS()

 val initialBatch = Seq(
   generateEvent(1),
   generateEvent(1),
   generateEvent(1),
   generateEvent(1),
   generateEvent(2),
 )

 visitsStream.addData(initialBatch)
источник

R

Renarde in Data Engineers
и кафки не надо, вообще никаких зависимостей кроме самого spark-structured-streaming
источник

AZ

Anton Zadorozhniy in Data Engineers
Vitaly Savinov
Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.
Скрипт с сайта одного аквацентра в Праге снимает показатели занятости, и тут же для снятия погоды в этом месте https://gist.github.com/dartov/649efa29bea8d61e8834db3e1a92a0a3
источник

AZ

Anton Zadorozhniy in Data Engineers
Архив могу выдать по запросу )
источник

VS

Vitaly Savinov in Data Engineers
Спасибо, но лучше стрим. Симитировать конечно можно, типа температуру по больнице, 9 этажей, сто палат на каждом этаже и по 6 поцыентов в каждой палате. Но так не интересно :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Там данные в онлайне обновляются, так что вполне себе стрим, архив я выдаю тем кто хочет модель учить и потом сервить в онлайне
источник

R

Renarde in Data Engineers
При имитации хорошо то, что ты можешь сам выбрать уровень нагрузки или поведение стрима. Скажем, сделать чтобы у тебя был burst-load
источник

VS

Vitaly Savinov in Data Engineers
Это да.
источник

VS

Vitaly Savinov in Data Engineers
И к этому конечно тоже надо прибегать периодически.
источник

R

Renarde in Data Engineers
мне вот нужно было имитировать определенное соотношение апдейтов и инсертов в смеси с burst-load и заранее известной схемой - akka streams просто идеально заходят для этого, плюс готовый коннектор к Kafka - так что не стоит совсем забывать про этот вариант
источник

ME

Max Efremov in Data Engineers
Vitaly Savinov
Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.
У вк есть 1% от обновлений юзеров
источник

ME

Max Efremov in Data Engineers
Раньше был стрим от твиттера, под него много стандартных конректоров есть. Но русских девелоперов теперь там не жалуют, приложения не одобряют(
источник

ME

Max Efremov in Data Engineers
Max Efremov
У вк есть 1% от обновлений юзеров
источник

A

Alex in Data Engineers
Так вроде для тестового приложения можно просто в аккаунте создать его и всё
источник

A

Alex in Data Engineers
По крайней мере раньше так было для твитера
источник

ME

Max Efremov in Data Engineers
Alex
Так вроде для тестового приложения можно просто в аккаунте создать его и всё
нельзя, раньше просто регалось и всё, сейчас надо указать назначение приложения и отправить на ревью
источник

ME

Max Efremov in Data Engineers
Из коллег это ревью. не прошёл никто
источник

ME

Max Efremov in Data Engineers
По крайней мере так было год назад, если стало лучше, то было бы здорово
источник

MB

Mikhail Butalin in Data Engineers
У меня интерфейс в спарке поломаный, который application ui. Куда рыть?
источник