Телеграмм чат группы bigdata

Ребят, всем привет! Помогите советом)
У меня есть большой датасет на 100 гб фотографий, как мне обучить модель, если у меня даже не хватает памяти закинуть их на гугл диск?)

источник

17:36пожаловаться #3

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Какие советы можно дать?

источник

17:36пожаловаться #4

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2 евро стоит 100 гигов

источник

17:37пожаловаться #5

Danil Kalinin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Купить подписку?)

источник

17:37пожаловаться #6

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

А что значит "не хватает памяти"? Некуда их записать, что гуглодиск из к себе забрал или не хватает RAM и клиент гуглодиска падает?

источник

19:16пожаловаться #7

Kostas PONOMAREW in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Обязательно использовать гугл ему?

источник

19:31пожаловаться #8

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сложно сказать. Советы дал по расширению подписки пока что

источник

19:32пожаловаться #9

2021 June 23

Alex in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Доброй ночи! Не могли бы подсказать литературу по временным рядам? конкретно по предсказанию спроса

источник

23:29пожаловаться #10

2021 June 24

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Isbn: 978-5-907365-04-9
И вторая 978-5-397-01541-7

источник

00:03пожаловаться #11

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Одни из лучших

источник

00:03пожаловаться #12

Alex in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Спасибо!

источник

00:19пожаловаться #13

Artyom Gruzdev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

https://drive.google.com/file/d/1NwRybsFzLCg-oUI65Wb4BT_cSBHNalDE/view?usp=sharing нужно запросить доступ

источник

00:38пожаловаться #14

Alex in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Запросил

источник

09:32пожаловаться #15

Yevhen Dmytrenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

всім привіт, після джоіну двох csv файлі, намагаюсь відсортувати отриманий датафрейм (37 тисяч записів) за конкретним полем created, коли юзаю пандас то все відбувається дуже швидко, коли хочу заюзати spark, крутиться хвилин 20, може я щось роблю не так ?

spark

df_sorted = df.orderBy("created", ascending=True).collect()

pandas =

df_sorted = df.sort_values(by=["created"])

якщо хтось знає допоможіть пліз, гарного дня)

источник

11:42пожаловаться #16

Yevhen Dmytrenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

хоча на меншому файлі відпрацювало нормально, мабуть тачка не тягне

источник

11:55пожаловаться #17

Dolce Vita in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

То есть послав нахрен английский (международный блэт), русский язык, ты решил написать на украинском?

источник

19:06пожаловаться #18

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Labdien, paldies par jautājumu, diemžēl, nevaru palīdzēt, jo nekad nestrādāju ar Sparku, bet varētu būt, ka Jūs varat šo ieguglēt.

источник

19:13пожаловаться #19

Yevhen Dmytrenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Так, можна було налаштувати, так я і зробив власне, https://stackoverflow.com/questions/45704156/what-is-the-difference-between-spark-sql-shuffle-partitions-and-spark-default-pa використавши це

Stack Overflow

What is the difference between spark.sql.shuffle.partitions and spark.default.parallelism?

What's the difference between spark.sql.shuffle.partitions and spark.default.parallelism?

I have tried to set both of them in SparkSQL, but the task number of the second stage is always 200.

источник

19:53пожаловаться #20