Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 July 25

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Лейпциговский слишком сегментирован https://wortschatz.uni-leipzig.de/en/download/russian
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
🤔
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кстати почему?
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
откуда я тебе в colab возьму 1.2 Тб?

с английским, кстати, такая же проблема
источник

AK

Alex Konst in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Den
продолжаем мучать себя и других:
тренируем gpt-2, где найти русский корпус весящий гораздо меньше 1.2 Тб?
Напарсить
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
ты б ещё вручную копипастить предложил
источник

AK

Alex Konst in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Den
ты б ещё вручную копипастить предложил
А в чем проблема с парсингом, собственно?
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
1. сам парсер
2. список сайтов
3. очистка
4. хранение
источник

AK

Alex Konst in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну если хочется инженерить без инженерии, то остаётся только страдать
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вот и страдай
источник

CT

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
это ж json
источник

CT

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
и че
источник

CT

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
json у нас теперь не парсится?
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
нет, нужен txt
источник

CT

Cookie Thief in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
F
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
да хоть G
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Den
да хоть G
Можешь попробовать drive прикрутить. 100 гб, помню, 2 евро стоили.  Но вообще лучше попарсить json и быть более благоприятным к людям, которые хотят помочь.
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
100гб != 2Тб
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Можешь попробовать drive прикрутить. 100 гб, помню, 2 евро стоили.  Но вообще лучше попарсить json и быть более благоприятным к людям, которые хотят помочь.
Люди "хотят" помочь "на отцепись"
Вовлечённости нет
источник