Телеграмм чат группы natural_language

В таком случае:

Ну то что rugptxl не доступна через дефолтный Huggingface - это боль, понятно что спарс из дипспида и тд, но все же больно

Сильно заметно что исходные тренировочные данные зашумлены, все модели меньше large ужасно работают почти во всех стандартных nlp задачах сравнивал с gpt2 Майкрософта

Модели очень склонны учить xml-html разметку в отличие от англоязычных собратьев

Длинна последовательности без потери смысла - 400-500 токенов, дальше улетает в седло и все ппц

источник

17:37пожаловаться #4

Grigory Frantsuzov in Natural Language Processing

А чистить датасет от html/xml очень дорого?

источник

17:42пожаловаться #5

Alex Wortega in Natural Language Processing

Нет, но неприятно

источник

17:42пожаловаться #6

Alex Wortega in Natural Language Processing

И иногда что то можно не заметить

источник

17:42пожаловаться #7

Banof in Natural Language Processing

🔫 Илья кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@Spiralhead, @olegz1339, @skabbit, @bazhanRO, Ilya Kalinin
При поддержке Золота Бородача

источник

17:59пожаловаться #8

Denis Kirjanov in Natural Language Processing

да, критика конструктивная, видим таки моменты, работаем над этим

источник

18:19пожаловаться #9

Max in Natural Language Processing

добрый вечер! подскажите, пожалуйста, кто-нибудь встречал справочник адресов россии(или конкретных городов, фиас) в csv-формате? на официальном сайте фиас я так понял только xml можно выгрузить... но такое парсить чувствуется дико неудобно

источник

22:47пожаловаться #10

🐙

🐙 in Natural Language Processing

Xml не парсят

источник

22:50пожаловаться #11

Max in Natural Language Processing

а как тогда список адресов с улицами-домами получить?

источник

22:51пожаловаться #12

🐙

🐙 in Natural Language Processing

В языках программирования есть модули для xml,в результате вы работаете с обьектами языка, остальные преобразования на ваше усмотрение

источник

22:51пожаловаться #13

🐙

🐙 in Natural Language Processing

Структуру xml изучить придётся, да

источник

22:52пожаловаться #14

🐙

🐙 in Natural Language Processing

Но это машиночитаемый формат, о 'дико неудобно' тут речь не идет

источник

22:52пожаловаться #15

Max in Natural Language Processing

ну тем не менее, там очень много отдельных файлов xml. мне кажется, загружать каждый отдельно для получения одного или пары адресов будет попросту долго. поэтому и спрашиваю не встречал ли кто-нибудь csv, тк может уже есть готовое.

источник

22:54пожаловаться #16

🐙

🐙 in Natural Language Processing

Спросите (поищите поиском) в чате открытых данных

источник

22:55пожаловаться #17

🐙

🐙 in Natural Language Processing

https://t.me/opendatarussiachat

Открытые данные RU

Это чат тех, кто занимается открытыми данными в России. Надеемся на вашу активность, не будьте занудами.