Size: a a a

Natural Language Processing

2021 December 16

AW

Alex Wortega in Natural Language Processing
Только я не из девайсов)
источник

DK

Denis Kirjanov in Natural Language Processing
А там не Таня!
источник

SancheZz Мов in Natural Language Processing
Ага
источник

AW

Alex Wortega in Natural Language Processing
В таком случае:

Ну то что rugptxl не доступна через дефолтный Huggingface - это боль, понятно что спарс из дипспида и тд, но все же больно

Сильно заметно что исходные тренировочные данные зашумлены, все модели меньше large ужасно работают почти во всех стандартных nlp задачах сравнивал с gpt2 Майкрософта

Модели очень склонны учить xml-html разметку в отличие от англоязычных собратьев

Длинна последовательности без потери смысла - 400-500 токенов, дальше улетает в седло и все ппц
источник

GF

Grigory Frantsuzov in Natural Language Processing
А чистить датасет от html/xml очень дорого?
источник

AW

Alex Wortega in Natural Language Processing
Нет, но неприятно
источник

AW

Alex Wortega in Natural Language Processing
И иногда что то можно не заметить
источник

B

Banof in Natural Language Processing
🔫 Илья кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@Spiralhead, @olegz1339, @skabbit, @bazhanRO, Ilya Kalinin
При поддержке Золота Бородача
источник

DK

Denis Kirjanov in Natural Language Processing
да, критика конструктивная, видим таки моменты, работаем над этим
источник

M

Max in Natural Language Processing
добрый вечер! подскажите, пожалуйста, кто-нибудь встречал справочник адресов россии(или конкретных городов, фиас) в csv-формате? на официальном сайте фиас я так понял только xml можно выгрузить... но такое парсить чувствуется дико неудобно
источник

🐙

🐙 in Natural Language Processing
Xml не парсят
источник

M

Max in Natural Language Processing
а как тогда список адресов с улицами-домами получить?
источник

🐙

🐙 in Natural Language Processing
В языках программирования есть модули для xml,в результате вы работаете с обьектами языка, остальные преобразования на ваше усмотрение
источник

🐙

🐙 in Natural Language Processing
Структуру xml изучить придётся, да
источник

🐙

🐙 in Natural Language Processing
Но это машиночитаемый формат, о 'дико неудобно' тут речь не идет
источник

M

Max in Natural Language Processing
ну тем не менее, там очень много отдельных файлов xml. мне кажется, загружать каждый отдельно для получения одного или пары адресов будет попросту долго. поэтому и спрашиваю не встречал ли кто-нибудь csv, тк может уже есть готовое.
источник

🐙

🐙 in Natural Language Processing
Спросите (поищите поиском) в чате открытых данных
источник

🐙

🐙 in Natural Language Processing
источник

M

Max in Natural Language Processing
спасибо!
источник

SancheZz Мов in Natural Language Processing
Коллеги, а есть словарь синонимов  eng языка или лучше использовать wordnet?
источник