Size: a a a

Natural Language Processing

2021 June 10

IG

Ilya Gusev in Natural Language Processing
fasttext ❤️
источник

E

Elena in Natural Language Processing
обычно такие задачи решаются так. Выбираются 5-10 моделей, запускается обучение, сравнивается результат
источник

IG

Ilya Gusev in Natural Language Processing
мы пробовали выучить берт и дистиллировать в fasttext, работало прекрасно
источник

IG

Ilya Gusev in Natural Language Processing
источник

IG

Ilya Gusev in Natural Language Processing
там не свосем дистилляция, скорее pseudolabeling, как следует из названия
источник

v

viktor in Natural Language Processing
а сравнивали с трансформерами, по скорости понятно, а что по качеству получилось?
источник

IG

Ilya Gusev in Natural Language Processing
Так прям там в ноутбуке xlmroberta, 94.5% точности против 96.6%
Но нам принципиально нельзя было в инференсе трансформеры использовать
источник

IG

Ilya Gusev in Natural Language Processing
Если таких ограничений нет, Давид буквально вчера выложил маленькую модельку: https://habr.com/ru/post/562064/
источник

v

viktor in Natural Language Processing
всем спасибо
уже попробовал ее, получилось неплохо. хочу еще покурить просто
источник

A

Anton in Natural Language Processing
а разметка есть? сколько классов?
источник

v

viktor in Natural Language Processing
данных всего около 100к, 10 классов
источник

N

Natalia in Natural Language Processing
оч круто, наверное, но если что — яндексовские данные (миллион которые) очень грязненькие (мы на них немного перевод гоняли, я на данные смотрела, много вопросов к ним). в идеале б мб даже более каноничные датасеты WMT и около получше подошли для тренировки, наверное (но это я так, рассуждаю)

пинг @cointegrated
источник

IG

Ilya Gusev in Natural Language Processing
это лучше Давиду и написать (хотя он скорее всего и здесь прочитает)
источник

N

Natalia in Natural Language Processing
да, щас поправлю
источник

DD

David Dale in Natural Language Processing
Слушай, если ты накидаешь сюда список параллельных англо-русских корпусов, которые считаешь качественными, думаю, не один я буду благодарен)
источник

SancheZz Мов in Natural Language Processing
Ага ага
источник

SS

Sergey Sikorskiy in Natural Language Processing
Спасибо! Именно то, что было нужно.
У меня на текущий момент очень простая задача - собрать словообразование из разных источников и как-то его нормализовать, привести к общей базе. Ну и еще надо сделать анализ того, что еще не проанализировано. Хотелось сделать это как-то осознанно. Как минимум, стало понятно откуда взялись "формообразующие суффиксы" ….
источник

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Paul кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @olegdurandin, @Nikitini, @cointegrated, @stepvasya
При поддержке Золота Бородача
источник
2021 June 11

SP

Sebastian Pereira in Natural Language Processing
Коллеги, а кто может посоветовать какой датасет для SQuAD для русского языка?
источник