Доклады про соревнования на Диалоге
https://www.youtube.com/watch?v=PlNg1u5VEmo. Начинать участвовать уже поздновато, полезно знать про новые датасеты на русском, интересно в конце сорев почитать про топовые решения.
- Почему нормализация именованных сущностей сложнее, чем просто лемматизация. Natasha как бейзлайн
- Кластеризация новостей, выбор заголовков. B2C делают агрегаторы Яндекс, Гугл, Рамблер, Мейл, Сми2. B2B делают мониторинги типа Медиалогии
- Семантические скетчи звучит пугающе, задача научная сложная, практического приложения не видно.
- Как собрать датасет для симплификации. Большой грязный: упрощённая Вики, гугловый перевод. Маленький вручную собранный на Толоке.