Size: a a a

Natural Language Processing

2020 June 21

АК

Алексей Кожушко... in Natural Language Processing
его проще использовать, но толк от него падает с ростом сложности проекта
источник

w

wristOnKitchen__ in Natural Language Processing
what we must do?
источник

VO

Valentin Okhapkin in Natural Language Processing
Алексей Кожушко
его проще использовать, но толк от него падает с ростом сложности проекта
а после, каких задач толк падает?
источник

РН

Роман Некрасов... in Natural Language Processing
Коллеги, погонял BERT- и USE-модели в задачах поиска семантического подобия и пришёл к выводу, что основная загвоздка для русскоязычных текстов в качественной токенизации. Наш язык морфологически очень богат, но нейротокенизаторы (BPE, WordPiece, SentencePiece) строят бедные словари, либо заглатывают целое слово, либо бьют его на буквы. Профессор Дьяконов из Вышки  сделал неплохой обзор на тему токенизаторов для нейросетей https://dyakonov.org/2019/11/29/%D1%82%D0%BE%D0%BA%D0%B5%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-%D0%BD%D0%B0-%D0%BF%D0%BE%D0%B4%D1%81%D0%BB%D0%BE%D0%B2%D0%B0-subword-tokenization/ Если будут интересные ссылочки на эту тему, то прошу поделиться.
источник

DK

Denis Kirjanov in Natural Language Processing
Роман Некрасов
Коллеги, погонял BERT- и USE-модели в задачах поиска семантического подобия и пришёл к выводу, что основная загвоздка для русскоязычных текстов в качественной токенизации. Наш язык морфологически очень богат, но нейротокенизаторы (BPE, WordPiece, SentencePiece) строят бедные словари, либо заглатывают целое слово, либо бьют его на буквы. Профессор Дьяконов из Вышки  сделал неплохой обзор на тему токенизаторов для нейросетей https://dyakonov.org/2019/11/29/%D1%82%D0%BE%D0%BA%D0%B5%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-%D0%BD%D0%B0-%D0%BF%D0%BE%D0%B4%D1%81%D0%BB%D0%BE%D0%B2%D0%B0-subword-tokenization/ Если будут интересные ссылочки на эту тему, то прошу поделиться.
А можете какой-нибудь пруф про эксперимент, что проблемы в токенизации именно и что ее несоответствие интуиции действительно портит классификацию или любую другую конечную задачу?)
источник

РН

Роман Некрасов... in Natural Language Processing
Denis Kirjanov
А можете какой-нибудь пруф про эксперимент, что проблемы в токенизации именно и что ее несоответствие интуиции действительно портит классификацию или любую другую конечную задачу?)
Пока первые интуитивные выводы. Обязательно опишу их в статье. Продолжаю исследования.
источник

DK

Denis Kirjanov in Natural Language Processing
Роман Некрасов
Пока первые интуитивные выводы. Обязательно опишу их в статье. Продолжаю исследования.
А выводы основаны просто на отсмотре токенов или на чем-то ещё? Я не критикую заранее, просто кажется, что такую штуку крайне сложно доказать эмпирически
источник

РН

Роман Некрасов... in Natural Language Processing
Denis Kirjanov
А выводы основаны просто на отсмотре токенов или на чем-то ещё? Я не критикую заранее, просто кажется, что такую штуку крайне сложно доказать эмпирически
Отследил аномальные выбросы в косинусной близости между предложениями и вижу, что реакция на словарь, где слово плохо разбито на субтокены, по сути, попадание на речевые штампы (к примеру, Постановление Правительства РФ)
источник

DK

Denis Kirjanov in Natural Language Processing
Роман Некрасов
Отследил аномальные выбросы в косинусной близости между предложениями и вижу, что реакция на словарь, где слово плохо разбито на субтокены, по сути, попадание на речевые штампы (к примеру, Постановление Правительства РФ)
Выбросы по близости или по дальности?
источник

РН

Роман Некрасов... in Natural Language Processing
По близости. Вот типичный пример на небольшом тексте: "'1. Меры поддержки социальных работников и медицинских работников социальных учреждений.'
'2. Меры поддержки волонтерской деятельности.'
0,84 Речевой штамп "меры поддержки" не разбился на субтокены и вывел высокую близость.
источник

YB

Yuri Baburov in Natural Language Processing
Роман Некрасов
По близости. Вот типичный пример на небольшом тексте: "'1. Меры поддержки социальных работников и медицинских работников социальных учреждений.'
'2. Меры поддержки волонтерской деятельности.'
0,84 Речевой штамп "меры поддержки" не разбился на субтокены и вывел высокую близость.
а как много слов в один токен попали? там же словарь порядка 10к токенов на весь русский вроде?
источник

DK

Denis Kirjanov in Natural Language Processing
Понятно, интересно
Но кажется, что более менее любые коробочные эмбеддинги могут дать такой паре неплохую близость — и что сильная смена токенизации не факт что а) уменьшит эти выбросы
Б) не даст других — и больше
источник
2020 June 22

FF

Futorio Franklin in Natural Language Processing
Всем привет! Существуют ли датасеты на русском языке для задачи Entity Based sentiment analysis? Кроме rule-based подхода над тональным словарём существуют ли ещё варианты решения задачи?
источник

FF

Futorio Franklin in Natural Language Processing
Была идея перевести на русский язык stanford sentriment treebank, но боюсь, что будет проблема с восстановлением зависимостей
источник

AK

Alexander Kukushkin in Natural Language Processing
Futorio Franklin
Всем привет! Существуют ли датасеты на русском языке для задачи Entity Based sentiment analysis? Кроме rule-based подхода над тональным словарём существуют ли ещё варианты решения задачи?
источник

FF

Futorio Franklin in Natural Language Processing
Благодарю, находил статьи от 2016-го года, а вот датасеты не получалось найти
источник
2020 June 23

B

Brenoritvrezorkre in Natural Language Processing
Переслано от Semen Vasilev
Уважаемые коллеги, Международный научно-методический центр трансфера компетенций цифровой экономики УрФУ представляет серию визионерских лекций от ведущих специалистов в областях математики, информатики и других технологий цифровой экономики.
На очередной визионерской лекции МНМЦ УрФУ Вы узнаете о настоящем и будущем такой бурно развивающейся области науки как обработка естественного языка (Natural Language Processing). Об этом вам расскажет разработчик новых принципов и алгоритмов  искусственного интеллекта (ИИ), научный сотрудник Института Макса Планка в Лейпциге , евангелист ИИ в  компании ABBYY, автор подкаста Проветримся! Иван Ямщиков.
Мероприятие состоится онлайн.
Ведущий Андрей Созыкин - проректор по развитию образовательной деятельности УрФУ.
Регистрация на вебинар обязательна: https://leader-id.ru/event/52648/
источник

YB

Yuri Baburov in Natural Language Processing
Brenoritvrezorkre
Переслано от Semen Vasilev
Уважаемые коллеги, Международный научно-методический центр трансфера компетенций цифровой экономики УрФУ представляет серию визионерских лекций от ведущих специалистов в областях математики, информатики и других технологий цифровой экономики.
На очередной визионерской лекции МНМЦ УрФУ Вы узнаете о настоящем и будущем такой бурно развивающейся области науки как обработка естественного языка (Natural Language Processing). Об этом вам расскажет разработчик новых принципов и алгоритмов  искусственного интеллекта (ИИ), научный сотрудник Института Макса Планка в Лейпциге , евангелист ИИ в  компании ABBYY, автор подкаста Проветримся! Иван Ямщиков.
Мероприятие состоится онлайн.
Ведущий Андрей Созыкин - проректор по развитию образовательной деятельности УрФУ.
Регистрация на вебинар обязательна: https://leader-id.ru/event/52648/
какие-то победители буллшит бинго, значит, наверное, будут про берт рассказывать))) но послушаем, что уж.
источник

RZ

Roman Zhukov in Natural Language Processing
Yuri Baburov
какие-то победители буллшит бинго, значит, наверное, будут про берт рассказывать))) но послушаем, что уж.
евангелисты же
источник

RZ

Roman Zhukov in Natural Language Processing
синоним от слова ванга, ванговать
источник