Size: a a a

Natural Language Processing

2021 November 21

PK

Pushpendra Kumar in Natural Language Processing
Dear All,

Greetings from KnowDis Data Science.

We are delighted to announce that we are back with the 3rd edition of KnowDis Machine Learning Day and cordially invite you to our global online event to be held on Friday, December 3, 2021.

There will be exciting talks on AI applications for E-commerce, Advertising, Pharma and Fashion Industry. There will also be a special session on AI Application in Computer Chess.

To know more about the event and the speakers : https://lnkd.in/esyjtR9y
To become a part of conference: bit.ly/mlday2021

Looking forward to your presence

Thanks
ML Day Team
источник

Е

Егорка in Natural Language Processing
Не подскажете, как в статье word2vec сравнивали качество CBOW и skip-gram моделей? Я из статьи не очень хорошо понял. Типа, разметили пары слов по разным родам близких семантически и синтаксически. А как они понимали, что в данной модели два слова имеют близость нужного рода? Или вообще соль тестирования была в другом
источник

DD

David Dale in Natural Language Processing
Есть вариант открыть статью)
источник

Е

Егорка in Natural Language Processing
Так я написал, что из статьи не понял )
источник

DD

David Dale in Natural Language Processing
А, простите, прочитал невнимательно
источник

IG

Ilya Gusev in Natural Language Processing
там ещё спустя 6 лет была статья, о том, что все популярные реализации CBoW кривые
https://arxiv.org/pdf/2012.15332.pdf
источник

IG

Ilya Gusev in Natural Language Processing
и на самом деле он не хуже SkipGram
источник

FF

Futorio Franklin in Natural Language Processing
+ Вот сейчас искал эту статью
источник

AC

Alexander C in Natural Language Processing
Переслано от A K
Таблица лидеров BLURB
https://microsoft.github.io/BLURB/
источник

AC

Alexander C in Natural Language Processing
Переслано от A K
Оказывается, в майкрософте есть специальный тест для нлп в биомедицине
источник

AC

Alexander C in Natural Language Processing
никто об этом ничего не слышал ?
источник

DD

David Dale in Natural Language Processing
Почитал статью, и понял мысль авторов так: они надеюстся, что модель выучила много разных видов близостей, и все эти разнообразные близости можно из модели извлечь, используя сложение и вычитание векторов. То есть на самом деле авторы разметили пары пар слов, типа "Афины, Греция, Осло, Норвегия", и проверяли, в какой доле случаев по трём первым словам предсказывается четвёртое.
источник

IG

Ilya Gusev in Natural Language Processing
а вот сам тестовый корпус: http://www.fit.vutbr.cz/~imikolov/rnnlm/word-test.v1.txt
источник

Е

Егорка in Natural Language Processing
Ну, раз зашла об этом речь, то не подскажете пару другую кейсов, зачем это врачам? Я рассказывал врачу-исследователю о технических возможностях NLP, но зачем это в конкретно медицинской области не смог быстро придумать.
источник

IG

Ilya Gusev in Natural Language Processing
как минимум для индексации и другой авоматической обработки огромного объёма статей
источник

IG

Ilya Gusev in Natural Language Processing
можно зайти сюда и почитать названия треков: https://biocreative.bioinformatics.udel.edu/
источник

Е

Егорка in Natural Language Processing
Иными словами, действия те же, что и при обучении этих моделей: по фиксированному окну предсказать слово?
источник

DD

David Dale in Natural Language Processing
Ну вот у меня был недавно проект, где нужно было собрать базу знаний по использованию одного вещества, и я помогал извлечь из статей результаты экспериментов: людям с каким диагнозов это вещество вводили, и какой в итоге получился эффект.
источник

DD

David Dale in Natural Language Processing
Нет, предсказать слово "Норвегия" нужно сложив векторы слов "Осло" и "Греция", вычтя "Афины", и поискав ближайший вектор к получившемуся.
Саму нейронку, которая обрабатывала контекст, на этом этапе уже выкинули в топку, и использовали только таблицу эмбеддингов.
источник

Е

Егорка in Natural Language Processing
Всё догнал. Я, когда читал статью, так и подумал, но запутался с тем, как они пары слов соотносили друг с другом в датасете. Увидев датасет пару сообщений назад, я понял, что они разметили пары слов, затем декартово произведение и получили четверки слов.
источник