Size: a a a

Natural Language Processing

2021 October 03

🐙

🐙 in Natural Language Processing
Теперь другой вопрос: кто каким aligner'ом пользуется для last_hidden_state -> Token.vector ? У меня есть свой велосипед для этого, хочу готовое решение.
(PS: не то, чтобы я не в курсе, про spacy-alignments, но я не понимаю, что он делает 😊 )
источник

🐙

🐙 in Natural Language Processing
ОК, я разобрался :)
источник
2021 October 04

AK

Anton Kolonin in Natural Language Processing
Приглашаем всех "сов" (ибо время Калифорнийское) на наш воркшоп:

Welcome to participate in the International Workshop on Interpretable Natural Language Processing as part of Artificial General Intelligence Conference on October 15, 2021
https://aigents.github.io/inlp/

While general conversational intelligence (GCI) can be considered one of the core aspects of AGI, the fields of AGI and NLP currently have little overlap, with few existing AGI architectures capable of comprehending natural language and nearly all NLP systems founded upon specialized, hardcoded rules and language-specific frameworks. This workshop is centered around the idea of INLP, an extension of the interpretable AI (IAI) concept to NLP; INLP allows for acquisition of natural language, comprehension of textual communications, and production of textual messages in a reasonable and transparent way. The proposed presentations regarding Link Grammar (LG), unsupervised LG learning, interpretable NLG/NLS, and sentiment mining/topic matching cover various INLP methods that may bring a greater degree of GCI to proto-AGI pipelines.

Physical attendance (watching the online webinar in a viewing room at the Hilton Garden Inn in Palo Alto) requires registration at http://agi-conf.org/2021/registration/. Virtual/online attendance is completely free of charge and requires registration at https://forms.gle/hVkackmcv6ioBsWw7. The Zoom information for virtual/online attendance will be sent to registrants (those who fill out the INLP registration form) before October 15 via the emails included in registrants’ form responses.

https://aigents.github.io/inlp/
источник

T.

Tarf .. in Natural Language Processing
Hello everyone,
I have read some papers related to improved the accuracy of pre-trained word embeddings in sentiment analysis for example this paper combined three approaches such as POS tagging , lexicon_based and word2vec/Glove word embedding in order to adress some issues occur in traditional word embedings , My questions are:
1- How they generated POS embeddings and lexicon embeddings as they meansiond in POS they generated a constant vector but it doesn’t clear how ? is it real value?
2- thay used some of lexicons for enhance sentiment information but they didn’t meansiond why they used these lexicons specifically?
3- they said after generated all vectors then will be concatenated with each othe ? Could you please clarify what is mean concatenation?
4- If some interested about improving pre-trained word embedding can we make a discussion about what is common problems in word embeddings and how can we solve , please tell me
Thanks 🙏
источник
2021 October 05

В

Валентин👾 in Natural Language Processing
Здравствуйте, подскажите пожалуйста, можно ли "дообучить" TfidfVectorizer? Допустим, показали ему корпус документов, он сформировал матрицу tf-idf, показали ему ещё несколько документов и он обновляет свою исходную матрицу, согласно этим документам, вместо того, что бы строить новую.
источник

🐙

🐙 in Natural Language Processing
Напрямую я такой функциональности в sklearn не вижу, если ручками написать, то ничего проблемного.  Храните обе матрицы tf и df и обновляйте по мере надобности.
источник

В

Валентин👾 in Natural Language Processing
а sparsity матрицы разве можно так просто обновлять?
источник

🐙

🐙 in Natural Language Processing
Если вы храните sparse матрицы, то зависит от формата. Некоторые буквально созданы для того, чтобы по координатам обновлять значения. Словарь у вас фиксированный же всё равно будет.
источник

DD

David Dale in Natural Language Processing
Если есть задача обрабатывать токены, которых не было в обучающей выборке, я бы рекомендовал использовать HashingVectorizer. Там нет взвешивания по частоте и иногда бывают коллизии, зато там в принципе не бывает токенов out-of-vocabulary, потому что нет vocabulary. Особенно хорошо работает с character ngrams, на куче задач типа классификации токсичности заходил на ура
источник

В

Валентин👾 in Natural Language Processing
да, HashingVectorizer тоже сейчас рассматриваю, но хотелось бы именно дообучить tf-idf
источник

🐙

🐙 in Natural Language Processing
Вообще, есть подозрение, что можно в принципе ограничиваться вектором (n_terms, 1), в котором обновляем df; tf мы всё равно считаем с документа. А дальше в формулу два числа подставили и вот наш tfidf
источник

В

Валентин👾 in Natural Language Processing
ну да, как вариант
источник

RI

Radmir Ibragimov in Natural Language Processing
Нейросетевые методы в обработке естественного языка
Йоав Гольдберг

Год: 2019
Язык: русский 🇷🇺

#книга #нейросети #rus
источник

Miss Очепятка... in Natural Language Processing
А подскажите, где можно прочитать про трансформеры?  На которых GPT-3 работает? Что это такое и с чем его едят.
источник

SD

Sergey Dulikov in Natural Language Processing
источник

BZ

Boris Zubarev in Natural Language Processing
источник

OP

Oleg Polivin in Natural Language Processing
мне вот эта серия объяснений трансформеров нравится:
https://elvissaravia.substack.com/p/learn-about-transformers-a-recipe
источник

AK

Anton Kolonin in Natural Language Processing
YouTube
Татьяна Шаврина – про языковые модели и Институт Сильного ИИ (AGI) | Диалоги об ИИ #3
«Диалоги об ИИ» – серия бесед с представителями русскоязычного мира искусственного интеллекта.

В этом выпуске мы побеседовали с Татьяной Шавриной, руководителем команды разработчиков языковых моделей в Сбере. А еще Татьяна работает в новом Институте Сильного Интеллекта (AGI) Сбера, о котором пока мало что известно, и, пользуясь случаем, мы расспросили и про него тоже))
Про язык и модели, про Сильный интеллект и как его делать, про управление командой и как работается в Сбере — обо всем этом в  новом выпуске Диалогов об ИИ!

Ведущий – Игорь Пивоваров, директор по данным и аналитике, главный аналитик ЦК НТИ «Искусственный интеллект» на базе МФТИ

Пятая открытая конференция по искусственному интеллекту OpenTalks.AI-2022:
https://clck.ru/XuC4v  Специальные условия для Early Birds! только до 11.11

Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ:
https://ai.mipt.ru/

Альманах "Искусственный интеллект":
https://clck.ru/XuBy8 – Вышел новый выпуск "Аппаратное обеспечение для ИИ"!

Телеграм…
источник

АЗ

Андрей Зимницкий... in Natural Language Processing
Всем привет
источник

АЗ

Андрей Зимницкий... in Natural Language Processing
подскажите, пожалуйста, с чего начать изучение nlp?
источник