Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 27

dePuff in Natural Language Processing

А похожие по тексту нам выдаст метрика близости...
https://en.wikipedia.org/wiki/String_metric

Wikipedia

String metric

metric that measures the distance between two strings of text

источник

00:43пожаловаться #1

ВК

Владимир Кузовкин... in Natural Language Processing

Я подумаю еще раз над данным алгоритмом. Если данное сообщество позволит создавать бесконечное количество вопросов,то с утра задам=)))

Спасибо огромное за обучение новой темой!!!

источник

00:44пожаловаться #2

David Dale in Natural Language Processing

Я бы смотрел не на диффы между строками, а на какие-то чуть более глубокие представления текста.
Например, на какие-нибудь синтаксические деревья, ибо они при правильном сравнении могут быть для двух похожих задач практически идентичны.
Самое простое - деревья зависимостей из spacy или Наташи. А можно вообще упороться и привести тексты в какую-нибудь семантическую форму типа AMR (правда, парсеров AMR для русского пока нет).

Wikipedia

Abstract Meaning Representation

Semantic representation language

источник

00:45пожаловаться #3

dePuff in Natural Language Processing

Мне таки придётся проходить курс по графам)

источник

00:46пожаловаться #4

ВК

Владимир Кузовкин... in Natural Language Processing

тогда сразу у меня вопрос -где в вышеприведенных задачах синтакические деревья?

источник

00:50пожаловаться #5

dePuff in Natural Language Processing

Как я понял, предлагается сравнивать вот это, игнорируя средний столбик вообще.

источник

00:54пожаловаться #6

dePuff in Natural Language Processing

Выкинув несущественные части речи и т.п. (тот самый случай, когда т.п. обозначает, а глубже я и сам не знаю)

источник

00:56пожаловаться #7

ВК

Владимир Кузовкин... in Natural Language Processing

У меня такой вопрос - какой то учебник/курсы кто то может посоветовать?

источник

01:09пожаловаться #8

David Dale in Natural Language Processing

https://web.stanford.edu/~jurafsky/slp3/ - библия всея NLP, en
https://stepik.org/course/54098/syllabus – приятный курс от Самсунга по нейронкам, ru
https://stepik.org/course/1233/info - курс по донейронной компьютерной лингвистике, ru
https://lena-voita.github.io/nlp_course - курс-энкциклопедия Лены Войты, en

источник

01:12пожаловаться #9

ВК

Владимир Кузовкин... in Natural Language Processing

У меня вопрос -Лейн, Хапке, Ховард. Обработка естественного языка в действии (2020)

Хорошая книга?

источник

01:31пожаловаться #10

Edward in Natural Language Processing

Ни одна книга по АОТ, написанная англоязычными авторами, непригодна в отношении русского языка!

источник

01:33пожаловаться #11

David Dale in Natural Language Processing

Ваши рекомендации?

источник

07:29пожаловаться #12

Anton Kolonin in Natural Language Processing

Для русского есть https://www.google.com/url?sa=t&source=web&rct=j&url=http://sz.ru/parser/&ved=2ahUKEwiKrNCtrZ7zAhWLuYsKHSfdDYQQFnoECAMQAQ&usg=AOvVaw1HwzMUYScu97DB5wYuOx4S

https://www.google.com/url?sa=t&source=web&rct=j&url=https://nlpub.ru/Link_Grammar_Parser&ved=2ahUKEwiKrNCtrZ7zAhWLuYsKHSfdDYQQFnoECBsQAQ&usg=AOvVaw0Bh3TazD51EYb4wb1xp0cu

Там достаточно хорошо проработана русская морфология

источник

07:52пожаловаться #13

Anton Kolonin in Natural Language Processing

Если сочтете офтопиком, извиняюсь, но будем про разные "языки" говорить...

источник

07:55пожаловаться #14

Anton Kolonin in Natural Language Processing

Язык для AGI — требования, спецификация, реализация — Николай Рабчевский, Алекс Шкотин, Антон Колонин, Виктор Казаринов, Александр Болдачев - 30 сентября 18:00-20:30 (время Московское)

Вопросы:
Нужен ли специальный язык для программирования AGI и взаимодействия с ним и если - да, то - зачем именно?
PL, NL, CNL, CFG, CSG?
Является "внутреннее представление" - "система понятий и операционное пространство экземпляра системы AGI") предметом описания "языком" или это и есть язык?
Что есть "язык" вообще?
Как связано "внутреннее представление" с онтологиями и грамматиками?
Должно ли "внутреннее представление" отображаться на "внешние интерфейсы" в (обе стороны, по входу и выходу) и если - да, то - как?
Какова структура хранения данных (топология) "внутреннеого представления" - реляционная, графовая, гиперграфовая, метаграфовая, итд.?
Должно ли выражение меры нечеткости (вероятностности) "внутреннего представления" и "внешнего выражения" быть частью структуры и грамматики либо выражаться средствами структуры хранения и грамматики языка?
Можно ли сказать, что язык "внутреннего представления" есть "разметка" (labeling) его элементов в соответствии с неким лексиконом и форматирование в соответствии с некоторой грамматикой или все гораздо сложнее?
Является ли язык ограничителем когнитивных способностей? Допустимо ли автоформирование собственного языка внутри AGI? И чем по вашему мнению он будет отличаться от нашего языка?
Чем крут предлагаемый вами язык и в чем его особенности (без ответа на этот вопрос остальные - не актуальны)?

https://aigents.timepad.ru/event/1412596/

aigents.timepad.ru

Семинар русскоязычного сообщества AGI / События на TimePad.ru

Реинжиниринг мозга, информация и квантовая информация; почему не работает no-go теорема Пенроуза об ИИ  Александр Панов  2 декабря 18:00-20:30 (время Московское)

источник

07:55пожаловаться #15

Nick Unknown in Natural Language Processing

Всем привет, подскажите, пожалуйста
Есть датафрейм с 30к заголовков новостей, пытался сделать тематическое моделирование (Lda), но он выдаёт то повторяющиеся слова, то несуразицу. Чанки и прочие параметры крутил. Может лучше bigartm попробовать?

источник

08:55пожаловаться #16

Dima in Natural Language Processing

Подскажите пожалуйста хорошие датасеты для русского языка, синонимы, ассоциации

источник

09:08пожаловаться #17

Dmitry in Natural Language Processing

Посмотрите проект summarus

источник

09:08пожаловаться #18

Dmitry in Natural Language Processing

Ой нет, это же о саммаризации, вам тематическое моделирование...

источник

09:09пожаловаться #19

Nick Unknown in Natural Language Processing

Да, саммари не нужно. Просто там в новостях есть упоминание областей, фамилий, городов. Это можно вытащить Наташей, но вот при моделировании слово «Казахстан» почти во всех топиках

источник

09:16пожаловаться #20