Size: a a a

Natural Language Processing

2021 February 28

RS

Roman Samarev in Natural Language Processing
Alexander C
Вот знаешь оба слова рыцарь - ride ; но не приходит в голову, что связаны.
А есть ли русских слов список заимствованных из европейских, достаточно употребительных, и скажем известных ребенку ? Чтобы это помогало ребенку учить аглийский скажем.
Во многих списках заимствованных слов - большинство слов, это типа инсайдер, дилер и прочая ерунда которая достаточно специализирована и детям не извествна.
Ну если нет, то сложно ли его составить.
Есть словари иностранных слов. Есть толково-этимологические словари. А есть ещё и историческая морфология языка. Морфология каждого конкретного языка с правилами, свойственными этому языку.
источник

ЭЗ

Эмиль Зиляев... in Natural Language Processing
коллеги, кто-нибудь использовал deepspeed в колабе?
источник

ЭЗ

Эмиль Зиляев... in Natural Language Processing
тут возникают трудности
источник

BS

Bogdan Salyp in Natural Language Processing
При установке? Или использовании
источник

L

Lalashka in Natural Language Processing
Всем привет!
У меня есть модель BERT для классификации предложений на положительно и отрицательно окрашенные. Вопрос такой: как можно узнать, на какие именно слова обращает внимание BERT, когда выдаёт предсказание?
Например, в предложении «Это отличное кино» слово «отличное», очевидно, послужит своеобразным маячком для того, чтобы отнести это предложение к положительным. Так вот, есть ли способ выделять такие слова-маячки?
источник

CT

Cookie Thief in Natural Language Processing
Lalashka
Всем привет!
У меня есть модель BERT для классификации предложений на положительно и отрицательно окрашенные. Вопрос такой: как можно узнать, на какие именно слова обращает внимание BERT, когда выдаёт предсказание?
Например, в предложении «Это отличное кино» слово «отличное», очевидно, послужит своеобразным маячком для того, чтобы отнести это предложение к положительным. Так вот, есть ли способ выделять такие слова-маячки?
Аттеншен мапы визуализировать
источник

SancheZz Мов in Natural Language Processing
Cookie Thief
Аттеншен мапы визуализировать
Плюсую в инете есть мануалы
источник

SancheZz Мов in Natural Language Processing
На буржуйском)
источник

VR

Vladimir R in Natural Language Processing
Можно ссылку?
источник

VR

Vladimir R in Natural Language Processing
Кстати какие есть самые лучшие решения для построения чат бота? Кто что использовал, и что сейчас качает в теории? Интересует так же возможность продвинутых функций общения: формировать базу знаний, в том числе относительно пространственно-временного контекста, проявление интереса к собеседнику, задавать вопросы, обсуждать известный набор знаний. Уточнять знания посредством дискуссии.

Я понимаю, что есть определённый набор моделей, которые в основном работают как seq2seq, на основе введённого запроса пользователя и некого собранного контекста общения. Есть готовые базовые решения, которые можно взять за основу и не делать с нуля? Какие у них возможности? Где взять датасет? Что вообще сейчас есть, если вот завтра начать с нуля?
источник

SancheZz Мов in Natural Language Processing
Vladimir R
Кстати какие есть самые лучшие решения для построения чат бота? Кто что использовал, и что сейчас качает в теории? Интересует так же возможность продвинутых функций общения: формировать базу знаний, в том числе относительно пространственно-временного контекста, проявление интереса к собеседнику, задавать вопросы, обсуждать известный набор знаний. Уточнять знания посредством дискуссии.

Я понимаю, что есть определённый набор моделей, которые в основном работают как seq2seq, на основе введённого запроса пользователя и некого собранного контекста общения. Есть готовые базовые решения, которые можно взять за основу и не делать с нуля? Какие у них возможности? Где взять датасет? Что вообще сейчас есть, если вот завтра начать с нуля?
Вы тут почти все юзабельное описали. Обычно подход ии+сценарии работает, а если добавить контекстуальности в рамках диалогов еще лучше, а если в кандидаты для ответа дать еще варианты от гтп2/3 еще веселее
источник

SancheZz Мов in Natural Language Processing
Vladimir R
Кстати какие есть самые лучшие решения для построения чат бота? Кто что использовал, и что сейчас качает в теории? Интересует так же возможность продвинутых функций общения: формировать базу знаний, в том числе относительно пространственно-временного контекста, проявление интереса к собеседнику, задавать вопросы, обсуждать известный набор знаний. Уточнять знания посредством дискуссии.

Я понимаю, что есть определённый набор моделей, которые в основном работают как seq2seq, на основе введённого запроса пользователя и некого собранного контекста общения. Есть готовые базовые решения, которые можно взять за основу и не делать с нуля? Какие у них возможности? Где взять датасет? Что вообще сейчас есть, если вот завтра начать с нуля?
Из коробки есть куча платформ решений,аля реплика аи - о ней есть на ютубе видео
источник

SancheZz Мов in Natural Language Processing
Vladimir R
Можно ссылку?
источник

SancheZz Мов in Natural Language Processing
Vladimir R
Можно ссылку?
источник

D

Danila Milovanov in Natural Language Processing
Всем привет. Какие-то есть реализации doc2vec с возможностью обучения на GPU?
источник

АК

Александр Календарев... in Natural Language Processing
Danila Milovanov
Всем привет. Какие-то есть реализации doc2vec с возможностью обучения на GPU?
Gensim + pytorch
источник

D

Danila Milovanov in Natural Language Processing
А можно чуть поподробнее пожалуйста. Документация возможно есть или статья?
источник

VR

Vladimir R in Natural Language Processing
В гугл можно найти кучу, главное поместить туда фразу выше
источник

SP

Sebastian Pereira in Natural Language Processing
Коллеги, а кто как решает вопрос суммаризации больших и сверхбольших документов? У трансформеров ограничение по количеству входных токенов, когда делаешь «каскадом» суммаризацию или сумаризацию после LDA выходит не слишком результат.
источник

SP

Sebastian Pereira in Natural Language Processing
Думаю над каким-то воплощением «сверх-контекста» для больших документов.
источник