Size: a a a

Natural Language Processing

2019 October 10

NC

Nikolay Chudinov in Natural Language Processing
судя по тому что обычно запрашивают, там адский ад.   Если бы 80% запросов это были ошибки в названии книг, грубо говоря "Варкравдт" или тип того, то это лечится условно быстро, но тут только 20% запросов по книгам  + 15% по авторам, остальное мусор. Могут спросить книгу, которую мы не имеем в базе и пауза...
источник
2019 October 11

ss

soumitra shukla in Natural Language Processing
I want to make a torrent downloader, in python , can anyone provide me a reference to work from.....
источник

NK

Nikolay Karelin in Natural Language Processing
soumitra shukla
I want to make a torrent downloader, in python , can anyone provide me a reference to work from.....
How is it related to NLP?
источник

ss

soumitra shukla in Natural Language Processing
It isn't ,but I thought maybe someone could help me
источник

ss

soumitra shukla in Natural Language Processing
Actually I want to create something like zeronet
источник

T

Teemoor in Natural Language Processing
Nikolay Chudinov
судя по тому что обычно запрашивают, там адский ад.   Если бы 80% запросов это были ошибки в названии книг, грубо говоря "Варкравдт" или тип того, то это лечится условно быстро, но тут только 20% запросов по книгам  + 15% по авторам, остальное мусор. Могут спросить книгу, которую мы не имеем в базе и пауза...
но запросы относительно короткие же, и есть база с названиями книг
источник

T

Teemoor in Natural Language Processing
я к тому, что не вижу смысла в таких замороченных фаззи серчах как в яндексе, где кол-во возможных запросов бесконечно
источник

T

Teemoor in Natural Language Processing
не думаю что разделение слов будет достойно справляться с опечатками
источник

NC

Nikolay Chudinov in Natural Language Processing
David (ddale) Dale
Более правильный вариант - не сравнивать, а перемножать. И не абсолютные частоты, а доли (т.е. деленные на общее число слов в корпусе), возможно, как-нибудь сглаженные.
Почему это полезно: фраза, в которой все слова умеренно-частые, будет предпочтена фразе, где есть одно суперчастое слово, и одно несуществующ ее.
Почему это логично: получая вероятность фразы как произведение вероятностей слов, ты получаешь настоящую языковую модель  - наивную (слова полагаются независимыми друг от друга), но таки обладающую всеми хорошими свойствами вероятностных моделей.
Послушал тебя :)  Сейчас закину "Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген."  Словарь содержит 4 815 058 словоформ для 173 076 лемм. Словарь составлен на основе известного файла "Полная акцентуированная парадигма по Зализняку" и существенно расширен за счет таких словарей в электронном виде, как "Лопатин В.В. Полный орфографический словарь русского языка", "Словарь иностранных слов, Москва: Русский язык, 1988", "Новый толково-словообразовательный словарь русского языка. Автор Т. Ф. Ефремова. 2000 г.", "Толковый словарь под ред. C. И. Ожегова и Н.Ю.Шведовой, М., Азъ, 1992 г." и некоторых онлайн-словарей и энциклопедий. Может кому нужно будет http://www.speakrus.ru/dict/hagen-morph.rar
источник

B

Brenoritvrezorkre in Natural Language Processing
Мне интересно, здесь люди примерно какие цели себе ставят?
источник

B

Brenoritvrezorkre in Natural Language Processing
Т.е. одни чатботов просто делают, другие, наверное, проблемами автоматического перевода.
источник

A

Aragaer in Natural Language Processing
я хочу чатбота, но не хочу многогигабайтных словарей
источник

D

Dmitry in Natural Language Processing
Так и не надо
источник

B

Brenoritvrezorkre in Natural Language Processing
А я бы хотел заниматься проблемами семантики (не дистрибутивной), восстановлением грамматик по тексту, идентификацией знаковых систем больших порядков, а также рядом других базовых вещей.
источник

A

Aragaer in Natural Language Processing
ну я не сильно большой специалист, но все, что я пробовал раньше (год назад?) это были всякие GloVe огромных размеров
источник

A

Aragaer in Natural Language Processing
rasa тоже была немаленькой, а русского языка там тогда еще не было
источник

PL

Pavel Lebedev in Natural Language Processing
Brenoritvrezorkre
А я бы хотел заниматься проблемами семантики (не дистрибутивной), восстановлением грамматик по тексту, идентификацией знаковых систем больших порядков, а также рядом других базовых вещей.
Поддерживаю эти интересы. Тут для лингвистики отдельный чат создали, наверное это туда: @pro_linguistics
источник

B

Brenoritvrezorkre in Natural Language Processing
Увы, в данный момент занимаюсь робототехникой. Аспирантур по лингвистике не было.
источник

B

Brenoritvrezorkre in Natural Language Processing
А так бы очень с радостью.
источник

PL

Pavel Lebedev in Natural Language Processing
Ну так заходите.
источник