Size: a a a

Natural Language Processing

2017 September 01

-

- in Natural Language Processing
Сару с Сандерс тоже разделило
источник

AK

Alexander Kukushkin in Natural Language Processing
угу
источник

-

- in Natural Language Processing
Вчера нашел либу для сравнения методом косинусов, который агностичен к языку вообще. Но там резальтаты вообще не очень. Что похожие тексты не дают выше 0.4 схожести, что непохожие в том же пределе на основе  одинаковых новостей из ленты и медузы
источник

-

- in Natural Language Processing
Я так понимаю без МЛ толком сравнивать тексты сложно
источник

AK

Alexander Kukushkin in Natural Language Processing
Можно посмотреть решения и обсуждения https://www.kaggle.com/c/quora-question-pairs , одно из них https://www.youtube.com/watch?v=CBslNI9jNoE
источник

-

- in Natural Language Processing
ну тут да, описаны названия алгоритмов что они используют для распознавания похожих вопросов
источник

-

- in Natural Language Processing
я вчера полдня шерстил по запросу text similarity
источник

-

- in Natural Language Processing
Все выходит в то что статика не подходит, надо учить МЛ, находить большие размеченые корпуса
источник

-

- in Natural Language Processing
и тренировать
источник

-

- in Natural Language Processing
А я в этих высоких материях вообще ноль
источник

-

- in Natural Language Processing
Я уже думаю свой велосипед сгородить, токенизировать статью, нормализовать и по каждому слову проходить словарем синонимов и смотреть на вторую сравниваемую статью. Но это дикий бред, даже если отсеять все стоп-слова и прочий хлам
источник

AK

Alexander Kukushkin in Natural Language Processing
Техас я поправил. Сара Сандерс разъединилось потому что Сара женсткого рода, а Сандерс мужского. С иностранными именами вообще сложно
источник

V

Vlad in Natural Language Processing
Alexander Kukushkin
Можете рассказать какие команды выполняли. Я пробовал pip install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha и python setup.py. Вроде всё работает, first.txt устанавливался.
я выполнял просто
pip3 install -U git+https://github.com/bureaucratic-labs/natasha

попробовал теперь:
pip3 install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha
cd src/natasha
python3 setup.py

ошибка:
usage: setup.py [global_opts] cmd1 [cmd1_opts] [cmd2 [cmd2_opts] ...]
  or: setup.py —help [cmd1 cmd2 ...]
  or: setup.py —help-commands
  or: setup.py cmd —help

error: no commands supplied
источник

AK

Alexander Kukushkin in Natural Language Processing
Наверное, вам лучше подождать, когда текущая версия будет оттестирована  и выложена в виде пакета.
источник

DV

Dima Veselov in Natural Language Processing
Vlad
я выполнял просто
pip3 install -U git+https://github.com/bureaucratic-labs/natasha

попробовал теперь:
pip3 install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha
cd src/natasha
python3 setup.py

ошибка:
usage: setup.py [global_opts] cmd1 [cmd1_opts] [cmd2 [cmd2_opts] ...]
  or: setup.py —help [cmd1 cmd2 ...]
  or: setup.py —help-commands
  or: setup.py cmd —help

error: no commands supplied
ещё можно сделать cd src/natasha && pip install -e .
источник

V

Vlad in Natural Language Processing
Dima Veselov
ещё можно сделать cd src/natasha && pip install -e .
спасибо, заработало!
кстати, а когда ждать пакета?
источник

V

Vlad in Natural Language Processing
-
Я уже думаю свой велосипед сгородить, токенизировать статью, нормализовать и по каждому слову проходить словарем синонимов и смотреть на вторую сравниваемую статью. Но это дикий бред, даже если отсеять все стоп-слова и прочий хлам
вот сравнение различных методов оценки семантической близости
http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

а какой размер датасета?
источник

-

- in Natural Language Processing
Датасета для тренировки нет, но это дело более-менее поправимое — не так уж и долго руками пройтись по новостям на 3-4 разных сайтах и выделить одни и те же, либо из агрегаторов взять. Моя проблема в том что я не умею в машоб, поэтому хочу как-то обойтись классическими алогритмами.
Применение — все то же: сравнивать короткие новостные ленты и объединять новости по теме.
источник

V

Vlad in Natural Language Processing
-
Датасета для тренировки нет, но это дело более-менее поправимое — не так уж и долго руками пройтись по новостям на 3-4 разных сайтах и выделить одни и те же, либо из агрегаторов взять. Моя проблема в том что я не умею в машоб, поэтому хочу как-то обойтись классическими алогритмами.
Применение — все то же: сравнивать короткие новостные ленты и объединять новости по теме.
http://www.paraphraser.ru
здесь есть датасет, а теперь еще и готовый API с методом оценки близости
источник

-

- in Natural Language Processing
источник