Телеграмм чат группы natural_language

Сару с Сандерс тоже разделило

12:27пожаловаться #1

AK

угу

12:28пожаловаться #2

-

Вчера нашел либу для сравнения методом косинусов, который агностичен к языку вообще. Но там резальтаты вообще не очень. Что похожие тексты не дают выше 0.4 схожести, что непохожие в том же пределе на основе одинаковых новостей из ленты и медузы

12:30пожаловаться #3

-

Я так понимаю без МЛ толком сравнивать тексты сложно

12:30пожаловаться #4

AK

Can you identify question pairs that have the same intent?

Можно посмотреть решения и обсуждения https://www.kaggle.com/c/quora-question-pairs , одно из них https://www.youtube.com/watch?v=CBslNI9jNoE

Kaggle

Quora Question Pairs

12:33пожаловаться #5

-

ну тут да, описаны названия алгоритмов что они используют для распознавания похожих вопросов

12:34пожаловаться #6

-

я вчера полдня шерстил по запросу text similarity

12:35пожаловаться #7

-

Все выходит в то что статика не подходит, надо учить МЛ, находить большие размеченые корпуса

12:35пожаловаться #8

-

и тренировать

12:35пожаловаться #9

-

А я в этих высоких материях вообще ноль

12:36пожаловаться #10

-

Я уже думаю свой велосипед сгородить, токенизировать статью, нормализовать и по каждому слову проходить словарем синонимов и смотреть на вторую сравниваемую статью. Но это дикий бред, даже если отсеять все стоп-слова и прочий хлам

12:39пожаловаться #11

AK

Техас я поправил. Сара Сандерс разъединилось потому что Сара женсткого рода, а Сандерс мужского. С иностранными именами вообще сложно

13:14пожаловаться #12

V

Alexander Kukushkin

Можете рассказать какие команды выполняли. Я пробовал pip install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha и python setup.py. Вроде всё работает, first.txt устанавливался.

я выполнял просто
pip3 install -U git+https://github.com/bureaucratic-labs/natasha

попробовал теперь:
pip3 install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha
cd src/natasha
python3 setup.py

ошибка:
usage: setup.py [global_opts] cmd1 [cmd1_opts] [cmd2 [cmd2_opts] ...]
or: setup.py —help [cmd1 cmd2 ...]
or: setup.py —help-commands
or: setup.py cmd —help

error: no commands supplied

16:18пожаловаться #13

AK

Наверное, вам лучше подождать, когда текущая версия будет оттестирована и выложена в виде пакета.

Dima Veselov in Natural Language Processing

16:24пожаловаться #14

DV

Vlad

я выполнял просто
pip3 install -U git+https://github.com/bureaucratic-labs/natasha

попробовал теперь:
pip3 install -e git+https://github.com/bureaucratic-labs/natasha.git#egg=natasha
cd src/natasha
python3 setup.py

ошибка:
usage: setup.py [global_opts] cmd1 [cmd1_opts] [cmd2 [cmd2_opts] ...]
or: setup.py —help [cmd1 cmd2 ...]
or: setup.py —help-commands
or: setup.py cmd —help

error: no commands supplied

ещё можно сделать cd src/natasha && pip install -e .

17:52пожаловаться #15

V

Dima Veselov

ещё можно сделать cd src/natasha && pip install -e .

спасибо, заработало!
кстати, а когда ждать пакета?

18:29пожаловаться #16

V

-

Я уже думаю свой велосипед сгородить, токенизировать статью, нормализовать и по каждому слову проходить словарем синонимов и смотреть на вторую сравниваемую статью. Но это дикий бред, даже если отсеять все стоп-слова и прочий хлам

вот сравнение различных методов оценки семантической близости
http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

а какой размер датасета?

18:40пожаловаться #17

-

Датасета для тренировки нет, но это дело более-менее поправимое — не так уж и долго руками пройтись по новостям на 3-4 разных сайтах и выделить одни и те же, либо из агрегаторов взять. Моя проблема в том что я не умею в машоб, поэтому хочу как-то обойтись классическими алогритмами.
Применение — все то же: сравнивать короткие новостные ленты и объединять новости по теме.

18:45пожаловаться #18

V

-

Датасета для тренировки нет, но это дело более-менее поправимое — не так уж и долго руками пройтись по новостям на 3-4 разных сайтах и выделить одни и те же, либо из агрегаторов взять. Моя проблема в том что я не умею в машоб, поэтому хочу как-то обойтись классическими алогритмами.
Применение — все то же: сравнивать короткие новостные ленты и объединять новости по теме.

http://www.paraphraser.ru
здесь есть датасет, а теперь еще и готовый API с методом оценки близости

19:00пожаловаться #19

-