Телеграмм чат группы natural_language

2020 February 12

V

Viktor in Natural Language Processing

мне бы еще хотелось точно узнать как оно было в бою тоже

источник

19:22пожаловаться #1

VB

Vladimir Bougay in Natural Language Processing

Viktor

мне бы еще хотелось точно узнать как оно было в бою тоже

Обратись к ним если интерес не праздный, сделают консалтинг

источник

19:55пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

Alexander Kukushkin

Есть опыт сжатия обычных эмбедингов https://github.com/natasha/navec . Там используется квантизация, с fasttext можно так же но логика сложнее

Наконец дошли руки попробовать квантизацию с fasttext.
Работает отлично, логика вообще не усложнилась.
Чтобы не копипастить код квантизованных объектов из навека, хочу дописать туда три строчки https://github.com/natasha/navec/pull/1

источник

22:23пожаловаться #3

2020 February 13

A

Alexander in Natural Language Processing

Ребят такой вопрос. Читаю про bert distill. Пишут что обучение до 60% быстрее чем bert. Но я не смог найти на сколько быстрее будет он на тестовых данных, после обучения. Никто не знает?

источник

06:01пожаловаться #4

AK

Alexander Kukushkin in Natural Language Processing

David (ddale) Dale

Наконец дошли руки попробовать квантизацию с fasttext.
Работает отлично, логика вообще не усложнилась.
Чтобы не копипастить код квантизованных объектов из навека, хочу дописать туда три строчки https://github.com/natasha/navec/pull/1

Было бы интересно посмотреть код для квантизации fasttext. Какое получилось сжатие, на сколько хуже качество и скорость. Думаю о том чтобы добавить fasttext в navec. Сам немного скептически отношусь к fasttext и не использую, но люди точно спросят почему нет поддержки

источник

09:44пожаловаться #5

A

Alex in Natural Language Processing

Alex

день добрый всем… может кто подскажет в какую сторону копать - у меня есть куча документов в каждом из которых описаны характеристики каких-то обьектов (каких не известно) - например, в одном написано /мы провели тестирование с таким то котлом и его температура оказалась слишком высокой при таких-то условиях эксперимента/. Хотелось бы из каждого документа извлечь пары типа /котел: высокая температура/ итд

Я какую-то глупость спросил? :) Наверное :)

источник

10:41пожаловаться #6

K

Kir in Natural Language Processing

Alex

Я какую-то глупость спросил? :) Наверное :)

нет, мы похожую задачу начинали решать, потом у нас ее забрали.
пробовали разные NER подходы, начали с правил Ярги, т.к. было известно заранее что-то.
у нас была потребность извлекать оборудование и то, что с ним случилось.
насколько мне известно, далее ребята разметили все под spacy и с помощью него доставали оборудование и происшествия.

источник

10:45пожаловаться #7

K

Kir in Natural Language Processing

Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(

источник

15:08пожаловаться #8

ПМ

Павел Максимов in Natural Language Processing

берешь program-y от keiffster, пишешь на AIML (расширение xml) категории паттернов и темплейтов, запускаешь бота:)

источник

15:10пожаловаться #9

D

Dmitry in Natural Language Processing

Kir

Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(

Ага, паттерн мэтчинг в языке с хорошим паттерн мэтчингом )

источник

15:10пожаловаться #10

D

Dmitry in Natural Language Processing

Dmitry

Ага, паттерн мэтчинг в языке с хорошим паттерн мэтчингом )

В Scala например или в Rust

источник

15:11пожаловаться #11

D

Dmitry in Natural Language Processing

Это удобнее ифов

источник

15:11пожаловаться #12

ПМ

Павел Максимов in Natural Language Processing

Kir

Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(

у меня был достаточно "разухабистый" сценарий, я прямо на AIML реализовал стек хранимых топиков, чтобы бот помнил, о чем говорили, за что получил от тимлидера фидбек в стиле "не кодер, а проктолог":)

источник

15:14пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Alexander Kukushkin

Было бы интересно посмотреть код для квантизации fasttext. Какое получилось сжатие, на сколько хуже качество и скорость. Думаю о том чтобы добавить fasttext в navec. Сам немного скептически отношусь к fasttext и не использую, но люди точно спросят почему нет поддержки

fasttext штука полезная: скажем, вот есть тексты после ASR или OCR с опечатками и ошибками, вот и как их потом распознавать/классифицировать без char-ngrams?

источник

15:17пожаловаться #14

AK

Alexander Kukushkin in Natural Language Processing

Yuri Baburov

fasttext штука полезная: скажем, вот есть тексты после ASR или OCR с опечатками и ошибками, вот и как их потом распознавать/классифицировать без char-ngrams?

Угу, принимается. Мне просто не приходится работать с опечатками. В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например, с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn

источник

15:30пожаловаться #15

ZP

Z P in Natural Language Processing

Alexander Kukushkin

Угу, принимается. Мне просто не приходится работать с опечатками. В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например, с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn

Я делал поиск синонимов с помощью w2v вроде корректно работает)

источник

17:12пожаловаться #16

ZP

Z P in Natural Language Processing

А fasttext есть для ЯП c#

источник

17:13пожаловаться #17

ZP

Z P in Natural Language Processing

?

источник

17:13пожаловаться #18

V

Vlad in Natural Language Processing

Alexander Kukushkin

Угу, принимается. Мне просто не приходится работать с опечатками. В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например, с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn

У меня та же проблема с word2vec была. Решилось лемматизацией слов перед созданием модели (мне не надо было переводить вектора обратно в слова, классификация текста)

источник

17:16пожаловаться #19

V

Vlad in Natural Language Processing

Для лемматизации pymorphy2[fast] использовал

источник

17:16пожаловаться #20