Size: a a a

Natural Language Processing

2020 February 12

V

Viktor in Natural Language Processing
мне бы еще хотелось точно узнать как оно было в бою тоже
источник

VB

Vladimir Bougay in Natural Language Processing
Viktor
мне бы еще хотелось точно узнать как оно было в бою тоже
Обратись к ним если интерес не праздный, сделают консалтинг
источник

D(

David (ddale) Dale in Natural Language Processing
Alexander Kukushkin
Есть опыт сжатия обычных эмбедингов https://github.com/natasha/navec . Там используется квантизация, с fasttext можно так же но логика сложнее
Наконец дошли руки попробовать квантизацию с fasttext.
Работает отлично, логика вообще не усложнилась.
Чтобы не копипастить код квантизованных объектов из навека, хочу дописать туда три строчки https://github.com/natasha/navec/pull/1
источник
2020 February 13

A

Alexander in Natural Language Processing
Ребят такой вопрос. Читаю про bert distill. Пишут что обучение до 60% быстрее чем bert. Но я не смог найти на сколько быстрее будет он на тестовых данных, после обучения. Никто не знает?
источник

AK

Alexander Kukushkin in Natural Language Processing
David (ddale) Dale
Наконец дошли руки попробовать квантизацию с fasttext.
Работает отлично, логика вообще не усложнилась.
Чтобы не копипастить код квантизованных объектов из навека, хочу дописать туда три строчки https://github.com/natasha/navec/pull/1
Было бы интересно посмотреть код для квантизации fasttext. Какое получилось сжатие, на сколько хуже качество и скорость. Думаю о том чтобы добавить fasttext в navec. Сам немного скептически отношусь к fasttext и не использую, но люди точно спросят почему нет поддержки
источник

A

Alex in Natural Language Processing
Alex
день добрый всем… может кто подскажет в какую сторону копать - у меня есть куча документов в каждом из которых описаны характеристики каких-то обьектов (каких не известно) - например, в одном написано /мы провели тестирование с таким то котлом и его температура оказалась слишком высокой при таких-то условиях эксперимента/. Хотелось бы из каждого документа извлечь пары типа /котел: высокая температура/ итд
Я какую-то глупость спросил? :) Наверное :)
источник

K

Kir in Natural Language Processing
Alex
Я какую-то глупость спросил? :) Наверное :)
нет, мы похожую задачу начинали решать, потом у нас ее забрали.
пробовали разные NER подходы, начали с правил Ярги, т.к. было известно заранее что-то.
у нас была потребность извлекать оборудование и то, что с ним случилось.
насколько мне известно, далее ребята разметили все под spacy и с помощью него доставали оборудование и происшествия.
источник

K

Kir in Natural Language Processing
Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(
источник

ПМ

Павел Максимов in Natural Language Processing
берешь program-y от keiffster, пишешь на AIML (расширение xml) категории паттернов и темплейтов, запускаешь бота:)
источник

D

Dmitry in Natural Language Processing
Kir
Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(
Ага, паттерн мэтчинг в языке с хорошим паттерн мэтчингом )
источник

D

Dmitry in Natural Language Processing
Dmitry
Ага, паттерн мэтчинг в языке с хорошим паттерн мэтчингом )
В Scala например или в Rust
источник

D

Dmitry in Natural Language Processing
Это удобнее ифов
источник

ПМ

Павел Максимов in Natural Language Processing
Kir
Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(
у меня был достаточно "разухабистый" сценарий, я прямо на AIML реализовал стек хранимых топиков, чтобы бот помнил, о чем говорили, за что получил от тимлидера фидбек в стиле "не кодер, а проктолог":)
источник

YB

Yuri Baburov in Natural Language Processing
Alexander Kukushkin
Было бы интересно посмотреть код для квантизации fasttext. Какое получилось сжатие, на сколько хуже качество и скорость. Думаю о том чтобы добавить fasttext в navec. Сам немного скептически отношусь к fasttext и не использую, но люди точно спросят почему нет поддержки
fasttext штука полезная: скажем, вот есть тексты после ASR или OCR с опечатками и ошибками, вот и как их потом распознавать/классифицировать без char-ngrams?
источник

AK

Alexander Kukushkin in Natural Language Processing
Yuri Baburov
fasttext штука полезная: скажем, вот есть тексты после ASR или OCR с опечатками и ошибками, вот и как их потом распознавать/классифицировать без char-ngrams?
Угу, принимается. Мне просто не приходится работать с опечатками.  В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например,  с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn
источник

ZP

Z P in Natural Language Processing
Alexander Kukushkin
Угу, принимается. Мне просто не приходится работать с опечатками.  В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например,  с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn
Я делал поиск синонимов с помощью w2v вроде корректно работает)
источник

ZP

Z P in Natural Language Processing
А fasttext есть для ЯП c#
источник

ZP

Z P in Natural Language Processing
?
источник

V

Vlad in Natural Language Processing
Alexander Kukushkin
Угу, принимается. Мне просто не приходится работать с опечатками.  В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например,  с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn
У меня та же проблема с word2vec была. Решилось лемматизацией слов перед созданием модели (мне не надо было переводить вектора обратно в слова, классификация текста)
источник

V

Vlad in Natural Language Processing
Для лемматизации pymorphy2[fast] использовал
источник