Size: a a a

Natural Language Processing

2019 October 04

OS

Oleg Serikov in Natural Language Processing
Yuri Baburov
Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?
opencorpora вроде вполне золотая, если сконвертировать теги
источник

YB

Yuri Baburov in Natural Language Processing
Oleg Serikov
opencorpora вроде вполне золотая, если сконвертировать теги
там всё ещё только морфология и POS?
источник

YB

Yuri Baburov in Natural Language Processing
Oleg Serikov
opencorpora вроде вполне золотая, если сконвертировать теги
@kirdin и пишет в https://habr.com/ru/company/sberbank/blog/418701/, что даже теги тяжело (если вообще возможно) конвертировать, и что у них не получилось.
ну, мне кажется, надо какой-то механизм хорошей автоматической конвертации придумывать или ещё лучше две разные головы для тренировки разных корпусов делать. в spacy вроде не очень легко network surgery делать, но я как-нибудь покопаю.
источник
2019 October 05

OS

Oleg Serikov in Natural Language Processing
Yuri Baburov
там всё ещё только морфология и POS?
а, кажется угу(
источник
2019 October 06

I🍵

Iván 🍵 in Natural Language Processing
David (ddale) Dale
Спикеры в приоритете 😄
Но и слушатели тоже, особенно если вы придёте не просто так, а со своим диалоговым pet project'ом или готовностью примкнуть к чужому)
А какие проекты уже есть?
источник

D(

David (ddale) Dale in Natural Language Processing
Iván 🍵
А какие проекты уже есть?
В духе "делаю бота/навык для {любая приятная или полезная фигня}".  
В прошлый раз, например, одна команда делала ассистента для поваров фастфуда; другая - бота-дашборд (рассказывающий про значения всяких метрик); ещё одна - переносила в бота какую-то ролевую игру.
источник

m

mel kaye in Natural Language Processing
насколько сильно связано мышление и язык?
источник

I🍵

Iván 🍵 in Natural Language Processing
David (ddale) Dale
В духе "делаю бота/навык для {любая приятная или полезная фигня}".  
В прошлый раз, например, одна команда делала ассистента для поваров фастфуда; другая - бота-дашборд (рассказывающий про значения всяких метрик); ещё одна - переносила в бота какую-то ролевую игру.
Я бы приджойнился к кому-то, если заранее примерно понятно, что ботать
источник

I🍵

Iván 🍵 in Natural Language Processing
Знаю основные штуки в НЛП
источник

I🍵

Iván 🍵 in Natural Language Processing
Ботов никогда не писал
источник

D(

David (ddale) Dale in Natural Language Processing
Iván 🍵
Я бы приджойнился к кому-то, если заранее примерно понятно, что ботать
Проекты можно в чате обсудить https://t.me/botcamp2019
Ботную матчасть в целом - можно посмотреть https://www.notion.so/cointegrated/8323b225508842b184a14d295f3d0074
источник

I🍵

Iván 🍵 in Natural Language Processing
David (ddale) Dale
Проекты можно в чате обсудить https://t.me/botcamp2019
Ботную матчасть в целом - можно посмотреть https://www.notion.so/cointegrated/8323b225508842b184a14d295f3d0074
Отлично! Вольюсь :)
Как писал ВК, давно уже хотел
источник

D

Denis in Natural Language Processing
Друзья, помогите, пожалуйста, осилить сборку токенов в numpy 😬 Я с ним толком не работал и никак не могу сообразить как правильно сделать.
Суть в том, что есть конвертация датасета в в npz, но там чтение файла идёт не построчно, а целиком в память. Я хочу сделать построчное чтение, но никак не могу сообразить как при обходе строк получить тот же итоговый результат.

Пример выложил тут:
https://colab.research.google.com/drive/17Ljr2XD2WF2p6FUO3IcTKKYvsAMijh5c
источник

D

Denis in Natural Language Processing
если я некорреткно как-то задал вопрос - пните меня в нужном направлении, а то совсем ничего по теме не могу найти, почти что рандомно тыкаю сейчас(
источник

V

Vlad in Natural Language Processing
Denis
если я некорреткно как-то задал вопрос - пните меня в нужном направлении, а то совсем ничего по теме не могу найти, почти что рандомно тыкаю сейчас(
Вы хотите читать .npz файл построчно, но что бы в результате получился такой же массив, как при чтении этого файла сразу за раз?
источник

D

Denis in Natural Language Processing
Vlad
Вы хотите читать .npz файл построчно, но что бы в результате получился такой же массив, как при чтении этого файла сразу за раз?
не совсем )
сейчас логика такая: читается файл датасета целиком (где записаны построчно предложения), затем они прогоняются через энкодер и конвертируются в numpy массив, а потом записыаются в npz

я хочу читать файл датасета построчно, прогонять каждую строку энкодером отдельно и конкантеновать их через numpy, а потом точно также записать результат в npz

трабл как раз в том (в колабе видно это), что в результате получаются разные npz файлы (содержимое test_2 отличается от reference)
источник
2019 October 07

AK

Alexander Kukushkin in Natural Language Processing
Yuri Baburov
О, спасибо. Сравнение непубличное? Можем публичное сделать?
Пока не публиковал, возможно в будущем оформлю.

Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?

Я тестировал только на ru_syntagrus-ud-test.conllu
источник

DK

Denis Kirjanov in Natural Language Processing
Alexander Kukushkin
Пока не публиковал, возможно в будущем оформлю.

Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?

Я тестировал только на ru_syntagrus-ud-test.conllu
А лучше этого датасета все равно пока ничего нет, так что публикуйте смело
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
А лучше этого датасета все равно пока ничего нет, так что публикуйте смело
Ну, с одной стороны готового ничего лучше нет, с другой стороны получается сильно смещённое сравнение, всё же из одного датасета сплит делали.
источник
2019 October 08

B

Brenoritvrezorkre in Natural Language Processing
Мало ли тут всё-таки знают, хотя оффтоп. Про определение используемой модальности в тексте.
источник