Телеграмм чат группы natural_language_processing страница 431

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 October 04

OS

Oleg Serikov in Natural Language Processing

Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?

opencorpora вроде вполне золотая, если сконвертировать теги

источник

22:28пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

opencorpora вроде вполне золотая, если сконвертировать теги

там всё ещё только морфология и POS?

источник

23:19пожаловаться #2

YB

Yuri Baburov in Natural Language Processing

opencorpora вроде вполне золотая, если сконвертировать теги

@kirdin и пишет в https://habr.com/ru/company/sberbank/blog/418701/, что даже теги тяжело (если вообще возможно) конвертировать, и что у них не получилось.
ну, мне кажется, надо какой-то механизм хорошей автоматической конвертации придумывать или ещё лучше две разные головы для тренировки разных корпусов делать. в spacy вроде не очень легко network surgery делать, но я как-нибудь покопаю.

Изучаем синтаксические парсеры для русского языка

Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксичес...

источник

23:22пожаловаться #3

2019 October 05

OS

Oleg Serikov in Natural Language Processing

там всё ещё только морфология и POS?

а, кажется угу(

источник

12:56пожаловаться #4

2019 October 06

I🍵

Iván 🍵 in Natural Language Processing

David (ddale) Dale

Спикеры в приоритете 😄
Но и слушатели тоже, особенно если вы придёте не просто так, а со своим диалоговым pet project'ом или готовностью примкнуть к чужому)

А какие проекты уже есть?

источник

16:06пожаловаться #5

D(

David (ddale) Dale in Natural Language Processing

А какие проекты уже есть?

В духе "делаю бота/навык для {любая приятная или полезная фигня}".
В прошлый раз, например, одна команда делала ассистента для поваров фастфуда; другая - бота-дашборд (рассказывающий про значения всяких метрик); ещё одна - переносила в бота какую-то ролевую игру.

источник

16:37пожаловаться #6

m

mel kaye in Natural Language Processing

насколько сильно связано мышление и язык?

источник

16:38пожаловаться #7

I🍵

Iván 🍵 in Natural Language Processing

David (ddale) Dale

В духе "делаю бота/навык для {любая приятная или полезная фигня}".
В прошлый раз, например, одна команда делала ассистента для поваров фастфуда; другая - бота-дашборд (рассказывающий про значения всяких метрик); ещё одна - переносила в бота какую-то ролевую игру.

Я бы приджойнился к кому-то, если заранее примерно понятно, что ботать

источник

16:38пожаловаться #8

I🍵

Iván 🍵 in Natural Language Processing

Знаю основные штуки в НЛП

источник

16:39пожаловаться #9

I🍵

Iván 🍵 in Natural Language Processing

Ботов никогда не писал

источник

16:39пожаловаться #10

D(

David (ddale) Dale in Natural Language Processing

Я бы приджойнился к кому-то, если заранее примерно понятно, что ботать

Проекты можно в чате обсудить https://t.me/botcamp2019
Ботную матчасть в целом - можно посмотреть https://www.notion.so/cointegrated/8323b225508842b184a14d295f3d0074

источник

16:40пожаловаться #11

I🍵

Iván 🍵 in Natural Language Processing

David (ddale) Dale

Проекты можно в чате обсудить https://t.me/botcamp2019
Ботную матчасть в целом - можно посмотреть https://www.notion.so/cointegrated/8323b225508842b184a14d295f3d0074

Отлично! Вольюсь :)
Как писал ВК, давно уже хотел

источник

16:40пожаловаться #12

D

Denis in Natural Language Processing

Друзья, помогите, пожалуйста, осилить сборку токенов в numpy 😬 Я с ним толком не работал и никак не могу сообразить как правильно сделать.
Суть в том, что есть конвертация датасета в в npz, но там чтение файла идёт не построчно, а целиком в память. Я хочу сделать построчное чтение, но никак не могу сообразить как при обходе строк получить тот же итоговый результат.

Пример выложил тут:
https://colab.research.google.com/drive/17Ljr2XD2WF2p6FUO3IcTKKYvsAMijh5c

Google Colaboratory

источник

19:42пожаловаться #13

D

Denis in Natural Language Processing

если я некорреткно как-то задал вопрос - пните меня в нужном направлении, а то совсем ничего по теме не могу найти, почти что рандомно тыкаю сейчас(

источник

19:56пожаловаться #14

V

Vlad in Natural Language Processing

если я некорреткно как-то задал вопрос - пните меня в нужном направлении, а то совсем ничего по теме не могу найти, почти что рандомно тыкаю сейчас(

Вы хотите читать .npz файл построчно, но что бы в результате получился такой же массив, как при чтении этого файла сразу за раз?

источник

21:21пожаловаться #15

D

Denis in Natural Language Processing

Вы хотите читать .npz файл построчно, но что бы в результате получился такой же массив, как при чтении этого файла сразу за раз?

не совсем )
сейчас логика такая: читается файл датасета целиком (где записаны построчно предложения), затем они прогоняются через энкодер и конвертируются в numpy массив, а потом записыаются в npz

я хочу читать файл датасета построчно, прогонять каждую строку энкодером отдельно и конкантеновать их через numpy, а потом точно также записать результат в npz

трабл как раз в том (в колабе видно это), что в результате получаются разные npz файлы (содержимое test_2 отличается от reference)

источник

22:01пожаловаться #16

2019 October 07

AK

Alexander Kukushkin in Natural Language Processing

О, спасибо. Сравнение непубличное? Можем публичное сделать?

Пока не публиковал, возможно в будущем оформлю.

Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?

Я тестировал только на ru_syntagrus-ud-test.conllu

источник

03:24пожаловаться #17

DK

Denis Kirjanov in Natural Language Processing

Alexander Kukushkin

Пока не публиковал, возможно в будущем оформлю.

Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?

Я тестировал только на ru_syntagrus-ud-test.conllu

А лучше этого датасета все равно пока ничего нет, так что публикуйте смело

источник

10:06пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

А лучше этого датасета все равно пока ничего нет, так что публикуйте смело

Ну, с одной стороны готового ничего лучше нет, с другой стороны получается сильно смещённое сравнение, всё же из одного датасета сплит делали.

источник

14:10пожаловаться #19

2019 October 08

B

Brenoritvrezorkre in Natural Language Processing

Мало ли тут всё-таки знают, хотя оффтоп. Про определение используемой модальности в тексте.

источник

12:13пожаловаться #20