Телеграмм чат группы natural_language_processing страница 619

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1448 membersпожаловаться на группу

2020 March 10

VR

Vladimir R in Natural Language Processing

в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30 минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)

источник

11:20пожаловаться #1

И

Илюша in Natural Language Processing

в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30 минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)

спасибо. То есть будет достаточно совсем небольшого количества текстов ~ 100, и можно сделать это вручную
SpaCy - подразумевается ru2?

источник

11:32пожаловаться #2

VR

Vladimir R in Natural Language Processing

да, т.е. можно поставить spacy через pip, сделать git clone русской модели в локальную папку и загрузить модель

источник

11:47пожаловаться #3

VR

Vladimir R in Natural Language Processing

nlp = spacy.load('../../ru2')

источник

11:48пожаловаться #4

VR

Vladimir R in Natural Language Processing

посмотреть текущий пайплайн: nlp.pipeline

источник

11:48пожаловаться #5

VR

Vladimir R in Natural Language Processing

посмотреть текущий разбор:

import explacy
explacy.print_parse_info(nlp, record0.title)

источник

11:49пожаловаться #6

VR

Vladimir R in Natural Language Processing

датасет можно загрузить в виде обычного текста, делить на токены или что-то с ним делать не нужно

я даже загружал html - все равно так же работает, особенно красиво если почистить readability+html2text

источник

11:50пожаловаться #7

VR

Vladimir R in Natural Language Processing

тоже может быть полезно т.к.письма попадаются html-формата

источник

11:53пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

NER более точный я сегодня выложу. Но 2 часа учить -- это когда очень много документов. Если мало -- то это минуты, если не секунды.

источник

11:54пожаловаться #9

И

Илюша in Natural Language Processing

Спасибо за подробный ответ

источник

12:00пожаловаться #10

И

Илюша in Natural Language Processing

в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30 минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)

нашел здесь сообщение годовалой давности:

"Я кстати разочаровался в doccano, там нет перемотки к последней обработанной записи после перезагрузки страницы и нетвозможности отметить док как размеченный если в нем отсутствуют сущности"

это и сейчас так, обязательно должны быть размечены все сущности?

источник

12:12пожаловаться #11

VR

Vladimir R in Natural Language Processing

Наверное это вопрос комфорта

источник

12:13пожаловаться #12

D

Den in Natural Language Processing

Всё ещё ННП по Transformers/DistilGPT-2

источник

12:15пожаловаться #13

D

Denis in Natural Language Processing

Коллеги, я немного туплю, поэтому прошу вашей помощи - выложил код для подсчёта биграм в датасете (в рамках репозитория по очистке датасетов от мусора), но сомневаюсь что правильно частотность подсчитал: https://github.com/TextDatasetCleaner/TextDatasetCleaner/blob/master/calc_bigrams.py

У меня вот такие результаты выходят для одного из больших датасетов своих:

{0: 0.01628664484892902,
 1: 0.013040113897294026,
 2: 0.012481929944115601,
 3: 0.011101356731438373,
 4: 0.009922954480328606,
 5: 0.009922954480328606,
 6: 0.009598279155653281,
 7: 0.0090763448671802,
 8: 0.008980005753500043,
 9: 0.008980005753500043,
 10: 0.008980005753500043,
 11: 0.008980005753500043,
 12: 0.008828948351687356,
 13: 0.008828948351687356,
 14: 0.008675102197841202}

Всё правильно ведь получается?
Пардон за нубство, голова сегодня как-то криво работает.

TextDatasetCleaner/TextDatasetCleaner

Очистка текстовых датасетов от мусора. Contribute to TextDatasetCleaner/TextDatasetCleaner development by creating an account on GitHub.

источник

14:32пожаловаться #14

2020 March 12

MG

Michele Giardino in Natural Language Processing

всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст

источник

11:14пожаловаться #15

ck

cnstntn kndrtv in Natural Language Processing

Michele Giardino

всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст

IPA транскрипция есть в wictionary. У меня есть opencorpora в формате ontolex и выкачанные из викисдоваря IPA, привязанные к этим словарным статьям. Могу поделиться, только найти надо.
Но там, соответствующий источникам, бардак. Ну и не всем привычный формат ontolex, lexinfo - rdf короче, не сильно привычно для народа.

источник

11:19пожаловаться #16

MG

Michele Giardino in Natural Language Processing

IPA транскрипция есть в wictionary. У меня есть opencorpora в формате ontolex и выкачанные из викисдоваря IPA, привязанные к этим словарным статьям. Могу поделиться, только найти надо.
Но там, соответствующий источникам, бардак. Ну и не всем привычный формат ontolex, lexinfo - rdf короче, не сильно привычно для народа.

> Могу поделиться, только найти надо.
был бы очень благодарен

источник

11:23пожаловаться #17

T

Teemoor in Natural Language Processing

Мне тоже было бы интересно

источник

11:23пожаловаться #18

ck

cnstntn kndrtv in Natural Language Processing

Ок, надо найти эту работу)

источник

11:24пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

Michele Giardino

всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст

Kaldi-ru (там внутри есть), nsu ai / russian-g2p

источник

11:30пожаловаться #20