Size: a a a

Natural Language Processing

2020 March 10

VR

Vladimir R in Natural Language Processing
в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30  минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)
источник

И

Илюша in Natural Language Processing
Vladimir R
в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30  минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)
спасибо. То есть будет достаточно совсем небольшого количества текстов ~ 100, и можно сделать это вручную
SpaCy - подразумевается ru2?
источник

VR

Vladimir R in Natural Language Processing
да, т.е. можно поставить spacy через pip, сделать git clone русской модели в локальную папку и загрузить модель
источник

VR

Vladimir R in Natural Language Processing
nlp = spacy.load('../../ru2')
источник

VR

Vladimir R in Natural Language Processing
посмотреть текущий пайплайн: nlp.pipeline
источник

VR

Vladimir R in Natural Language Processing
посмотреть текущий разбор:

import explacy
explacy.print_parse_info(nlp, record0.title)
источник

VR

Vladimir R in Natural Language Processing
датасет можно загрузить в виде обычного текста, делить на токены или что-то с ним делать не нужно

я даже загружал html - все равно так же работает, особенно красиво если почистить readability+html2text
источник

VR

Vladimir R in Natural Language Processing
тоже может быть полезно т.к.письма попадаются html-формата
источник

YB

Yuri Baburov in Natural Language Processing
NER более точный я сегодня выложу. Но 2 часа учить -- это когда очень много документов. Если мало -- то это минуты, если не секунды.
источник

И

Илюша in Natural Language Processing
Спасибо за подробный ответ
источник

И

Илюша in Natural Language Processing
Vladimir R
в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30  минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)
нашел здесь сообщение годовалой давности:

"Я кстати разочаровался в doccano, там нет перемотки к последней обработанной записи после перезагрузки страницы и нетвозможности отметить док как размеченный если в нем отсутствуют сущности"

это и сейчас так, обязательно должны быть размечены все сущности?
источник

VR

Vladimir R in Natural Language Processing
Наверное это вопрос комфорта
источник

D

Den in Natural Language Processing
Всё ещё ННП по Transformers/DistilGPT-2
источник

D

Denis in Natural Language Processing
Коллеги, я немного туплю, поэтому прошу вашей помощи - выложил код для подсчёта биграм в датасете (в рамках репозитория по очистке датасетов от мусора), но сомневаюсь что правильно частотность подсчитал: https://github.com/TextDatasetCleaner/TextDatasetCleaner/blob/master/calc_bigrams.py


У меня вот такие результаты выходят для одного из больших датасетов своих:
{0: 0.01628664484892902,
1: 0.013040113897294026,
2: 0.012481929944115601,
3: 0.011101356731438373,
4: 0.009922954480328606,
5: 0.009922954480328606,
6: 0.009598279155653281,
7: 0.0090763448671802,
8: 0.008980005753500043,
9: 0.008980005753500043,
10: 0.008980005753500043,
11: 0.008980005753500043,
12: 0.008828948351687356,
13: 0.008828948351687356,
14: 0.008675102197841202}


Всё правильно ведь получается?
Пардон за нубство, голова сегодня как-то криво работает.
источник
2020 March 12

MG

Michele Giardino in Natural Language Processing
всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст
источник

ck

cnstntn kndrtv in Natural Language Processing
Michele Giardino
всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст
IPA транскрипция есть в wictionary. У меня есть opencorpora в формате ontolex и выкачанные из викисдоваря IPA, привязанные к этим словарным статьям. Могу поделиться, только найти надо.
Но там, соответствующий источникам, бардак. Ну и не всем привычный формат ontolex, lexinfo - rdf короче, не сильно привычно для народа.
источник

MG

Michele Giardino in Natural Language Processing
cnstntn kndrtv
IPA транскрипция есть в wictionary. У меня есть opencorpora в формате ontolex и выкачанные из викисдоваря IPA, привязанные к этим словарным статьям. Могу поделиться, только найти надо.
Но там, соответствующий источникам, бардак. Ну и не всем привычный формат ontolex, lexinfo - rdf короче, не сильно привычно для народа.
> Могу поделиться, только найти надо.
был бы очень благодарен
источник

T

Teemoor in Natural Language Processing
Мне тоже было бы интересно
источник

ck

cnstntn kndrtv in Natural Language Processing
Ок, надо найти эту работу)
источник

YB

Yuri Baburov in Natural Language Processing
Michele Giardino
всем привет, скажите, пожалуйста, есть ли открытые фонемные словари для русского языка?

Имею в виду данные с парами орфографичское слово — его фонемная запись. Из подобного нашёл только ресурс Voxforge, но для русского языка соответствующий файл пуст
Kaldi-ru (там внутри есть), nsu ai / russian-g2p
источник