Size: a a a

Natural Language Processing

2020 January 28

I

Ilya in Natural Language Processing
Dmitry
Увы дампы телеграма это очень плохие данные
Почему?
источник

A

Aragaer in Natural Language Processing
не сильно лучше яндексовского наверно
источник

K

Kir in Natural Language Processing
Roman Prilepskiy
и для себя (разобраться c dialogpt, сделать какой-то pet project for fun), и для работы (тут пригодится указание лицензии и/или как связаться с создателями датасета)
для dialogpt много данных нужно вообще? или можно получить результаты приятные уже на диалоге из 10к реплик?
источник

RP

Roman Prilepskiy in Natural Language Processing
Kir
для dialogpt много данных нужно вообще? или можно получить результаты приятные уже на диалоге из 10к реплик?
пока не знаю, нужно пробовать
источник

DK

Denis Kirjanov in Natural Language Processing
одс свои дампы выкладывает периодически, там есть специальный канал
источник

K

Kir in Natural Language Processing
если ОДС будете скармливать, удалите данные из канала /b сначала, пожалуйста
источник

RP

Roman Prilepskiy in Natural Language Processing
Denis Kirjanov
одс свои дампы выкладывает периодически, там есть специальный канал
Спасибо!
источник

RP

Roman Prilepskiy in Natural Language Processing
Kir
если ОДС будете скармливать, удалите данные из канала /b сначала, пожалуйста
Хорошо!
источник

V

Vanya in Natural Language Processing
Привет. В ярги предусмотрен кокой-нибудь интерфейс для удаления стоп слов после токенизации до применения правил? Нужно удалить союзы "и".
источник

V

Vanya in Natural Language Processing
Vanya
Привет. В ярги предусмотрен кокой-нибудь интерфейс для удаления стоп слов после токенизации до применения правил? Нужно удалить союзы "и".
Сделал так, может пригодится кому-нибудь еще...

from yargy.tokenizer import MorphTokenizer                                                  
                                                                                           
class MyTokenizer(MorphTokenizer):                                                          
   def __init__(self, stop_words):                                                        
       super(MyTokenizer, self).__init__()                                                
                                                                                           
       self.stop_words = stop_words                                                        
                                                                                           
   def __call__(self, text):                                                              
       tokens = MorphTokenizer.__call__(self, text)                                        
                                                                                           
       for token in tokens:                                                                
           if token.value.lower() not in stop_words:                                      
               yield token                                                                
                                                                                           
stop_words = ['но', 'и']                                                                    
t = MyTokenizer(stop_words)                                                                
print([(_.value, _.span) for _ in t('Нефть и газ, но не снег')])
источник
2020 January 29

AA

Aleksandr Aksarin in Natural Language Processing
Здравствуйте. Подскажите, нет ли чего получше чем natasha для доставания ФИО из текста? Бесплатного. А то похоже наташа уже не развивается и не всё определяет правильно.
источник

D

Dmitry in Natural Language Processing
Просто допишите правила! )
источник

V

Vlad in Natural Language Processing
Или как минимум обновите её словари с ФИО)
источник

AM

Aleksandr Mester in Natural Language Processing
Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо
источник

VI

Vitaly Ivanin in Natural Language Processing
А кто-нибудь шарит в NTP и вероятностной логике?
1. Насколько хорошо это работает?
2. Может есть под рукой обзорный материал по NTP? (по вероятностной логике смотрел видос, но если есть наводка на статьи про применение её в нейросетях - буду признателен за ссылочку )  
3. Есть идея заюзать эти подходы в RL, чтобы агент мог проверять истинность высказываний эксперементируя со средой. Есть ли статьи об этом?
источник

АЧ

Александр Чернятьев in Natural Language Processing
Aleksandr Mester
Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо
мы использовали tet-lib  для похожей задачи. Чаще всего документ содержит разметку, так что заголовки и подзаголовки в явном виде можно извлечь
источник

G

George in Natural Language Processing
Всем привет, есть задача: поиск близких по контексту документов в базе1 для каждого документа из базы2. Есть два подхода:
1.)Берём предобученную модель w2v на русском корпусе, переводим документы из обеих баз в вектора. Далее ищем для каждого документа в  базе2 близкий по контексту из базы1.
2. База1 в пять раз больше базы2, обучаем d2v модель на базе1 и ищем для каждого документа из базы2 ближайший в базе1.
Вопросы:
1)Корректен ли второй подход?
2)Порекомендуйте модель под русский корпус?
3)Есть ли ещё варианты решения задачи и какой из них лучше?
источник

AM

Aleksandr Mester in Natural Language Processing
Александр Чернятьев
мы использовали tet-lib  для похожей задачи. Чаще всего документ содержит разметку, так что заголовки и подзаголовки в явном виде можно извлечь
Вроде как с явной разметкой все плохо, потому и всплыл такой вопрос
источник
2020 January 30

AF

Alexander Fedorenko in Natural Language Processing
George
Всем привет, есть задача: поиск близких по контексту документов в базе1 для каждого документа из базы2. Есть два подхода:
1.)Берём предобученную модель w2v на русском корпусе, переводим документы из обеих баз в вектора. Далее ищем для каждого документа в  базе2 близкий по контексту из базы1.
2. База1 в пять раз больше базы2, обучаем d2v модель на базе1 и ищем для каждого документа из базы2 ближайший в базе1.
Вопросы:
1)Корректен ли второй подход?
2)Порекомендуйте модель под русский корпус?
3)Есть ли ещё варианты решения задачи и какой из них лучше?
Многое зависит от размера ваших баз.
Если они небольшие, то вы можете спокойно использовать либо gensim, либо ,bigArtm, для построения системы индексов, начиная от tf-idf, LSI, если побольше то и LDA стоит использовать
В зависимости от того какую близость вы ищете (многозначительно получилось), то и используйте те или инные индексы по отдельности или через их суперпозицию.
Если вы ищете по ключевым словам, где они чаще встречаются, то лучше tf-idf, если нужно, чтобы и синонимы учитывались - то ищите по индексу LSI (LDA - оно лучше себя показывает на большей коллекции, чем LSI и наоборот)
источник

KK

Katja Kolos in Natural Language Processing
коллеги, а поделитесь опытом, чем вы предпочитаете делать лемматизацию для русского и почему
источник