Телеграмм чат группы natural_language

2020 January 28

I

Ilya in Natural Language Processing

Dmitry

Увы дампы телеграма это очень плохие данные

Почему?

источник

12:35пожаловаться #1

A

Aragaer in Natural Language Processing

не сильно лучше яндексовского наверно

источник

12:36пожаловаться #2

K

Kir in Natural Language Processing

Roman Prilepskiy

и для себя (разобраться c dialogpt, сделать какой-то pet project for fun), и для работы (тут пригодится указание лицензии и/или как связаться с создателями датасета)

для dialogpt много данных нужно вообще? или можно получить результаты приятные уже на диалоге из 10к реплик?

источник

12:45пожаловаться #3

RP

Roman Prilepskiy in Natural Language Processing

Kir

для dialogpt много данных нужно вообще? или можно получить результаты приятные уже на диалоге из 10к реплик?

пока не знаю, нужно пробовать

источник

12:51пожаловаться #4

DK

Denis Kirjanov in Natural Language Processing

одс свои дампы выкладывает периодически, там есть специальный канал

источник

12:56пожаловаться #5

K

Kir in Natural Language Processing

если ОДС будете скармливать, удалите данные из канала /b сначала, пожалуйста

источник

12:57пожаловаться #6

RP

Roman Prilepskiy in Natural Language Processing

Denis Kirjanov

одс свои дампы выкладывает периодически, там есть специальный канал

Спасибо!

источник

13:39пожаловаться #7

RP

Roman Prilepskiy in Natural Language Processing

Kir

если ОДС будете скармливать, удалите данные из канала /b сначала, пожалуйста

Хорошо!

источник

13:39пожаловаться #8

V

Vanya in Natural Language Processing

Привет. В ярги предусмотрен кокой-нибудь интерфейс для удаления стоп слов после токенизации до применения правил? Нужно удалить союзы "и".

источник

19:40пожаловаться #9

V

Vanya in Natural Language Processing

Vanya

Привет. В ярги предусмотрен кокой-нибудь интерфейс для удаления стоп слов после токенизации до применения правил? Нужно удалить союзы "и".

Сделал так, может пригодится кому-нибудь еще...

from yargy.tokenizer import MorphTokenizer                                                  
                                                                                            
class MyTokenizer(MorphTokenizer):                                                          
    def __init__(self, stop_words):                                                         
        super(MyTokenizer, self).__init__()                                                 
                                                                                            
        self.stop_words = stop_words                                                        
                                                                                            
    def __call__(self, text):                                                               
        tokens = MorphTokenizer.__call__(self, text)                                        
                                                                                            
        for token in tokens:                                                                
            if token.value.lower() not in stop_words:                                       
                yield token                                                                 
                                                                                            
stop_words = ['но', 'и']                                                                    
t = MyTokenizer(stop_words)                                                                 
print([(_.value, _.span) for _ in t('Нефть и газ, но не снег')])

источник

22:37пожаловаться #10

2020 January 29

AA

Aleksandr Aksarin in Natural Language Processing

Здравствуйте. Подскажите, нет ли чего получше чем natasha для доставания ФИО из текста? Бесплатного. А то похоже наташа уже не развивается и не всё определяет правильно.

источник

14:34пожаловаться #11

D

Dmitry in Natural Language Processing

Просто допишите правила! )

источник

14:36пожаловаться #12

V

Vlad in Natural Language Processing

Или как минимум обновите её словари с ФИО)

источник

14:57пожаловаться #13

AM

Aleksandr Mester in Natural Language Processing

Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо

источник

16:41пожаловаться #14

VI

Vitaly Ivanin in Natural Language Processing

А кто-нибудь шарит в NTP и вероятностной логике?
1. Насколько хорошо это работает?
2. Может есть под рукой обзорный материал по NTP? (по вероятностной логике смотрел видос, но если есть наводка на статьи про применение её в нейросетях - буду признателен за ссылочку )
3. Есть идея заюзать эти подходы в RL, чтобы агент мог проверять истинность высказываний эксперементируя со средой. Есть ли статьи об этом?

источник

17:15пожаловаться #15

АЧ

Александр Чернятьев in Natural Language Processing

Aleksandr Mester

Добрый день. Есть задача распарсить дерево заголовков и подзаголовков в пдф документах. При этом шрифты, формат и форма в документах может быть разная. Может кто-нибудь работал с подобными задами и подсказать решение подобного рода задач? Стоит ли пытаться определять заголовки методами НЛП? Или есть мысль пытаться распознавать, что это заголовок по изображению. Спасибо

мы использовали tet-lib для похожей задачи. Чаще всего документ содержит разметку, так что заголовки и подзаголовки в явном виде можно извлечь

источник

17:57пожаловаться #16

G

George in Natural Language Processing

Всем привет, есть задача: поиск близких по контексту документов в базе1 для каждого документа из базы2. Есть два подхода:
1.)Берём предобученную модель w2v на русском корпусе, переводим документы из обеих баз в вектора. Далее ищем для каждого документа в базе2 близкий по контексту из базы1.
2. База1 в пять раз больше базы2, обучаем d2v модель на базе1 и ищем для каждого документа из базы2 ближайший в базе1.
Вопросы:
1)Корректен ли второй подход?
2)Порекомендуйте модель под русский корпус?
3)Есть ли ещё варианты решения задачи и какой из них лучше?

источник

17:59пожаловаться #17

AM

Aleksandr Mester in Natural Language Processing

Александр Чернятьев

мы использовали tet-lib для похожей задачи. Чаще всего документ содержит разметку, так что заголовки и подзаголовки в явном виде можно извлечь

Вроде как с явной разметкой все плохо, потому и всплыл такой вопрос

источник

18:02пожаловаться #18

2020 January 30

AF

Alexander Fedorenko in Natural Language Processing

George

Всем привет, есть задача: поиск близких по контексту документов в базе1 для каждого документа из базы2. Есть два подхода:
1.)Берём предобученную модель w2v на русском корпусе, переводим документы из обеих баз в вектора. Далее ищем для каждого документа в базе2 близкий по контексту из базы1.
2. База1 в пять раз больше базы2, обучаем d2v модель на базе1 и ищем для каждого документа из базы2 ближайший в базе1.
Вопросы:
1)Корректен ли второй подход?
2)Порекомендуйте модель под русский корпус?
3)Есть ли ещё варианты решения задачи и какой из них лучше?

Многое зависит от размера ваших баз.
Если они небольшие, то вы можете спокойно использовать либо gensim, либо ,bigArtm, для построения системы индексов, начиная от tf-idf, LSI, если побольше то и LDA стоит использовать
В зависимости от того какую близость вы ищете (многозначительно получилось), то и используйте те или инные индексы по отдельности или через их суперпозицию.
Если вы ищете по ключевым словам, где они чаще встречаются, то лучше tf-idf, если нужно, чтобы и синонимы учитывались - то ищите по индексу LSI (LDA - оно лучше себя показывает на большей коллекции, чем LSI и наоборот)

источник

00:09пожаловаться #19

KK

Katja Kolos in Natural Language Processing

коллеги, а поделитесь опытом, чем вы предпочитаете делать лемматизацию для русского и почему

источник

12:31пожаловаться #20