Телеграмм чат группы nlp

Всем привет! Я преподаю в Алматы Казахстан КБТУ, для ресерча нужен датасет DUC2003_Summarization_Documents. К сожалению, организаторы конфы не отвечают на email. Может быть у кого нить есть эти данные?

источник

22:38пожаловаться #8

2021 June 11

MRL in NLP_RU - Natural Language Processing & Text Mining

Ребят подскажите пожалуйста кто знаком с библиотекой spacy. Пишу первую прогу с этой библиотекой по мануалу здесь https://www.kaggle.com/matleonard/text-classification
Но у меня обновленная весрия 3, в ней требуется использовать example, поэтому переписал кусок кода (само обучение таким образом):

for epoch in range(100):
    
    for batch in spacy.util.minibatch(train_data, size=2):
        for text, annotations in batch:
        
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, annotations)
        
            nlp.update([example], sgd=optimizer,  drop=0.2, losses=losses)
    print('loss: '+str(losses['textcat']))

растет loss...ошибка в коде? Пока нет четкого понимания как это работает...

источник

23:07пожаловаться #9

2021 June 15

ЕТ

Евгений Томилов... in NLP_RU - Natural Language Processing & Text Mining

Здравствуйте!
Предположим, у меня есть набор диалогов с человеком. Я хочу сделать модель, которая будет имитировать его ответы на реплики других людей. Куда мне копать, дайте наводку, пожалуйста. Я просто биостатистик и больше по табличкам.

источник

00:29пожаловаться #10

2021 June 18

David Dale in NLP_RU - Natural Language Processing & Text Mining

Можно попробовать взять готовую языковую модель типа такой https://huggingface.co/Grossmend/rudialogpt3_medium_based_on_gpt2 и пофайнтюнить её на разговорах вашего человека.
Конкретный код можно погуглить по запросу "how to fine tune gpt2 on a dialogue corpus", а если ничего внятного не найдётся, то пишите сюда снова, постараюсь свой пример подготовить.

источник

23:37пожаловаться #11

ЕТ

Евгений Томилов... in NLP_RU - Natural Language Processing & Text Mining

Спасибо!

источник

23:37пожаловаться #12

2021 June 19

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining

Новый выпуск Котиков, как всегда по-субботам!
https://t.me/ccoder/84

Котики Кодят: Перезагрузка

#котикикодят #дайджест #подкаст #выпуск #9

И снова в субботу — Котики!
Девятый эпизод дайджест подкаста
«Котики Кодят» от 19 июня 2021 года.

🖇 Ссылки выпуска:
➡️ Регистрационная форма на Hiring Week от EPAM
• Windows 10 удаляет uTorrent
• Сроки окончания поддержки Microsoft Windows 10
• Чат Pro Windows, где можно обсудить последние актуальные новости про Windows
• Квантовый компьютер от IBM
• 5G смартфоны завоёвывают рынок
• Кража чипов в Гонконге!
• Красивые графики долей рынка процессоров AMD и Intel
• Hasura GraphQL Engine & SQL Server

📡 VPS "Котиков" крутится на Cloud4box. Стремительные серверы, незначительные цены, приятнейшая техподдержка! Грех не завести свой быстрый VPS!

@ccoder

источник

12:57пожаловаться #13

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining

Ребятки а есть dialog ner какой нибудь? Есть не структурный датасет из которого надо достать диалоги, просто регулярки '-' WORD не достаточно. Сюда же - если тюнить диалоговую модель(ГПТ) на можно ли так перенести стиль?

источник

16:38пожаловаться #14

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining

Всем привет!
Прочитал в блоге гугла запись Extracting Structured Data from Templatic Documents https://ai.googleblog.com/2020/06/extracting-structured-data-from.html и сам папир. Очень интересно. Кто-то видел примеры-имплементации описанной схемы?

Google AI Blog

Extracting Structured Data from Templatic Documents

Posted by Sandeep Tata, Software Engineer, Google Research Templatic documents, such as receipts, bills, insurance quotes, and others, a...

источник

18:38пожаловаться #15

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining

Vasiliy

источник

18:38пожаловаться #16

2021 June 20

Maxim Finatov in NLP_RU - Natural Language Processing & Text Mining

День добрый! Сейчас с друзьями работаем над решением проблемы совместимости форматов разных библиотек машинного обучения. (про oonx знаем, но хотим более удобное решение сделать)

Хотим глубже понять проблематику. Кто может, ответьте, пожалуйста, на 4 вопроса, например, прям здесь в чате

1) Что вы делали, когда находили предобученные веса и модель, которые подходят для решения вашей задачи, но разработаны в незнакомой для вас библиотеки машинного обучения?

2) Как часто вы переносите (переносили) предобученные веса и модели из незнакомой библиотеки машинного обучения в привычную среду (например, портировали веса готовой модели)? (укажите примерное/среднее число раз и период, например, раз в месяц)

3) Сколько рабочего времени у вас занимает перенос предобученной модели и весов из одной библиотеки машинного обучения в другую? (в часах/неделях)

4) С какими проблемами при переносе предобученных весов и моделей из одной библиотеки машинного обучения в другую вы сталкивались?

Заранее благодарю за любой ответ!

источник

15:29пожаловаться #17

2021 June 24

ID:0 in NLP_RU - Natural Language Processing & Text Mining

Ищем финтех-компании и проекты для участия в скаутинге Альфа Партнер:

- инвестиции в проект;
- возможность запуска совместного пилота на аудиторию Альфа Партнер;
- экспертиза опытной команды.

Подать заявку — на сайте.

источник

10:04пожаловаться #18

Михаил in NLP_RU - Natural Language Processing & Text Mining

Всем привет, есть таск по выделению сущностей(товар) из текста, в моем случае текст это зашумленное имя товара(к примеру "Стекло в кубах по 10шт пачка"), вопрос: как отсюда извлечь "Стекло" или "Стекло в кубах"? Пробовал использовать rutermextract(выделяет несколько сущностей, да и то не всегда точно), natasha(не всегда вообще выделяла сущности). Пожалуйста, подскажите куда копать? И возможно ли вообще выделять такие сущности?

источник

22:58пожаловаться #19

David Dale in NLP_RU - Natural Language Processing & Text Mining

Машинка может выделить практически какие угодно сущности, при условии, что их может _консистентно_ выделять человек и есть достаточно большая обучающая выборка. Всякие Берты достаточно охотно на такие задачи дообучаются.

источник

23:06пожаловаться #20