Телеграмм чат группы natural_language

Добрый день. Скажите, пожалуйста, если кто знает, существует ли датасет с цитатами достаточно известных философов / политиков / писателей на русском языке. Должен содержать текст цитаты и имя автора. Задача - классификация авторов по стилю изложения, то есть выборка должна быть вполне репрезентативной (минимум 10-15 цитат на автора). В corus ничего подобного не нашел. Желательно, чтобы текст был нормализован, с минимум пунктуацией. Буду благодарен за любые ответы.

источник

12:28пожаловаться #9

David Dale in Natural Language Processing

Можно попарсить из https://citaty.info

citaty.info

Citaty.info: цитаты из любых источников

Найдите любимые цитаты или добавьте свои!

источник

12:30пожаловаться #10

🐙

🐙 in Natural Language Processing

Вот такой вариант ещё, тоже на попарсить вероятно: https://ru.wikiquote.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D1%86%D0%B8%D1%82%D0%B0%D1%82%D0%BD%D0%B8%D0%BA:%D0%9E%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5

источник

12:31пожаловаться #11

Verbitskiy Sergey in Natural Language Processing

спасибо!

источник

12:32пожаловаться #12

Rufina Rafikova in Natural Language Processing

Всем привет! Анонсирую завтрашний вебинар НТР&HITs Томского Государственного Университета :)

В марте у нас уже был вебинар Дмитрия Зубарева, исследовательский центр IBM Алмаден, про поиск новых материалов с помощью нейронных сетей. Оля Кононова, ныне работающая в Roviant Sciences, на ближайшем научно-техническом вебинаре НТР& HITs планирует обсуждать проект, над которым она работала в Калифорнийском университете в Беркли. Обработав к ~ 5 млн научных статей, они собрали набор данных из ~ 70 тыс. реакций синтеза керамики, принадлежащих к различным типам и использовали этот набор данных для исследования условий синтеза распространенных классов материалов. Это важно не только и не столько ради синтеза керамики, сколько ради своей методологической части - извлечение нетривиальной специализированной информации из текстов.

Когда: 30 ноября 2021, 16:00 MCK (20:00 по Томску)
Спикер: Оля Кононова, Ройвант Саенсес, Нью-Йорк, США
Тема: Обучение машинному синтезу путем автоматического чтения миллионов научных публикаций
Где: Zoom. Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215991698/WN_OumeP-LFSVi2AcwPHZm8Rw

Zoom Video Communications

Welcome! You are invited to join a webinar: Обучение машинному синтезу путем автоматического чтения миллионов научных публикаций. After registering, you will receive a confirmation email about joining the webinar.

Спикер: Оля Кононова, Ройвант Саенсес, Нью-Йорк, США

источник

12:48пожаловаться #13

Yury Chernyshov in Natural Language Processing

Всем добрый день! Кто-нибудь сталкивался с невозможностью установить punkt для nltk? nltk.download('punkt') возвращает "104. connection refused by peer".

источник

13:45пожаловаться #14

Elena gisly in Natural Language Processing

а вручную получается его скачать (http://www.nltk.org/nltk_data/)?

источник

14:01пожаловаться #15

Yury Chernyshov in Natural Language Processing

Вручную да. stackoverflow советует качать, unzip, скопировать руками. Но это какой то костыль по моему, нет?

источник

14:20пожаловаться #16

Mark Baushenko in Natural Language Processing

У меня всегда без проблем качается