Size: a a a

Natural Language Processing

2021 November 29

MB

Mark Baushenko in Natural Language Processing
Спасибо большое
источник

MB

Mark Baushenko in Natural Language Processing
Чем лучше всего на токсик и не токсик размечать
источник

d

dePuff in Natural Language Processing
Мне всегда это было проще представить как задачу перевода

Я про работу T5

А префиксами можем научить на нужное переводить 😅
источник

MB

Mark Baushenko in Natural Language Processing
Недавно в нлп, бенчмарков особо не знаю
источник

MB

Mark Baushenko in Natural Language Processing
Да, я видел что ее для перефраз использует через перевод
источник

MB

Mark Baushenko in Natural Language Processing
На обоих языках
источник

d

dePuff in Natural Language Processing
Я бы это назвал, что с помощью перевода готовят данные для обучения
источник

d

dePuff in Natural Language Processing
Но одна модель может и парафразить и переводить на английский и у t5 это в теории можно префиксами разрулить
источник

VS

Verbitskiy Sergey in Natural Language Processing
Добрый день. Скажите, пожалуйста, если кто знает, существует ли датасет с цитатами достаточно известных философов / политиков / писателей на русском языке. Должен содержать текст цитаты и имя автора. Задача - классификация авторов по стилю изложения, то есть выборка должна быть вполне репрезентативной (минимум 10-15 цитат на автора). В corus ничего подобного не нашел. Желательно, чтобы текст был нормализован, с минимум пунктуацией. Буду благодарен за любые ответы.
источник

DD

David Dale in Natural Language Processing
Можно попарсить из https://citaty.info
источник

🐙

🐙 in Natural Language Processing
источник

VS

Verbitskiy Sergey in Natural Language Processing
спасибо!
источник

RR

Rufina Rafikova in Natural Language Processing
Всем привет! Анонсирую завтрашний вебинар НТР&HITs Томского Государственного Университета :)

В марте у нас уже был вебинар Дмитрия Зубарева, исследовательский центр IBM Алмаден, про поиск новых материалов с помощью нейронных сетей. Оля Кононова, ныне работающая в Roviant Sciences, на ближайшем научно-техническом вебинаре НТР& HITs планирует обсуждать проект, над которым она работала в Калифорнийском университете в Беркли.  Обработав к ~ 5 млн научных статей, они собрали набор данных из ~ 70 тыс. реакций синтеза керамики, принадлежащих к различным типам и использовали этот набор данных для исследования условий синтеза распространенных классов материалов. Это важно не только и не столько ради синтеза керамики, сколько ради своей методологической части - извлечение нетривиальной специализированной информации из текстов.

Когда: 30 ноября 2021, 16:00 MCK (20:00 по Томску)
Спикер: Оля Кононова, Ройвант Саенсес, Нью-Йорк, США
Тема: Обучение машинному синтезу путем автоматического чтения миллионов научных публикаций
Где:  Zoom. Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215991698/WN_OumeP-LFSVi2AcwPHZm8Rw
источник

YC

Yury Chernyshov in Natural Language Processing
Всем добрый день! Кто-нибудь сталкивался с невозможностью установить punkt для nltk? nltk.download('punkt') возвращает "104. connection refused by peer".
источник

Eg

Elena gisly in Natural Language Processing
а вручную получается его скачать (http://www.nltk.org/nltk_data/)?
источник

YC

Yury Chernyshov in Natural Language Processing
Вручную да. stackoverflow советует качать, unzip, скопировать руками. Но это какой то костыль по моему, нет?
источник

MB

Mark Baushenko in Natural Language Processing
У меня всегда без проблем качается
источник

Eg

Elena gisly in Natural Language Processing
А через wget или что-нибудь такое?
источник

ВЧ

Василий Чесалов... in Natural Language Processing
А другие ресурсы nltk качаются? Что-нибудь из списка nltk.download('popular')?
источник

YC

Yury Chernyshov in Natural Language Processing
Нет. Везде одинаковое поведение.
источник