Телеграмм чат группы natural_language

возможно, потому что в ним в пачке идёт бинарник для классификации POS каждого слова в зависимости от контекста, а в бинарнике толстый деревянный ансамбль, насколько я помню, плюс фичи там какие-то до-нейронные и оттого очень многомерные

источник

00:39пожаловаться #6

Denis Kirjanov in Natural Language Processing

не, дело в питонской обвязке, если напрямую из консоли запускать, все сильно быстрее будет

источник

10:48пожаловаться #7

Anton Kazennikov in Natural Language Processing

еще проблема может быть в создании объекта Mystem при каждом вызове

источник

11:19пожаловаться #8

Vladimir Shebunyaev in Natural Language Processing

Нашел проблему. Это было из за запуска на винде на убунте в 10 раз быстрее

источник

11:50пожаловаться #9

Alexey Yurasov in Natural Language Processing

все у винды не так

источник

11:57пожаловаться #10

Sergei in Natural Language Processing

Guys, вы встречали какие-нибудь годные гайды по превоночальному исследованию корпуса текстов?
Хочу получить инсайты, хотел бы поподробнее понять, какие инструменты для этого есть

источник

22:17пожаловаться #11

2020 June 02

Anastasia in Natural Language Processing

Дорогие коллеги,

Мы проводим соревнование WebNLG Challenge по генерации текста и семантическому парсингу на данных Semantic Web. Все, кому интересно поучаствовать, присоединяйтесь!

Соревнование включает в себя две задачи:
1. Генерация текста из триплетов RDF (RDF-триплеты -> текст)
2. Семантический парсинг (текст -> RDF-триплеты)

Языки: английский и русский

Участники могут выбирать задачу/язык, для которого разрабатывается модель.

Вы можете скачать данные без обязательного участия в соревновании.

Подробности на официальной странице соревнования:
https://webnlg-challenge.loria.fr/challenge_2020/

источник

13:55пожаловаться #12

Rishi in Natural Language Processing

Carlos A.

Hi everyone,

I have a >7000 dataset of bibliographic records from a domain-specific search I did in Scopus.
My goal is to group these data (all titles + abstracts) in a meaningful way.

My question is:

Do you recommend me any SOTA framework, workflow, pipeline, article, book, or tutorial, to perform this task?

Moreover, I have several doubts:

(1) I already tried CountVec + HDP, LSI, LDA with GENSIM, and LDA was good enough.
However with TF-IDF + NMF it was "coherent", too.
So, how I justify the use of any of these combinations: e.g., CountVec + LDA or TF-IDF + NMF
Is CountVec or TF-IDF only proper for some of these methods but not all ?

(2) If instead of a BOW approach I use embeddings, are there appropriate combinations whereas some others are not?
For example, Word2Vec + LDA? But not SentVec + NMF?

(3) Finally, are any of these approaches (BOW or embeddings) more appropriate for a specific clustering technique (e.g., BOW + K-Means, embeddings + affinity propagation)?
Moreover, would it be appropriate to perform Topic Modeling in each cluster?
If so, which combination would be appropriate in this case?

I am writing an article, and as you know, reviewers are very picky, and that's why I am very detailed.
I hope my questions make sense.
If you have any advice, I would really appreciate it!

Thank you!

Carlos.

Everything is empirical when we are building topic models.
One method might work for some and might not for others.
And regarding your last point, it is okay to perform topic modelling within each of the clusters as well.

источник

20:21пожаловаться #13

Carlos A. in Natural Language Processing

Rishi

Thank you for your feedback Rishi!

источник

20:22пожаловаться #14

David (ddale) Dale in Natural Language Processing

Всем привет!
Я хочу перевести на русский англоязычный корпус эмпатичных диалогов от Facebook Research: https://github.com/facebookresearch/EmpatheticDialogues
В связи с этим два вопроса:
1) может быть, кто-то его уже переводил? 🙂
2) какой переводчик вы бы порекомендовали по соотношению цена/качество?

источник

21:56пожаловаться #15

Yuri Baburov in Natural Language Processing

David (ddale) Dale

а не хочешь сначала сделать прототип на автоматическом переводе?

источник

22:00пожаловаться #16

Yuri Baburov in Natural Language Processing

автоматический перевод нынче неплохой

источник

22:00пожаловаться #17

David (ddale) Dale in Natural Language Processing

Yuri Baburov

а не хочешь сначала сделать прототип на автоматическом переводе?

Так я про автоматический перевод и говорю)

источник

22:00пожаловаться #18

Yuri Baburov in Natural Language Processing

а, не "какого переводчика", а "какой переводчик". дошло... :)

источник

22:01пожаловаться #19

David (ddale) Dale in Natural Language Processing

Yuri Baburov

а не хочешь сначала сделать прототип на автоматическом переводе?

Или ты предлагаешь на собственной машинке модельку поднять для перевода?
Такие советы тоже принимаются, если это не слишком сложно и достаточно качественно)

источник

22:01пожаловаться #20