Size: a a a

Natural Language Processing

2020 May 30

D

Daniil in Natural Language Processing
Ну или еще проще: через функцию shift, сдвигающую вектор наблюдений на одну строку:
df['regress'] = (df['IPG2211A2N'].shift() / df['IPG2211A2N']) < 1
источник

IS

Ivan Sheynin in Natural Language Processing
Так то про всякий пандас и вообще питон лучше на русском разделе Stackoverflow спрашивать, там быстро отвечают
источник

IS

Ivan Sheynin in Natural Language Processing
А так да, shift рулит
источник

DB

Demios Bellator in Natural Language Processing
Спасибо Вам))
источник
2020 June 01

VS

Vladimir Shebunyaev in Natural Language Processing
Народ подскажите почему pymystem3 так медленно работает
источник

D(

David (ddale) Dale in Natural Language Processing
Vladimir Shebunyaev
Народ подскажите почему pymystem3 так медленно работает
возможно, потому что в ним в пачке идёт бинарник для классификации POS каждого слова в зависимости от контекста, а в бинарнике толстый деревянный ансамбль, насколько я помню, плюс фичи там какие-то до-нейронные и оттого очень многомерные
источник

DK

Denis Kirjanov in Natural Language Processing
не, дело в питонской обвязке, если напрямую из консоли запускать, все сильно быстрее будет
источник

AK

Anton Kazennikov in Natural Language Processing
еще проблема может быть в создании объекта Mystem при каждом вызове
источник

VS

Vladimir Shebunyaev in Natural Language Processing
Нашел проблему. Это было из за запуска на винде на убунте в 10 раз быстрее
источник

AY

Alexey Yurasov in Natural Language Processing
все у винды не так
источник

S

Sergei in Natural Language Processing
Guys, вы встречали какие-нибудь годные гайды по превоночальному исследованию корпуса текстов?
Хочу получить инсайты, хотел бы поподробнее понять, какие инструменты для этого есть
источник
2020 June 02

A

Anastasia in Natural Language Processing
Дорогие коллеги,

Мы проводим соревнование WebNLG Challenge по генерации текста и семантическому парсингу на данных Semantic Web. Все, кому интересно поучаствовать, присоединяйтесь!

Соревнование включает в себя две задачи:
1. Генерация текста из триплетов RDF (RDF-триплеты -> текст)
2. Семантический парсинг (текст -> RDF-триплеты)

Языки: английский и русский

Участники могут выбирать задачу/язык, для которого разрабатывается модель.

Вы можете скачать данные без обязательного участия в соревновании.

Подробности на официальной странице соревнования:
https://webnlg-challenge.loria.fr/challenge_2020/
источник

R

Rishi in Natural Language Processing
Carlos A.
Hi everyone,

I have a >7000 dataset of bibliographic records from a domain-specific search I did in Scopus.
My goal is to group these data (all titles + abstracts) in a meaningful way.

My question is:

Do you recommend me any SOTA framework, workflow, pipeline, article, book, or tutorial, to perform this task?

Moreover, I have several doubts:

(1) I already tried CountVec + HDP, LSI, LDA with GENSIM, and LDA was good enough.
However with TF-IDF + NMF it was "coherent", too.
So, how I justify the use of any of these combinations: e.g., CountVec + LDA or TF-IDF + NMF
Is CountVec or TF-IDF only proper for some of these methods but not all ?

(2) If instead of a BOW approach I use embeddings, are there appropriate combinations whereas some others are not?
For example, Word2Vec + LDA? But not SentVec + NMF?

(3) Finally, are any of these approaches (BOW or embeddings) more appropriate for a specific clustering technique (e.g., BOW + K-Means, embeddings + affinity propagation)?
Moreover, would it be appropriate to perform Topic Modeling in each cluster?
If so, which combination would be appropriate in this case?

I am writing an article, and as you know, reviewers are very picky, and that's why I am very detailed.
I hope my questions make sense.
If you have any advice, I would really appreciate it!

Thank you!

Carlos.
Everything is empirical when we are building topic models.
One method might work for some and might not for others.
And regarding your last point, it is okay to perform topic modelling within each of the clusters as well.
источник

C

Carlos A. in Natural Language Processing
Rishi
Everything is empirical when we are building topic models.
One method might work for some and might not for others.
And regarding your last point, it is okay to perform topic modelling within each of the clusters as well.
Thank you for your feedback  Rishi!
источник

D(

David (ddale) Dale in Natural Language Processing
Всем привет!
Я хочу перевести на русский англоязычный корпус эмпатичных диалогов от Facebook Research: https://github.com/facebookresearch/EmpatheticDialogues
В связи с этим два вопроса:
1) может быть, кто-то его уже переводил? 🙂
2) какой переводчик вы бы порекомендовали по соотношению цена/качество?
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Всем привет!
Я хочу перевести на русский англоязычный корпус эмпатичных диалогов от Facebook Research: https://github.com/facebookresearch/EmpatheticDialogues
В связи с этим два вопроса:
1) может быть, кто-то его уже переводил? 🙂
2) какой переводчик вы бы порекомендовали по соотношению цена/качество?
а не хочешь сначала сделать прототип на автоматическом переводе?
источник

YB

Yuri Baburov in Natural Language Processing
автоматический перевод нынче неплохой
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
а не хочешь сначала сделать прототип на автоматическом переводе?
Так я про автоматический перевод и говорю)
источник

YB

Yuri Baburov in Natural Language Processing
а, не "какого переводчика", а "какой переводчик". дошло... :)
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
а не хочешь сначала сделать прототип на автоматическом переводе?
Или ты предлагаешь на собственной машинке модельку поднять для перевода?
Такие советы тоже принимаются, если это не слишком сложно и достаточно качественно)
источник