Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 April 05

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Всем привет, у меня есть массив   текстов(два -три слова) всего текстов около 1000, подается строка и нужно найти наиболее близкий класс к входной строке(несколько слов)
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
не удается извлечь числовой "смысл" из коротких текстов?
смысл заключен в языке.
типовым решением является использование предтренированных нейросетей выдающих эмбединги, которые "расширяют" смысл слов.
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
уже решил через кдтрии и берта эмбединги
источник
2021 April 06

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Привет, мб тут есть ребята которые трейнили universal sentence encoder?
источник
2021 April 07

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining
Таких, наверное, в Гугле надо искать, но есть те, кто файнтюнил sentense transformer. А какой у вас вопрос?
источник

NK

ID:0 in NLP_RU - Natural Language Processing & Text Mining
C 12 по 25 апреля приглашаем принять участие в EPAM Data Hiring Weeks!
Станьте частью команды EPAM и получите welcome-бонус в размере одного оклада.

Направления:
BigData: https://epa.ms/EPAM-BigData-HiringWeek-apr
Data Quality: https://epa.ms/EPAM-DataQuality-HiringWeek-apr

Как подать заявку:
1. Заполните регистрационную форму и получите подтверждение;
2. Пройдите интервью и получите оффер в течение 24 часов.

Мы ценим ваше время, и эта одна из причин проведения мероприятия – не нужно долго ждать решения. После успешного прохождения интервью в течение 24 часов вам будет сделан оффер. Если вы примете его в период с 12 по 25 апреля, вы получите welcome-бонус.
источник
2021 April 08

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Привет, в нлп я околонулевой и до этого тренил фасттекст из коробки, у меня есть корпуса на которых хочу обучиться чтобы модель была способна в эмбединги, пожалуйста, может подскажите в каком направлении рыть/дадите источники как обучить USE? Заранее спасибо!
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Трансформеры хорошо работают, когда обучены на огромном количестве данных. Поэтому, если вы не сбер или гугл, вряд ли у вас хватит мощностей для нормального обучения. Берите предобученные модели, их много разных.

Для примера:
Оригинальное затраты на обучение большой GPT-3 составили 36400 петафлопс-дней, как если бы 8 штук GPU типа V100 работали 36400 суток подряд. 
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Ок, я посмотрю, но use так или иначе хочу обучить, данные есть
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Успехов)
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Насколько я знаю, гугловский оригинальный USE обучается на множество задач, среди которых есть и supervised задачи.
Вот пейпер: https://arxiv.org/abs/1803.11175
В связи с этим вопрос: а какие размеченные данные есть у вас, и на каких именно задачах вы хотите обучаться?
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
размеченных данных увы нет
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
выбор на такие модели пал из-за "простоты" фасттекста, для эмбед. предложения он просто усредняет эмбединги токенов предложения
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
вот и не понятно, что лучше фасттекста использовать, bert/use
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
А в каком вообще формате обучающие данные?
Одна из обучающих задач USE - skip-though. Для её реализации нужна последовательность предложений, т.к. суть задачи - в предсказании предложения по его соседним предложениям.
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
В целом, мне тоже обучение USE с нуля кажется очень дорогостоящей и сомнительной задачей.
Я бы рекомендовал использовать готовые sentence encoders: USE, Laser, LaBSE (это берт, пофайнтюненный на translation ranking).
Если очень-очень хочется на собственных неразмеченных данных потюниться, то я бы взял тот же LaBSE, и пофайнтюнил бы его на задачу типа next sentence prediction с hard negatives.
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Перечень строительных наименований, типа "Плита бетонная 1т, песок строительный 25кг и тд
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
И какие именно тексты будут эмбеддиться?
Перечни целиком, или отдельные наименования?
Какими свойствами хочется, чтобы эмбеддинги в итоге обладали?
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Эмбеддиться будут отдельные наименования, очень хороший вопрос про свойства, условно, хочется чтобы эмбеддинги строк "Песок кварцевый 25кг 0.3мм " и "Порошок песочный строительный 1т ГОСТ" были ближе друг к другу, чем к примеру "Стекло 15шт" или "Плита бетонная..."
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Если вам нужно по итогу иметь возможность получить сходство указанного или ранжировать как то, то я бы рекомендовал не эмбедденги как таковые, а модель которая извлекает некие атрибуты и их матчит. Посмотреть как делают это можно у Амазона , полно работ , у Али и и.л. пример https://github.com/alibaba-edu/simple-effective-text-matching
источник