Size: a a a

Natural Language Processing

2020 January 08

V

Vikas in Natural Language Processing
Thank you
источник

VI

Vitaly Ivanin in Natural Language Processing
Vikas
Thank you
😉
источник

D

Dmitry in Natural Language Processing
Юрий Игнатьев
За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?
Думаю что можно
источник

VI

Vitaly Ivanin in Natural Language Processing
Юрий Игнатьев
В тексте не исключено появление таких чисел.

Также в тексте будет производиться поиск ФИО и Адресов, поэтому хотелось бы использовать один инструмент (Yargy).

Пока, помимо выделения попадающих в диапазон (хотя бы годов) значений дальше не продвинулся:

DATE_IN_SINGLE_INT = and_(
   type('INT'),
   gte(19000000),
   lte(21000000)
)

Поскольку разбить на данном этапе токен на меньшие не выйдет (с Yargy познакомился недавно, поэтому могу ошибаться), то ищу другие способы решения вопроса.
мне одному кажется, что в этой постановке задача не решается без контекстной информации?
типо : "20051231 рублей" или "дата - 20051231"
я к тому, что токен - бейзд парсером это вроде не решается ( не знаю, что умеет yargy )
источник

ЮИ

Юрий Игнатьев in Natural Language Processing
Vitaly Ivanin
мне одному кажется, что в этой постановке задача не решается без контекстной информации?
типо : "20051231 рублей" или "дата - 20051231"
я к тому, что токен - бейзд парсером это вроде не решается ( не знаю, что умеет yargy )
Контекст и точность обнаружения думаю задачи решаемые и напрямую не связанные с разбиением токена (т.е. можно будет уже впоследствии дописать предшествующие, последующие уточняющие токены в правило).
источник

VI

Vitaly Ivanin in Natural Language Processing
ну перед тем как делить надо же понять нужно делить. энивей, про ярги не подскажу ничего увы(
источник
2020 January 09

AK

Alexander Kukushkin in Natural Language Processing
Юрий Игнатьев
Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.
Можно определить кастомный предикат https://yargy.readthedocs.io/ru/latest/reference.html#yargy.predicates.custom , в него передать функцию, которая обрабатывает строки типа "19700101"
источник

du

dmitriy ushakov in Natural Language Processing
Ребят кто знает почему adressExtractor от яндекса плохо вычленяет адрес из маленьких предложений?
источник

du

dmitriy ushakov in Natural Language Processing
Кто то подскажет с помощью чего можно проверить схожесть двух предложений?
источник

CT

Cookie Thief in Natural Language Processing
dmitriy ushakov
Кто то подскажет с помощью чего можно проверить схожесть двух предложений?
Схожесть в каком плане?
источник

du

dmitriy ushakov in Natural Language Processing
У меня есть наименование оквэда, например "продажа оргтехники и комплектующих" и есть продолжение "продажа принтера и установка", нужно понять насколько схожи эти две предложения
источник

du

dmitriy ushakov in Natural Language Processing
И насколько допустим делеко от наименования оквэда "покупка помидоров"
источник

D(

David (ddale) Dale in Natural Language Processing
dmitriy ushakov
Кто то подскажет с помощью чего можно проверить схожесть двух предложений?
Быстрый-грязный способ - word mover distance поверх каких-нибудь готовых словных эмбеддингов.
источник

D(

David (ddale) Dale in Natural Language Processing
Если нужно не просто сравнивать предложения, а быстро искать ближайших соседей, то нужно всё предложение превратить в вектор (среднее из словных эмбеддингов, либо какой-нибудь sentence encoder, типа laser), и положить эти векторы в какую-нибудь искалку соседей (типа kdtree или hnsw)
источник

D

Den in Natural Language Processing
а вот ещё такой вопрос - как заставить модель понимать контекст текста, детали и происходящее?
источник

du

dmitriy ushakov in Natural Language Processing
David (ddale) Dale
Если нужно не просто сравнивать предложения, а быстро искать ближайших соседей, то нужно всё предложение превратить в вектор (среднее из словных эмбеддингов, либо какой-нибудь sentence encoder, типа laser), и положить эти векторы в какую-нибудь искалку соседей (типа kdtree или hnsw)
Спасибо
источник

Kd

Katharina dG in Natural Language Processing
Sorry if I'm interrupting a discussion or something, but is this a Russian-only group?
источник

D

Den in Natural Language Processing
not really
источник

D(

David (ddale) Dale in Natural Language Processing
Katharina dG
Sorry if I'm interrupting a discussion or something, but is this a Russian-only group?
Please look at @nlp_eng, it's a subsidiary group in English
источник

Kd

Katharina dG in Natural Language Processing
Thank you!
источник