Телеграмм чат группы natural_language

За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?

Думаю что можно

источник

19:54пожаловаться #3

Vitaly Ivanin in Natural Language Processing

Юрий Игнатьев

В тексте не исключено появление таких чисел.

Также в тексте будет производиться поиск ФИО и Адресов, поэтому хотелось бы использовать один инструмент (Yargy).

Пока, помимо выделения попадающих в диапазон (хотя бы годов) значений дальше не продвинулся:

DATE_IN_SINGLE_INT = and_(
type('INT'),
gte(19000000),
lte(21000000)
)

Поскольку разбить на данном этапе токен на меньшие не выйдет (с Yargy познакомился недавно, поэтому могу ошибаться), то ищу другие способы решения вопроса.

мне одному кажется, что в этой постановке задача не решается без контекстной информации?
типо : "20051231 рублей" или "дата - 20051231"
я к тому, что токен - бейзд парсером это вроде не решается ( не знаю, что умеет yargy )

источник

20:36пожаловаться #4

ЮИ

Юрий Игнатьев in Natural Language Processing

Vitaly Ivanin

Контекст и точность обнаружения думаю задачи решаемые и напрямую не связанные с разбиением токена (т.е. можно будет уже впоследствии дописать предшествующие, последующие уточняющие токены в правило).

источник

20:42пожаловаться #5

Vitaly Ivanin in Natural Language Processing

ну перед тем как делить надо же понять нужно делить. энивей, про ярги не подскажу ничего увы(

источник

20:44пожаловаться #6

2020 January 09

Alexander Kukushkin in Natural Language Processing

Юрий Игнатьев

Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.

Можно определить кастомный предикат https://yargy.readthedocs.io/ru/latest/reference.html#yargy.predicates.custom , в него передать функцию, которая обрабатывает строки типа "19700101"

источник

10:59пожаловаться #7

dmitriy ushakov in Natural Language Processing

Ребят кто знает почему adressExtractor от яндекса плохо вычленяет адрес из маленьких предложений?

источник

11:58пожаловаться #8

dmitriy ushakov in Natural Language Processing

Кто то подскажет с помощью чего можно проверить схожесть двух предложений?

источник

13:30пожаловаться #9

Cookie Thief in Natural Language Processing

dmitriy ushakov

Кто то подскажет с помощью чего можно проверить схожесть двух предложений?

Схожесть в каком плане?

источник

13:31пожаловаться #10

dmitriy ushakov in Natural Language Processing

У меня есть наименование оквэда, например "продажа оргтехники и комплектующих" и есть продолжение "продажа принтера и установка", нужно понять насколько схожи эти две предложения

источник

13:46пожаловаться #11

dmitriy ushakov in Natural Language Processing

И насколько допустим делеко от наименования оквэда "покупка помидоров"

источник

13:47пожаловаться #12

David (ddale) Dale in Natural Language Processing

dmitriy ushakov

Кто то подскажет с помощью чего можно проверить схожесть двух предложений?

Быстрый-грязный способ - word mover distance поверх каких-нибудь готовых словных эмбеддингов.

источник

13:53пожаловаться #13

David (ddale) Dale in Natural Language Processing

Если нужно не просто сравнивать предложения, а быстро искать ближайших соседей, то нужно всё предложение превратить в вектор (среднее из словных эмбеддингов, либо какой-нибудь sentence encoder, типа laser), и положить эти векторы в какую-нибудь искалку соседей (типа kdtree или hnsw)

источник

13:55пожаловаться #14

Den in Natural Language Processing

а вот ещё такой вопрос - как заставить модель понимать контекст текста, детали и происходящее?

источник

14:38пожаловаться #15

dmitriy ushakov in Natural Language Processing

David (ddale) Dale

Спасибо

источник

14:51пожаловаться #16

Katharina dG in Natural Language Processing