i
Size: a a a
i
GS
Entity Linkage.
Предположим у нас есть 250 000 документов. Каждый может быть от 5000 до 100 000 токенов. Таким образом датасет достаточно большой.
Сущностей всего 9 типов.
- номер документа, название, какой-то идентификатор в правовой системе в относительно свободной форме
- упоминание другого документа из корпуса
- упоминание другого документа не из корпуса (например на законодательства РФ)
- упоминание "ответственного" лица, например руководителя, который подписал приказ или инструкцию
- упоминание исполнителей приказа или инструкции
- упоминание юрлиц
- упоминание адресов
- упоминания дат "начала" (например поставок или трудового договора)
- упоминания дат "конца"
Есть разметка сущностей на 1366 документах.
Так же есть метаданные для документов. Где могут содержаться сущности, упомянутые выше, без привязки к тексту (мы знаем, что сущность в тексте должна быть, но не знаем где), известно, что как минимум в 60% случаев метаданные корректны. Однако они могут устареть, могут содержать опечатки и тд. При несовпадении сущностей из документа и метаданных корректными считаются сущности из текста документа.
2 задачи:
- для корпуса документов проверить, корректность метаданных каждого документа
- в реальном времени находить документы, которые ссылаются на документ, который мы запросили (в качестве запроса отдаём документ, в ответ получаем список документов, в которых на него есть ссылка)
GS
V
V
SS
DP
DP
GS
V
K
GS
V
SS
V
SS
SS
GS
SS
K