Телеграмм чат группы natural_language_processing страница 768

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1820 membersпожаловаться на группу

2020 August 07

AS

Alexander Serechenko in Natural Language Processing

Всем привет!
Подскажите, каким инструментом работать со следующей задачей:
1) Есть большая база марок и моделей транспорта (не только авто, но и водный, грузовой, аэро)
2) Есть множество очень плохо оформленных текстовых строк (natural language), где этот транспорт перечислен, при этом может быть много мусора, может быть транслит вместо английского названия, и другие ошибки, опечатки, года выпуска, …
3) Нужно в каждой строке находить эти модели, причем даже если их несколько

Сейчас работаем с nltk, но приходится все опечатки/транслит и прочие мерзости отрабатывать чуть ли не вручную, плюс получается огромный словарь, который со временем стал весить непозволительно много.

Может быть я упустил какой-то инструмент для поиска такого типа entity в тексте?
Есть какой-то готовый инструмент, который можно было бы обучить искать подобные записи с вариативностью написания?
Подскажите так же хороший туториал по построению метрики результативности в таких задачах.

источник

10:42пожаловаться #1

N

Nire in Natural Language Processing

Alexander Serechenko

Всем привет!
Подскажите, каким инструментом работать со следующей задачей:
1) Есть большая база марок и моделей транспорта (не только авто, но и водный, грузовой, аэро)
2) Есть множество очень плохо оформленных текстовых строк (natural language), где этот транспорт перечислен, при этом может быть много мусора, может быть транслит вместо английского названия, и другие ошибки, опечатки, года выпуска, …
3) Нужно в каждой строке находить эти модели, причем даже если их несколько

Сейчас работаем с nltk, но приходится все опечатки/транслит и прочие мерзости отрабатывать чуть ли не вручную, плюс получается огромный словарь, который со временем стал весить непозволительно много.

Может быть я упустил какой-то инструмент для поиска такого типа entity в тексте?
Есть какой-то готовый инструмент, который можно было бы обучить искать подобные записи с вариативностью написания?
Подскажите так же хороший туториал по построению метрики результативности в таких задачах.

Много данных?

источник

11:37пожаловаться #2

N

Nire in Natural Language Processing

Если не много, забей и найми студентов)

источник

11:37пожаловаться #3

AS

Alexander Serechenko in Natural Language Processing

много
несколько миллионов

источник

11:38пожаловаться #4

AS

Alexander Serechenko in Natural Language Processing

Если не много, забей и найми студентов)

это уже проходили)
нужна автоматика

источник

11:38пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

Alexander Serechenko

Всем привет!
Подскажите, каким инструментом работать со следующей задачей:
1) Есть большая база марок и моделей транспорта (не только авто, но и водный, грузовой, аэро)
2) Есть множество очень плохо оформленных текстовых строк (natural language), где этот транспорт перечислен, при этом может быть много мусора, может быть транслит вместо английского названия, и другие ошибки, опечатки, года выпуска, …
3) Нужно в каждой строке находить эти модели, причем даже если их несколько

Сейчас работаем с nltk, но приходится все опечатки/транслит и прочие мерзости отрабатывать чуть ли не вручную, плюс получается огромный словарь, который со временем стал весить непозволительно много.

Может быть я упустил какой-то инструмент для поиска такого типа entity в тексте?
Есть какой-то готовый инструмент, который можно было бы обучить искать подобные записи с вариативностью написания?
Подскажите так же хороший туториал по построению метрики результативности в таких задачах.

это задача NER, подходов много. нейросети работают лучше всего, но им надо много размеченных данных.

источник

12:07пожаловаться #6

SP

Sebastian Pereira in Natural Language Processing

Alexander Serechenko

это уже проходили)
нужна автоматика

Найми чтобы разметить датасет. Альтернатива - Толока от Яндекс

источник

12:09пожаловаться #7

SP

Sebastian Pereira in Natural Language Processing

Толока дороже

источник

12:09пожаловаться #8

AS

Alexander Serechenko in Natural Language Processing

Sebastian Pereira

Найми чтобы разметить датасет. Альтернатива - Толока от Яндекс

Это да, понятно

источник

12:14пожаловаться #9

AS

Alexander Serechenko in Natural Language Processing

это задача NER, подходов много. нейросети работают лучше всего, но им надо много размеченных данных.

Спасибо

источник

12:14пожаловаться #10

AS

Alexander Serechenko in Natural Language Processing

Но для обучения NER для каждой модели/строки нужен пример использования?

источник

12:15пожаловаться #11

AS

Alexander Serechenko in Natural Language Processing

А тут есть огромный список и часть моделей не будет использована никогда (примеры руками/скриптом создавать?)

источник

12:15пожаловаться #12

E

Elena in Natural Language Processing

а мне кажется, нужна программа для нормализации текста, которая бы исправляла мелкие опечатки и транслит, а потом регулярные выражения

источник

12:15пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Alexander Serechenko

Но для обучения NER для каждой модели/строки нужен пример использования?

нет, не обязательно.
напарсить данных с форумов — получить вектора.
модель NER поверх векторов будет работать с неизвестными моделями.
но дополнительные примеры для сложных случаев будут улучшать модель.

источник

12:16пожаловаться #14

E

Elena in Natural Language Processing

тренировать NER как стрелять из пушки по воробьям тут

источник

12:16пожаловаться #15

KS

Konstantin Smith in Natural Language Processing

Alexander Serechenko

Всем привет!
Подскажите, каким инструментом работать со следующей задачей:
1) Есть большая база марок и моделей транспорта (не только авто, но и водный, грузовой, аэро)
2) Есть множество очень плохо оформленных текстовых строк (natural language), где этот транспорт перечислен, при этом может быть много мусора, может быть транслит вместо английского названия, и другие ошибки, опечатки, года выпуска, …
3) Нужно в каждой строке находить эти модели, причем даже если их несколько

Сейчас работаем с nltk, но приходится все опечатки/транслит и прочие мерзости отрабатывать чуть ли не вручную, плюс получается огромный словарь, который со временем стал весить непозволительно много.

Может быть я упустил какой-то инструмент для поиска такого типа entity в тексте?
Есть какой-то готовый инструмент, который можно было бы обучить искать подобные записи с вариативностью написания?
Подскажите так же хороший туториал по построению метрики результативности в таких задачах.

Когда то давно я решал подобную задачу. В Pullenti есть специальный тип сущности - товарная позиция (GoodReferent), которая для краткого описания товара разбивает его на атрибуты (GoodAttributeReferent) - тип товара, собственное имя (если есть) с вариантами написания на кириллице-латинице, номера, модели и пр. Потом эти элементы ищутся в текстах и можно привязывать. Причём никакого обучения не надо, как и ручного задания - всё на основе морфологии и базовых правил. Там и транслитеральная замена выправляется и пр.

источник

14:28пожаловаться #16

AS

Alexander Serechenko in Natural Language Processing

а мне кажется, нужна программа для нормализации текста, которая бы исправляла мелкие опечатки и транслит, а потом регулярные выражения

nltk поэтому и используется

источник

14:50пожаловаться #17

AS

Alexander Serechenko in Natural Language Processing

проблема в том, что нужна нормализация всевозможных видов записи моделей (слитно буквы+цифры, через дефис, тире, через пробел) и учет модификаций полного написания моделей (перестановка любых составный частей местами, слитность)

источник

15:25пожаловаться #18

KS

Konstantin Smith in Natural Language Processing

Alexander Serechenko

проблема в том, что нужна нормализация всевозможных видов записи моделей (слитно буквы+цифры, через дефис, тире, через пробел) и учет модификаций полного написания моделей (перестановка любых составный частей местами, слитность)

Я это делал в Pullenti. Была задача - для интернет-магазина привязывать описания товаров в чатах к их аналогам в базе. Разумеется, написания могли сильно отличаться от канонических.

источник

15:27пожаловаться #19

AS

Alexander Serechenko in Natural Language Processing

Konstantin Smith

Я это делал в Pullenti. Была задача - для интернет-магазина привязывать описания товаров в чатах к их аналогам в базе. Разумеется, написания могли сильно отличаться от канонических.

супер!
спасибо за этот совет

источник

15:28пожаловаться #20