Size: a a a

Natural Language Processing

2017 April 20

AK

Alexander Kukushkin in Natural Language Processing
Прошу посмотреть предложение по улучшению способа описания грамматик в yargy https://github.com/bureaucratic-labs/yargy/issues/16
источник
2017 April 23

D

Demel in Natural Language Processing
Ребята, привет! Можно ламерский вопрос? Можете объяснить мне на пальцах, чем отличается проект Natasha от Томита-парсера от Яндекса? Хочу попробовать определять факты, но не знаю, с чего начать...
источник

EV

Egor V. in Natural Language Processing
Привет. Наташа, вроде бы, только ИС извлекает.
источник

DV

Dima Veselov in Natural Language Processing
Возможность извлекать факты будет, обязательно (хоть это и никому не нужно) А сейчас, Наташа отличается от томита-парсера, как минимум, тем, что есть частоиспользуемые правила из коробки (вообще, томита - классная, но со своими проблемами, типа общей сложности использования)
источник

NT

Nick Turusin in Natural Language Processing
Про общую сложность пожалуй самое верное
источник

AP

Andrei Popov in Natural Language Processing
А можно как-то развернуть мысль про ненужность фактов? :)
источник

D

Demel in Natural Language Processing
я правильно понимаю, что Наташа может просто найти мне в тексте даты, места и людей без необходимости писать для этого грамматики? Типа в ней они уже встроены
источник

EV

Egor V. in Natural Language Processing
Почему никому не нужна возможность извлечения фактов? Мне она необходима для ВКР, поэтому пришлось предпочесть Томиту Наташе :)
источник

D

Demel in Natural Language Processing
Andrei Popov
А можно как-то развернуть мысль про ненужность фактов? :)
да, это тоже интересует :)
источник

EV

Egor V. in Natural Language Processing
Наверно, подразумевается то, что грамматики для некоторых распространенных задач извлечения ИС уже реализованы, поэтому работает "из коробки".
источник

DV

Dima Veselov in Natural Language Processing
Andrei Popov
А можно как-то развернуть мысль про ненужность фактов? :)
Самый хороший пример это, наверное, ABBYY Compreno - технология крутая, но бизнесу она не нужна (почти). Томита-парсер, в общем-то тоже не очень нужен (за пределами яндекса, но это из-за лицензии, наверное). И в сompreno и в томита-парсере есть возможность извлекать факты (в документации томиты - это просто какой-то объект с полями https://tech.yandex.ru/tomita/doc/tutorial/concept/interpretation-docpage/, если это так, то наташа  умеет делать так же)
источник

D

Demel in Natural Language Processing
мне показалось, что у Яндекса нет ограничений на применение Томиты: https://events.yandex.ru/lib/talks/2505/
источник

DV

Dima Veselov in Natural Language Processing
В моем понимании, факт - это, например, родственные связи между персонажами книг (как умеет compreno)
источник

AP

Andrei Popov in Natural Language Processing
Dima Veselov
Самый хороший пример это, наверное, ABBYY Compreno - технология крутая, но бизнесу она не нужна (почти). Томита-парсер, в общем-то тоже не очень нужен (за пределами яндекса, но это из-за лицензии, наверное). И в сompreno и в томита-парсере есть возможность извлекать факты (в документации томиты - это просто какой-то объект с полями https://tech.yandex.ru/tomita/doc/tutorial/concept/interpretation-docpage/, если это так, то наташа  умеет делать так же)
"почти" — это правильная оговорка, о степени нужности можно спорить, но, позволю взять на себя смелость и предположить, что Вы не очень ориентируетесь в отрасли и применимости алгоритмов information extraction, если думаете, что бизнесам они не нужны ;)
источник

DV

Dima Veselov in Natural Language Processing
Возможно, для меня это просто хобби.
источник

AP

Andrei Popov in Natural Language Processing
а для меня это работа...
источник

D

Demel in Natural Language Processing
я пока что смотрю, что имеется вообще в наличии для обработки текстов, полученных из системы распознавания речи. И вот пока не нашел ничего работающего из коробки, и чтобы без продуктов-монстров, про которые пишут "свяжитесь с нами" вместо того, чтобы просто написать ценник
источник

AP

Andrei Popov in Natural Language Processing
Demel
я пока что смотрю, что имеется вообще в наличии для обработки текстов, полученных из системы распознавания речи. И вот пока не нашел ничего работающего из коробки, и чтобы без продуктов-монстров, про которые пишут "свяжитесь с нами" вместо того, чтобы просто написать ценник
подозреваю, Вы ничего и не найдёте... обычно, распознаванием речи занимаются одни специалисты, а текстовой аналитикой — другие, два очень плохо технологически стыкующихся друг с другом процесса. в идеале нужен единый конвейер, но пока я таких решений нигде не встречал. это моё личное видение проблемы, если что :)
источник

D

Demel in Natural Language Processing
основные отличия распознанной речи от текстов, на которых многие продукты извлечения фактов работают - это, как минимум:
1. отсутствие пунктуации
2. ВСЕ слова в lowercase (@dveselov, вот тут имена и фамилии с маленькой буквы не распознаются Наташей, есть о чем подумать)
3. числа произносятся, например "двадцать пятого декабря" - это тоже не выделяется как дата
источник

D

Demel in Natural Language Processing
вот и думаю "заточить" Томиту под свою собственную грамматику или все же что-то найдется
источник