Size: a a a

Natural Language Processing

2020 February 16

D

Denis in Natural Language Processing
надо нормально сделать, но не ясно где время найти для такого и тех, кто поможет на старте допилить до какого-то унифицированного решения (я могу на полпути забить из-за завала задач...)
источник

D

Denis in Natural Language Processing
идеально было бы это всё в докер-контейнер завернуть, чтоб дать ему 2 волюма input и output и через переменные окружения выставить то, что нужно запустить
источник

YB

Yuri Baburov in Natural Language Processing
я могу мейнтейнить, в принципе, т.е. принимать патчи или говорить, что подправить. ну и архитектуру помочь сделать нормальную.
источник

D

Denis in Natural Language Processing
о, это здорово) можно попробовать обсудить это вдвоем (или создать отдельный чат/гитхаб оргу, если будут ещё желающие)
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
я для русского себе сделал по-быстрому
Мне нужен для русского. Текст после ocr но высокого качества. Опечаток крайне мало.
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
я для русского себе сделал по-быстрому
А что делал? У меня как раз ситуация, что датасет есть.
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Shulga
А что делал? У меня как раз ситуация, что датасет есть.
я сделал на fasttext такую модель:
given 7 words -> what is punctuation after 4th word
учил в режиме word bigrams + char 3-5grams
источник

D

Denis in Natural Language Processing
Выложил свой сборник для препроцессинга вместе с идеями: https://github.com/TextDatasetCleaner/TextDatasetCleaner

Буду рад если кто-нибудь присоеденится, чтоб сделать из этого полноценное решение для всех :) Зачем каждому свое пилить, если можно унифицировать и объеденить общие труды в одном месте?
источник

AG

Andrew Grigorev in Natural Language Processing
Знакомый доводил до ума препроцессор Википедии на который все в статьях ссылаются. Говорит там говна вагон и маленькая тележка.
источник

YB

Yuri Baburov in Natural Language Processing
Andrew Grigorev
Знакомый доводил до ума препроцессор Википедии на который все в статьях ссылаются. Говорит там говна вагон и маленькая тележка.
Надо использовать mediawiki парсер, рендерить html (и выполнять Lua), тогда оно будет нормально выглядеть. Поэтому можно использовать выгрузку из kiwix и cirrussearch, и дальше уже пройтись стандартным пайплайном для HTML-страниц (или текста для Cirrus search). Типа textdatasetcleaner, ага
источник
2020 February 17

EE

Evgeny Emelyanov in Natural Language Processing
Всем привет! Ищу решение для такой задачи: нужно из произвольного текста вытаскивать рецепт блюда (если он там есть) в виде массива ингредиентов, их количества и шагов приготовления. Юзкейс: человек фотографирует страницу кулинарной книги, распознаётся текст, рецепт сохраняется уже в структурированном виде. Пока смотрю в сторону Томита-парсера и Yargy. Я не эксперт и даже не профильный разработчик, так что решил спросить совета у знающих людей, чтобы не пойти по тупиковому пути.
источник

А

Александр in Natural Language Processing
По этой теме даже есть видео на ютубе, где именно занимаются вытаскиванием рецепта. С помощью yargy емнип
источник

EE

Evgeny Emelyanov in Natural Language Processing
Да, видел этот пример в репозитории yargy. Наверное даже вопрос в том, что стоит ли идти по пути парсера или всё же ml.
источник

AB

ANT Berezhnyi in Natural Language Processing
Всем привет, подскажите плиз,
Нужно розбить на предложения руский текст. 30Гб.
Желательно скриптами под WIN10/CMD/PS.
Накрайняк питон.
источник

FF

Futorio Franklin in Natural Language Processing
ANT Berezhnyi
Всем привет, подскажите плиз,
Нужно розбить на предложения руский текст. 30Гб.
Желательно скриптами под WIN10/CMD/PS.
Накрайняк питон.
источник

AB

ANT Berezhnyi in Natural Language Processing
Спасиб
источник

YB

Yuri Baburov in Natural Language Processing
под виндовс razdel почему-то очень сильно тормозил!
так что можешь посмотреть страницу https://github.com/natasha/razdel — там в бенчмарке есть список альтернативных реализаций.
источник
2020 February 18

NG

Never Give up in Natural Language Processing
Hell can non russian join you!
источник

A

Alex in Natural Language Processing
Never Give up
Hell can non russian join you!
You can, if messages in Russian is ok for you
источник

D

Dmitry in Natural Language Processing
Never Give up
Hell can non russian join you!
источник