Size: a a a

Natural Language Processing

2020 February 27

V

Vlad in Natural Language Processing
За то время, что вы пытаетесь получить тут помощь, можно было даже методом тыка это изучить, если настолько сильно надо. Заодно и опыта побольше станет, и более конкретные вопросы появятся, на которые может кто-то и сможет тут ответить, т.к. судя по всему никто всерьёз gpt-2 тут не ковырял
источник

V

Vlad in Natural Language Processing
Банально запустить у себя на CPU и дебагом пройтись, посмотреть что куда передаётся, откуда принимается и т.д.
источник

D

Den in Natural Language Processing
никто так не делает (это про transformers), вашими бы методами смертность у электриков подскочила бы
источник

V

Vlad in Natural Language Processing
про запуск на CPU тут даже думать не надо, всё уже есть: https://github.com/huggingface/transformers/blob/master/examples/run_generation.py#L187
источник

D

Den in Natural Language Processing
Vlad
Банально запустить у себя на CPU и дебагом пройтись, посмотреть что куда передаётся, откуда принимается и т.д.
пожалуйста откройте рядом пример и ту дичь и скажите мне видите ли вы разницу
источник

VB

Vladimir Boldyrev in Natural Language Processing
Ребят, есть какие нибудь группы, чаты, форумы по использованию cvat?
И какие ещё есть opensourse продукты по разметке данных, подскажите? Как для computer vision, так и для nlp
источник

OS

Oleg Serikov in Natural Language Processing
ой а что такое кват?
источник

VB

Vladimir Boldyrev in Natural Language Processing
Computer vision annotation tool
источник

MF

M F in Natural Language Processing
Vladimir Boldyrev
Ребят, есть какие нибудь группы, чаты, форумы по использованию cvat?
И какие ещё есть opensourse продукты по разметке данных, подскажите? Как для computer vision, так и для nlp
источник

MF

M F in Natural Language Processing
Еще brat есть но он старый и вряд ли лучше
источник

NK

Nikolay Karelin in Natural Language Processing
Нашей команде жутко не понравился. Правда, у нас была специфическая задача - размечали сущности из сравнительно длинных текстов, из нескольких абзацев. Так вот абзацы при разметке не показываются, что совсем неудобно.

К тому же теряются ID при загрузке/выгрузке, не полностью видна статистика между прользователями... Такое впечатление, что сильно сырое решение.

Для следующего этапа смотрим на brat или на https://towardsdatascience.com/introducing-label-studio-a-swiss-army-knife-of-data-labeling-140c1be92881 но еще не пробовали.
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Karelin
Нашей команде жутко не понравился. Правда, у нас была специфическая задача - размечали сущности из сравнительно длинных текстов, из нескольких абзацев. Так вот абзацы при разметке не показываются, что совсем неудобно.

К тому же теряются ID при загрузке/выгрузке, не полностью видна статистика между прользователями... Такое впечатление, что сильно сырое решение.

Для следующего этапа смотрим на brat или на https://towardsdatascience.com/introducing-label-studio-a-swiss-army-knife-of-data-labeling-140c1be92881 но еще не пробовали.
>Так вот абзацы при разметке не показываются, что совсем неудобно.
так можно же починить было?
источник

YB

Yuri Baburov in Natural Language Processing
в Doccano — django, куда легко подсунуть что угодно в модель и во вьюшки, и vue.js для отображения, легко берёшь и настраиваешь под себя.
я так буду делать active learning, через докидывание в модель и чтение из модели.
а в label studio меня как раз и смущает большее количество самописных частей, где, если что,  дольше разбираться, как что чинить. куча самописного кода на Flask, но вроде бы приличного...
и фронт на react, ну тоже норм.
типов моделей в LS побольше написано уже, и есть загрузка файлов.
а так в целом — примерно одно и то же.
надо будет попробовать LS что ли тоже для сравнения.
источник
2020 February 28

RB

Radion Bikmukhamedov in Natural Language Processing
всем привет! может кто-нибудь подскажет в каких случаях работает поиск сущности Transport в pullenti? согласно найденной информации в доках, это "Транспортные средства, имеющие номера, наименования и\или модели." по такой логике, слово ПОЕЗД, САМОЛЕТ тоже относится к нему. но мне не получилось ни разу заставить либу обнаружить подобную сущность в тексте, хотя пробовал с разными формулировками. Моя конечная цель — находить в тексте средства передвижения (подгружаемые из внешнего словаря). с похожей задачей поиска организаций из внешнего реестра pullenti справился
источник

ND

Nikolay Dudnik in Natural Language Processing
Доброго времени суток всем. Подскажите, может кто сталкивался с задачей keyword extraction, какие методы существуют для решения данной задачи? И есть ли решения это задачи на основе DNN?
источник

ck

cnstntn kndrtv in Natural Language Processing
Nikolay Dudnik
Доброго времени суток всем. Подскажите, может кто сталкивался с задачей keyword extraction, какие методы существуют для решения данной задачи? И есть ли решения это задачи на основе DNN?
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Dudnik
Доброго времени суток всем. Подскажите, может кто сталкивался с задачей keyword extraction, какие методы существуют для решения данной задачи? И есть ли решения это задачи на основе DNN?
Textrank обычно рекомендуют... Как DL применить тут -- не очень понятно.
источник

YB

Yuri Baburov in Natural Language Processing
У них по сути NER получился методом велосипедостроения...
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
У них по сути NER получился методом велосипедостроения...
Согласен. Идея интересная - выделять не заданные типы NERов, а нечто на что стоит обратить внимание. Как keywords. Результаты мне кажутся сомнительными, но почитать интересно.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Согласен. Идея интересная - выделять не заданные типы NERов, а нечто на что стоит обратить внимание. Как keywords. Результаты мне кажутся сомнительными, но почитать интересно.
а как ты задизайнишь целевую функцию и лосс при такой задаче?
вот не выделили слово — это потому что оно менее важное или потому что в прошлый раз рядом было другое важное слово и выделили его?
источник