Size: a a a

Natural Language Processing

2021 November 24

A

Andrey in Natural Language Processing
источник

МС

Миркамал Самиев... in Natural Language Processing
Кажется то что нужно. Спасибо!
источник

A

Andrey in Natural Language Processing
там есть и на spider (nlq 2 sql queries dataset). но боюсь все же это оверинжиниринг.

если заведете в ок, дайте знать)
источник

A

Alex in Natural Language Processing
[[30112], [34063], [15545, 1952], [21928, 12, 5406], [42351, 661]]

Вот такой вид имеет массив bad_words_id который подаю в модель
источник

МС

Миркамал Самиев... in Natural Language Processing
Конечно
источник

IG

Ilya Gusev in Natural Language Processing
Не выглядит, как что-то криминальное
В доках советуют делать вот так: tokenizer(bad_word, add_prefix_space=True).input_ids, возможно проблема именно в add_prefix_space
источник

IG

Ilya Gusev in Natural Language Processing
потому что
##word
и
word
всё-таки разные токены
источник

A

Alex in Natural Language Processing
Да вот ругается если add_prefix_space добавить. Got an unexpected keyword argument 'add_prefix_space'
источник

IG

Ilya Gusev in Natural Language Processing
Можно на входе prefix_space добавить. Руками, tokenizer(" " + bad_word).input_ids
источник

A

Alex in Natural Language Processing
prefix space это пробел?
источник

IG

Ilya Gusev in Natural Language Processing
Ну да, префиксный пробел. Буквально
источник

A

Alex in Natural Language Processing
Спасибо большое. Помогло!
источник

N

Nadia in Natural Language Processing
https://ws.clarin-pl.eu/paragraphs.shtml
У нас такой инструмент есть, проверяла на русском – более-менее работает. На какой лицензии надо?
источник

SS

Sergey Shulga in Natural Language Processing
О, это интересно
источник

SS

Sergey Shulga in Natural Language Processing
Исходники, так понимаю, недоступны, если хочется локально протестировать
источник

N

Nadia in Natural Language Processing
Спрошу, но завтра)
источник

I

Igor in Natural Language Processing
интересно, а какие варианты по лицензии возможны?
источник

N

Nadia in Natural Language Processing
Ну я к тому, для чего оно вам – коммерческое или нет и всё такое
источник

I

Igor in Natural Language Processing
для коммерческого использования)
источник

N

Nadia in Natural Language Processing
А напишите в лс, я спрошу тимлида завтра
источник