Size: a a a

Natural Language Processing

2021 December 07

A

Andrey in Natural Language Processing
🤷‍♂️
источник

SS

Sergey Shulga in Natural Language Processing
Нет
источник

MB

Mark Baushenko in Natural Language Processing
Всем привет, есть куча тектов на русском языке, то иногда в них попадаются тексты на казахском и т.п. языках. Какие существуют практики выявления таких текстов?
источник

S

S.o.l. in Natural Language Processing
Детектируйте казахские буквы!
источник

S

S.o.l. in Natural Language Processing
Почти в каждом тексте на казахском есть спецсимволы - К с хвостиком, Н с хвостиком итд
источник

MB

Mark Baushenko in Natural Language Processing
спасибо
источник

S

S.o.l. in Natural Language Processing
Как вариант еще можно смотреть сколько в текстах слов которые есть в русском словаре
источник

S

S.o.l. in Natural Language Processing
Если меньше чем 60-70 процентов значит текст не русский
источник

DD

David Dale in Natural Language Processing
Можно воспользоваться готовым классификатором на fasttext, он кучу языков знает, и умеет сравнивать их довольно точно.
https://fasttext.cc/blog/2017/10/02/blog-post.html
источник

A

Ali in Natural Language Processing
если по какой-то причине не детектируются казахские буквы, можно пойти с обратной стороны и смотреть по буквам, частым в русском языке и отсутствующим в казахском.
я нечто похожее делал для другого тюркского языка, там такими буквами были "В", "Ф", "Ц", "Щ", "Ъ", "Ь"
источник

Eg

Elena gisly in Natural Language Processing
еще, наверное, по буквенным триграммам можно, вот тут человек насобирал частотные триграммы:
http://crubadan.org/applications
источник

A

Andrey in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @xdgcxfemwg3tzt23p кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @automotom, @gislygisly, @Mifody, @ajtkulov
При поддержке Золота Бородача
источник

B

Banof in Natural Language Processing
🔫 @xdgcxfemwg3tzt23p кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
Andrey, @automotom, @gislygisly, @Mifody, Ilya Kalinin, @tomateit
При поддержке Золота Бородача
источник

B

Banof in Natural Language Processing
🔫 @iieenbmu9 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @gislygisly, Andrey, @automotom, @Mifody
При поддержке Золота Бородача
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Посмотрите вот здесь: https://contract.embedika.ru - говорят, эта штука находит в тексте договора штрафы, неустойки и прочие санкции по договору. Бесплатно. Можете ещё погуглить на тему "робот для проверки шаблона договора"
источник

A

Andrey in Natural Language Processing
спасибо! нашел ее уже. ближе к теме продукт Compas, но тут нще разбираться надо
источник

В

Валентин👾 in Natural Language Processing
Здравстуйте, подскажите пожалуйста, как керовской нейронки скормить готовые эмбединги берта?
Вот с w2v понятно всё, создаём эмбединг слой, добавляем туда матрицу эмбедингов и даём на вход айдишники токенов. У одинаковых слов одинаковые эмбединги. Но у берта же вообще для каждого слова свой эмбединг, который формируется в зависимости от контекста, и если мы загрузим в эмбединг слой матрицу эмбедингов из обучающей выборке, то как потом будет работать в тестовой выборкой? У её слов уже будут другие эмбединги
источник

A

Andrey in Natural Language Processing
эмбеддинг берта это просто вектор. так что входом должно быть просто linear (dense).

поищите как можно дотюнить претренированные берты, может зайдет
источник

В

Валентин👾 in Natural Language Processing
Дотюнить берт - это единственный способ? Просто по моему это, для обучения, работает гораздо дольше - ведь в каждой эпохи заново векторы айдишников преобразуются в эмбединги. А если сначала получить эмбединги для всех текстов сразу и уже их использовать как данные для обучения, то тогда это решит проблему. Но пока я не могу понять, как скормить керасу многомерный массив
источник