Телеграмм чат группы natural_language

🤷‍♂️

Sergey Shulga in Natural Language Processing

13:02пожаловаться #1

Нет

Mark Baushenko in Natural Language Processing

13:07пожаловаться #2

Всем привет, есть куча тектов на русском языке, то иногда в них попадаются тексты на казахском и т.п. языках. Какие существуют практики выявления таких текстов?

13:13пожаловаться #3

Детектируйте казахские буквы!

13:19пожаловаться #4

Почти в каждом тексте на казахском есть спецсимволы - К с хвостиком, Н с хвостиком итд

Mark Baushenko in Natural Language Processing

13:19пожаловаться #5

спасибо

13:20пожаловаться #6

Как вариант еще можно смотреть сколько в текстах слов которые есть в русском словаре

13:20пожаловаться #7

Если меньше чем 60-70 процентов значит текст не русский

David Dale in Natural Language Processing

13:21пожаловаться #8

Можно воспользоваться готовым классификатором на fasttext, он кучу языков знает, и умеет сравнивать их довольно точно.
https://fasttext.cc/blog/2017/10/02/blog-post.html

13:22пожаловаться #9

Ali in Natural Language Processing

если по какой-то причине не детектируются казахские буквы, можно пойти с обратной стороны и смотреть по буквам, частым в русском языке и отсутствующим в казахском.
я нечто похожее делал для другого тюркского языка, там такими буквами были "В", "Ф", "Ц", "Щ", "Ъ", "Ь"

Elena gisly in Natural Language Processing

13:41пожаловаться #10

еще, наверное, по буквенным триграммам можно, вот тут человек насобирал частотные триграммы:
http://crubadan.org/applications

13:44пожаловаться #11

@banofbot

14:49пожаловаться #12

Banof in Natural Language Processing

🔫 @xdgcxfemwg3tzt23p кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @automotom, @gislygisly, @Mifody, @ajtkulov
При поддержке Золота Бородача

14:49пожаловаться #13

Banof in Natural Language Processing

🔫 @xdgcxfemwg3tzt23p кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
Andrey, @automotom, @gislygisly, @Mifody, Ilya Kalinin, @tomateit
При поддержке Золота Бородача

14:49пожаловаться #14

Banof in Natural Language Processing

🔫 @iieenbmu9 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @gislygisly, Andrey, @automotom, @Mifody
При поддержке Золота Бородача

Проверить договор на риски онлайн | Embedika

14:50пожаловаться #15

ВЧ

Василий Чесалов... in Natural Language Processing

Посмотрите вот здесь: https://contract.embedika.ru - говорят, эта штука находит в тексте договора штрафы, неустойки и прочие санкции по договору. Бесплатно. Можете ещё погуглить на тему "робот для проверки шаблона договора"

Сервис проверки договоров на риски. Выявляет в тексте документа условия, регулирующие гражданско-правовую ответственность — неустойки, штрафы, возмещение ущерба, убытки. Доступные форматы для загрузки — DOC, DOCX. Конфиденциальность данных гарантирована

14:50пожаловаться #16

спасибо! нашел ее уже. ближе к теме продукт Compas, но тут нще разбираться надо

Валентин👾 in Natural Language Processing

15:31пожаловаться #17

Здравстуйте, подскажите пожалуйста, как керовской нейронки скормить готовые эмбединги берта?
Вот с w2v понятно всё, создаём эмбединг слой, добавляем туда матрицу эмбедингов и даём на вход айдишники токенов. У одинаковых слов одинаковые эмбединги. Но у берта же вообще для каждого слова свой эмбединг, который формируется в зависимости от контекста, и если мы загрузим в эмбединг слой матрицу эмбедингов из обучающей выборке, то как потом будет работать в тестовой выборкой? У её слов уже будут другие эмбединги

16:05пожаловаться #18

эмбеддинг берта это просто вектор. так что входом должно быть просто linear (dense).

поищите как можно дотюнить претренированные берты, может зайдет

Валентин👾 in Natural Language Processing

16:14пожаловаться #19

Дотюнить берт - это единственный способ? Просто по моему это, для обучения, работает гораздо дольше - ведь в каждой эпохи заново векторы айдишников преобразуются в эмбединги. А если сначала получить эмбединги для всех текстов сразу и уже их использовать как данные для обучения, то тогда это решит проблему. Но пока я не могу понять, как скормить керасу многомерный массив