Телеграмм чат группы natural_language

14:19пожаловаться #1

IS

Vic

Ребят, а есть датасеты чит-чата (болтовни) подростков? Интересуют типовые темы и жаргон, как они в соцсетках общаются сейчас

На Каггле есть объёмный датасет с текстами из телеграм-чатов. Правда, не очищенный.

15:12пожаловаться #2

V

В новых версиях телеграмма можно вообще экспортировать данные чатов) Т.е. присоединяемся к чатам, где сидит много людей требуемого возраста (по темам чатов это довольно легко понять), экспортируем их данные и получаем готовые html с данными. Да, их надо почистить, но всё равно, для исследования вполне подойдёт

15:26пожаловаться #3

АН

На сколько я знаю, так уже давным давно умеет vkopt для вк, он тебе выдаёт всю переписку в виде строк, просто натравить регулярки и готово

15:51пожаловаться #4

V

Кстати да, ещё в viber и whatsapp можно сделать бекап переписок, где они хранятся в виде .txt файлов (во всяком случае так было примерно около года назад)

16:00пожаловаться #5

V

Было б интересно кстати натравить что-нибудь готовое на свои личные переписки и узнать, какие слова и фразы часто используешь, как часто переписываешься и т.д.)

16:02пожаловаться #6

DL

Привет!

Делаю кластеризацию коротких текстов (инциденты в сервис деске). Набрал обучающую выборку за несколько месяцев, почистил. В качестве бейзлайна взял tf-idf + svd + kmean. Работает хорошо. Со временем могут появляться новые слова, темы - значит обученные на трейне tf-idf+svd нельзя использовать вечно - надо переучивать. Темы каждый день тоже могут появляться, могут меняться распределения. значит kmean тоже надо переучивать.

Теперь хочу выкать это в прод, но встал вопрос как часто надо переучить вектора для слов tf-idf + svd и сам kmean?

Не могу понять когда надо переучивать вектора для слов, а когда сам kmeans. По каким признакам понять что вектора стали плохие, а по каким что kmean?

18:04пожаловаться #7

АН

попробуй вместо tf-idf - word2vec и отлетит проблема переучивания, а там уже легко понять , что kmeans постепенно тупеет

18:11пожаловаться #8

D

Denis in Natural Language Processing

Извиняюсь за репост, но хочется сделать доброе дело и помочь распространить инициативу!

https://t.me/Recent_AI/754

18:13пожаловаться #9

D

Denis in Natural Language Processing

Recent AI News

Сейчас со всей этой историей из-за COVID преподаватели сталкиваются с новой проблемой ухода в онлайн.
YouTube дает стримить, если у тебя как минимум 1k подписчиков. В Казани есть один препод по ML & DL, чьи лекции достойны распространения:
https://www.youtube.com/channel/UCcY6LFZNgZHR2skk4K_-PKw/videos

Давайте сделаем доброе дело и поможем собрать нужное количество подписчиков у него на канале? Распространение этого месседжа яро приветствуется! 👍

18:13пожаловаться #10

DL

думал на счет word2vec, но тексты содержат много специфичных токенов - сленги внутренние, стектейсы и тп. Предобученный wv наверное не зайдет хорошо - придется свой обучать.

kmean думал поменять на dbscan, наверное проще им будет новые кластеры искать

18:14пожаловаться #11

V

Можно взять какой-нибудь базовый набор текстов, книги, википедия, статьи, к ним добавить ваши данные и обучить word2vec. Получите примерно такую же по качеству модель, как и уже готовые, только с поддержкой ваших специфичных токенов

18:17пожаловаться #12

V

Или вместо word2vec взять fasttext и так же его обучить

18:18пожаловаться #13

DL

спасибо, попробую так!

18:18пожаловаться #14

2020 March 20

IS

Dmitry Legchikov

думал на счет word2vec, но тексты содержат много специфичных токенов - сленги внутренние, стектейсы и тп. Предобученный wv наверное не зайдет хорошо - придется свой обучать.

kmean думал поменять на dbscan, наверное проще им будет новые кластеры искать

возьмите какую-нибудь современную предобученную модель, например, Фасттекст или Берт, это снимет вопрос отсутствия слов в словаре или слов с ошибками.

09:23пожаловаться #15

DL

а как думаете фасттекст поведет себя с большим количеством слов которых нет в словаре?

в текстах содержится большое количество лог сообщений, кусков кода и тд

09:25пожаловаться #16

IS

РусВекторес: дистрибутивная семантика для русского языка, веб-интерфейс и модели для скачивания

Вот, например:

https://rusvectores.org/ru/models/
https://github.com/vlarine/transformers-ru

RusVectores

RusVectōrēs: модели

09:26пожаловаться #17

IS

фасттекст - это фактически улучшенный word2vec, только он берёт не целое слово, а разбивает его на "слоги", из-за чего получается, что модель может понимать слова, которых нет в словаре. Ну, и Трансформеры примерно так же слова разбивают.

Можно вообще взять BPE и на нём построить модель.

Но как модель будет обрабатывать куски кода - не знаю... Для неё же это будет новый язык. Я думаю, что лучше взять предобученную модель, прогнать по ней свой датасет, и посмотреть, что получится.

09:30пожаловаться #18

АН

I Sh

фасттекст - это фактически улучшенный word2vec, только он берёт не целое слово, а разбивает его на "слоги", из-за чего получается, что модель может понимать слова, которых нет в словаре. Ну, и Трансформеры примерно так же слова разбивают.

Можно вообще взять BPE и на нём построить модель.

Но как модель будет обрабатывать куски кода - не знаю... Для неё же это будет новый язык. Я думаю, что лучше взять предобученную модель, прогнать по ней свой датасет, и посмотреть, что получится.

Не правильно немного говоришь

09:37пожаловаться #19

АН

Fasttext учится на char level и word level, тоесть если у тебя есть слово привет в словаре, но нужно ембеддинг по слову приветули, то он увидит в этом слове subword привет и даст подходящий вектор