Size: a a a

Data Science Chat

2021 November 13

SL

Sergey Lomdjaria in Data Science Chat
Установить необходимый драйвер через pip
источник

A

Andrey in Data Science Chat
этот подход - на эвристиках. если бы сам человек спам от спама отличал...

вообще спам - это все что нерелевантно. вот чат datascience, а вдруг кому-то ссылка на 18+ hot girls полезна окажется?)) на то и расчёт спамеров))

короче к вашему диплому. берете контент ссылки и контент ПО ссылке сообщения (если есть), получаете вложение. с другой стороны берете описание чата, тематически моделируете его сообщения, на основе опять же вложений.

эвристика такая тогда: подозрительное сообщение имеет косинусное расстояние около нуля от представительных по тематике чата, и близкое к темам спама.

направление мысли короче такое. смотрите berttopic пакет и "лёгкие" модели вложения текстов (дистилированные).
источник

ДВ

Дима Волков... in Data Science Chat
А сколько примерно по времени таблица с весом 62 гига будет выгружаться в дата фрейм?
источник

VL

Vova Lantsov in Data Science Chat
Мне кажется анализ каждого чата на "правильные" сообщения это перебор
Мне кажется, что тут больше должна быть не классификация, а кластеризация текста (включая контент по ссылке), т.е. обучение без учителя
Или это я слишком оптимист?
источник

D

Dima in Data Science Chat
А столько оперативы у тебя будет,чтобы в df выгрузить?)
источник

VL

Vova Lantsov in Data Science Chat
Т.е. я вижу это следующим образом:
Челы, которые админы, будут помечать сообщения в разных чатах как спам и бот будет это запоминать
Ведь все боты работают по одному принципу почти, наличие внешней ссылки на другой чат или внешний сайт + какой-то текст по типу "Все шлюхи твоего города" или эмодзи клубничек, или какие-то суммы рублей в случае заработков, или "даркнет", что там ещё популярно среди них

Вот мне бы прийти к конкретному алгоритму который наиболее эффективен будет для моей задачи
Я вроде бы я это всё прочитал, но мне трудно решить однозначно: мне нужно обучаться на правильных и неправильных сообщениях вместе (по типу бинарной классификации), или только на плохих сообщениях путём поиска сходства (какого-то рода K-means clustering)
источник

ДВ

Дима Волков... in Data Science Chat
Вот это я дико затупил
источник

ДВ

Дима Волков... in Data Science Chat
Тут же чанками нужно делать?
источник

A

Andrey in Data Science Chat
вот это как раз классификация- с разметкой. админам вот делать больше нечего, как вам диплом.

berttopic посмотрите. там как раз без учителя алгоритмы.
источник

SL

Sergey Lomdjaria in Data Science Chat
А что делать хочется?
Если какие-то статистики посчитать, EDA, то лучше это прям в CH это делать
источник

VL

Vova Lantsov in Data Science Chat
Ок, спасибо
источник

MC

Makha Cloud in Data Science Chat
Классификация вроде
источник

ДВ

Дима Волков... in Data Science Chat
Нужно график объема бд за каждую неделю
источник

t

tribe in Data Science Chat
ребят, а как сейчас с удаленкой по мл позициям?
источник

ГМ

Григорий Митраков... in Data Science Chat
а как бороться со спамом в виде контактов типа "секс знакомства" и т.д., что посоветуете?
источник

DZ

Danil Zyryanov in Data Science Chat
Спасибо! Получилось.
источник

A

Andrey in Data Science Chat
а зачем с ним бороться? наслаждайтесь))

а по существу - ну да так же. я уверен что спам-фильтры в том же gmail включают и общую и персональные части.
источник

ГМ

Григорий Митраков... in Data Science Chat
ОК будем тогда копать в т у сторону
источник

I

Ilya in Data Science Chat
Если не удаленка и платят не 15к$+ в месяц, то надо валить
источник

SL

Sergey Lomdjaria in Data Science Chat
Ради такого точно не стоит тащить все данные. Это простейший sql запрос, который лучше выполнить в clickhouse, и потом уже нарисовать полученный результат
источник