Телеграмм чат группы datasciencechat страница 7185

Size: a a a

Data Science Chat

5162 membersпожаловаться на группу

2021 November 13

Sergey Lomdjaria in Data Science Chat

Установить необходимый драйвер через pip

источник

10:19пожаловаться #1

Andrey in Data Science Chat

этот подход - на эвристиках. если бы сам человек спам от спама отличал...

вообще спам - это все что нерелевантно. вот чат datascience, а вдруг кому-то ссылка на 18+ hot girls полезна окажется?)) на то и расчёт спамеров))

короче к вашему диплому. берете контент ссылки и контент ПО ссылке сообщения (если есть), получаете вложение. с другой стороны берете описание чата, тематически моделируете его сообщения, на основе опять же вложений.

эвристика такая тогда: подозрительное сообщение имеет косинусное расстояние около нуля от представительных по тематике чата, и близкое к темам спама.

направление мысли короче такое. смотрите berttopic пакет и "лёгкие" модели вложения текстов (дистилированные).

источник

10:32пожаловаться #2

ДВ

Дима Волков... in Data Science Chat

А сколько примерно по времени таблица с весом 62 гига будет выгружаться в дата фрейм?

источник

10:45пожаловаться #3

Vova Lantsov in Data Science Chat

Мне кажется анализ каждого чата на "правильные" сообщения это перебор
Мне кажется, что тут больше должна быть не классификация, а кластеризация текста (включая контент по ссылке), т.е. обучение без учителя
Или это я слишком оптимист?

источник

10:46пожаловаться #4

Dima in Data Science Chat

А столько оперативы у тебя будет,чтобы в df выгрузить?)

источник

10:50пожаловаться #5

Vova Lantsov in Data Science Chat

Т.е. я вижу это следующим образом:
Челы, которые админы, будут помечать сообщения в разных чатах как спам и бот будет это запоминать
Ведь все боты работают по одному принципу почти, наличие внешней ссылки на другой чат или внешний сайт + какой-то текст по типу "Все шлюхи твоего города" или эмодзи клубничек, или какие-то суммы рублей в случае заработков, или "даркнет", что там ещё популярно среди них

Вот мне бы прийти к конкретному алгоритму который наиболее эффективен будет для моей задачи
Я вроде бы я это всё прочитал, но мне трудно решить однозначно: мне нужно обучаться на правильных и неправильных сообщениях вместе (по типу бинарной классификации), или только на плохих сообщениях путём поиска сходства (какого-то рода K-means clustering)

источник

10:56пожаловаться #6

ДВ

Дима Волков... in Data Science Chat

Вот это я дико затупил

источник

10:57пожаловаться #7

ДВ

Дима Волков... in Data Science Chat

Тут же чанками нужно делать?

источник

10:57пожаловаться #8

Andrey in Data Science Chat

вот это как раз классификация- с разметкой. админам вот делать больше нечего, как вам диплом.

berttopic посмотрите. там как раз без учителя алгоритмы.

источник

11:07пожаловаться #9

Sergey Lomdjaria in Data Science Chat

А что делать хочется?
Если какие-то статистики посчитать, EDA, то лучше это прям в CH это делать

источник

11:20пожаловаться #10

Vova Lantsov in Data Science Chat

Ок, спасибо

источник

11:25пожаловаться #11

Makha Cloud in Data Science Chat

Классификация вроде

источник

13:08пожаловаться #12

ДВ

Дима Волков... in Data Science Chat

Нужно график объема бд за каждую неделю

источник

13:16пожаловаться #13

tribe in Data Science Chat

ребят, а как сейчас с удаленкой по мл позициям?

источник

13:55пожаловаться #14

ГМ

Григорий Митраков... in Data Science Chat

а как бороться со спамом в виде контактов типа "секс знакомства" и т.д., что посоветуете?

источник

14:40пожаловаться #15

Danil Zyryanov in Data Science Chat

Спасибо! Получилось.

источник

14:49пожаловаться #16

Andrey in Data Science Chat

а зачем с ним бороться? наслаждайтесь))

а по существу - ну да так же. я уверен что спам-фильтры в том же gmail включают и общую и персональные части.

источник

15:06пожаловаться #17

ГМ

Григорий Митраков... in Data Science Chat

ОК будем тогда копать в т у сторону

источник

15:07пожаловаться #18

Ilya in Data Science Chat

Если не удаленка и платят не 15к$+ в месяц, то надо валить

источник

15:08пожаловаться #19

Sergey Lomdjaria in Data Science Chat

Ради такого точно не стоит тащить все данные. Это простейший sql запрос, который лучше выполнить в clickhouse, и потом уже нарисовать полученный результат

источник

16:19пожаловаться #20