Size: a a a

2018 October 27

DS

Dmitriy Shevtsov in CYBERMARKETING
Александр Ожгибесов
Дим, я шучу, но рассказать про этот кластеризатор надо, я хочу послушать
По троллингам я не специалист. :) Я больше по кластеризации шарю.

По кластеризации.

Задача с разбиениям объектов на группы на основе данных решалась ещё в 60 годах, цепи Маркова уже больше 100 лет как придуманы. Это к тому что проблема не нова, изобретать велосипед не нужно. :) Алгоритмы кластеризации четкие, нечеткие, плоские и иерархичные (вот ссылка, может интересно будет https://m.habr.com/post/101338/ ).
Нам под топы нужны плоские алгоритмы по большей части.
Математический аппарат хоть и был, но программные реализации плодят каждый день под прикладные задачи (найти схожие картинки, найти найти похожие квартиры в том же районе, найти всех людей похожих на того кто купил у нас товар и т д). Под анализ связей топов через url,на мой взгляд, k-means алгоритм самое то. Но он тоже криво отрабатывает, когда шум в выдаче. В чистом виде за 1 проход алгоритмы например в KeyAssort не идеально отрабатывают. По этому наворотили миграцию запросов - миграция является пост обработкой. Т. е. делаем один проход, чтобы найти сгустки связей, и вторым проходом перекидываем фразы (ищем в рамках уже готовых кластеров, куда запрос перекинуть).

Мы также используем микс алгоритмов. Когда делали кластеризатор, ставили программные реализации кластеризаторов на сервак и на 120к запросах искали лучшие отработки.

Заразился идеей кластеризации больших ядер, когда с Лешей Чекушиным, Олегом Шествковым и Русланом Рзаевым на ТопЭксперте в 2013 г. общался в кулуарах. А Лёша через год hard (все ко всем) начал пиарить и говорил про миллиарды связей. На практике у нас миллиарды сворачиваются до миллионов через Обратный индекс url (спасибо SEO музыканту Жоре Торговскому за подсказки) :) а миллион для bd это мало и работает относительно быстро. Тогда же были первые кривые попытки построить, то что сейчас называют soft-кластеризацией.
Окончательно потерял веру в этот алгоритм, после свадебного портала на 120к ключей. Просто не принимали у нас работу с soft кластеризацией. :) Пришлось тогда копать глубже. Про кластеризацию не правильно говорить в отрыве от контекста.
Задача 1 - привязать на живой магазин 1 млн. фраз и быстро продвинуть.
Задача 2 — собрать полную ся на новый портал и писать контент
Задача 3 —  расширять старый портал и дожимать существующие страницы.
Задача 4 — собрать теговые расширения на магазин существующий.
Задача 5 — собрать ся для SEO и для контекста одновременно.
Задача 6 — магазин в топ-10 нужен топ-3.

6 разных задач одним скриптом не решить. Они разные и Кластеризация тут не самая большая проблема. :)
источник

AC

Aleksandr Chepukaytis in CYBERMARKETING
Dmitriy Shevtsov
По троллингам я не специалист. :) Я больше по кластеризации шарю.

По кластеризации.

Задача с разбиениям объектов на группы на основе данных решалась ещё в 60 годах, цепи Маркова уже больше 100 лет как придуманы. Это к тому что проблема не нова, изобретать велосипед не нужно. :) Алгоритмы кластеризации четкие, нечеткие, плоские и иерархичные (вот ссылка, может интересно будет https://m.habr.com/post/101338/ ).
Нам под топы нужны плоские алгоритмы по большей части.
Математический аппарат хоть и был, но программные реализации плодят каждый день под прикладные задачи (найти схожие картинки, найти найти похожие квартиры в том же районе, найти всех людей похожих на того кто купил у нас товар и т д). Под анализ связей топов через url,на мой взгляд, k-means алгоритм самое то. Но он тоже криво отрабатывает, когда шум в выдаче. В чистом виде за 1 проход алгоритмы например в KeyAssort не идеально отрабатывают. По этому наворотили миграцию запросов - миграция является пост обработкой. Т. е. делаем один проход, чтобы найти сгустки связей, и вторым проходом перекидываем фразы (ищем в рамках уже готовых кластеров, куда запрос перекинуть).

Мы также используем микс алгоритмов. Когда делали кластеризатор, ставили программные реализации кластеризаторов на сервак и на 120к запросах искали лучшие отработки.

Заразился идеей кластеризации больших ядер, когда с Лешей Чекушиным, Олегом Шествковым и Русланом Рзаевым на ТопЭксперте в 2013 г. общался в кулуарах. А Лёша через год hard (все ко всем) начал пиарить и говорил про миллиарды связей. На практике у нас миллиарды сворачиваются до миллионов через Обратный индекс url (спасибо SEO музыканту Жоре Торговскому за подсказки) :) а миллион для bd это мало и работает относительно быстро. Тогда же были первые кривые попытки построить, то что сейчас называют soft-кластеризацией.
Окончательно потерял веру в этот алгоритм, после свадебного портала на 120к ключей. Просто не принимали у нас работу с soft кластеризацией. :) Пришлось тогда копать глубже. Про кластеризацию не правильно говорить в отрыве от контекста.
Задача 1 - привязать на живой магазин 1 млн. фраз и быстро продвинуть.
Задача 2 — собрать полную ся на новый портал и писать контент
Задача 3 —  расширять старый портал и дожимать существующие страницы.
Задача 4 — собрать теговые расширения на магазин существующий.
Задача 5 — собрать ся для SEO и для контекста одновременно.
Задача 6 — магазин в топ-10 нужен топ-3.

6 разных задач одним скриптом не решить. Они разные и Кластеризация тут не самая большая проблема. :)
Огонь. Продал, захотел купить
источник

ТS

Трофим Supaman in CYBERMARKETING
DOMOBOY
При регистрации даешь паспорт ( так заведено в mail) тебе дают бейдж с именем Андрей ;)
Я не помню что где то указывал фио
источник

D

DOMOBOY in CYBERMARKETING
источник

D

DOMOBOY in CYBERMARKETING
И как там у тебя? Пусто?
источник
2018 October 28

ТS

Трофим Supaman in CYBERMARKETING
нет
источник

ТS

Трофим Supaman in CYBERMARKETING
все гуд
источник

D

DOMOBOY in CYBERMARKETING
Ну вот ;)
источник

VS

Victor Stepankov in CYBERMARKETING
А афтапати сверху по времени как ограничена? Часы работы заведения например
источник

СК

Сергей Карпухин in CYBERMARKETING
Victor Stepankov
А афтапати сверху по времени как ограничена? Часы работы заведения например
Примерно до 1 ночи
источник

VS

Victor Stepankov in CYBERMARKETING
Спасибо
источник

AP

Aleksey Panshin in CYBERMARKETING
До часу еще дожить надо.
источник

AP

Aleksey Panshin in CYBERMARKETING
Кибер - мероприятие жёсткое.
источник

M

Mary in CYBERMARKETING
а потом куда? меня в час ночи уже не пустят, где я живу:)
источник

AP

Aleksey Panshin in CYBERMARKETING
Свободная программа )
источник

RB

Ruslan Baybekov in CYBERMARKETING
Aleksey Panshin
Свободная программа )
Ты походу намек-то не понял;)
источник

AP

Aleksey Panshin in CYBERMARKETING
Мне нельзя в бельдяшки. Мне хоть обнамекайся.
источник

RB

Ruslan Baybekov in CYBERMARKETING
Mary
а потом куда? меня в час ночи уже не пустят, где я живу:)
Ему нельзя
источник

ТS

Трофим Supaman in CYBERMARKETING
Mary
а потом куда? меня в час ночи уже не пустят, где я живу:)
поэтому я первую ночь ночую у сестры, а вторую в гостинице)))
источник

M

Mary in CYBERMARKETING
я с подругой договорилась, но она явно не порадуется моему возвращению в 2 ночи
источник