Первыми инструментами для борьбы с ссылочным спамом поисковики использовали блек-листы. Просто не учитывали ссылки с определенных сайтов для рассчета ряда ранков. Позже задачи расширялись, нужно было выявлять линк-фармы, немодерируемые площадки, и другой спам. Появился TrustRank и BadRank. Трастранк показывал удаленность от заведомо трастовых ресурсов, а BadRank рассчитывался аналогично PageRank, но вместо исходящих учитывались входящие ссылки.
BadRank = E(A)(1 - d) + d*SUMi( BR(Ti)/C(Ti) )
E(A) - базовое значение "херовости" страницы.
BR(Ti) - BadRank страницы Ti
C(Ti) - кол-во входящих ссылок на страницу Ti
Еще этот алгоритм называли PR0, так как если страница попадала под признак "плохая", ей автоматом обнуляли PageRank и не учитывали в ссылочных графах. BadRank повышается, если на вас ссылаются плохие сайты и наоборот.
Детальней про BadRank:
http://pr.efactory.de/e-pr0.shtmlИнтересно, что инженеры и доктора наук из поисковых систем при борьбе со спамом наблюдали не только за общей выдачей, но также любили seo-конкурсы, так как здесь проявляются самые хитрые методы обмана алгоритмов поиска. В старых отчетах антиспам-инженеров Google можно найти информацию, как они использовали результаты подобных конкурсов в 2004 году для идентификации ссылочного спама и дальнейшей борьбы с ним.
Например, запрос "Nigritude". До конкурса это слово никто не запрашивал, после конкурса 500 000 просмотров (в конкурсе использовался "nigritude ultramarine"). Основные используемые техники участников:
• Ложные спамные статьи
• Клоакинг
• Линк-фармы
• Раздутие количества страниц.
• Спам на форумах и блогах.
После этого были введены дополнительные спам-фильтры, так как PageRank стал очень зашумленным сигналом. Ученые "останавливали нигратуд ультрамарин" :) Детальней можно почитать здесь:
http://isabel-drost.de/bin/37200096.pdfОжидайте в ближайшие дни вебинар с обзором алгоритмов ссылочного ранжирования.