На SearchEngineLand вышла интересная история от Дэна Шарпа, как он использовал хайджекинг для подмены гугловского pdf-документа.
https://ln2.in/cFjMPr6Началось все с того, что Дэн заметил, что в какое-то время при поиске seo-рекомендаций от гугла в топе показывались разные сайты, но не сам гугл. Это была копия pdf-документа, закачанная на другой сервер. А гугл при этом редиректил 302 кодом с
google.com (который в индексе) на CDN
static.googleusercontent.com (который хостит статику и pdf-ку с рекомендациями в том числе).
Автор решил захайджекнуть хайджекеров и сохранил копию pdf к себе на сервер. Несмотря на авторитет домена, который намного меньше чем авторитет Google, через время сайт автора появился в топе (практически на первых местах) по таким частотным запросам, как: seo, google seo, google com, и пр. А оператор info: для гугловского адреса показывал сайт Дэна.
Твит автора на эту тему вызвал много шумихи и гугл через время прикрыл лавочку, настроив canonical для pdf в http-заголовках.
https://ln2.in/RdB1rT7В какой-то момент (на этапе переклейки) в индексе находились два адреса, причем гугл был ниже скопированного документа. По завершению эксперимента автор удалил файлы, но оставил много интересных скриншотов (см. по первой ссылке).
Несколько выводов из этой истории:
• Несмотря на то, что Google прикрыл 302 хайджекинг еще 10 лет назад, изредка он может случаться.
• Для pdf-документов или других важных статических файлов лучше использовать rel=canonical (аналогично обычным html-документам), настраивая его через http-заголовки.
• Причина описанного явления скорей всего не только в 302 редиректе, а в самом алгоритме работы зеркальщика или особенностях работы с файлами.
В любом случае, даже сейчас у гугла есть уязвимости и можно подменять чужие документы в топе и, как минимум, получать чужую статистику.