Вообще в целом интересно, почему в этих мозгах селект фичей не работает напрочь. Вроде ж модель явно более робастной становится (вместо 1400 признаков учится на 300~), валидация растёт, а лб напрочь убивается. То ли, для site2 важнее другие признаки, либо модель может сама как-то переобучается под шум/погрешности самого сканера 1, а куча фичей выступает в роли эдакой регуляризации