почему нельзя [-1,1]? просто коэффициент подбираешь другой и все
я не знаю, что ты имеешь в виду под "коэффициентом" (возможно, C из формулы), но ucb/uct доказаны только для ревордов от 0 до 1 включительно:
Auer, Cesa-Bianchi and Fischer (2002) proposed a UCB1 procedure that achieves logarithmic regret when the reward distributions are supported on [0,1].