Size: a a a

2017 May 30

ὦan in Data Engineers
Жесть
источник

ὦan in Data Engineers
А то я хотел посмотреть какие фильмы из данных можно протестирлвать
источник

ὦan in Data Engineers
А он рандомном грузит
источник

AM

Aleksander Melnichnikov in Data Engineers
На самом деле можешь разрезать его не рандомно, там тоже есть функции
источник

PK

Pavel Klemenkov in Data Engineers
Не забывайте только, что некоторые датасеты чувствительны к перемешиванию
источник

AM

Aleksander Melnichnikov in Data Engineers
@Yan ты можешь например применить фильтр к датасетам, отфильтровать по предикату, если тебе нужны конкретные фильмы в сете
источник

AM

Aleksander Melnichnikov in Data Engineers
Можно сделать так - фильтруешь датасет с фильмами. Потом берешь все фильмы из получившегося датасета и фильтруешь рейтинги
источник

AM

Aleksander Melnichnikov in Data Engineers
Как-то так
источник

AM

Aleksander Melnichnikov in Data Engineers
Ну и понятное, обрезал данные и коллаборативная фильтрация будет работать не так, как на полных данных =)
источник

ὦan in Data Engineers
такое ощущение что обрезанные данные все сломали
источник

ὦan in Data Engineers
yan@yan-desktop:~/Downloads/spark-movie-lens-master$ curl http://0.0.0.0:5432/15/ratings/top/12

возвращает пустоту
источник

ὦan in Data Engineers
@main.route("/<int:user_id>/ratings/top/<int:count>", methods=["GET"])
def top_ratings(user_id, count):
   logger.debug("User %s TOP ratings requested", user_id)
   top_ratings = recommendation_engine.get_top_ratings(user_id,count)
   return json.dumps(top_ratings)

Хотя должен
источник

PK

Pavel Klemenkov in Data Engineers
Ну вообще не должен. По уму нужно сэмплировать независимо по каждому пользователю, чтоб сохранить распределения рейтингов
источник

PK

Pavel Klemenkov in Data Engineers
А тут могло выйти, что у этого пользователя рейтингов совсем не было
источник

PK

Pavel Klemenkov in Data Engineers
Если я правильно предполагаю, что эта реализация просто считает близости, а не факторизует матрицу
источник

ὦan in Data Engineers
или это я неправильно тыкаю курлом
источник
2017 June 01

GP

Grigory Pomadchin in Data Engineers
источник

AM

Aleksander Melnichnikov in Data Engineers
Спасибо, конечно, но в лучшем канале не может быть одновременно и марвел и дс
источник

NK

ID:1373407 in Data Engineers
спасибо
источник

NK

ID:1373407 in Data Engineers
а вы что используете для работы с hbase из сапарка , newAPIHadoopRDD ?
источник