Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 July 26

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
что думаете об этом ?
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
у меня была идея обьеденить все одинаковые строки в 1 и вместо target взять среднее значение target со всех строк
Собьешь распределение ж
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
что думаете об этом ?
Если ты думаешь взять взвешенное. Тип у тебя таргеты 1,1,3. Значит ожидаешь [0.66, 0, 0.33], то не ухудшиться. Но, спойлер, разницы не будет.
источник
2020 July 27

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят а можно использовать Y значения для создания дополнительных features ?
источник

D

Dima in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Ребят а можно использовать Y значения для создания дополнительных features ?
Если Y-это таргет,то посмотри mean target encoding
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Как я спрашивал выше у меня есть строки с одинаковыми признаками но разными y значениями. Я тут подумал добавить колонку которая будет использовать и как то преобразовывать значение что гарантирует что все элементы разные
источник

GZ

German Zvonchuk in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Здравствуйте Друзья,

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Проблема заключается в том, что пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 2 000 000 рублей по ошибке пишут 20 000 000 рублей.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Буду признателен вам за любую информацию.
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
German Zvonchuk
Здравствуйте Друзья,

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Проблема заключается в том, что пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 2 000 000 рублей по ошибке пишут 20 000 000 рублей.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Буду признателен вам за любую информацию.
сравни площадь и другие значимые признаки с ценой (или наоборот площадью) и убери лишний ноль при случае?

если вокруге везде за 40кв 5млн, а у тебя 50, то у дали ноль?
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
German Zvonchuk
Здравствуйте Друзья,

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Проблема заключается в том, что пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 2 000 000 рублей по ошибке пишут 20 000 000 рублей.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Буду признателен вам за любую информацию.
Построить набор простых регрессоров, фичи - н-1 признаков, таргет - последний признак. Будет н моделей. Загоняешь объявления и смотришь, где предсказание отличается на порядок
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
German Zvonchuk
Здравствуйте Друзья,

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Проблема заключается в том, что пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 2 000 000 рублей по ошибке пишут 20 000 000 рублей.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Буду признателен вам за любую информацию.
для ошибок в словах погугли spelling correction
источник

VK

Vladimir Komissarov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Господа, прошу прощения что встреваю в профессиональный разговор, сам я дилетант в DS, но.
Почему бы автору вопроса не взять выборку данных, посчитать средние/медианные значения, выяснить 3 сигма диапазон, объявить все, что выпадает за 3 сигма аномалией, а потом пройтись скриптом по новым данным для выявления аномалий?
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vladimir Komissarov
Господа, прошу прощения что встреваю в профессиональный разговор, сам я дилетант в DS, но.
Почему бы автору вопроса не взять выборку данных, посчитать средние/медианные значения, выяснить 3 сигма диапазон, объявить все, что выпадает за 3 сигма аномалией, а потом пройтись скриптом по новым данным для выявления аномалий?
Все квартиры по 100метров и стоят 1М. И появятся 1 на 1000м и стоит 10М. С точки зрения сигм - ошибка, но по факту - нет
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну тык надо ещё по сегментам разбить и считать аномалии в сегментах?
источник

VK

Vladimir Komissarov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Павел
Все квартиры по 100метров и стоят 1М. И появятся 1 на 1000м и стоит 10М. С точки зрения сигм - ошибка, но по факту - нет
Де-юре, да.
Де-факто, единицы аномалий можно ручками перепроверить?
Просто мне показалось, что у человека задача не академическая, а прикладная, а ему тут же напихали полный рот регрессоров, фичей и моделей.

Плюс, можно дополнительную метрику ввести с перепроверкой по площади.
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
К примеру  500к за квадрат центр Москвы ок, а 50к за мск обл тоже ок
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Mikhail Sednev
К примеру  500к за квадрат центр Москвы ок, а 50к за мск обл тоже ок
А с 10ю комнатами что делать?
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну не по одной же фиче сегметируете, вы когда сегметируете старайтесь что бы у вас не было крайне сильных фич.
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Как более простой вариант я бы предложил  разбить на бакеты по географии и площади и взять среднее бакета за метр

Может надо делать в несколько итераций если данные оч грязные? Тогда вы рано или поздно прийдёте к нужному..
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну да вам по сути нужно сделать первое грубое прибоежееии, выкатить версию в которой пользователя предупреждают об ошибке, получить более чистую базу сделать ещё раз тоже самое с более высокой точностью и опять выкатить
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Evgenii Zheltonozhskii🇮🇱
Ну я начал с того чтобы во время тренинга трекать параметры бетчнорма и распределение активаций до/после нормализации
Тем временем, у меня с этим видом свертки batchnorm2d даёт 1 для weights и 0 для bias 0_0 для не pretrained сети. И при этом взрыв forward pass через nan. Хотя mean увеличивается и std увеличивается. Соответственно, вывод  что batchnorm просто отказывается работать и шлёт меня на 3 буквы. Пробовал track_running_stats=False (вдруг там какой-то баг с eval). Все равно 1 0. Как это вообще фиксить?
источник