Телеграмм чат группы datasciencechat страница 7086

Всем спасибо, отвечаю.
1.Классика, бустинги работают, дают 85 проц. Хочу попробовать улучшить сетями.
2. Сигнал - параметры пакетов трафика. Задача - предсказать разрешение, с которым смотрят видео.
3. Данные - Примерно 20к видео на трейне. Каждое виде описано рядом временных точек - от 30 до сотен. В каждом ряду 7 разных сигналов - фич.
4. Исходя из размера минимального видео, я режу все эти ряды на кусочки по 30 временных точек, и рассматриваю, как отдельные примеры. Получается от 30 тыс до 700 тыс примеров (в зависимости от шага, с которым я двигаю скользящее окно, режущее ряд). С шагом 1 - много данных, но похожих. С шагом 30 - меньше, но примеры разные.

Гипотеза: 30 точек в примере - мало. Даже в маленькой картинке их пара сотен, правда там и свертки двумерные. Попробовала сделать 200 точек в примере. Результат стал лучше - на первой эпохе 81% на тесте против 84 на трейне, на второй - 84 на тесте против 91 на трейне. С третьей - падение. Получается - маленькие видео - в пролете, вернее, надо требовать несглаженные данные, где больше точек.

источник

15:53пожаловаться #5

Elena Shamis in Data Science Chat

И да, насчет Lstm и gru. Это лучшее из простого и быстро заводящегося для OCR. С этим у меня огромный опыт :). А, вот, с данными только недавно стала работать, хочется использовать опыт

источник

15:55пожаловаться #6

Andrey in Data Science Chat

блин, классификация что ли?

источник

16:00пожаловаться #7

sasha in Data Science Chat

а надо по одному пакету понять к видео какого качества он относится?

источник

16:03пожаловаться #8

Elena Shamis in Data Science Chat

Про GRU - имела ввиду, чтение. OCR. Ну, строчек текста на картинке. Сканированные документы, итд Не относится к делу текущему. Так поделилась

источник

16:05пожаловаться #9

Elena Shamis in Data Science Chat

в данный момент - по видео. Найти где меняется разрешение - отдельная задача. А тут считаем, что имеем куски с постоянным разрешением.

источник

16:06пожаловаться #10

Elena Shamis in Data Science Chat

Я сделала всю систему с фичами и бустингом. Она ищет места, где разрешение меняется, предсказывает разрешение в местах без смены. Предел - 85%. Может выше и не заложено в данных... Но хотелось попробовать.

источник

16:08пожаловаться #11

Elena Shamis in Data Science Chat

или по куску, по скользящему окну, в общем, как-то так

источник

16:10пожаловаться #12

sasha in Data Science Chat

мне почему то кажется что фичи пакетов должны предсказывать такие вещи почти на 100 проц, мб если есть доступ посмотреть на то как формируются пакеты, также возможно полезно проверить качество разметки.

источник

16:13пожаловаться #13

Elena Shamis in Data Science Chat

вот, вроде нет, я смотрела кучу графиков фич. Похоже, там есть или элемент случайности, или наблюдение, которое мы не можем собрать.

Но глубокая сетка моментально выходит в трейне на 100%, это мне очень странно, все же, данных не так чтоб прямо мало. К чему она так способна подстроиться, чего нет в тесте...

источник

16:20пожаловаться #14

Elena Shamis in Data Science Chat

про качество разметки -точное место смены разрешения не может быть собрано, там алгоритмы. Но само значение в постоянных отрезках собирается приборами

источник

16:22пожаловаться #15

keiDoom in Data Science Chat

Друзья, посоветуйте пожалуйста книги которые стоит прочесть человеку, которого интересует разработка ML, NN

источник

17:37пожаловаться #16

Suicide Liza , then ... in Data Science Chat

Привет что можите сказать про kaggle курсы? если ктото их проходил?

источник

18:53пожаловаться #17

Arsen Gumin in Data Science Chat

Шолле, Рашка