Телеграмм чат группы datasciencechat страница 7094

Результаты сравнивают по метрикам качества(тест выборке и кросс тесты). А на сколько Вы готовы потерять в качестве, что бы выиграть в скорости это вопрос к заказчику работы. Кто-то и 10% готов потерять, а кому то и 1% жалко.

источник

07:40пожаловаться #8

Elena Shamis in Data Science Chat

Обычно, когда вы размечаете картинки для детекции, то на выходе возможны 2 варианта:
1. Множество xml файлов по именам самого имиджа
2. Текстовый файл формата примерно: имя, имя класса, координаты прямоунольника. Иногда координаты считаются, как свиги относительно центра прямоугольника ( yolo формат), иногда непосредственно.
Что нужно нейросети - это, в общем, как вы сами напишете ее кормление данными. Например, tf detection api в в туториале описывает, что просит xml. Но мне это было неудобно, я переписала так, чтоб она csv с координатами брала

источник

08:03пожаловаться #9

Elena Shamis in Data Science Chat

Посмотрите туториал по tenzorflow detection api, там есть про это. Или одно из множества статей с примером применения его

источник

08:06пожаловаться #10

Ssv in Data Science Chat

roboflow

источник

08:07пожаловаться #11

Ilya Muromets in Data Science Chat

Ребята, есть у кого курс по Data Science

источник

08:32пожаловаться #12

Ilya Muromets in Data Science Chat

источник

08:32пожаловаться #13

Andrey in Data Science Chat

в смысле)

источник

08:34пожаловаться #14

Ilya Muromets in Data Science Chat

Курс

источник

08:34пожаловаться #15

Ilya Muromets in Data Science Chat

Слитый

источник

08:34пожаловаться #16

Alex in Data Science Chat

Их сотни а то и тысячи слитых платных и столько же бесплатных, гуглить религия не позволяет?

источник

08:43пожаловаться #17

Georgy Dorokhov in Data Science Chat

Вопрос наверное больше к дата инженерам, но все же - кто-нибудь использовал temporal как оркестратор?

источник

09:05пожаловаться #18

Mr.Fantomz in Data Science Chat

Всем здравствуйте.
Имеется задача постоянного просчета математической функции в n количестве потоков/процессов на языке Python.

Если конкретнее:
Нужно вычислять функцию в 1000 потоках и выдавать общее кол-во просчётов и среднюю скорость результатов в секунду за определенный промежуток времени.
ОС: GNU Linux

1. Какой метод для Py лучше использовать для параллельной многозадачности(multiprocessing или threads)?
Вычитал, что для *nix систем fork-и эффективны, multiprocessing их и использует

2. Исходя из выбранного инструмента, как выводить общую скорость и кол-во просчётов(например в консоль)

ПыСы: В данной задаче принципиальна асинхронность потоков и нежалательность возможных долгих прерываний к общей бд.
Имеется ли какой-то способ общего пространства памяти для процессов/потоков без прерываний на обращение к накопителям и бд

источник

10:11пожаловаться #19

Dmitry in Data Science Chat

привет
у кого-то есть опыт тренировки embeddings на нейронке, чтобы потом с их помощью трансформировать категориальные данные в датасете и кормить это, к примеру, в xgboost?

источник

15:12пожаловаться #20