Size: a a a

Клуб веселых и задумчивых

2021 March 02

MD

Mike Drepin in Клуб веселых и задумчивых
Сколько CPU-часов современной мобилки займет скачивание и обработка такого объема страниц?
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
Сколько CPU-часов современной мобилки займет скачивание и обработка такого объема страниц?
Сколько CPU-часов займёт обработка 200ГБ данных? Ну не знаю, зависит от обработки. JSON можно гигабайты в секунду разбирать
источник

MD

Mike Drepin in Клуб веселых и задумчивых
извините, вы не компетентны.
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
извините, вы не компетентны.
https://github.com/simdjson/simdjson
или вы
Minify JSON at 6 GB/s
источник

MD

Mike Drepin in Клуб веселых и задумчивых
Вас уже четыре сообщения спрашивают не про Gb, а про CPU.
источник

N

Natalia in Клуб веселых и задумчивых
Mike Drepin
Step1. Экспертные системы. Мир логичен, компетенции можно записать в коде. Подход IF-ELSE. Это "машинное обучение", да.
Step2. Feature mining. Строгое доказательство того, что двухслойная нейросеть может апроксимировать (почти) любую корреляцию методом back error propagation, осталось подать на вход данные. Выясняется что лучшие результаты достигаются на неочевидных форматах представления данных. Эпоха "ручного майнинга фичей".
Step3. Stochastic gradient boost. Градиентный бустинг и растущие вычислительные мощности позволяют обучать глубокие нейронные сети. Сеть 5 слоев по 32 нейрона в разы лучше 2х1024. SGB рождает такие подходы как unsupervised learning и convolutional network. Эпоха глубоких нейронных сетей.
Step 4. Маленькие нейросети объединяют в структурные блоки, итоговую сеть собирают из их набора. Attention unit, short memory unit, long memory unit, etc. Реализованы сверточные, генеративные, трансформеры. Эпоха архитектур. Мы находимся здесь.
Проблемы текущего этапа: результаты конкретной архитектуры чувствителльны к объему, формату, качеству данных и "внутреннему смыслу" решаемой задачи. Т.е. архитектура, работающая для классификации котиков на уровне сравнимом или лучше с человеком не работает для классификации собачек, при прочих равных в наборе данных. Архитектура, работавшая на 1000 посетителей сайта не работает на 3000 посетителей. Работавшая на жителях СНГ не применима к североамериканцам. Ни о каком "common vision" речи не идет, подгон параметров под конкретные данные. Крайняя неуниверсальность, немастабируемость и непереносимость решений. Сотни людей на кагле брутфорсят архитектуры, выжимая лишние 0.0001% MSE, отделяющие первое место от второго, и результат их работы не применим ни к чему, кроме вот этого конкретного конкурсного набора данных.
Спасибо за такой развернутый ответ) Про маленькие нейронные сети, которые собираются в блоки, интереснее всего - ощущение, что мозг примерно так и работает, хотя в нем есть и части, консолидирующие результаты этой обработки. Про сравнение СНГ и северной Америке слышала интервью каких-то продюсеров, что опыт западных стран не сильно подходит для России при прогнозировании длительности и "успешности" всяких шоу.
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
Вас уже четыре сообщения спрашивают не про Gb, а про CPU.
Так что мне мешает обработать 200 Гб данных за сутки, я не понимаю. Количество файлов?
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Или вы мне 75 миллионов современных веб-страниц предлагаете разбирать вместо веб-страниц 1996 года?
источник

MD

Mike Drepin in Клуб веселых и задумчивых
http://toastytech.com/evil/
Раз вы заявляете о своей компетентности, вот вам сайт из 2000. Напишите гист с кодом, вытаскивающим отсюда все гиперссылки. Запустите на мобилке. Замерте время. Умножте на 75kk. Удивитесь, возвращайтесь признавать свою неправоту.
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
http://toastytech.com/evil/
Раз вы заявляете о своей компетентности, вот вам сайт из 2000. Напишите гист с кодом, вытаскивающим отсюда все гиперссылки. Запустите на мобилке. Замерте время. Умножте на 75kk. Удивитесь, возвращайтесь признавать свою неправоту.
Вас 1000 запросов в секунду смущает или что?
источник

MD

Mike Drepin in Клуб веселых и задумчивых
Код в студию
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
Код в студию
Давайте для начала сайт со средним размером страницы 3КБ
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
какие-то 25КБ-ные гифки
источник

MD

Mike Drepin in Клуб веселых и задумчивых
опять про Gb. пффффф \ ушел \
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
опять про Gb. пффффф \ ушел \
ты свои числа-то посмотри
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
делим 207 ГБ содержимого на 75 миллионов страниц
источник

CD

Constantine Drozdov in Клуб веселых и задумчивых
Mike Drepin
http://toastytech.com/evil/
Раз вы заявляете о своей компетентности, вот вам сайт из 2000. Напишите гист с кодом, вытаскивающим отсюда все гиперссылки. Запустите на мобилке. Замерте время. Умножте на 75kk. Удивитесь, возвращайтесь признавать свою неправоту.
И да, гисты убираем, достаём корутинки напрямую на TCP, а то мы будем иметь 0% загрузки ЦПУ нашего устройства
источник

N

Natalia in Клуб веселых и задумчивых
Mike Drepin
Step1. Экспертные системы. Мир логичен, компетенции можно записать в коде. Подход IF-ELSE. Это "машинное обучение", да.
Step2. Feature mining. Строгое доказательство того, что двухслойная нейросеть может апроксимировать (почти) любую корреляцию методом back error propagation, осталось подать на вход данные. Выясняется что лучшие результаты достигаются на неочевидных форматах представления данных. Эпоха "ручного майнинга фичей".
Step3. Stochastic gradient boost. Градиентный бустинг и растущие вычислительные мощности позволяют обучать глубокие нейронные сети. Сеть 5 слоев по 32 нейрона в разы лучше 2х1024. SGB рождает такие подходы как unsupervised learning и convolutional network. Эпоха глубоких нейронных сетей.
Step 4. Маленькие нейросети объединяют в структурные блоки, итоговую сеть собирают из их набора. Attention unit, short memory unit, long memory unit, etc. Реализованы сверточные, генеративные, трансформеры. Эпоха архитектур. Мы находимся здесь.
Проблемы текущего этапа: результаты конкретной архитектуры чувствителльны к объему, формату, качеству данных и "внутреннему смыслу" решаемой задачи. Т.е. архитектура, работающая для классификации котиков на уровне сравнимом или лучше с человеком не работает для классификации собачек, при прочих равных в наборе данных. Архитектура, работавшая на 1000 посетителей сайта не работает на 3000 посетителей. Работавшая на жителях СНГ не применима к североамериканцам. Ни о каком "common vision" речи не идет, подгон параметров под конкретные данные. Крайняя неуниверсальность, немастабируемость и непереносимость решений. Сотни людей на кагле брутфорсят архитектуры, выжимая лишние 0.0001% MSE, отделяющие первое место от второго, и результат их работы не применим ни к чему, кроме вот этого конкретного конкурсного набора данных.
Кстати, а можно ли говорить о "common vision" у человека? Мозг человека, обученный различать белых европеоидов, начинает лажать, если нужно различать, например, китайцев. И требует сильного дообучения. Разные люди различают разные вещи. Особенность нервной системы многих млекопитающих в том, что она способна к дообучению. По поводу архитектуры мозга: она достаточно избыточна, плюс она достраивается и настраивается во время первых лет жизни. И итоговая даже архитектура может отличаться на мелком уровне, я уж не говорю про их работу. А что значит различать котиков? Различать их по породам? Отличать одного котика от другого?
источник

MD

Mike Drepin in Клуб веселых и задумчивых
Natalia
Кстати, а можно ли говорить о "common vision" у человека? Мозг человека, обученный различать белых европеоидов, начинает лажать, если нужно различать, например, китайцев. И требует сильного дообучения. Разные люди различают разные вещи. Особенность нервной системы многих млекопитающих в том, что она способна к дообучению. По поводу архитектуры мозга: она достаточно избыточна, плюс она достраивается и настраивается во время первых лет жизни. И итоговая даже архитектура может отличаться на мелком уровне, я уж не говорю про их работу. А что значит различать котиков? Различать их по породам? Отличать одного котика от другого?
У меня два комментария.
Кажется, есть набор стимулов, которые пред-зашиты и распознаются "из коробки", им не нужно обучатся. https://critmouse.ru/stimul/
Common vision у человека, в моей терминологии, позволяет сказать "тут удобно сесть и поставить тарлеку, значит это стол и стул, потому что их можно так использовать", даже если они будут странной формы и цвета. Или даже нерукотворными пеньком и камнем. Нейросеть, обученная на типичных столах, на такое не способна, даже если на пеньке у камня будет сидеть человек и кушать. А ребенок весело побежит требовать ложку.
источник

R

Ruslan in Клуб веселых и задумчивых
Mike Drepin
У меня два комментария.
Кажется, есть набор стимулов, которые пред-зашиты и распознаются "из коробки", им не нужно обучатся. https://critmouse.ru/stimul/
Common vision у человека, в моей терминологии, позволяет сказать "тут удобно сесть и поставить тарлеку, значит это стол и стул, потому что их можно так использовать", даже если они будут странной формы и цвета. Или даже нерукотворными пеньком и камнем. Нейросеть, обученная на типичных столах, на такое не способна, даже если на пеньке у камня будет сидеть человек и кушать. А ребенок весело побежит требовать ложку.
Ну так ребенок научен не на типичных столах.
Он научен на большом объеме взаимодействия с физическими объектами.
А ещё он отчасти научен, отчасти инстинктивно повторяет действия за взрослыми

Чему учили - то и получили
источник