Size: a a a

Data Science Kazakhstan (DS/ML kz)

2020 May 11

NK

ID:0 in Data Science Kazakhstan (DS/ML kz)
Переслано от Nurzhan
#hello Я Нуржан, адроид разработчик.

Несколько месяцев назад увлекся Deep Learning-гом. Решил постигать азы через Keras. Мне была интересна тема синтеза речи, в частности хотел попробовать синтезировать казахскую речь. Поковырял tacotron-ы, wavenet, и еще несколько моделей. Они мне показались сложными для понимания. Затем наткнулся на имплементацию этой модели https://arxiv.org/abs/1710.08969 (основана только сверточных сетях) на чистом tensorflow 1.3 и решил переписать его под версию 2.1, но уже через Keras API. Таким образом убить 2 зайца: изучить сам tensorflow, ну и Keras.

Логика построения глубоких нейронных сетей на Керас мне очень понравилась. Достаточно понятно для новичка.
Сперва поиграл с английским датасетом Линды Джонсон. Этот датасет весьма большой (24 часа). Из-за специфики английского языка он и должен быть большим, так как в их словах буквы произносятся (или не произносятся) в зависимости от того, где и как они расположены (ну Вы сами знаете). Чтобы нейронку этому научить применяют механизм attention (подробнее есть в доках). Грубо говоря, этот механизм "указывает", как звучит та или иная буква (тут я могу ошибаться).

Ко мне закралась идея, что казахскому языку потребуется гораздо меньшие датасет и время на обучение. Решил пробовать.
Создал небольшой датасет (1 ч. 25 мин.) и прогнал через сеть. Так и есть! Чтобы сносно (на 3) говорить на казахском языке нейронке требуется около часа тренировки на GPU Tesla T4. Конечно все зависит от качества датасета.


Послушать примеры можно в клетке Synthesyze в самом низу.


Я не спец в питоне, так что архитектура кода так себе )
https://colab.research.google.com/drive/1iEpFDknQBJYlEmYB4AP0cWZXd4VlQbVl?usp=sharing
источник

N

Nurzhan in Data Science Kazakhstan (DS/ML kz)
Iv
Прикольно, а твоих сгенерированных примеров не было в трейне?
Не было
источник

N

Nurzhan in Data Science Kazakhstan (DS/ML kz)
Renat Alimbekov
Круто, а я могу ему фразу составить, скормить и он синтезирует?
Это чисто код. Пока не могу поделиться с вами датасетом, так как еще планирую дорабатывать и улучшать. Но вы можете создать свой и погонять на это или других моделях.
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Чистокод - это антипод говнокода)
источник

Х

Хэнк in Data Science Kazakhstan (DS/ML kz)
Aykhan
Классно, апвоутнул
Спасибо)
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Home Credit Bank, г. Алматы.
Ищем в команду Big Data DevOps для участия в Big Data проектах

Ваши будущие задачи:
• Миграция данных из различных источников в Hadoop и работа других системах Big Data экосистемы Банка

• Автоматизация, оптимизация и поддержка существующих процессов

• Участие в разработке, согласовании архитектуры и стратегии развития Big Data в Банке

• При необходимости анализ данных с помощью Python, Java

• Коммуникация с заказчиками и другими командами, как внутри Банка, так и в Группе Компаний до конечного продукта.

Требования к кандидату:
- Высшее техническое образование;

- Знания/Опыт работы c технологиями распределенных вычислений, например Kafka, Spark, Hadoop, Hive и с оркестрацией контейнеров, например Docker, Mesos, Kubernete

- Опыт программирования на Java/ C++/Python/ Scala/ Go

- Английский язык: не ниже intermediate;

ЗП 440 000 - 800 000 тг

Наши контакты:
Анастасия
Эл. Почта: aplatonova@Homecredit.kz
Тел: 87027023953
#jobs
источник

AS

Assel Serik in Data Science Kazakhstan (DS/ML kz)
Sagimbayev Zhuldyzzhan
​​Ну чо, Нейрованга?
Взял предсказания Ванги, обрезал каждое предложение пополам и дополнил его с помощью нейросети GPT-2:

>>Когда Бог придет, трудное время настанет для  Франции. Ведь она сожрет свинюшный флаг. Вода, пригодная для питья, останется только для девочек. И запах лака исчезнет навсегда. Христос будет поить людей  кровью.  Антихрист снаружи  будет ловить несчастных  лососей.

>>В 2024 г. в России установится Windows XP

>>Придет время чудес, и наука сделает большие открытия в области Воронежа. Мы станем свидетелями мобильных моргов,  где часами будут морозиться туши коров и размножаться вымершие виды птиц

>>Будущее принадлежит добрым людям, и они будут жить в коровниках, стойлах и сараях, чтобы приносить туда молоко и яйца, после чего их съедят злые голодные собаки.

>>В земле раскопают большой город, а потом будут бегать вокруг него и  кричать: «Эй! Смотрите! Это наши братья-поляки! Смотрите на них! В кафтанах из шкуры какого-то зверя!»

>>Наступит день, когда русские матери родят   детей, вместо их голов  будет стоять жестяная голова прапорщика, которая  каждый день будет служить им напоминанием о позоре смерти
Ой не могу🤣🤣🤣
источник

A

Aykhan in Data Science Kazakhstan (DS/ML kz)
Не подскажете, как можно считать CE вместе с MSE в pytorch. у меня выход с сетки one hot encoding, поэтому чтоб mse считать нужно argmax брать, а у него градиента нет
источник

AZ

Agggzhl Zhhhh in Data Science Kazakhstan (DS/ML kz)
Всем привет,  не хватает оперативной памяти для одной задачи nlp. Если тип данных поменять на float16 из float64, сильно скажется на результате? У кого есть опыт
источник

Y

Yerassyl in Data Science Kazakhstan (DS/ML kz)
Aykhan
Не подскажете, как можно считать CE вместе с MSE в pytorch. у меня выход с сетки one hot encoding, поэтому чтоб mse считать нужно argmax брать, а у него градиента нет
сделать выход logits, потом в MSE, потом поменять и в СЕ может?
источник

A

Aykhan in Data Science Kazakhstan (DS/ML kz)
я просто хотел их вместе считать как сумму двух лосов
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
почему нельзя взять выход с софтмакса просто?
источник

AS

Ahmad Sumekenov in Data Science Kazakhstan (DS/ML kz)
Agggzhl Zhhhh
Всем привет,  не хватает оперативной памяти для одной задачи nlp. Если тип данных поменять на float16 из float64, сильно скажется на результате? У кого есть опыт
Вроде бы не должен
источник

A

Aykhan in Data Science Kazakhstan (DS/ML kz)
Taskynov Anuar
почему нельзя взять выход с софтмакса просто?
он же не меняет размерность выхода.
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
target'ы как выглядят? и как получается one-hot?
источник

A

Aykhan in Data Science Kazakhstan (DS/ML kz)
тензон [batch, 6]. Где 6 это количество классов. в CE нормально заходят, а вот MSE нужно же просто одно число давать. Думал добавить линейный выход 6 на 1 чтоб считать еще MSE, но не знаю на сколько это верно.
Честно говоря, не знаю на сколько эта затея вообще адекватная. Хотел поэкспериментировать.
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
умножь поэлементно one-hot на [1,2,...,6] и сложи по class dimension
источник

A

Aykhan in Data Science Kazakhstan (DS/ML kz)
Ладно, попробую. Рахмет
источник

Y

Yerassyl in Data Science Kazakhstan (DS/ML kz)
Aykhan
тензон [batch, 6]. Где 6 это количество классов. в CE нормально заходят, а вот MSE нужно же просто одно число давать. Думал добавить линейный выход 6 на 1 чтоб считать еще MSE, но не знаю на сколько это верно.
Честно говоря, не знаю на сколько эта затея вообще адекватная. Хотел поэкспериментировать.
MSE для регрессии обычно, CE для классификации
источник

TA

Taskynov Anuar in Data Science Kazakhstan (DS/ML kz)
Или я не понял. У тебя тензор [batch, 6] -  это one-hot, а target просто [batch, 1], нет?
источник