Size: a a a

Распознавание речи

2019 September 15

MW

Mohammad Wolf in Распознавание речи
Vlad
Хотя и для TTS тоже данных примерно среднего качества хватает, нужно просто усердно поискать)
А ты какой датасет юзал для своих нейронок?
источник

V

Vlad in Распознавание речи
Пока ещё никакой, т.к. найденные либо недостаточного объёма (10-20 часов), либо недостаточное качество
источник

AZ

Al Zatv in Распознавание речи
Alexander
Там много галер которые зарегестрированы по английскому праву
О, я бы купил попкорна и посмотрел, как по английскому праву разбирают споры с датасетом класса "натырено из ютюба, библиотек и ряда других мест с нарушением лицензии почти каждого из них" .
источник

A

Alexander in Распознавание речи
Al Zatv
О, я бы купил попкорна и посмотрел, как по английскому праву разбирают споры с датасетом класса "натырено из ютюба, библиотек и ряда других мест с нарушением лицензии почти каждого из них" .
Почитайте комменты к статье на хабре
Там адресованы это моменты
Tldr - fair use
источник

AZ

Al Zatv in Распознавание речи
Я читал, и меня они не убедили. Точнее, убедили в обратном.
источник

AS

Andrew Stepanov in Распознавание речи
Alexander
Почитайте комменты к статье на хабре
Там адресованы это моменты
Tldr - fair use
А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.
источник

VV

Vlad Vinogradov in Распознавание речи
Andrew Stepanov
А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.
Интересный вопрос. А когда можно вообще гарантировать, что не будет исков правообладателей, если датасет берется в открытом доступе?
источник

V

Vlad in Распознавание речи
Как минимум нигде не завялять и не писать, что он у вас используется)
источник

AS

Andrew Stepanov in Распознавание речи
Vlad Vinogradov
Интересный вопрос. А когда можно вообще гарантировать, что не будет исков правообладателей, если датасет берется в открытом доступе?
Например если исходные аудио и текст лежат в public domain, или может быть, Creative Commons, но надо проверять.
источник

VV

Vlad Vinogradov in Распознавание речи
Vlad
Как минимум нигде не завялять и не писать, что он у вас используется)
Падажжите, а если я публикую результаты по этому датасету, то придется рассказать. Наверно можно спокойно, если лицензия Creative Commons и подобные, как ниже написали
источник

VV

Vlad Vinogradov in Распознавание речи
Andrew Stepanov
Например если исходные аудио и текст лежат в public domain, или может быть, Creative Commons, но надо проверять.
Вот только вопрос, что произойдет, если автор датасета сменит лицензию :)
источник

V

Vlad in Распознавание речи
Vlad Vinogradov
Падажжите, а если я публикую результаты по этому датасету, то придется рассказать. Наверно можно спокойно, если лицензия Creative Commons и подобные, как ниже написали
И если вы потом не указываете, что используете его в каких-то целях, кроме как просто "потыкать и покрутить"
источник

V

Vlad in Распознавание речи
В большинстве случаев вся эта информация остаётся в недрах компании и в лучшем случае могут рассказать, что мол мы вот проверяли такую теорию и получили такой результат, вот пользуйтесь и обсуждайте
источник

V

Vlad in Распознавание речи
И это у меня компания ещё довольно открытая в плане таких публикаций и обсуждений
источник

V

Vlad in Распознавание речи
И мы ещё стараемся связываться потом с авторами того, что используем, что б или обсудить сотрудничество, или ещё что. Особенно если этот проект потом не был отброшен и используется в конечном продукте/сервисе
источник

VV

Vlad Vinogradov in Распознавание речи
А что если я являюсь дистрибьютером датасетов? Могу ли расчитывать, что исков не будет, если лицензия публичная, но необзятельно разрешает коммерческое использование. Иными словами, я не знаю, как будут использоваться датасеты, которые я публикую у себя для всеобщего пользования
источник

VV

Vlad Vinogradov in Распознавание речи
Kaggle, Google Datasets так делают
источник

VV

Vlad Vinogradov in Распознавание речи
Интересно, как у них с исками
источник

V

Vlad in Распознавание речи
Я в таких вещах мягко говоря не силён)
источник

A

Alexander in Распознавание речи
Andrew Stepanov
А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.
На этот вопрос на Хабре тоже прекрасно ответили.
источник