Телеграмм чат группы cmusphinx

2019 September 15

MW

Mohammad Wolf in Распознавание речи

Vlad

Хотя и для TTS тоже данных примерно среднего качества хватает, нужно просто усердно поискать)

А ты какой датасет юзал для своих нейронок?

источник

14:11пожаловаться #1

V

Vlad in Распознавание речи

Пока ещё никакой, т.к. найденные либо недостаточного объёма (10-20 часов), либо недостаточное качество

источник

14:16пожаловаться #2

AZ

Al Zatv in Распознавание речи

Alexander

Там много галер которые зарегестрированы по английскому праву

О, я бы купил попкорна и посмотрел, как по английскому праву разбирают споры с датасетом класса "натырено из ютюба, библиотек и ряда других мест с нарушением лицензии почти каждого из них" .

источник

14:43пожаловаться #3

A

Alexander in Распознавание речи

Al Zatv

О, я бы купил попкорна и посмотрел, как по английскому праву разбирают споры с датасетом класса "натырено из ютюба, библиотек и ряда других мест с нарушением лицензии почти каждого из них" .

Почитайте комменты к статье на хабре
Там адресованы это моменты
Tldr - fair use

источник

14:50пожаловаться #4

AZ

Al Zatv in Распознавание речи

Я читал, и меня они не убедили. Точнее, убедили в обратном.

источник

14:52пожаловаться #5

AS

Andrew Stepanov in Распознавание речи

Alexander

Почитайте комменты к статье на хабре
Там адресованы это моменты
Tldr - fair use

А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.

источник

15:28пожаловаться #6

VV

Vlad Vinogradov in Распознавание речи

Andrew Stepanov

А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.

Интересный вопрос. А когда можно вообще гарантировать, что не будет исков правообладателей, если датасет берется в открытом доступе?

источник

15:32пожаловаться #7

V

Vlad in Распознавание речи

Как минимум нигде не завялять и не писать, что он у вас используется)

источник

15:32пожаловаться #8

AS

Andrew Stepanov in Распознавание речи

Vlad Vinogradov

Интересный вопрос. А когда можно вообще гарантировать, что не будет исков правообладателей, если датасет берется в открытом доступе?

Например если исходные аудио и текст лежат в public domain, или может быть, Creative Commons, но надо проверять.

источник

15:33пожаловаться #9

VV

Vlad Vinogradov in Распознавание речи

Vlad

Как минимум нигде не завялять и не писать, что он у вас используется)

Падажжите, а если я публикую результаты по этому датасету, то придется рассказать. Наверно можно спокойно, если лицензия Creative Commons и подобные, как ниже написали

источник

15:34пожаловаться #10

VV

Vlad Vinogradov in Распознавание речи

Andrew Stepanov

Например если исходные аудио и текст лежат в public domain, или может быть, Creative Commons, но надо проверять.

Вот только вопрос, что произойдет, если автор датасета сменит лицензию :)

источник

15:34пожаловаться #11

V

Vlad in Распознавание речи

Vlad Vinogradov

Падажжите, а если я публикую результаты по этому датасету, то придется рассказать. Наверно можно спокойно, если лицензия Creative Commons и подобные, как ниже написали

И если вы потом не указываете, что используете его в каких-то целях, кроме как просто "потыкать и покрутить"

источник

15:35пожаловаться #12

V

Vlad in Распознавание речи

В большинстве случаев вся эта информация остаётся в недрах компании и в лучшем случае могут рассказать, что мол мы вот проверяли такую теорию и получили такой результат, вот пользуйтесь и обсуждайте

источник

15:36пожаловаться #13

V

Vlad in Распознавание речи

И это у меня компания ещё довольно открытая в плане таких публикаций и обсуждений

источник

15:36пожаловаться #14

V

Vlad in Распознавание речи

И мы ещё стараемся связываться потом с авторами того, что используем, что б или обсудить сотрудничество, или ещё что. Особенно если этот проект потом не был отброшен и используется в конечном продукте/сервисе

источник

15:37пожаловаться #15

VV

Vlad Vinogradov in Распознавание речи

А что если я являюсь дистрибьютером датасетов? Могу ли расчитывать, что исков не будет, если лицензия публичная, но необзятельно разрешает коммерческое использование. Иными словами, я не знаю, как будут использоваться датасеты, которые я публикую у себя для всеобщего пользования

источник

15:38пожаловаться #16

VV

Vlad Vinogradov in Распознавание речи

Kaggle, Google Datasets так делают

источник

15:39пожаловаться #17

VV

Vlad Vinogradov in Распознавание речи

Интересно, как у них с исками

источник

15:39пожаловаться #18

V

Vlad in Распознавание речи

Я в таких вещах мягко говоря не силён)

источник

15:39пожаловаться #19

A

Alexander in Распознавание речи

Andrew Stepanov

А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.

На этот вопрос на Хабре тоже прекрасно ответили.

источник

15:43пожаловаться #20