Почитайте комменты к статье на хабре
Там адресованы это моменты
Tldr - fair use
А будет ли это fair use для компаний, которые захотят использовать ваш датасет для коммерческих целей, и, предположим, заплатят вам за ваше смежное право на сбор и нарезку аудио и текста из открытых источников? Это не защитит их от исков правообладателей. Поэтому приходится констатировать, что датасет open_stt, к сожалению, вне правового поля сейчас, независимо от того, какую лицензию вы на него решите повесить.