Спасибо
@Cookie_theif за ссылку на
WikiMatrixЧто это такое. Это параллельные корпуса текстов на 85 языках из распаршенной википедии. 132 млн предложений (это очень много) из которых всего 34 млн параллельные с английским (то есть он действительно многоязычный). Корпусов, как известно, много не бывает. Больших корпусов тем более.
Подход:
We use LASER's bitext mining approach and encoder for 93 languages. We do not use the inter-language links provided by Wikipedia, but search over all Wikipedia artickes of each language. We approach the computational challenge to mine in almost 600 million sentences by using fast indexing and similarity search with
FAISS. Prior to mining parallel sentences, we perform sentence segmentation, deduplication and language identification.
Для того, чтобы скачать требуемую вам пару языков, достаточно wget’нуть ссылку вида
https://dl.fbaipublicfiles.com/laser/WikiMatrix/v1/WikiMatrix.xx-yy.tsv.gz
где xx-yy – это интересующая вас пара (например, ru-en).