Size: a a a

Natural Language Processing

2021 July 06

OP

Oleg Polivin in Natural Language Processing
да, потому что мне необходимо, чтобы текст разметили на русском, но еще и на английском, французском, немецком и нескольких других европейских языках. В документах к Толоке я пока не нашел точных цифр, но мне показалось, что у них разметчики из разных стран есть. Но если их совсем мало, то да, это может быть препятствием.
источник

IK

Ivan Kargapoltsev in Natural Language Processing
Совсем мало - понятие относительное :) Они есть, это правда. Но в МТурке, думаю, лучше представлены, хотя не работал с ней.
источник

OP

Oleg Polivin in Natural Language Processing
С другой стороны, мне тексты не в промышленных масштабах размечать надо, скажем, текстов 50 на каждый язык. В общем, надо разбираться, я понял)
источник

SancheZz Мов in Natural Language Processing
А какие тексты нужны?
источник

SancheZz Мов in Natural Language Processing
Какой домен?
источник

OP

Oleg Polivin in Natural Language Processing
В основном это новости на разных языках.
источник

SancheZz Мов in Natural Language Processing
Как минимум можно взять вики, субтитры и новости
источник

SancheZz Мов in Natural Language Processing
Ну тогда датасет old news
источник

SancheZz Мов in Natural Language Processing
Ща скину
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
t.Language.unique()

[5]:
array(['Afrikaans', 'Albanian', 'Amharic', 'Arabic', 'Armenian',
       'Azerbaijan', 'Bengali', 'Bosnian', 'Catalan',
       'Chinese (Simplified)', 'Chinese (Traditional)', 'Croatian',
       'Welsh', 'Czech', 'German', 'Danish', 'English', 'Spanish',
       'Spanish (South America)', 'Finnish', 'French', 'Georgian',
       'Galician', 'Greek', 'Hebrew', 'Hindi', 'Hungarian', 'Icelandic',
       'Indonesian', 'Italian', 'Japanese', 'Khmer', 'Kannada', 'Korean',
       'Kazakh', 'Lithuanian', 'Latvian', 'Macedonian', 'Malayalam',
       'Mongolian', 'Malay', 'Nepali', 'Dutch', 'Norwegian (Bokmal)',
       'Punjabi', 'Farsi', 'Polish', 'Portuguese (Brazil)',
       'Portuguese (EU)', 'Romanian', 'Russian', 'Serbian', 'Sinhalese',
       'Slovak', 'Slovenian', 'Swahili', 'Swedish', 'Tamil', 'Telugu',
       'Tagalog', 'Thai', 'Turkish', 'Ukranian', 'Urdu', 'Uzbek',
       'Vietnamese'], dtype=object)
источник

SancheZz Мов in Natural Language Processing
@olegpolivin пойдёт?)
источник

OP

Oleg Polivin in Natural Language Processing
хаха :) это прекрасно!
источник

SancheZz Мов in Natural Language Processing
Welcome
источник

AO

Alex Orgish in Natural Language Processing
источник
2021 July 07

AW

Alex Wortega in Natural Language Processing
Товарищи а кто нибудт файнтюнил ругпт на суммаризацию? Какая структура обучающего сета?  Что я делаю не так?
источник

OM

Orzhan Mikhail in Natural Language Processing
Всё так, а в контекст пример целиком помещается?
источник

AW

Alex Wortega in Natural Language Processing
Да
источник

OM

Orzhan Mikhail in Natural Language Processing
А какая проблема возникает?
источник

OM

Orzhan Mikhail in Natural Language Processing
Я делал симплификацию и генерацию вопросов, и fine-tuning на 2 эпохах с дефолтными настройками на нескольких тысячах примеров, поданных в похожем формате, было достаточно для приемлемого качества
источник