Size: a a a

Natural Language Processing

2021 December 02

IG

Ilya Gusev in Natural Language Processing
Что значит "найти по перцентилям"? вывести топ-10%?
cnt.most_common()[:len(cnt)//10]

или даже
cnt.most_common(len(cnt)//10)

А так, конечно, смотреть надо не в каггл и не в SO, а документацию Питона.
источник

KS

Ksenia Skryabysheva in Natural Language Processing
аа, спасибо! Обычно просто уже что-то похожее кто-то делал. Спасибо еще раз!
источник

A

Alex in Natural Language Processing
Здравствуйте, подскажите пожалуйста, использую Huggingface GPT модель для генерации текста. В model.generate следующие параметры: top_p=0.96, temperature=1.0 Каждый раз при запуске на одной и той же подсказке получаю одинаковый текст. Пробую вариант top_p=1.0 temperature=0.7, тоже самое - для одной и той же подсказки одинаковый выход. Можно ли сделать какую-то комбинацию top/temperature чтобы текст на выходе каждый раз был уникальный?
источник

VF

Vadim Fomin in Natural Language Processing
Это надо сэмплинг включать, без него детерминистично
источник

VF

Vadim Fomin in Natural Language Processing
Там типа sample=True или do_sample=True или что-то такое
источник

A

Alex in Natural Language Processing
Включено do_sample=True
источник

ЛВ

Леха Великолепный... in Natural Language Processing
Есть ли хорошие решения для keyword extraction на русском ?
источник

VF

Vadim Fomin in Natural Language Processing
Может, у вас top_p слишком высокий и только один вариант пропускает?
источник

VF

Vadim Fomin in Natural Language Processing
Хотя я забыл как он работает, не слушайте меня
источник

A

Alex in Natural Language Processing
sample_outputs = model.generate(generated, do_sample=True, top_p=0.96, temperature = 1.0, repetition_penalty = 1.3,  min_length=512, max_length=1024, num_return_sequences=1)
источник

A

Alex in Natural Language Processing
Вот так запускаю
источник

VG

Vladimir Grigoryev in Natural Language Processing
https://huggingface.co/blog/how-to-generate вот зесь хорошо описано какие параметры на что влияют
источник

DD

David Dale in Natural Language Processing
Чтобы увеличить рандомность генерируемых текстов, надо увеличивать температуру. Если не помогает, то жёстко увеличивать. Но предупреждаю, что качество может страдать.
источник

A

Alex in Natural Language Processing
Т.е. ставить do_sample=False, top_p=1.0, и temperature. А какое значение для temperature можно пробовать?
источник

DD

David Dale in Natural Language Processing
Мне кажется, скорее нет, потому что в разных доменах и задачах понятие "хорошие ключевые слова" может сильно различаться. Но, возможно, я чего-то не знаю.
источник

DD

David Dale in Natural Language Processing
Нет, do_sample=True надо всегда ставить, если хочется случайности. Температуру можно растить по экспоненте, типа 1,3,10,30,100, пока не станет достаточно рандомно. А top_p имеет смысл выставлять только меньше единицы, ибо единица там по умолчанию.
источник

A

Alex in Natural Language Processing
Принцип понял, спасибо. Буду пробовать.
источник

ЛВ

Леха Великолепный... in Natural Language Processing
Ну а какие имеются решения ?
источник

KS

Konstantin Smith in Natural Language Processing
В Pullenti есть спец. анализатор KeywordAnalyzer (в online сайта - на вкладке "Демонстрация"\"Ключевые слова"). Выделяет сущности, именные группы, глаголы и генетивные цепочки, ранжируя по "значимости". Можно считать ключевыми словами первые N комбинаций. Работает только для русского и украинского.
источник

ЛВ

Леха Великолепный... in Natural Language Processing
выглядит здорово, а есть библиотека, чтобы была возможность у себя запустить в коде?
источник