Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2021 December 02

Ilya Gusev in Natural Language Processing

Что значит "найти по перцентилям"? вывести топ-10%?

cnt.most_common()[:len(cnt)//10]

или даже

cnt.most_common(len(cnt)//10)

А так, конечно, смотреть надо не в каггл и не в SO, а документацию Питона.

источник

13:25пожаловаться #1

Ksenia Skryabysheva in Natural Language Processing

аа, спасибо! Обычно просто уже что-то похожее кто-то делал. Спасибо еще раз!

источник

13:26пожаловаться #2

Alex in Natural Language Processing

Здравствуйте, подскажите пожалуйста, использую Huggingface GPT модель для генерации текста. В model.generate следующие параметры: top_p=0.96, temperature=1.0 Каждый раз при запуске на одной и той же подсказке получаю одинаковый текст. Пробую вариант top_p=1.0 temperature=0.7, тоже самое - для одной и той же подсказки одинаковый выход. Можно ли сделать какую-то комбинацию top/temperature чтобы текст на выходе каждый раз был уникальный?

источник

19:01пожаловаться #3

Vadim Fomin in Natural Language Processing

Это надо сэмплинг включать, без него детерминистично

источник

19:01пожаловаться #4

Vadim Fomin in Natural Language Processing

Там типа sample=True или do_sample=True или что-то такое

источник

19:02пожаловаться #5

Alex in Natural Language Processing

Включено do_sample=True

источник

19:04пожаловаться #6

ЛВ

Леха Великолепный... in Natural Language Processing

Есть ли хорошие решения для keyword extraction на русском ?

источник

19:05пожаловаться #7

Vadim Fomin in Natural Language Processing

Может, у вас top_p слишком высокий и только один вариант пропускает?

источник

19:06пожаловаться #8

Vadim Fomin in Natural Language Processing

Хотя я забыл как он работает, не слушайте меня

источник

19:06пожаловаться #9

Alex in Natural Language Processing

sample_outputs = model.generate(generated, do_sample=True, top_p=0.96, temperature = 1.0, repetition_penalty = 1.3, min_length=512, max_length=1024, num_return_sequences=1)

источник

19:06пожаловаться #10

Alex in Natural Language Processing

Вот так запускаю

источник

19:07пожаловаться #11

Vladimir Grigoryev in Natural Language Processing

https://huggingface.co/blog/how-to-generate вот зесь хорошо описано какие параметры на что влияют

huggingface.co

How to generate text: using different decoding methods for language generation with Transformers

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

19:11пожаловаться #12

David Dale in Natural Language Processing

Чтобы увеличить рандомность генерируемых текстов, надо увеличивать температуру. Если не помогает, то жёстко увеличивать. Но предупреждаю, что качество может страдать.

источник

19:12пожаловаться #13

Alex in Natural Language Processing

Т.е. ставить do_sample=False, top_p=1.0, и temperature. А какое значение для temperature можно пробовать?

источник

19:13пожаловаться #14

David Dale in Natural Language Processing

Мне кажется, скорее нет, потому что в разных доменах и задачах понятие "хорошие ключевые слова" может сильно различаться. Но, возможно, я чего-то не знаю.

источник

19:14пожаловаться #15

David Dale in Natural Language Processing

Нет, do_sample=True надо всегда ставить, если хочется случайности. Температуру можно растить по экспоненте, типа 1,3,10,30,100, пока не станет достаточно рандомно. А top_p имеет смысл выставлять только меньше единицы, ибо единица там по умолчанию.

источник

19:15пожаловаться #16

Alex in Natural Language Processing

Принцип понял, спасибо. Буду пробовать.

источник

19:20пожаловаться #17

ЛВ

Леха Великолепный... in Natural Language Processing

Ну а какие имеются решения ?

источник

19:22пожаловаться #18

Konstantin Smith in Natural Language Processing

В Pullenti есть спец. анализатор KeywordAnalyzer (в online сайта - на вкладке "Демонстрация"\"Ключевые слова"). Выделяет сущности, именные группы, глаголы и генетивные цепочки, ранжируя по "значимости". Можно считать ключевыми словами первые N комбинаций. Работает только для русского и украинского.

источник

20:19пожаловаться #19

ЛВ

Леха Великолепный... in Natural Language Processing

выглядит здорово, а есть библиотека, чтобы была возможность у себя запустить в коде?

источник

21:23пожаловаться #20