Телеграмм чат группы natural_language

Да, Юра примерно так и написал)

17:23пожаловаться #1

V

Yuri Baburov

ну вот надо теперь чтобы было несколько заранее созданных под клиентов, или чтобы они переиспользовались.

процессы заранее создаются под клиентов сейчас. У меня парсеры сейчас создаются во время обработки запроса. А я хочу заранее. При этом должна быть синхронизация между потоками

17:24пожаловаться #2

V

А зачем синхронизация между потоками? Клиенты могут менять состояние парсеров?

17:25пожаловаться #3

V

Мне кажется, будет логичнее каждому потоку/процессу присвоить свой экземпляр парсера

17:26пожаловаться #4

V

менять состояние не могут, но разве работа функции findall атомарна для потока? Мне кажется, что нет

17:27пожаловаться #5

V

Но в случае, если вы используете дочерние процессы, вы не сможете заранее проинициализировать в нём парсер и весь нужный код, а потом в нужный момент обратиться

В питоне вроде как нет такой возможности, вызыать метод какого-нибудь класса в дочернем процессе. Только создать процесс заново и там его сразу вызвать

17:27пожаловаться #6

V

Под потоками вы понимаете потоки внутри процесса или пул дочерних процессов?

17:28пожаловаться #7

V

потоки внутри процесса

17:28пожаловаться #8

V

Про атомарность findall не могу сказать, не лез так глубоко)
Но в целом думаю будет проще/надёжнее взять что-то готовое для этого, типо gevent'а. Либо же, вообще забить на многопоточность, сделать однопоточный север, но запускать его через wsgi в многопоточном режиме. Там проблема атомарности должна быть решена, во всяком случае я с ней проблем ещё не ловил

17:31пожаловаться #9

V

Т.е. мой совет заключается в решении проблемы не на уровне объектов ваших парсеров, а на уровне сервера целиком. Это, как мне кажется, проще и меньше головной боли

17:31пожаловаться #10

V

Хотя это немного и не выгодно по оперативной памяти, но сейчас она стоит копейки, не думаю, что это будет проблема

17:32пожаловаться #11

A

Ahlesen in Natural Language Processing

17:37пожаловаться #12

V

В случае flask+gevent вы просто для запуска сервера используете gevent.wsgiserver (или как-то так, не помню точное название), и передаёте ему объект приложения Flask

По умолчанию, gevent wsgi server будет использовать главный пул гринлетов в родительском процессе, тем самым он нагрузит ваше ядро, на котором живёт сервер, по максимуму

При этом вы не запариваетесь про доступ к экземплярам парсеров и других ваших объектов, это решается но более высоком уровне средствами gevent (а точнее того, как он работает с гринлетами - формально, с "потоками")

А после запускаете несколько серверов и балансируете между ними нагрузку

Если вы не хотите заниматься балансировкой нагрузки, можно попробовать при создании gevent wsgi server передать ему пул listener'ов и в итоге получите пул подсерверов, которые будут слушать один порт и сами делить друг с другом запросы

17:39пожаловаться #13

V

Gevent Pywsgi Server - Multiprocessing?

Вот тут примерная схема с процессами описана: https://stackoverflow.com/questions/7407868/gevent-pywsgi-server-multiprocessing

Я пока не добрался до того, что б её проверить и отказаться от балансировщика на nginx и пула докер контейнеров

Stack Overflow

The following code (taken from here: https://bitbucket.org/denis/gevent/src/6c710e8ae58b/examples/wsgiserver_ssl.py) implements an extremely fast greenlet powered wsgi webserver:

#!/usr/bin/python...

17:40пожаловаться #14

I

Ilya in Natural Language Processing

Можно с помощью https://docs.python.org/3/library/concurrent.futures.html создать пул воркеров и через initializer на воркерах создать объект-парсер

17:40пожаловаться #15

V

Gevent Pywsgi Server - Multiprocessing?

Vlad

Вот тут примерная схема с процессами описана: https://stackoverflow.com/questions/7407868/gevent-pywsgi-server-multiprocessing

Я пока не добрался до того, что б её проверить и отказаться от балансировщика на nginx и пула докер контейнеров

Stack Overflow

The following code (taken from here: https://bitbucket.org/denis/gevent/src/6c710e8ae58b/examples/wsgiserver_ssl.py) implements an extremely fast greenlet powered wsgi webserver:

#!/usr/bin/python...

В примере по ссылке, при создании pywsgi.WSGIServer() передайте ему application=Flask(), который или в этот же момент, или заранее проинициализировали, это не важно

т.е. типо так:
app = Flask(name)
...
http_server = WSGIServer(listener, application=app, ...)
http_server.serve_forever() # с этого момента сервер запущен

В случае многопроцессности примерно так же, только для каждого вашего процесса отдельно, как в примере по ссылке

17:44пожаловаться #16

V

Ilya

Можно с помощью https://docs.python.org/3/library/concurrent.futures.html создать пул воркеров и через initializer на воркерах создать объект-парсер

Можно и так. Но у меня gunicorn создаёт воркеров. Если парсеры прописаны в глобальной области, то они будут созданы только во время запуска гуникорна. Но тогда возникает проблема, если воркер многопоточный

18:21пожаловаться #17

V

Vlad

В примере по ссылке, при создании pywsgi.WSGIServer() передайте ему application=Flask(), который или в этот же момент, или заранее проинициализировали, это не важно

т.е. типо так:
app = Flask(name)
...
http_server = WSGIServer(listener, application=app, ...)
http_server.serve_forever() # с этого момента сервер запущен

В случае многопроцессности примерно так же, только для каждого вашего процесса отдельно, как в примере по ссылке

Я использую гуникорн в качестве сервера, там можно указать, чтобы процессы использовали gevent

18:26пожаловаться #18

V

Возможно, будет тот же эффект, если использовать только gevent. Стоит попробовать тесты погонять, что б оценить

Alexandr Zamaraev in Natural Language Processing

18:27пожаловаться #19

AZ

Для каждого воркера/потока создаёшь экземпляр на старте. Потом его используешь при обработке запроса.