Телеграмм чат группы natural_language_processing страница 650

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1524 membersпожаловаться на группу

2020 April 29

D

Dmitry in Natural Language Processing

Андрей Ключаревский

Так они и дали размеченный датасет(на 500 текстах).
Надо будет переучивать - думаю использовать fasttext или лучше сразу что-то в облаке брать от гугла или амазона?

За облако вы будете постоянно платить

источник

05:06пожаловаться #1

D

Dmitry in Natural Language Processing

Андрей Ключаревский

Так они и дали размеченный датасет(на 500 текстах).
Надо будет переучивать - думаю использовать fasttext или лучше сразу что-то в облаке брать от гугла или амазона?

FastText пойдет для начала. Можете взять несколько разных моделек и сравнить. Так же препроцессинг данных имеет большое значение и может изменить (в лучшую или худшую сторону) качество классификации

источник

05:08пожаловаться #2

АК

Андрей Ключаревский in Natural Language Processing

FastText пойдет для начала. Можете взять несколько разных моделек и сравнить. Так же препроцессинг данных имеет большое значение и может изменить (в лучшую или худшую сторону) качество классификации

Rss же. Хотя да, могут быть дубли и реклама. Предыдущая модель на векторных машинах четко работала >90% нужных текстов находила и обучена была на не размеченном датасете в 500 текстов. Решили на впс закинуть с программистом:)

источник

05:14пожаловаться #3

A

Alexander in Natural Language Processing

Вот бы какую табличку собрать или FAQ по русскому NLP. Чтобы там и морфологические анализаторы были представлены с ссылками и предобученные модули и т.д. по стандартным вопросам. А может уже есть у кого?

источник

11:06пожаловаться #4

VM

Valentin Malykh in Natural Language Processing

посмотрите на nlpub.ru, кажется, там как минимум частично есть то, что вам нужно

источник

11:10пожаловаться #5

VM

Valentin Malykh in Natural Language Processing

если нет, можно создать свою страницу и собрать там

источник

11:10пожаловаться #6

ИГ

Иван Гладуш in Natural Language Processing

Здравствуйте, есть вот такой вопрос, буду благодарен за любой ответ.
Я работаю с библиотекой Наташа и мне не дает покоя одна вещь, которую я не могу понять очень долго. Что за модели лежат в файлах
name.crf.json
street.crf.json
Как они получаются и как их использовать?
статься видео, книга в которой будет это будет описываться будет тоже очень кстати %)

источник

11:39пожаловаться #7

MD

Mikhail Dyachkov in Natural Language Processing

Всем привет!

Хочу быстро научиться исправлять опечатки в поисковых запросах в сервисе карт. Думаю использовать hunspell + собрать свой словарь, поскольку допустимых ответов намного меньше, чем в стоковом словаре.

В правильную сторону ли я смотрю? какие другие коробочные решения можно посмотреть для mvp решения?
Собирал ли кто-то свои словари для hunspell?

Спасибо!

источник

12:55пожаловаться #8

V

Vic in Natural Language Processing

Ребят, вопрос такой: у меня модель pytorch на инференс работает, но периодически падает с ошибкой -bash: fork: Cannot allocate memory. Потом я перезапускаю supervisor и все опять работает.
Модель работает на Flask, http сервер - gunicorn.
Есть мысль, что просто через несколько запросов в API на сервере заканчивается оперативная память. Это значит ее надо как-то освобождать? Нигде не видел, чтоб это надо было делать вручную. В общем не знаю, относится вопрос к серверу gunicorn или же к косяку в моем коде, где каждый новый запрос подгружает 2гб модель в память и забивает ее.
что думаете?

источник

16:08пожаловаться #9

RB

Radion Bikmukhamedov in Natural Language Processing

gunicorn форкает процессы по умолчанию . скорее всего не хватает ОЗУ. можно попробовать число воркеров уменьшить. ну а саму переменную модели можно сделать глобальной для модуля (или lru_cache), чтобы не подгружалось каждый раз

источник

16:11пожаловаться #10

V

Vic in Natural Language Processing

Radion Bikmukhamedov

gunicorn форкает процессы по умолчанию . скорее всего не хватает ОЗУ. можно попробовать число воркеров уменьшить. ну а саму переменную модели можно сделать глобальной для модуля (или lru_cache), чтобы не подгружалось каждый раз

спасибо. Воркеров 3, попробую

источник

16:17пожаловаться #11

A

Alexander in Natural Language Processing

Valentin Malykh

посмотрите на nlpub.ru, кажется, там как минимум частично есть то, что вам нужно

Thanks!

источник

17:30пожаловаться #12

V

Vanya in Natural Language Processing

Radion Bikmukhamedov

gunicorn форкает процессы по умолчанию . скорее всего не хватает ОЗУ. можно попробовать число воркеров уменьшить. ну а саму переменную модели можно сделать глобальной для модуля (или lru_cache), чтобы не подгружалось каждый раз

Делать что либо глобальным в контексте обработки запроса в большинстве случаев -- плохая идея. Тем более это не привет к уменьшению потребления памяти, так как каждый процесс (воркер в терминах гуникорна) имеет свое адресное пространство

источник

18:04пожаловаться #13

V

Vanya in Natural Language Processing

Но уменьшение воркеров должно помочь, да

источник

18:05пожаловаться #14

RB

Radion Bikmukhamedov in Natural Language Processing

Делать что либо глобальным в контексте обработки запроса в большинстве случаев -- плохая идея. Тем более это не привет к уменьшению потребления памяти, так как каждый процесс (воркер в терминах гуникорна) имеет свое адресное пространство

речь была о том, что нужно уменьшить число воркеров, где в каждом подгружается по инстансу модели.

а какие способы известны кроме как глобальной переменной и схожего lru_cache чтобы избежать подгрузки модели при каждом запросе?

источник

18:07пожаловаться #15

AS

Artem Semenov in Natural Language Processing

https://futurism.com/the-byte/microsoft-mine-cryptocurrency-using-your-brain-waves

Microsoft Wants to Mine Cryptocurrency Using Your Brain Waves

A patent application from Microsoft describes a system that would read a person's brainwaves and mine cryptocurrency as a reward for completing tasks.

источник

18:18пожаловаться #16

V

Vanya in Natural Language Processing

Radion Bikmukhamedov

речь была о том, что нужно уменьшить число воркеров, где в каждом подгружается по инстансу модели.

а какие способы известны кроме как глобальной переменной и схожего lru_cache чтобы избежать подгрузки модели при каждом запросе?

Нет ничего плохо в том, чтобы подгружать готовую модель при каждом запросе. Если она слишком тяжёлая, то нужно либо использовать один поток, либо синхронизировать их. Можно использовать Local из Werkzeug, но проблему с памятью это не решит

источник

18:21пожаловаться #17

RB

Radion Bikmukhamedov in Natural Language Processing

мне вот самому стало интересно как еще можно сделать подгрузку моделей в своем сервисе, глянул как это реализовано в MLflow — практически та же глобальная переменная, но спец. типа (через importlib), которая потом передается во Flask app:
https://github.com/mlflow/mlflow/blob/c006ed9672fd379c150d8444279f4c9e2bf20034/mlflow/pyfunc/__init__.py#L268

https://github.com/mlflow/mlflow/blob/c006ed9672fd379c150d8444279f4c9e2bf20034/mlflow/models/container/scoring_server/wsgi.py#L3

mlflow/mlflow

Open source platform for the machine learning lifecycle - mlflow/mlflow

источник

18:22пожаловаться #18

DK

Denis Kirjanov in Natural Language Processing

@before_first_request на фласке вроде должен помочь

источник

18:22пожаловаться #19

V

Vanya in Natural Language Processing

@before_first_request на фласке вроде должен помочь

Чем?

источник

18:25пожаловаться #20