Size: a a a

Natural Language Processing

2020 July 27

I

I Апрельский... in Natural Language Processing
German Zvonchuk
Здравствуйте Друзья,

у меня есть в БД много-много объявлений по продаже и аренде квартир.

Мне нужен механизм, при помощи которого я смогу определять, какое объявление является продажей, какое арендой на месяц, а какое объявление об аренде посуточно.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Стоит ли опираться только на текст или брать в расчет и цену и пытаться сделать правильный вывод?
Руками разметь сотни полторы. А потом обучи shallow классификатор на мешке слов и нетекстовой инфе (цене, что там ещё).

Как-то так мне кажется: https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html#sphx-glr-auto-examples-compose-plot-column-transformer-py
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
Есть отличная платформа для аннотации текстов (для обучения модели классификации) prodi.gy
Но стоит дорого.
Какие есть простые и интуитивные в использовании похожие приложения?
источник

YB

Yuri Baburov in Natural Language Processing
Zigfrid Zvezdin
Есть отличная платформа для аннотации текстов (для обучения модели классификации) prodi.gy
Но стоит дорого.
Какие есть простые и интуитивные в использовании похожие приложения?
Doccano + свой классификатор, если классификация
источник

Р

Ромаша in Natural Language Processing
Zigfrid Zvezdin
Есть отличная платформа для аннотации текстов (для обучения модели классификации) prodi.gy
Но стоит дорого.
Какие есть простые и интуитивные в использовании похожие приложения?
источник

S

Serezha in Natural Language Processing
Zigfrid Zvezdin
Есть отличная платформа для аннотации текстов (для обучения модели классификации) prodi.gy
Но стоит дорого.
Какие есть простые и интуитивные в использовании похожие приложения?
Там лицензия вечная. Почему дорого?
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
Serezha
Там лицензия вечная. Почему дорого?
Не для личного использования, для компании (там нужно брать паками по 5 юзеров)
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
Спасибо за ссылки
источник

FF

Futorio Franklin in Natural Language Processing
Yuri Baburov
Doccano + свой классификатор, если классификация
В дукане беды с загрузкой датасета, максимум 1 мб
источник

FF

Futorio Franklin in Natural Language Processing
И нельзя удалить много обучающих примеров сразу, админка выкидывает ошибку
источник

YB

Yuri Baburov in Natural Language Processing
Futorio Franklin
В дукане беды с загрузкой датасета, максимум 1 мб
Да не должно быть. Бд какая?
источник

FF

Futorio Franklin in Natural Language Processing
стандартная из docker-compose
источник

YB

Yuri Baburov in Natural Language Processing
Futorio Franklin
И нельзя удалить много обучающих примеров сразу, админка выкидывает ошибку
Так удали из консоли джанги. В общем, проблемы решаемы, просто в проди.джи некоторые из них за вас уже решили.
источник

YB

Yuri Baburov in Natural Language Processing
Futorio Franklin
стандартная из docker-compose
Постгрес. Ну, он тем больше тормозит, чем больше документов. Берите мускул. Но в общем всё решается.
источник

FF

Futorio Franklin in Natural Language Processing
Yuri Baburov
Постгрес. Ну, он тем больше тормозит, чем больше документов. Берите мускул. Но в общем всё решается.
В самом вебе пишется, что нельзя загрузить больше 1 мб
источник

YB

Yuri Baburov in Natural Language Processing
Futorio Franklin
В самом вебе пишется, что нельзя загрузить больше 1 мб
Больше 1мб чего? Файл? Настройки нджинкса покрути.
источник

AO

Alex Orgish in Natural Language Processing
Вместо ручной разметки можно попробовать почти автоматическую:
https://www.snorkel.org/use-cases/01-spam-tutorial
источник

S

Serezha in Natural Language Processing
Yuri Baburov
Постгрес. Ну, он тем больше тормозит, чем больше документов. Берите мускул. Но в общем всё решается.
Шта? Индексы в базах для чего придумали :)
источник

FF

Futorio Franklin in Natural Language Processing
Да тут дело в другом, чтобы допилить вменяемого состояния нужно знать джангу, энжинкс и фронтенд потому он тоже бывает лагает
источник

YB

Yuri Baburov in Natural Language Processing
Serezha
Шта? Индексы в базах для чего придумали :)
Я думал, что речь шла о миллионе записей. У постгреса из-за mvvc подсчёт количества записей -- o(n), если не использовать хаки с приближенным количеством результатов. проверяет каждую запись, не удалена ли она
источник

FF

Futorio Franklin in Natural Language Processing
Оно и понятно конечно почему так, но очень сильно раздражает временами
источник