Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 April 08

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
ага, я вот как раз читал в этом контексте совсем старые статьи про симранк и прочее, думал в ту сторону копать
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
кстати еще можно вырвнивать строки и сущности, может будет полезно, и если у вас итоге будет структура, можно сматчить с другой структтурой, используя алгоритмы двудольных графов и потом по сматченным ребрам посчитать скор. тоже как вариант https://www.geeksforgeeks.org/maximum-bipartite-matching/ либо матчить структуры в свойства (тоже чем-то перекликается с рекомендательными системами)
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Берт проще, чем USE.
И гораздо популярнее, поэтому гораздо лучше изучен, больше разнообразных версий под языки и домены, больше кода для файн-тюнинга и адаптации под свои задачи.
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Ок, буду пробовать, всем еще раз спасибо!
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Сбер использовал интересную метрику для отсеивания некачественных текстов при обучении ruGPT-3:

Мы дополнили такой подход ещё одной эвристикой: сделали сжатие текстов с помощью zlib и отбросили самые сильно и слабо сжимающиеся, а затем уже  применили классификацию. Эмпирически подобранный диапазон сжатия для нормального текста ×1.2—×8 (меньше 1.2 — случайные символы и технический мусор, больше 8 — шаблонный спам).

Но разве сам zlib не имеет нелинейной зависимости, когда от длины сжимаемого текста зависит коэффициент сжатия даже если все тексты качественные?
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Ну видимо они резали тексты на кусочки одинаковой длины)
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Ну только если так)
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Еще раз привет, затупил, забыл уточнить, но моя задача несколько изменилась, нужно классифицировать класс по наименованию продукции, можно ли это сделать след. образом через CNN сетку: Нахождение эмбеддингов каждого(или по частям речи) токена в предложении -> 1d свертка для каждого эмбеддинга(максимум токенов в предложении к примеру 32) -> классификация? Решал ли кто может подобную задачу? Спасибо за внимание!
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Да, я решал похожую задачу, архитектура абсолютно адкекватная
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Ok, спасибо за ответ!
источник
2021 April 09

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Товарищи подскажите пожалуйста статьи про предсказание токсичности и вкуса по молекуле
источник
2021 April 10

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
Не реклама, но полезная рекомендация. Все вопросы к @cointegrated
источник

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
Ещё один вебинар на подходе, на этот раз - ликбез по NLP!
Регистрация: https://botcamp.timepad.ru/event/1612905

Мы разберём популярные задачи по обработке текстов и подходы к их решению. Поговорим про выбор моделей и их интерпретацию, разметку данных, и, конечно, про то, как начать свой путь в NLP максимально продуктивно. Решим пару практических задач. Должно идеально подойти для новичков.

Вебинар пройдёт в zoom в четверг 15 апреля с 19 до 21 по Мск.
Стоимость - 500р, но есть несколько бесплатных билетов.
источник
2021 April 11

АЖ

Александр Жужгов... in NLP_RU - Natural Language Processing & Text Mining
Здравствуйте. Подскажите пожалуйста, может кто сталкивался с подобным. Надо обучить модель изменять регистры в названиях ,с неправильного на правильные. (С большого на маленькие ). С чего можно начать процесс? Над чем подумать?
источник
2021 April 12

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Адаптировал подход для текстов разной длины. Довольно неплохо получилось избавиться от заспамленных предложений.

Идея в том, чтобы разбить тексты на группы примерно одинаковые по длине. По преобладающим группам сделать МНК, чтобы определить функцию зависимости коэффициента сжатия от длины текста. И эту функцию проецировать на все коэффициенты сжатия. Таким образом избавляемся от нелинейности самого zlib.

Может кому-то пригодится: https://github.com/kopylov-scl/zlib-text-preprocessing
источник
2021 April 15

i

ilzira in NLP_RU - Natural Language Processing & Text Mining
Здравствуйте! Может у кого-то есть датасеты с адресами на русском? Буду очень благодарна за помощь, в сети нашла датасеты для NER, но там только LOC как страны, под адреса не подходит :с
источник

A

Anastasia in NLP_RU - Natural Language Processing & Text Mining
Вот частые улицы, уже интересно может быть https://docs.google.com/spreadsheets/d/17UZYwZ15UJaDgzvdcgsrXyaUztzqbTksDAE-mlIjuhM/edit?usp=sharing - спрошу, откуда извлекали, там какой-то масштабный датасет
источник

i

ilzira in NLP_RU - Natural Language Processing & Text Mining
Огромное спасибо!
источник

NK

ID:0 in NLP_RU - Natural Language Processing & Text Mining
Привет!

Рассказываем, как попасть аналитиком в Яндекс за 2 дня.

Схема такая:
отборочный тур ➡️ два интервью ➡️ финал с командой ➡️ оффер. Шансы точно есть: количество офферов не ограничено. Главное — нужно уметь работать с базами данных, знать SQL и основы матстата. Ещё один мастхэв — опыт разработки на Python или C++ (от 2-х лет).


Сроки:

▫️Отборочный тур — до 23:59 18 апреля  по МСК.
▫️ 2 интервью по 60 минут — 24 апреля.
▫️Финал с командой — 25 апреля. Оффер  в тот же день, до восьми вечера по Москве.

Регистрируйтесь, пришлём материалы для подготовки.

🍀Удачи!
источник

A

Anastasia in NLP_RU - Natural Language Processing & Text Mining
Это https://kladr-rf.ru/ но отсюда, чтобы сделать данные, ещё попыхтеть надо. Я спросила, случайно не могут ли поделиться уже имеющимися, но пока не ответили
источник