Size: a a a

Natural Language Processing

2021 April 14

Eg

Elena gisly in Natural Language Processing
а потом вот такие страшные форматы появляются :)
источник

OS

Oleg Serikov in Natural Language Processing
источник

AS

Alex Surname in Natural Language Processing
не делайте так никогда, возможно кроме 1с и подобных
источник

MK

Max Kuznetsov in Natural Language Processing
Что ж, аргументированно 😏
источник

AS

Alex Surname in Natural Language Processing
1. этот подход не используется широко, потому освоение написанного кода займет больше времени чем обычно новичками
2. русские слова латиницей режут глаз.
3. в современном глобальном мире даже если код разрабатывают исключительно русскоязычные, со временем могут нанять разработчиков из других стран, нужно будет сделать код опен сорс, выступить с ним на конференции, написать статью и тд
источник

IK

Irina Krotova in Natural Language Processing
Сейчас ярко представила себе ситуацию, как приходишь в новый проект, а там возникла производственная необходимость перевести подобный код от предшественников на английский, потому что код выходит в опенсорс и внешний мир. Памагити :)

Но не исключаю, конечно, что в каких-то локальных внутренних проектах может быть оправданно.
источник

VL

Valery Lazarev in Natural Language Processing
4. Будут большие проблемы с наймом, если кандидаты узнают про вашу кириллицу
источник

Eg

Elena gisly in Natural Language Processing
мне кажется, что в каких-то вымышленных примерах вроде переменной "имя" это нормально, а фактически начинаются всякие "ПорПродВал", "СвПлОбоснов" — мне как носителю русского языка это мало что говорит, так что преимуществ особых не вижу
источник

IK

Irina Krotova in Natural Language Processing
Согласна, мне в целом кажется, для каких-то локальных понятий вроде ИНН достаточно комментария на русском. А так да, постреволюционные имена вспоминаются :)
источник

N

Natalia in Natural Language Processing
вот да, комментарии на русском как раз куда меньше сопротивления и вопросов вызывают
источник

AS

Alex Surname in Natural Language Processing
тоже плохо. тут еще вопросы кодировки добавляются. не самые лучшие воспоминания, После работы с кодом где русские комментарии в cp-1251
источник

AP

Arsen Plus in Natural Language Processing
Коллеги, привет. Подскажите, пожалуйста, попадались ли вам хорошие статьи про методы фильтрации рекламных текстов (из соцсетей) НЕ с помощью МЛ, а каким-то набором эвристик (например, присутствие определенных ключевых слов или номера телефона). Спасибо!
источник

N

Natalia in Natural Language Processing
да кодировка вообще боль, мне можно не рассказывать :)
источник

S(

Sirius 阿狐狸 (Sergey I... in Natural Language Processing
Доброго. Повторю ранее задававшийся вопрос, но с новыми критериями.

Ищу лемматизатор русского языка, либо в формате библиотеки (linux), либо исполняемый файл, либо библиотеки для golang. Ну либо в исходниках, из которых можно собрать библиотеку.

Mystem от Яндекса не могу юзать из-за лицензии. Snowball попробовал, но результат по сравнению с mystem  не впечатляет.
источник

RK

Renat K in Natural Language Processing
Приветствую. А нужен именно один бинарник в качестве исполняемого файла? По идее, можно набросать небольшой python скрипт с pymorphy2 и его запускать
источник

S(

Sirius 阿狐狸 (Sergey I... in Natural Language Processing
недостаточно скорости, к сожалению.  https://habr.com/ru/post/503420/
источник

НК

Николай Карпенко... in Natural Language Processing
А чем МЛ плохо?
источник

MK

Max Kuznetsov in Natural Language Processing
Ок. Задачи NLP часто лежат близко к бизнес логике и являются высокоуровневыми. Есть исключения. Если речь идет о локальных (не международных или не многоязыковых) проектах, то домен описан скорее на местном языке, пускай это будет русский язык. Эксперты тоже говорят на русском.
Разработчики языков программирования не зря добавили фичу - возможности задавать идентификаторы в unicode. В масштабных проектах бизнес логику выносят в DSL, для реализации конструкций DSL выбирают язык на котором описана предметная область и говорят эксперты, чтобы не спотыкаться о кривой перевод туда-обратно (немец - половина дирижера).
Порог входа для новичков - почти нулевой. Родным языком все владеют.
1С прекрасный пример. Завоевал рынок и не имеет конкурентов. Постоянно меняющееся законодательство не дает остаться без хлеба и масла как разработчикам платформы, так и 1С-кодерам.
Практически во всех высокоуровневых продуктах, код которых я видел, разработчики скатывались до транслита в коде.
Пример, когда русские идентификаторы уместны: вы разрабатываете грамматику на Yargy для разбора таких фрагментов
Подпункт "е" пункта 26 статьи 1, пункты 11, 16, 17, 19, 20, подпункты "в" и "д" пункта 21, пункт 24, подпункт "а" пункта 25, пункты 26, 28, 29, 30, 31, 32, 35, 38, подпункт "б" пункта 46, абзац второй подпункта "а", подпункты "б" - "г" пункта 47, пункты 50, 51, 52, абзац второй подпункта "а", подпункты "б" - "г" пункта 53 статьи 2 и статья 3

Это реальная цитата. Помимо указанных структурных единиц есть еще с десяток разных типов. Изобретать clause subclause paragraph... о чорт, но ведь есть еще и настоящий параграф  §
Там даже в русском слово "часть" может использоваться в двух значениях: как часть документа и как синоним пункта. Переводить на английский - это отстрелить себе ногу или даже что похуже.
Про OSS. Из тысяч NLP проектов в открытый доступ выкладывают единицы. Я вот из отечественных вспомню только Томиту, Ярги, Наташу, Mystem и Pymorphy. Все эти проекты так или иначе используют особенности русского языка и я не уверен, что у них очень много не русскоязычных пользователей. Конечно плох тот солдат, который не мечтает стать генералом или хотя бы не мечтает, чтобы его проект попался на глаза рекрутеру из Америки или на худой конец из Европы, но тут скорее уместно "подойди поближе". Есть в программировании такое понятие "преждевременная оптимизация", так вот писать комментарии, сообщения к коммитам и документацию на английском при старте локального проекта, когда команда по английски хорошо только читает, ИМХО неправильно. Если вдруг вы или ваш босс захочет международной славы, то проще отрефакторить код.
Если кандидат услышав про использование русского языка в коде убежит с выпученными глазами, вместо того чтобы задать вопрос "почему", то туда ему и дорога.
В общем, русские (испанские, исландские) идентификаторы в коде это инструмент, которым можно и нужно пользоваться, когда это уместно.
P.S. Еще вангуют, что приходит эпоха low-code, no-code решений, а в них если и будет использоваться язык, то скорее всего национальный и возможно те кто сейчас воротит нос от 1С, лет через 5 будут писать код на русском 🥳
источник

AP

Arsen Plus in Natural Language Processing
МЛ всем хорошо, но пока нет размеченной выборки, хочется поэкспериментировать с фильтрацией более хардовыми методами, а возможно даже и ускорить процесс создания такой выборки
источник

AO

Alex Orgish in Natural Language Processing
https://github.com/zamgi/lingvo--PosTagger-ru
Может не совсем то, но есть смысл проверить. Я этот проект пересобирал на dotnet core под linux. Практически все устраивало, но иногда падает segfault. Поэтому в продакшене пока опасаюсь применять.
источник