Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2656 membersпожаловаться на группу

2021 April 14

Elena gisly in Natural Language Processing

а потом вот такие страшные форматы появляются :)

источник

16:45пожаловаться #1

Oleg Serikov in Natural Language Processing

Alex Surname in Natural Language Processing

не делайте так никогда, возможно кроме 1с и подобных

источник

17:05пожаловаться #3

Max Kuznetsov in Natural Language Processing

Что ж, аргументированно 😏

источник

17:20пожаловаться #4

Alex Surname in Natural Language Processing

1. этот подход не используется широко, потому освоение написанного кода займет больше времени чем обычно новичками
2. русские слова латиницей режут глаз.
3. в современном глобальном мире даже если код разрабатывают исключительно русскоязычные, со временем могут нанять разработчиков из других стран, нужно будет сделать код опен сорс, выступить с ним на конференции, написать статью и тд

источник

17:24пожаловаться #5

Irina Krotova in Natural Language Processing

Сейчас ярко представила себе ситуацию, как приходишь в новый проект, а там возникла производственная необходимость перевести подобный код от предшественников на английский, потому что код выходит в опенсорс и внешний мир. Памагити :)

Но не исключаю, конечно, что в каких-то локальных внутренних проектах может быть оправданно.

источник

18:01пожаловаться #6

Valery Lazarev in Natural Language Processing

4. Будут большие проблемы с наймом, если кандидаты узнают про вашу кириллицу

источник

18:02пожаловаться #7

Elena gisly in Natural Language Processing

мне кажется, что в каких-то вымышленных примерах вроде переменной "имя" это нормально, а фактически начинаются всякие "ПорПродВал", "СвПлОбоснов" — мне как носителю русского языка это мало что говорит, так что преимуществ особых не вижу

источник

18:03пожаловаться #8

Irina Krotova in Natural Language Processing

Согласна, мне в целом кажется, для каких-то локальных понятий вроде ИНН достаточно комментария на русском. А так да, постреволюционные имена вспоминаются :)

источник

18:04пожаловаться #9

Natalia in Natural Language Processing

вот да, комментарии на русском как раз куда меньше сопротивления и вопросов вызывают

источник

18:26пожаловаться #10

Alex Surname in Natural Language Processing

тоже плохо. тут еще вопросы кодировки добавляются. не самые лучшие воспоминания, После работы с кодом где русские комментарии в cp-1251

источник

18:33пожаловаться #11

Arsen Plus in Natural Language Processing

Коллеги, привет. Подскажите, пожалуйста, попадались ли вам хорошие статьи про методы фильтрации рекламных текстов (из соцсетей) НЕ с помощью МЛ, а каким-то набором эвристик (например, присутствие определенных ключевых слов или номера телефона). Спасибо!

источник

18:46пожаловаться #12

Natalia in Natural Language Processing

да кодировка вообще боль, мне можно не рассказывать :)

источник

19:01пожаловаться #13

Sirius 阿狐狸 (Sergey I... in Natural Language Processing

Доброго. Повторю ранее задававшийся вопрос, но с новыми критериями.

Ищу лемматизатор русского языка, либо в формате библиотеки (linux), либо исполняемый файл, либо библиотеки для golang. Ну либо в исходниках, из которых можно собрать библиотеку.

Mystem от Яндекса не могу юзать из-за лицензии. Snowball попробовал, но результат по сравнению с mystem не впечатляет.

источник

19:05пожаловаться #14

Renat K in Natural Language Processing

Приветствую. А нужен именно один бинарник в качестве исполняемого файла? По идее, можно набросать небольшой python скрипт с pymorphy2 и его запускать

источник

19:24пожаловаться #15

Sirius 阿狐狸 (Sergey I... in Natural Language Processing

недостаточно скорости, к сожалению. https://habr.com/ru/post/503420/

Хабр

Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)

Я работаю программистом, и в том числе занимаюсь машинным обучением применительно к анализу текстов. При обработке естественного языка требуется предварительная...

источник

19:28пожаловаться #16

НК

Николай Карпенко... in Natural Language Processing

А чем МЛ плохо?

источник

19:32пожаловаться #17

Max Kuznetsov in Natural Language Processing

Ок. Задачи NLP часто лежат близко к бизнес логике и являются высокоуровневыми. Есть исключения. Если речь идет о локальных (не международных или не многоязыковых) проектах, то домен описан скорее на местном языке, пускай это будет русский язык. Эксперты тоже говорят на русском.
Разработчики языков программирования не зря добавили фичу - возможности задавать идентификаторы в unicode. В масштабных проектах бизнес логику выносят в DSL, для реализации конструкций DSL выбирают язык на котором описана предметная область и говорят эксперты, чтобы не спотыкаться о кривой перевод туда-обратно (немец - половина дирижера).
Порог входа для новичков - почти нулевой. Родным языком все владеют.
1С прекрасный пример. Завоевал рынок и не имеет конкурентов. Постоянно меняющееся законодательство не дает остаться без хлеба и масла как разработчикам платформы, так и 1С-кодерам.
Практически во всех высокоуровневых продуктах, код которых я видел, разработчики скатывались до транслита в коде.
Пример, когда русские идентификаторы уместны: вы разрабатываете грамматику на Yargy для разбора таких фрагментов

Подпункт "е" пункта 26 статьи 1, пункты 11, 16, 17, 19, 20, подпункты "в" и "д" пункта 21, пункт 24, подпункт "а" пункта 25, пункты 26, 28, 29, 30, 31, 32, 35, 38, подпункт "б" пункта 46, абзац второй подпункта "а", подпункты "б" - "г" пункта 47, пункты 50, 51, 52, абзац второй подпункта "а", подпункты "б" - "г" пункта 53 статьи 2 и статья 3

Это реальная цитата. Помимо указанных структурных единиц есть еще с десяток разных типов. Изобретать clause subclause paragraph... о чорт, но ведь есть еще и настоящий параграф §
Там даже в русском слово "часть" может использоваться в двух значениях: как часть документа и как синоним пункта. Переводить на английский - это отстрелить себе ногу или даже что похуже.
Про OSS. Из тысяч NLP проектов в открытый доступ выкладывают единицы. Я вот из отечественных вспомню только Томиту, Ярги, Наташу, Mystem и Pymorphy. Все эти проекты так или иначе используют особенности русского языка и я не уверен, что у них очень много не русскоязычных пользователей. Конечно плох тот солдат, который не мечтает стать генералом или хотя бы не мечтает, чтобы его проект попался на глаза рекрутеру из Америки или на худой конец из Европы, но тут скорее уместно "подойди поближе". Есть в программировании такое понятие "преждевременная оптимизация", так вот писать комментарии, сообщения к коммитам и документацию на английском при старте локального проекта, когда команда по английски хорошо только читает, ИМХО неправильно. Если вдруг вы или ваш босс захочет международной славы, то проще отрефакторить код.
Если кандидат услышав про использование русского языка в коде убежит с выпученными глазами, вместо того чтобы задать вопрос "почему", то туда ему и дорога.
В общем, русские (испанские, исландские) идентификаторы в коде это инструмент, которым можно и нужно пользоваться, когда это уместно.
P.S. Еще вангуют, что приходит эпоха low-code, no-code решений, а в них если и будет использоваться язык, то скорее всего национальный и возможно те кто сейчас воротит нос от 1С, лет через 5 будут писать код на русском 🥳

источник

19:36пожаловаться #18

Arsen Plus in Natural Language Processing

МЛ всем хорошо, но пока нет размеченной выборки, хочется поэкспериментировать с фильтрацией более хардовыми методами, а возможно даже и ускорить процесс создания такой выборки

источник

19:43пожаловаться #19

Alex Orgish in Natural Language Processing

https://github.com/zamgi/lingvo--PosTagger-ru
Может не совсем то, но есть смысл проверить. Я этот проект пересобирал на dotnet core под linux. Практически все устраивало, но иногда падает segfault. Поэтому в продакшене пока опасаюсь применять.

GitHub

zamgi/lingvo--PosTagger-ru

Нормализация текста: приведение всех слов к словарной форме в тексте на русском языке - zamgi/lingvo--PosTagger-ru

источник

19:46пожаловаться #20