Size: a a a

Чат к каналу @begtin

2021 October 27

СГ

Сергей Гуглолог... in Чат к каналу @begtin
Здравствуйте. Подскажите с кем можно связаться по сервису http://readability.io ?
источник

OP

Olya Parkhimovich in Чат к каналу @begtin
источник

IB

Ivan Begtin in Чат к каналу @begtin
Пишите мне
источник

СГ

Сергей Гуглолог... in Чат к каналу @begtin
Написал. Спасибо
источник

NK

ID:0 in Чат к каналу @begtin
В рубрике Особо крупные наборы данных представляю, GeneralIndex - огромная база n-gram, последовательностей слов, собранная из 107 миллионов научных журнальных статей, состоит из 19,7 миллиардов строк извлеченных с помощью SpaCy. Невероятная по масштабу работа проделанная командой Public Resource.

Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.

Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?

За наводку спасибо Григорию Бакунову .

Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/

#opendata #data #datasets
источник

A

AssA940 in Чат к каналу @begtin
Научная электронная библиотека eLIBRARY.RU - это крупнейший российский информационно-аналитический портал в области науки, технологии, медицины и образования, содержащий рефераты и полные тексты более 34 млн научных публикаций и патентов, в том числе электронные версии более 5600 российских научно-технических журналов, из которых более 4800 журналов в открытом доступе.
https://www.elibrary.ru/defaultx.asp
источник

AD

Artemiy Danovskiy in Чат к каналу @begtin
в Ленинке есть отдел, который работает примерно в этом направлении. Только очень маинький.
источник

VC

Vladimir Chaplits in Чат к каналу @begtin
А автора индекса где брали статьи? В описании не упомянут открытый доступ. В статье Nature 2019 пишут, что он где-то набрал тексты десятков миллионов статей без разрешения издателей, обсуждаются вопросы законности и даже упомянут sci-hub, передавший автору 8 HDD.
Asked directly whether some of the text-mining depot’s articles come from Sci-Hub, he said he wouldn’t comment, and named only sources that provide free-to-download versions of papers (such as PubMed Central and the ‘Unpaywall’ tool). But he does say that he does not have contracts with publishers to access the journals in the depot.

Возможно сделать аналогичный индекса для русского языка на базе статей из sci-hub?
источник

S

Svyazist in Чат к каналу @begtin
Министром цифрового развития и информационных технологий Тверской области стал Сергей Снегирёв.

До своего нового назначения Снегирев работал в Дагестане, занимал пост министра информатизации, связи и массовых коммуникаций.
источник

VS

Vladimir Salnikov in Чат к каналу @begtin
Это опрос по вообще непонятно какой выборке. Так что, при всем уважении, он мало о чём.
источник
2021 October 28

NK

ID:0 in Чат к каналу @begtin
Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге.  Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language
источник

А

Алексей in Чат к каналу @begtin
👍
источник

AP

Andrey Pirogov in Чат к каналу @begtin
Вроде бы же тут не было. Чтиво от rusprofile
https://habr.com/ru/company/rusprofile/blog/585516/
источник

IB

Ivan Begtin in Чат к каналу @begtin
Да, все системы проверки контрагентов сейчас чуть ли не основные потребители открытых данных. Но вместе дружить они что-то не хотят
источник

LS

Lеvon Smirnov in Чат к каналу @begtin
Отлично сказано. В России законы можно крутить как угодно.
источник

c

cyberkotik in Чат к каналу @begtin
КиберЛенинка основана на open science
источник

НС

Некий Сергей... in Чат к каналу @begtin
Дружить кому с кем?
источник

IB

Ivan Begtin in Чат к каналу @begtin
Киберленинка активно коммерциализируется, есть сомнения что они согласятся отдать массив статей. Но кто знает, спросить их можно
источник

KK

Katya Kalugina in Чат к каналу @begtin
Как интересно, отличная инициатива ! Всегда думала - почему в России нет требований наподобие Plain English к юридическим текстам, в том числе к текстам нормативных актов .
источник

NK

ID:0 in Чат к каналу @begtin
Тем временем казахские СМИ тоже пишут про Гостех, только в Казахстане, но тоже на платформе Сбер'а [1]. Я лично недостаточно разбираюсь в казахских реалиях чтобы квалифицированно комментировать то что там пишут, но похоже что внутриполитические баталии там идут довольно сильные.

Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html

#govtech
vlast.kz
Цифровой передел - Аналитический интернет-журнал Vласть
Казахстан долгие годы гордился своим электронным правительством и цифровизацией. Для этого были основания: мировые рейтинги указывали, что республика входит в 30-ку ведущих стран мира по развитию электронного правительства. Тем удивительнее оказалось подписание меморандума между правительством Казахстана и российским СБЕРом, которому доверили дальнейшую цифровую трансформацию страны. Спустя месяц после подписания меморандума он оброс не только критикой, но и противоречивыми заявлениями ключевых фигур - министра, ответственного за трансформацию, а также привлеченных к ней компаний. А многие вопросы до сих пор остаются без ответов. Vласть разбиралась в том, как Казахстан шел к меморандуму, почему против него выступают казахстанские разработчики, правозащитники и оппозиционные политики и почему вокруг него разразился такой скандал.
источник