Телеграмм чат группы begtinchat страница 1015

В рубрике Особо крупные наборы данных представляю, GeneralIndex - огромная база n-gram, последовательностей слов, собранная из 107 миллионов научных журнальных статей, состоит из 19,7 миллиардов строк извлеченных с помощью SpaCy. Невероятная по масштабу работа проделанная командой Public Resource.

Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.

Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?

За наводку спасибо Григорию Бакунову .

Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/

#opendata #data #datasets

Internet Archive

The General Index : Public Resource : Free Download, Borrow, and Streaming : Internet Archive

Welcome to the General Index The General Index consists of 3 tables derived from 107,233,728 journal articles. A table of n-grams, ranging from unigrams to...

источник

16:59пожаловаться #5

AssA940 in Чат к каналу @begtin

Научная электронная библиотека eLIBRARY.RU - это крупнейший российский информационно-аналитический портал в области науки, технологии, медицины и образования, содержащий рефераты и полные тексты более 34 млн научных публикаций и патентов, в том числе электронные версии более 5600 российских научно-технических журналов, из которых более 4800 журналов в открытом доступе.
https://www.elibrary.ru/defaultx.asp

источник

17:04пожаловаться #6

Artemiy Danovskiy in Чат к каналу @begtin

в Ленинке есть отдел, который работает примерно в этом направлении. Только очень маинький.

источник

17:53пожаловаться #7

Vladimir Chaplits in Чат к каналу @begtin

А автора индекса где брали статьи? В описании не упомянут открытый доступ. В статье Nature 2019 пишут, что он где-то набрал тексты десятков миллионов статей без разрешения издателей, обсуждаются вопросы законности и даже упомянут sci-hub, передавший автору 8 HDD.
Asked directly whether some of the text-mining depot’s articles come from Sci-Hub, he said he wouldn’t comment, and named only sources that provide free-to-download versions of papers (such as PubMed Central and the ‘Unpaywall’ tool). But he does say that he does not have contracts with publishers to access the journals in the depot.

Возможно сделать аналогичный индекса для русского языка на базе статей из sci-hub?

источник

17:56пожаловаться #8

Svyazist in Чат к каналу @begtin

Министром цифрового развития и информационных технологий Тверской области стал Сергей Снегирёв.

До своего нового назначения Снегирев работал в Дагестане, занимал пост министра информатизации, связи и массовых коммуникаций.

источник

22:13пожаловаться #9

Vladimir Salnikov in Чат к каналу @begtin

Это опрос по вообще непонятно какой выборке. Так что, при всем уважении, он мало о чём.

источник

22:17пожаловаться #10

2021 October 28

ID:0 in Чат к каналу @begtin

Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language

plainrussian.ru

Проверка на читабельность текстов — PlainRussian.ru

Инструмент оценки читабельности текстов позволяет определить удобство чтения и простоту восприятия материалов.

источник

09:15пожаловаться #11

Алексей in Чат к каналу @begtin

👍

источник

09:22пожаловаться #12

Andrey Pirogov in Чат к каналу @begtin

Вроде бы же тут не было. Чтиво от rusprofile
https://habr.com/ru/company/rusprofile/blog/585516/

источник

09:36пожаловаться #13

Ivan Begtin in Чат к каналу @begtin

Да, все системы проверки контрагентов сейчас чуть ли не основные потребители открытых данных. Но вместе дружить они что-то не хотят

источник

09:38пожаловаться #14

Lеvon Smirnov in Чат к каналу @begtin

Отлично сказано. В России законы можно крутить как угодно.

источник

09:53пожаловаться #15

cyberkotik in Чат к каналу @begtin

КиберЛенинка основана на open science

источник

10:42пожаловаться #16

НС

Некий Сергей... in Чат к каналу @begtin

Дружить кому с кем?

источник

10:43пожаловаться #17

Ivan Begtin in Чат к каналу @begtin

Киберленинка активно коммерциализируется, есть сомнения что они согласятся отдать массив статей. Но кто знает, спросить их можно

источник

10:46пожаловаться #18

Katya Kalugina in Чат к каналу @begtin

Как интересно, отличная инициатива ! Всегда думала - почему в России нет требований наподобие Plain English к юридическим текстам, в том числе к текстам нормативных актов .

источник

12:36пожаловаться #19

ID:0 in Чат к каналу @begtin

Тем временем казахские СМИ тоже пишут про Гостех, только в Казахстане, но тоже на платформе Сбер'а [1]. Я лично недостаточно разбираюсь в казахских реалиях чтобы квалифицированно комментировать то что там пишут, но похоже что внутриполитические баталии там идут довольно сильные.

Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html

#govtech

vlast.kz

Цифровой передел - Аналитический интернет-журнал Vласть

Казахстан долгие годы гордился своим электронным правительством и цифровизацией. Для этого были основания: мировые рейтинги указывали, что республика входит в 30-ку ведущих стран мира по развитию электронного правительства. Тем удивительнее оказалось подписание меморандума между правительством Казахстана и российским СБЕРом, которому доверили дальнейшую цифровую трансформацию страны. Спустя месяц после подписания меморандума он оброс не только критикой, но и противоречивыми заявлениями ключевых фигур - министра, ответственного за трансформацию, а также привлеченных к ней компаний. А многие вопросы до сих пор остаются без ответов. Vласть разбиралась в том, как Казахстан шел к меморандуму, почему против него выступают казахстанские разработчики, правозащитники и оппозиционные политики и почему вокруг него разразился такой скандал.

источник

12:42пожаловаться #20