Телеграмм чат группы natural_language_processing страница 717

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1711 membersпожаловаться на группу

2020 July 08

CT

Cookie Thief in Natural Language Processing

Mikhail Tikhomirov

Добрый день!
Возникло желание обучаться на большом количестве данных, которое не влезает в оперативную память, используя pytorch + transformers на нескольких гпу. Сейчас используется де факто код от transformers с DistributedSampler + DataLoader которые работают поверх TensorDataset.

Хочется что-то типа асинхронного подхода, когда данные подгружаются по мере требования, но заранее. Есть ли у кого опыт \ пример подобного подхода?

хранить данные на диске и в датасете подгружать, как вариант

источник

12:26пожаловаться #1

MF

M F in Natural Language Processing

Alex Gruzdev

Помогите установить fasttext. Создал окружение под анакондой для установки. По умолчанию python 2.7. Установка fasttext не проходит, требует python >= 3.6. Создал другое окружение с python 3.7. Установка завершилась. Но теперь модуль fasttext не найден.

если не принципиально конду - точно работающий вариант - питон3.6 и venv. про конду не знаю(

источник

12:29пожаловаться #2

MT

Mikhail Tikhomirov in Natural Language Processing

хранить данные на диске и в датасете подгружать, как вариант

DistributedSampler вероятно сэмплит рандомно, хотя это надо изучить. Да и в таком случае будет как понимаю не асинхронно.
Но вообще да, данные можно разбить на крупные, но не огромные куски, сделать еще один цикл обхода по кускам, а каждый кусок подгружать с диска.

источник

12:30пожаловаться #3

N

Nikita in Natural Language Processing

Привет всем, подскажите, пожалуйста, есть ли какие-то готовые решения (или просто идеи), как выделять разную информацию не просто из текста, а из html-кода (с русским текстом внутри), то есть специфика, как минимум, в том, что разные сущности обычно находятся в разных html-блоках

источник

14:42пожаловаться #4

AI

Andrew Ishutin in Natural Language Processing

Можно дообучить готовый BERT на небольшом html датасете, заменив некоторые пустые токены в словаре на html теги.

источник

14:50пожаловаться #5

SS

Sergey Sikorskiy in Natural Language Processing

Не помню - откройте сами грамматику по ссылке и посмотрите - в этом вся прелесть 😊 Кстати, вот манускрипт основного текущего идеолога LG https://arxiv.org/abs/1901.01341

Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.

источник

18:43пожаловаться #6

AK

Alex Konst in Natural Language Processing

Есть ли варианты как проверить предложение на морфологическую согласованность? Например, детектировать наличие ошибки в предложении "мама мыла рама" итп?

источник

18:43пожаловаться #7

DK

Denis Kirjanov in Natural Language Processing

Sergey Sikorskiy

Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.

да, я плюсую, мне тоже непонятен такой фанатизм от конкретного не самого удачного формализма

источник

18:44пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

Есть ли варианты как проверить предложение на морфологическую согласованность? Например, детектировать наличие ошибки в предложении "мама мыла рама" итп?

вообще, LM этим и занимается в том числе. если предложила исправление / низко оценивает вероятность предложения — значит, оно несогласованное.

источник

18:46пожаловаться #9

AK

Alex Konst in Natural Language Processing

вообще, LM этим и занимается в том числе. если предложила исправление / низко оценивает вероятность предложения — значит, оно несогласованное.

В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать

источник

18:47пожаловаться #10

MT

Mikhail Tikhomirov in Natural Language Processing

На глаз лосс gpt неплохо коррелирует с моим пониманием хорошего документа (с точки зрения согласованности и грамматики), но тут бы норм исследование провести

источник

18:47пожаловаться #11

DK

Denis Kirjanov in Natural Language Processing

В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать

очень длинный велосипед и очень большие списки

источник

18:48пожаловаться #12

SS

Sergey Sikorskiy in Natural Language Processing

В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать

rule-based скажет вам, что “мыла” - это от существительного среднего рода “мыло”.

источник

18:50пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Sergey Sikorskiy

Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.

вообще, сам по себе запрос @akolonin понятен. но я бы его решал другим способом.
я когда-то предлагал поверх вероятностей парсера сделать фильтрацию "запрещённых" с точки зрения грамматики вариантов. вот такое бы автору сделать.
в spacy увы такое глубоко зашито (хотя и можно трогать), может, где-то в других либах можно в этом ковыряться.
например, запретить verb -> (nsubj) -> subj для определённых глаголов, или зафиксировать варианты морфологии для определённых слов (в spacy сейчас даже этого нет, морфология там не влияет на синтаксис — и это почти не ухудшает качество синтаксиса, но огромная экономия на времени работы парсера и количестве размечаемых данных).
но придётся тогда исходить из логики "всё, что не запрещено, то разрешено". впрочем, можно будет для слова сказать "варианты могут быть только такие" и запретить все остальные.

источник

18:51пожаловаться #14

A

Alexander in Natural Language Processing

Sergey Sikorskiy

Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.

А что за книжки например? Есть на русском?

источник

19:13пожаловаться #15

SS

Sergey Sikorskiy in Natural Language Processing

А что за книжки например? Есть на русском?

IMHO, вот эта вот достаточно толковая: "An Introduction to Language Processing with Perl and Prolog"
Единственно, там практически все на прологе. С другой стороны, это только плюс - поможет с прологом разобраться.
Были еще интересные, но надо искать.
На русском языке есть масса хорошей литературы по лингвистике.

источник

19:27пожаловаться #16

SP

Sebastian Pereira in Natural Language Processing

вообще, сам по себе запрос @akolonin понятен. но я бы его решал другим способом.
я когда-то предлагал поверх вероятностей парсера сделать фильтрацию "запрещённых" с точки зрения грамматики вариантов. вот такое бы автору сделать.
в spacy увы такое глубоко зашито (хотя и можно трогать), может, где-то в других либах можно в этом ковыряться.
например, запретить verb -> (nsubj) -> subj для определённых глаголов, или зафиксировать варианты морфологии для определённых слов (в spacy сейчас даже этого нет, морфология там не влияет на синтаксис — и это почти не ухудшает качество синтаксиса, но огромная экономия на времени работы парсера и количестве размечаемых данных).
но придётся тогда исходить из логики "всё, что не запрещено, то разрешено". впрочем, можно будет для слова сказать "варианты могут быть только такие" и запретить все остальные.

Если я правильно понял - для формирования формализованной документации именно такой подход рассматриваем. Если не интересует «богатство» языка, а безошибочность представления событий на естественном языке - то даже в рамках генеративных грамматик решается с использованием nltk именно так

источник

19:28пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Если я правильно понял - для формирования формализованной документации именно такой подход рассматриваем. Если не интересует «богатство» языка, а безошибочность представления событий на естественном языке - то даже в рамках генеративных грамматик решается с использованием nltk именно так

а вы придумали для себя реализацию уже?

источник

19:28пожаловаться #18

SP

Sebastian Pereira in Natural Language Processing

а вы придумали для себя реализацию уже?

Нет) То есть в нашем случае это бесконечный процесс.

источник

19:34пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Нет) То есть в нашем случае это бесконечный процесс.

но начали использовать данную технологию уже? и не очень понял пока, что за документация у вас.

источник

19:35пожаловаться #20