Size: a a a

Natural Language Processing

2020 July 08

CT

Cookie Thief in Natural Language Processing
Mikhail Tikhomirov
Добрый день!
Возникло желание обучаться на большом количестве данных, которое не влезает в оперативную память, используя pytorch + transformers на нескольких гпу. Сейчас используется де факто код от transformers с DistributedSampler + DataLoader которые работают поверх TensorDataset.

Хочется что-то типа асинхронного подхода, когда данные подгружаются по мере требования, но заранее. Есть ли у кого опыт \ пример подобного подхода?
хранить данные на диске и в датасете подгружать, как вариант
источник

MF

M F in Natural Language Processing
Alex Gruzdev
Помогите установить fasttext. Создал окружение под анакондой для установки. По умолчанию python 2.7. Установка fasttext не проходит, требует python >= 3.6. Создал другое окружение с python 3.7. Установка завершилась. Но теперь модуль fasttext не найден.
если не принципиально конду - точно работающий вариант - питон3.6 и venv. про конду не знаю(
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Cookie Thief
хранить данные на диске и в датасете подгружать, как вариант
DistributedSampler вероятно сэмплит рандомно, хотя это надо изучить. Да и в таком случае будет как понимаю не асинхронно.
Но вообще да, данные можно разбить на крупные, но не огромные куски, сделать еще один цикл обхода по кускам, а каждый кусок подгружать с диска.
источник

N

Nikita in Natural Language Processing
Привет всем, подскажите, пожалуйста, есть ли какие-то готовые решения (или просто идеи), как выделять разную информацию не просто из текста, а из html-кода (с русским текстом внутри), то есть специфика, как минимум, в том, что разные сущности обычно находятся в разных html-блоках
источник

AI

Andrew Ishutin in Natural Language Processing
Можно дообучить готовый  BERT на небольшом  html датасете, заменив некоторые пустые токены в словаре на html теги.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Anton Kolonin
Не помню - откройте сами грамматику по ссылке и посмотрите - в этом вся прелесть 😊 Кстати, вот манускрипт основного текущего идеолога LG https://arxiv.org/abs/1901.01341
Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.
источник

AK

Alex Konst in Natural Language Processing
Есть ли варианты как проверить предложение на морфологическую согласованность? Например, детектировать наличие ошибки в предложении "мама мыла рама" итп?
источник

DK

Denis Kirjanov in Natural Language Processing
Sergey Sikorskiy
Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.
да, я плюсую, мне тоже непонятен такой фанатизм от конкретного не самого удачного формализма
источник

YB

Yuri Baburov in Natural Language Processing
Alex Konst
Есть ли варианты как проверить предложение на морфологическую согласованность? Например, детектировать наличие ошибки в предложении "мама мыла рама" итп?
вообще, LM этим и занимается в том числе. если предложила исправление / низко оценивает вероятность предложения — значит, оно несогласованное.
источник

AK

Alex Konst in Natural Language Processing
Yuri Baburov
вообще, LM этим и занимается в том числе. если предложила исправление / низко оценивает вероятность предложения — значит, оно несогласованное.
В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать
источник

MT

Mikhail Tikhomirov in Natural Language Processing
На глаз лосс gpt неплохо коррелирует с моим пониманием хорошего документа (с точки зрения согласованности и грамматики), но тут бы норм исследование провести
источник

DK

Denis Kirjanov in Natural Language Processing
Alex Konst
В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать
очень длинный велосипед и очень большие списки
источник

SS

Sergey Sikorskiy in Natural Language Processing
Alex Konst
В общем, логично, но, казалось бы, тут что-то rule-based должно надежно работать
rule-based скажет вам, что “мыла” - это от существительного среднего рода “мыло”.
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Sikorskiy
Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.
вообще, сам по себе запрос @akolonin понятен. но я бы его решал другим способом.
я когда-то предлагал поверх вероятностей парсера сделать фильтрацию "запрещённых" с точки зрения грамматики вариантов. вот такое бы автору сделать.
в spacy увы такое глубоко зашито (хотя и можно трогать), может, где-то в других либах можно в этом ковыряться.
например, запретить verb -> (nsubj) -> subj для определённых глаголов, или зафиксировать варианты морфологии для определённых слов (в spacy сейчас даже этого нет, морфология там не влияет на синтаксис — и это почти не ухудшает качество синтаксиса, но огромная экономия на времени работы парсера и количестве размечаемых данных).
но придётся тогда исходить из логики "всё, что не запрещено, то разрешено". впрочем, можно будет для слова сказать "варианты могут быть только такие" и запретить все остальные.
источник

A

Alexander in Natural Language Processing
Sergey Sikorskiy
Вы совершенно зря не хотите прислушаться к тому, что пишет @yuri_baburov . Он говорит вам правильные и важные вещи. За последние пол века были созданы тонны формализмов, позволяющих описать язык. LG - это самый простейший из них, игрушечный. Его даже в книжках для начинающих не упоминают. Там с LL и LR парсеров принято начинать.
Вы просто ради спортивного интереса напишите свой парсер Русского языка. В Русском языке примерно 30 основных правил. Это - проект выходного дня.
А что за книжки например? Есть на русском?
источник

SS

Sergey Sikorskiy in Natural Language Processing
Alexander
А что за книжки например? Есть на русском?
IMHO, вот эта вот достаточно толковая: "An Introduction to Language Processing with Perl and Prolog"
Единственно, там практически все на прологе. С другой стороны, это только плюс - поможет с прологом разобраться.
Были еще интересные, но надо искать.
На русском языке есть масса хорошей литературы по лингвистике.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
вообще, сам по себе запрос @akolonin понятен. но я бы его решал другим способом.
я когда-то предлагал поверх вероятностей парсера сделать фильтрацию "запрещённых" с точки зрения грамматики вариантов. вот такое бы автору сделать.
в spacy увы такое глубоко зашито (хотя и можно трогать), может, где-то в других либах можно в этом ковыряться.
например, запретить verb -> (nsubj) -> subj для определённых глаголов, или зафиксировать варианты морфологии для определённых слов (в spacy сейчас даже этого нет, морфология там не влияет на синтаксис — и это почти не ухудшает качество синтаксиса, но огромная экономия на времени работы парсера и количестве размечаемых данных).
но придётся тогда исходить из логики "всё, что не запрещено, то разрешено". впрочем, можно будет для слова сказать "варианты могут быть только такие" и запретить все остальные.
Если я правильно понял - для формирования формализованной документации именно такой подход рассматриваем. Если не интересует «богатство» языка, а безошибочность представления событий на естественном языке - то даже в рамках генеративных грамматик решается с использованием nltk именно так
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Если я правильно понял - для формирования формализованной документации именно такой подход рассматриваем. Если не интересует «богатство» языка, а безошибочность представления событий на естественном языке - то даже в рамках генеративных грамматик решается с использованием nltk именно так
а вы придумали для себя реализацию уже?
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
а вы придумали для себя реализацию уже?
Нет)  То есть в нашем случае это бесконечный процесс.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Нет)  То есть в нашем случае это бесконечный процесс.
но начали использовать данную технологию уже? и не очень понял пока, что за документация у вас.
источник