Телеграмм чат группы natural_language_processing страница 721

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1712 membersпожаловаться на группу

2020 July 10

YB

Yuri Baburov in Natural Language Processing

друзья, есть ли готовые решения для разметки текста на фотографии? у меня есть изображения и координаты найденных кусочков текста. хочу дать возможность пользователям выбирать область и вписывать туда текст, который в этой области

на JS такое быстро пишется, а вот готового именно такого я не видел: все аннотаторы требуют определённых классов, а вот если произвольные тексты, то не умеют.

источник

17:47пожаловаться #1

AK

Anton K. in Natural Language Processing

на JS такое быстро пишется, а вот готового именно такого я не видел: все аннотаторы требуют определённых классов, а вот если произвольные тексты, то не умеют.

принял, спасибо
одним js тут не отделаешься - персистентное хранилище еще потребуется

источник

17:49пожаловаться #2

YB

Yuri Baburov in Natural Language Processing

принял, спасибо
одним js тут не отделаешься - персистентное хранилище еще потребуется

да, конечно. на js проще всего использовать mongodb для этого.

источник

17:49пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

в общем, первую версию для внутреннего употребления вам фронтендщик за день наверное сделает.

источник

17:50пожаловаться #4

AK

Anton K. in Natural Language Processing

ну да, там ничего военного

источник

17:51пожаловаться #5

AK

Anton K. in Natural Language Processing

еще хотел бы больше теоретический вопрос задать. я тренирую сейчас модель на синтетических данных. собрал релевантных моей задаче бэкграунды, примерно подобрал шрифты, поставил рандом и сгенерил 2кк изображений.
нейронка уже на 600 эпохе из 20к train loss показывает меньше единицы, то есть, если я верно понимаю, переобучилась.
в итоге синтетические данные распознает очень хорошо, но как только подашь что-то из реального мира - сразу выдает какую-то чушь.
верно ли я понимаю причинно-следственную связь и как принято с такими проблемами бороться?

источник

17:54пожаловаться #6

VF

Vadim Fomin in Natural Language Processing

вот и не могу примера найти как его для эмбедингов предложений Bert использовать

по-моему, можно примерно так.
сначала создать собственный класс "датасет", унаследовав его от torch.utils.data.Dataset. у этого класса должны быть определены методы __getitem__ и __len__ .
__getitem__ на вход принимает какое-то число и на выход отдаёт объект из датасета, соответствующий этому числу (например, если прилетело число 10, то отдаётся десятый текст из датасета).
__len__ на вход ничего не принимает, а отдаёт общее число объектов в датасете.
потом надо создать объект этого класса и засунуть в даталоадер. он автоматически будет формировать батчи.
мб, примерно так будет выглядеть:

class MyDataset(torch.utils.data.Dataset):
   def __init__(self, input_ids, attention_mask)
      self.input_ids = input_ids
      self.attention_mask = attention_mask
   
   def __getitem__(self, key):
      return self.input_ids[key], self.attention_mask[key]

   def ___len___(self):
      return len(self.input_ids)

dataset = MyDataset(input_ids=token_ids, attention_masks=attention_masks)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=32)
for input_ids, attention_mask in dataloader:
   #и вот тут делаешь что тебе нужно

источник

17:54пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

еще хотел бы больше теоретический вопрос задать. я тренирую сейчас модель на синтетических данных. собрал релевантных моей задаче бэкграунды, примерно подобрал шрифты, поставил рандом и сгенерил 2кк изображений.
нейронка уже на 600 эпохе из 20к train loss показывает меньше единицы, то есть, если я верно понимаю, переобучилась.
в итоге синтетические данные распознает очень хорошо, но как только подашь что-то из реального мира - сразу выдает какую-то чушь.
верно ли я понимаю причинно-следственную связь и как принято с такими проблемами бороться?

разницу в качестве train-test всегда называют переобучением, да, но причины могут быть разные.
- может быть вообще ошибка уровня "забыл отключить dropout/batchnorm" (перевести модель в eval-режим)
- может быть какая-то другая ошибка самого обучения или метрики.
- если ошибок нет, то если аугментации помогут лучше приблизиться к тестовому домену, начинай с них.
- иначе нужно предобучаться на train, а часть данных из *тестового домена разметить и использовать для точной настройки под домен.

источник

17:59пожаловаться #8

AK

Anton K. in Natural Language Processing

разницу в качестве train-test всегда называют переобучением, да, но причины могут быть разные.
- может быть вообще ошибка уровня "забыл отключить dropout/batchnorm" (перевести модель в eval-режим)
- может быть какая-то другая ошибка самого обучения или метрики.
- если ошибок нет, то если аугментации помогут лучше приблизиться к тестовому домену, начинай с них.
- иначе нужно предобучаться на train, а часть данных из *тестового домена разметить и использовать для точной настройки под домен.

аугментация в данном контексте что значит?

источник

17:59пожаловаться #9

AK

Anton K. in Natural Language Processing

то есть обучаю до какого-то уровня модель на синтетических данных, потом уже можно на более мелком объеме дообучить на реальных примерах?

источник

18:02пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

аугментация в данном контексте что значит?

аугментации — модификации (тренировочных) изображений. ты используешь какие-то варианты, попробуй ещё
1) изменения цвета
2) добавление зернистости / клякс
3) ресайзинг
4) растяжения по сетке

источник

18:03пожаловаться #11

AK

Anton K. in Natural Language Processing

а, понял, спасибо

источник

18:04пожаловаться #12

М

Марк in Natural Language Processing

еще хотел бы больше теоретический вопрос задать. я тренирую сейчас модель на синтетических данных. собрал релевантных моей задаче бэкграунды, примерно подобрал шрифты, поставил рандом и сгенерил 2кк изображений.
нейронка уже на 600 эпохе из 20к train loss показывает меньше единицы, то есть, если я верно понимаю, переобучилась.
в итоге синтетические данные распознает очень хорошо, но как только подашь что-то из реального мира - сразу выдает какую-то чушь.
верно ли я понимаю причинно-следственную связь и как принято с такими проблемами бороться?

Скорее всего модель выучивает специфичные особенности сгенерированных данных.
Как выше Юрий написал, добавьте аугментации.
В вашем случае скорее всего хорошо зайдут размытие, наложение шумов, изменение цвета.

источник

18:09пожаловаться #13

М

Марк in Natural Language Processing

Можно взять LIME и посмотреть какие части изображения наиболее информативны для вашей переобученной модели. Возможно натолкнет на мысль, какие еще аугментации добавить.

источник

18:10пожаловаться #14

A

Alexander in Natural Language Processing

по-моему, можно примерно так.
сначала создать собственный класс "датасет", унаследовав его от torch.utils.data.Dataset. у этого класса должны быть определены методы __getitem__ и __len__ .
__getitem__ на вход принимает какое-то число и на выход отдаёт объект из датасета, соответствующий этому числу (например, если прилетело число 10, то отдаётся десятый текст из датасета).
__len__ на вход ничего не принимает, а отдаёт общее число объектов в датасете.
потом надо создать объект этого класса и засунуть в даталоадер. он автоматически будет формировать батчи.
мб, примерно так будет выглядеть:

class MyDataset(torch.utils.data.Dataset):
   def __init__(self, input_ids, attention_mask)
      self.input_ids = input_ids
      self.attention_mask = attention_mask
   
   def __getitem__(self, key):
      return self.input_ids[key], self.attention_mask[key]

   def ___len___(self):
      return len(self.input_ids)

dataset = MyDataset(input_ids=token_ids, attention_masks=attention_masks)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=32)
for input_ids, attention_mask in dataloader:
   #и вот тут делаешь что тебе нужно

Спасибо Вадим, буду разбираться!

источник

18:18пожаловаться #15

AK

Anton K. in Natural Language Processing

Можно взять LIME и посмотреть какие части изображения наиболее информативны для вашей переобученной модели. Возможно натолкнет на мысль, какие еще аугментации добавить.

спасибо, посмотрю. размытия, наклоны, изменение цвета текста и фона есть

источник

18:18пожаловаться #16

VF

Vadim Fomin in Natural Language Processing

Спасибо Вадим, буду разбираться!

ещё знаешь чё, attention_mask лучше прямо в дата лоадере вычислять, а не подаватть снаружи

источник

18:30пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

то есть обучаю до какого-то уровня модель на синтетических данных, потом уже можно на более мелком объеме дообучить на реальных примерах?

да. если аугментации не помогают — то тебе придётся так делать.

источник

18:32пожаловаться #18

AK

Anton K. in Natural Language Processing

отличный план

источник

18:36пожаловаться #19

A

Alexander in Natural Language Processing

ещё знаешь чё, attention_mask лучше прямо в дата лоадере вычислять, а не подаватть снаружи

Тогда его(dataloader) тоже нужно переписать самому? Или можно добавить функцию в Dataset getitem -> return inputs, get_mask()

источник

18:54пожаловаться #20