Телеграмм чат группы bigdata

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4737 membersпожаловаться на группу

2021 February 22

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну я для своего языка делаю, в этом и вся суть проектика, дату тоже сам майню ))

источник

01:44пожаловаться #1

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

суть распознание вручную написанного текста.

источник

01:45пожаловаться #2

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

то есть страница написанного от руки текста, я разбиваю на строки, это норм умею даже без обучения,
потом строки на слова, тут умею тоже без обучения в самом простом подходе (иногда два слова вместо одного выходит - не страшно для меня, можно бы было по оптимизировать конечно, но это потом), далее вот хочу модель попробовать для определния слов.

источник

01:47пожаловаться #3

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а дата у меня есть из букв ))

источник

01:47пожаловаться #4

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

так родился и эксперимент ))

источник

01:47пожаловаться #5

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

есть слова, но они без лейбелов. Поэтому либо пролейбелить слова, либо попробовать выучить буквы и определять их в словах.

источник

01:48пожаловаться #6

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Мне кажется, для разделения на буквы можно уже что-то найти и тогда, добавить к твоему пайплайну. Возможно, даже через cv можно попробовать. Или реально собирать данные из слов.

источник

01:48пожаловаться #7

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Как сумасшедший вариант, можно one shot детекцию букв😳

источник

01:49пожаловаться #8

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

буквы можно бы было легко детектить бы, тем же методом что и разбивание строки на слова, есть маленькие пробелы между буквами, и тогда там значения по вертикали выше (черный = 0, белый = 255), но почерк то разный и писанина тоже, это не всегда тривиально, нахождением контуров тут порой не обойтись).

источник

01:50пожаловаться #9

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

если это модель, то она скорее всегда будет также тренироваться, дайте слова с лейбелами, научимся буквы определять. А любое unsupervised, там кластеринг и т.д, мне кажется под железками оптимизации параметров будет все равно основной фичер это пробел между букв, который как я отметил, когда писанина, не всегда есть.

источник

01:52пожаловаться #10

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

https://arxiv.org/pdf/1904.01906.pdf

вот на этой экспериментирую, мне кажется она должна сработать, просто надо буквы разбросать и натренировать.

источник

01:53пожаловаться #11

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Как сумасшедший вариант, можно one shot детекцию букв😳

что такое one shot ?
у меня вторая статья, которую еще не смотрел, так как работаю с первой, это об этом возможно:
https://arxiv.org/abs/1908.05498

A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning

источник

01:54пожаловаться #12

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Да, как вариант, можешь сам сгенерировать слова из букв.

источник

01:54пожаловаться #13

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Да, как вариант, можешь сам сгенерировать слова из букв.

да, тоже об этом подумал

источник

01:54пожаловаться #14

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Да, как вариант, можешь сам сгенерировать слова из букв.

легче будет, лейбелы легко присвоить.

источник

01:55пожаловаться #15

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

легче будет, лейбелы легко присвоить.

правда будет небольшой геморой делать маленькие пробелы между буквами.
А это необходимо для сиквенсера.

источник

01:56пожаловаться #16

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

правда будет небольшой геморой делать маленькие пробелы между буквами.
А это необходимо для сиквенсера.

Зачем?

источник

01:56пожаловаться #17

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Зачем?

ну потмоу что сиквенсер типо Bi-LSTM смотрит на ось x и учит последовательность фич, а характеристика слов, что их буквы друг к другу ближе чем пробелы. Хотя если я беру каждый раз одно слово ... можно это действительно и не имеет смысла.

"смотрит и учит" условно говоря.

источник

01:58пожаловаться #18

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

но в таком случае не вижу причины не выучить отдельно буквы,это по сути одно и тоже будет.
В чем отличие двух задач ? в локации букв когда они в словах и в том что их несколько.

Локация - поэтому разбрасаю. Не сработает, значит дело не только в локации, а еще и в том что модель учит несколько распознавать.

источник

02:00пожаловаться #19

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Что-то я тебя не понимаю. Но, я бы сформулировал эту задачу как image to sequence и решал бы через ViT. Как вариант.

источник

02:00пожаловаться #20