Size: a a a

Natural Language Processing

2021 October 11

E

Elena in Natural Language Processing
есть библиотеки для питона, которые умеют читать docx
источник

d

dePuff in Natural Language Processing
Я не очень умненький или sberbank-ai очень хитренький?
источник

A

Andrey in Natural Language Processing
а точно заглавная?
источник

d

dePuff in Natural Language Processing
Только она)
источник

d

dePuff in Natural Language Processing
Строчная есть
источник

c

catbugisback in Natural Language Processing
len(tokenizer.get_vocab().items()) ?
источник

d

dePuff in Natural Language Processing
32100
источник

A

Andrey in Natural Language Processing
видимо слово Щавель не входит в словарь))
источник

d

dePuff in Natural Language Processing
Я понимаю, что не самая частая буква... Но не до такой же степени)
источник

Eg

Elena gisly in Natural Language Processing
Может, какая-то хитрая диакритика в хвостик щ пробралась?
источник

d

dePuff in Natural Language Processing
🤷🏼‍♂️

В моём примере это честная уникодная утфная Щ
Другие модельки её видят
источник

🐙

🐙 in Natural Language Processing
Что если отсортировать токены в алфавитном, и посмотреть, что там на месте Щ?
источник

d

dePuff in Natural Language Processing
Фигня куда-то не туда отстортируется...
Но это мысль, вытащить уникальные символы

Сейчас сделаю
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Забавно выходит, да
источник

MT

Mikhail Tikhomirov in Natural Language Processing
В модели Давида (cointegrated/rut5-base-multitask) такой проблемы нет, кстати
источник

d

dePuff in Natural Language Processing
Не вижу диактрики

xad это мягкий перенос
источник

d

dePuff in Natural Language Processing
Ё, Q, Y, Z тоже не вижу, кстати, к отсутствию Ъ претензий нет )
источник

d

dePuff in Natural Language Processing
Прокомментируете? :)
источник

d

dePuff in Natural Language Processing
Хочется истории из серии "этот маленький баг препроцессинга будет стоить нам ... машиночасов", а то, что я один страдаю )
источник

ID

Ivan Dolgov in Natural Language Processing
вот теперь я это увидел, и ты страдаешь не один 🙁
источник