Size: a a a

Natural Language Processing

2021 December 07

SancheZz Мов in Natural Language Processing
Она
источник

SancheZz Мов in Natural Language Processing
Как Deep Learning размером кстати, ей убить можно
источник

d

dani in Natural Language Processing
I need help
источник

d

dani in Natural Language Processing
How to extract the article text and same the extracted article in a text file with url I’d as it is file name
источник

🐙

🐙 in Natural Language Processing
Well, If you are talking about articles on some specific website, you can basically write an HTML parser. Also, there are some libraries that do article extraction in a "generic" way, but it will probably be less precise, than direct HTML parsing. The "save the extracted ... with url as file name" is not relevant.

For generic extraction try https://github.com/buriy/python-readability
For HTML parsing try https://pypi.org/project/beautifulsoup4/
источник
2021 December 08

d

dePuff in Natural Language Processing
А расскажите про
attention_mask

Суть проблемы: я вроде понимаю зачем она нужна, и на заре transformers писал сам умные паддинги батчей, она прекрасно описана в документации...

А потом наступил какой-то вжух-момент и она не используется. Не считаем loss для PAD токенов и всё работает.

Что я упускаю?
источник

A

Andrey in Natural Language Processing
да вроде чтобы не заглядывать вперёд, если не ошибаюсь. все что выше диагонали убирается.
источник

d

dePuff in Natural Language Processing
Переформулирую. Токенайзер из transformers нам её практически наверняка отдаст (скрыв ей паддинг, при его наличии), но использовать её мы практически наверняка не будем
источник

DD

David Dale in Natural Language Processing
Тут надо разделить на две части вопрос:
1) в энкодере маска по-прежнему нужна. Если у нас размер батча больше одного, и поэтому где-то есть паддинг, то с маской энкодер выдаст один результат, а без маски - другой (неправильный). Недавно словил болючую багу на этой почве.
источник

DD

David Dale in Natural Language Processing
2) в декодере маска менее нужна, ибо атеншн там односторонний, а паддинг во всех популярных моделях делается справа, так что ненужные токены декодер при генерации не увидит. Без маски остаётся проблема, что pad tokens участвуют в вычислении лосса, но (а) пусть участвуют, это не мешает его для содержательных токенов минимизировать, и (б) чтобы зря через pad tokens градиенты не гонять, можно таргет в них выставить -100 - это магическое значение, которое при вычислении cross entropy в торче игнорируется.
источник

d

dePuff in Natural Language Processing
@cointegrated
Спасибо, всё стало на свои места

В тренере от hf -100 вроде "из коробки" выставлется
источник

A

Anton in Natural Language Processing
😄из коробки ))
источник

d

dePuff in Natural Language Processing
?

(Добавил кавычки)
источник

A

Anton in Natural Language Processing
Это так, к слову...
Буквально вчера смотрел как я впервые (спасибо @YallenGusev за помощь!) обучал свою модель Т5 для суммаризации меньше года назад, и там всё это приходилось делать ручками. Все эти замены токенов прописывать и метрики и мульти ГПУ 🤦🏻‍♂️🤦🏻‍♂️🤦🏻‍♂️

А сейчас вон, парни новички в ML за пару дней уже обучают свои сетки 🤗
источник

A

Andrey in Natural Language Processing
fit-predict всем будет. всё решают данные. вот ими приторговывать самое перспективное))
источник

PG

Pavel Gulyaev in Natural Language Processing
Всем привет! Подскажите, пожалуйста, про ner в natasha - есть вопросы в lowercase, из них не выделяются сущности, можно ли это как-то поправить?
text = 'кто стал путиным владимиром и что такое бразилия'

segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
names_extractor = NamesExtractor(morph_vocab)
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.tag_ner(ner_tagger)
for span in doc.spans:
   span.normalize(morph_vocab)
print({'spans': [[_.start, _.stop] for _ in doc.spans],
                  'entity_names': [_.normal for _ in doc.spans],
                  'substrings': [_.text for _ in doc.spans]})
источник

PG

Pavel Gulyaev in Natural Language Processing
Результат:
{'spans': [], 'entity_names': [], 'substrings': []}
источник

PG

Pavel Gulyaev in Natural Language Processing
Если написать Путина и Бразилию с большой буквы всё работает
источник

TM

Toemik Mnemonic in Natural Language Processing
Ребят, как вы оцениваете качество данных для обучения? Ситуация: есть размеченные данные {"фраза":str, "класс":uint}, однако в них может присутствовать мусор (ложно положительные и отрицательные присваивания к классам включая н-р наличия в ключе "фраза" строки состоящей только из не альфабетик символов). Первое что приходит в голову это отфильтровать такие строки через кондишн . н-р используя регексы, однако это не поможет в случаях когда фраза которой ожидалось присваивание класса x, размечена как класс y. есть какие то подходы кроме ручной проверки и разметки?
источник

d

dePuff in Natural Language Processing
Если размечено с мусором, то это автоматическая разметка?
источник