Телеграмм чат группы natural_language

Well, If you are talking about articles on some specific website, you can basically write an HTML parser. Also, there are some libraries that do article extraction in a "generic" way, but it will probably be less precise, than direct HTML parsing. The "save the extracted ... with url as file name" is not relevant.

For generic extraction try https://github.com/buriy/python-readability
For HTML parsing try https://pypi.org/project/beautifulsoup4/

источник

22:01пожаловаться #5

2021 December 08

dePuff in Natural Language Processing

А расскажите про

attention_mask

Суть проблемы: я вроде понимаю зачем она нужна, и на заре transformers писал сам умные паддинги батчей, она прекрасно описана в документации...

А потом наступил какой-то вжух-момент и она не используется. Не считаем loss для PAD токенов и всё работает.

Что я упускаю?

источник

06:17пожаловаться #6

Andrey in Natural Language Processing

да вроде чтобы не заглядывать вперёд, если не ошибаюсь. все что выше диагонали убирается.

источник

06:20пожаловаться #7

dePuff in Natural Language Processing

Переформулирую. Токенайзер из transformers нам её практически наверняка отдаст (скрыв ей паддинг, при его наличии), но использовать её мы практически наверняка не будем

источник

06:24пожаловаться #8

David Dale in Natural Language Processing

Тут надо разделить на две части вопрос:
1) в энкодере маска по-прежнему нужна. Если у нас размер батча больше одного, и поэтому где-то есть паддинг, то с маской энкодер выдаст один результат, а без маски - другой (неправильный). Недавно словил болючую багу на этой почве.

источник

10:53пожаловаться #9

David Dale in Natural Language Processing

2) в декодере маска менее нужна, ибо атеншн там односторонний, а паддинг во всех популярных моделях делается справа, так что ненужные токены декодер при генерации не увидит. Без маски остаётся проблема, что pad tokens участвуют в вычислении лосса, но (а) пусть участвуют, это не мешает его для содержательных токенов минимизировать, и (б) чтобы зря через pad tokens градиенты не гонять, можно таргет в них выставить -100 - это магическое значение, которое при вычислении cross entropy в торче игнорируется.

источник

10:56пожаловаться #10

dePuff in Natural Language Processing

@cointegrated
Спасибо, всё стало на свои места

В тренере от hf -100 вроде "из коробки" выставлется

источник

10:58пожаловаться #11

Anton in Natural Language Processing

😄из коробки ))

источник

11:01пожаловаться #12

dePuff in Natural Language Processing

?

(Добавил кавычки)

источник

11:05пожаловаться #13

Anton in Natural Language Processing

Это так, к слову...
Буквально вчера смотрел как я впервые (спасибо @YallenGusev за помощь!) обучал свою модель Т5 для суммаризации меньше года назад, и там всё это приходилось делать ручками. Все эти замены токенов прописывать и метрики и мульти ГПУ 🤦🏻‍♂️🤦🏻‍♂️🤦🏻‍♂️

А сейчас вон, парни новички в ML за пару дней уже обучают свои сетки 🤗

источник

11:10пожаловаться #14

Andrey in Natural Language Processing

fit-predict всем будет. всё решают данные. вот ими приторговывать самое перспективное))

источник

11:27пожаловаться #15

Pavel Gulyaev in Natural Language Processing

Всем привет! Подскажите, пожалуйста, про ner в natasha - есть вопросы в lowercase, из них не выделяются сущности, можно ли это как-то поправить?
text = 'кто стал путиным владимиром и что такое бразилия'

segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
names_extractor = NamesExtractor(morph_vocab)
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.tag_ner(ner_tagger)
for span in doc.spans:
span.normalize(morph_vocab)
print({'spans': [[_.start, _.stop] for _ in doc.spans],
'entity_names': [_.normal for _ in doc.spans],
'substrings': [_.text for _ in doc.spans]})

источник

17:52пожаловаться #16

Pavel Gulyaev in Natural Language Processing

Результат:
{'spans': [], 'entity_names': [], 'substrings': []}

источник

17:52пожаловаться #17

Pavel Gulyaev in Natural Language Processing

Если написать Путина и Бразилию с большой буквы всё работает

источник

17:53пожаловаться #18

Toemik Mnemonic in Natural Language Processing

Ребят, как вы оцениваете качество данных для обучения? Ситуация: есть размеченные данные {"фраза":str, "класс":uint}, однако в них может присутствовать мусор (ложно положительные и отрицательные присваивания к классам включая н-р наличия в ключе "фраза" строки состоящей только из не альфабетик символов). Первое что приходит в голову это отфильтровать такие строки через кондишн . н-р используя регексы, однако это не поможет в случаях когда фраза которой ожидалось присваивание класса x, размечена как класс y. есть какие то подходы кроме ручной проверки и разметки?

источник

19:43пожаловаться #19

dePuff in Natural Language Processing

Если размечено с мусором, то это автоматическая разметка?

источник

19:49пожаловаться #20