Size: a a a

Natural Language Processing

2021 October 11

TM

Toemik Mnemonic in Natural Language Processing
Ребят, а можно через интерфейс transformers импортировать определенную версию bert ? ну н-р анкейзет определённой фиксации https://huggingface.co/bert-base-uncased/tree/main .Или без модификации код трансформерс не обойтись?
источник

IG

Ilya Gusev in Natural Language Processing
model = AutoModel.from_pretrained("bert-base-uncased", revision="345fd30")
источник

IG

Ilya Gusev in Natural Language Processing
должно бы работать
источник

IG

Ilya Gusev in Natural Language Processing
а не, с сокращёнными хэшами не работает, только с полными
источник

IG

Ilya Gusev in Natural Language Processing
то есть model = AutoModel.from_pretrained("bert-base-uncased", revision="345fd30026bc3003828be943882dda32ab48b908")
источник

TM

Toemik Mnemonic in Natural Language Processing
спасибо
источник
2021 October 12

SS

Sergey Shulga in Natural Language Processing
А никто не сравнивал, в переводе с русского на английский если брать wmt от фейсбука и opus от Helsinki, то в категориях качество/скорость кто лучше? Так то по ощущениям примерно одно и тоже, но больших тестов не делал.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, доброе утро! Подскажите, можно ли при извлечении имён с помощью natasha также доставать падеж, в котором имя находится? Или посоветуйте другой инструмент, чтоб доставать имя+падеж?
источник

AS

Artem Sergeev in Natural Language Processing
Не уверен, что связано, но я у сберовской GPT3 заметил прямо какой-то пунктик  на "щип". Типа "в любой непонятной ситуации продолжайай этим токеном"

Например:
Старый князь учил Марью -> щипцами,
    Но она не хотела,

Руки у Пьера были -> щиплет, как будто он хотел перехватить дыхание,

Или, наоборот, "срыв в повторение" идёт на него:

Продолжи фразу: "С причала рыбачил апостол Андрей".
Ответ:
"Рыболовное искусство, требовавшее от него искусства и силы, состояло в том, чтобы, не вынимая
изо рта наживки, неподвижно сидеть на берегу и ловить, не ртом, не руками, но одним взглядом,
ртом ловить, не пуская в ход ни сети, ни червей, ни жабр, ни плетей, ни щипцов, ни щипцов, ни
щипцов,

Но детально я не разбирался, не хватает опыта/времени
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Natasha умеет делать морфологический анализ. Посмотрите пример использования на github.com/Natasha/nerus там case это и есть падеж.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Действительно, natasha умеет делать морфологический анализ. Вопрос немного в другом: при использовании NamesExtractor'а достаются спаны текста, можно ли узнавать падеж у них, или же потребуется делать поиск падежей слов по-отдельности? Собственно, сейчас такое руками написал на spaCy, интересовало наличие встроенной функциональности.
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Я, кстати, в таких случаях тоже spaCy пользуюсь, pos-tagging и morph. 😀 Можно ли сделать то, что Вы спрашиваете, не знаю. Может, ещё кто посоветует.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Мне кажется, у меня просто постановка вопроса не верная. Я хочу NamedSpan.case получить, а это предполагает, что внутри span всё согласовано, и case только один, и по-правильному стоит для токенов ручками case искать
источник

DD

David Dale in Natural Language Processing
Спаны состоят из токенов, между токенами есть syntax dependency, соответственно, падеж всей сущности по определению равен падежу главного токена в сущности, т.е. токена, прямо или косвенно являющегося head для остальных токенов в сущности.
Поэтому результат достигается в три действия:
1) Моделью для NER находим спан, соответствующий сущности
2) Моделью для синтаксиса находим главное слово в спане (будем надеяться, что оно одно)
3) Морфологической моделью находим падеж этого слова
Собственно, все три компоненты есть и в наташе, и в спейси.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Согласен, так будет более корректно. Но делать я такое не буду, потому что у меня нет гарантии, что всё согласовано, а рассогласованость жутко портит правильный синтаксический разбор и часто получается фигня. 😓
источник

DD

David Dale in Natural Language Processing
А если всё рассогласовано, какой смысл тогда в падежах?
источник

МЕ

Максим Ермаков... in Natural Language Processing
У меня задачка тривиальная - просто сохранить как есть
источник

AW

Alex Wortega in Natural Language Processing
А кто то увеличивал длинну input  у gpt?
источник

LD

Lednik Dwarf in Natural Language Processing
# !pip install natasha
import natasha
from natasha import DatesExtractor,MorphVocab

morph_vocab = MorphVocab()
dates_extractor = DatesExtractor(morph_vocab)
text = '''
вася родился 15 января 1658 года котики милые 8 штук
'''
list(dates_extractor(text))
источник

LD

Lednik Dwarf in Natural Language Processing
источник