Size: a a a

Natural Language Processing

2021 April 10

НК

Николай Карпенко... in Natural Language Processing
Подскажите, пожалуйста, а этот код уже использует gpu или что-то надо переписать?

from transformers import FSMTForConditionalGeneration, FSMTTokenizer
mname = "facebook/wmt19-en-ru"
tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)
input = "Practically every film"
input_ids = tokenizer.encode(input, return_tensors="pt")
outputs = model.generate(input_ids)
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
источник

A

Anton in Natural Language Processing
Нет, это на CPU будет считать. Нужно добавить to(device) к модели и данным input_ids
источник

A

Anton in Natural Language Processing
При этом device = 'cuda'
источник

🐙

🐙 in Natural Language Processing
Привет, посоветуйте совет: у меня наскраплен датасет текстов (в бд), в какой формат его лучше выгрузить в файл? Там только длинные тексты, никаких метаданных, csv или json кажутся избыточными, ну и текстов где-то миллион.
источник

AZ

Andrey Zakharov in Natural Language Processing
миллион это не много, если хотите читать пандасом, то в нем есть метод чтения из sql
источник

🐙

🐙 in Natural Language Processing
Мне не про прочитать, я его на жесткий диск положить хочу, какой формат будет лучше? Миллион - не много, но когда там будет миллион {"text" : "...."} не несущих особого смысла...
источник

AA

Alexandra A in Natural Language Processing
В текстовый файл со строкой разделителем. После разделителя в его строке можно еще хранить метаинформацию, если надо
источник

🐙

🐙 in Natural Language Processing
Звучит лаконично, благодарю
источник

I

Ilya in Natural Language Processing
В длинных текстах может быть символ, который выберете для разделителя и в текстовом файле это превратится в фарш.

Выглядит удобным сохранить  в parquet. Его может читать/писать pandas и spark. Да и сжатие прозрачно включается.
источник

MK

Max Kuznetsov in Natural Language Processing
Я милион документов (html) хранил в папочках по 1000 документов. Распихивал по id. Т.о. легко получить путь к файлу зная id. И с такой структурой ФС не тормозит.
источник

MK

Max Kuznetsov in Natural Language Processing
В БД уже раскладывал по параграфам и предложениям.
источник

AA

Alexandra A in Natural Language Processing
у меня строка разделитель начиналась с длинной последовательности, которая один раз случайно генерилась. Вероятность, что она встретится в тексте стремится к нулю
источник

AP

Alex Peresmeshnik in Natural Language Processing
Я в sexp храню. Формата универсальнее не придумано.
источник

MK

Max Kuznetsov in Natural Language Processing
И что у тебя выступает в роли атома?
источник

AP

Alex Peresmeshnik in Natural Language Processing
Атом
источник

MK

Max Kuznetsov in Natural Language Processing
"На воздушном шаре" ;)
источник

YB

Yuri Baburov in Natural Language Processing
Вообще, в питоне можете взять просто модуль shelve . А кто-то берёт сразу sqlite.
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
Использую API для перевода текста. Хочу иметь дословный перевод (перевод каждого слова). Если переводить слово за словом, то выходит медленного (надо сделать n переводов). Можно перевести весь текст сразу, но как тогда заметчить переводы отдельных слов? Посоветуйте фреймворки, которые это делают
источник

AK

Alex Konst in Natural Language Processing
Можно попробовать разбить слова через \n и посмотреть чё выйдет
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
источник