Size: a a a

Технические писатели

2021 September 06

D

Dmitriy in Технические писатели
Одно время искал, не нашёл. Можно либо из docx удалить сам xml с метаданными (можно прямо в памяти через powershell), либо с помощью powershell загружать файл и работать с ним через библиотеки как предлагается здесь https://journeymblog.wordpress.com/2017/01/10/powershell-script-for-removing-personal-info-from-word-excel-and-powerpoint-docs
источник

D

Dmitriy in Технические писатели
источник

D

Denis in Технические писатели
Пока разговор зашёл, не знает ли кто способа вытащить из вордовского файла содержание скриптом?
источник

NV

Nick Volynkin in Технические писатели
pandoc умеет конвертировать DOCX в reST, Markdown или AsciiDoc вместе с изображениями:

 pandoc -f docx --extract-media images -t rst -o document.rst document.docx 
pandoc -f docx --extract-media images -t markdown -o document.md document.docx
pandoc -f docx --extract-media images -t asciidoc -o document.adoc document.docx


Изображения будут в директории images. В любой разметке сразу будут правильные ссылки на них.
источник

NV

Nick Volynkin in Технические писатели
да )
источник

D

Denis in Технические писатели
Вот хотел toc написать, но решил писать по-русски). Table of contents мне нужно вытащить.
источник

D

Denis in Технические писатели
Хотя про изображения тоже полезная инфа - я до сих пор их получал разархивированием
источник

D

Dmitriy in Технические писатели
Элементарно — выдёргиваете document.xml и парсите :)
источник

D

Dmitriy in Технические писатели
pandoc конечно тоже выдернет оглавление
источник

D

Denis in Технические писатели
Вообще задача у меня вот какая. Есть документ в ворде. TOC в нем правильный, но у некоторых заголовок стиль Normal. При конвертации pandoc их как заголовки не распознает. Соответственно, структура в выходном документе не совпадает с оной в исходном. Есть мысли, что с этим можно сделать? Я пока думаю в направлении вытаскивать toc из исходника и сравнивать его с тем, что получилось, формируя сообщения об ошибках или отчеты.
источник

с

суперагент гончик... in Технические писатели
а они отличаются форматированием от body text?
источник

D

Denis in Технические писатели
Да, отличаются. И нумерация у них есть.
источник

D

Dmitriy in Технические писатели
ну если у вас на все документы одинаковый набор стилей, то парсите xml и нодам, где style != нужному ставите нужный атрибут…
источник

D

Denis in Технические писатели
Дело в том, что стилем Normal помечены заголовки разных уровней в рандомном порядке. Видимо, ворд формирует toc исходя из нумерации, а не стилей.
источник

D

Denis in Технические писатели
А у pandoc нет настройки, чтобы оставлять нумерацию заголовков?
источник

D

Dmitriy in Технические писатели
в норме оглавление оформляется стилями Оглавление 1, Оглавление 2 и так далее
источник

D

Dmitriy in Технические писатели
нумерация уровней у меня сохраняется по умолчанию
источник

D

Denis in Технические писатели
А во что конвертируете? Прямо цифры сохраняются или применяется форматирование, соответствующее уровню заголовка?
источник

D

Denis in Технические писатели
Исходники далеки от нормы. Там тысячи страниц и нужно по максимуму автоматизировать конвертацию.
источник

D

Dmitriy in Технические писатели
Я сейчас для пробы сделал -f docx -t plain. Не о форматировании речь, а о нумерации.
источник