Телеграмм чат группы technicalwriters страница 3424

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Технические писатели

1996 membersпожаловаться на группу

2021 September 06

D

Dmitriy in Технические писатели

Одно время искал, не нашёл. Можно либо из docx удалить сам xml с метаданными (можно прямо в памяти через powershell), либо с помощью powershell загружать файл и работать с ним через библиотеки как предлагается здесь https://journeymblog.wordpress.com/2017/01/10/powershell-script-for-removing-personal-info-from-word-excel-and-powerpoint-docs

yet another scripting blog

Powershell script for removing personal info from Word, Excel, and Powerpoint docs.

Recently, I’ve been given a task to remove personal info via scripting, for a set of documents, which consisted of Word, Excel, and PowerPoint documents, both old, and new format (doc, docx, …

источник

12:56пожаловаться #1

D

Dmitriy in Технические писатели

https://github.com/cameronjeff/OfficeMetadataRemove

GitHub - cameronjeff/OfficeMetadataRemove

Contribute to cameronjeff/OfficeMetadataRemove development by creating an account on GitHub.

источник

12:59пожаловаться #2

D

Denis in Технические писатели

Пока разговор зашёл, не знает ли кто способа вытащить из вордовского файла содержание скриптом?

источник

14:54пожаловаться #3

NV

Nick Volynkin in Технические писатели

pandoc умеет конвертировать DOCX в reST, Markdown или AsciiDoc вместе с изображениями:

 pandoc -f docx --extract-media images -t rst -o document.rst document.docx 
pandoc -f docx --extract-media images -t markdown -o document.md document.docx
pandoc -f docx --extract-media images -t asciidoc -o document.adoc document.docx

Изображения будут в директории images. В любой разметке сразу будут правильные ссылки на них.

источник

15:14пожаловаться #4

NV

Nick Volynkin in Технические писатели

да )

источник

15:14пожаловаться #5

D

Denis in Технические писатели

Вот хотел toc написать, но решил писать по-русски). Table of contents мне нужно вытащить.

источник

15:16пожаловаться #6

D

Denis in Технические писатели

Хотя про изображения тоже полезная инфа - я до сих пор их получал разархивированием

источник

15:19пожаловаться #7

D

Dmitriy in Технические писатели

Элементарно — выдёргиваете document.xml и парсите :)

источник

15:42пожаловаться #8

D

Dmitriy in Технические писатели

pandoc конечно тоже выдернет оглавление

источник

15:45пожаловаться #9

D

Denis in Технические писатели

Вообще задача у меня вот какая. Есть документ в ворде. TOC в нем правильный, но у некоторых заголовок стиль Normal. При конвертации pandoc их как заголовки не распознает. Соответственно, структура в выходном документе не совпадает с оной в исходном. Есть мысли, что с этим можно сделать? Я пока думаю в направлении вытаскивать toc из исходника и сравнивать его с тем, что получилось, формируя сообщения об ошибках или отчеты.

источник

15:55пожаловаться #10

с

суперагент гончик... in Технические писатели

а они отличаются форматированием от body text?

источник

15:57пожаловаться #11

D

Denis in Технические писатели

Да, отличаются. И нумерация у них есть.

источник

15:58пожаловаться #12

D

Dmitriy in Технические писатели

ну если у вас на все документы одинаковый набор стилей, то парсите xml и нодам, где style != нужному ставите нужный атрибут…

источник

16:00пожаловаться #13

D

Denis in Технические писатели

Дело в том, что стилем Normal помечены заголовки разных уровней в рандомном порядке. Видимо, ворд формирует toc исходя из нумерации, а не стилей.

источник

16:02пожаловаться #14

D

Denis in Технические писатели

А у pandoc нет настройки, чтобы оставлять нумерацию заголовков?

источник

16:03пожаловаться #15

D

Dmitriy in Технические писатели

в норме оглавление оформляется стилями Оглавление 1, Оглавление 2 и так далее

источник

16:18пожаловаться #16

D

Dmitriy in Технические писатели

нумерация уровней у меня сохраняется по умолчанию

источник

16:19пожаловаться #17

D

Denis in Технические писатели

А во что конвертируете? Прямо цифры сохраняются или применяется форматирование, соответствующее уровню заголовка?

источник

16:20пожаловаться #18

D

Denis in Технические писатели

Исходники далеки от нормы. Там тысячи страниц и нужно по максимуму автоматизировать конвертацию.

источник

16:21пожаловаться #19

D

Dmitriy in Технические писатели

Я сейчас для пробы сделал -f docx -t plain. Не о форматировании речь, а о нумерации.

источник

16:21пожаловаться #20