Size: a a a

2021 November 30

YB

Yanis Benson in Distributed
Гзип outclassed везде. Хочешь сильно жать - есть бротли, который примерно так же распространен. Не уверен в сжимаемости и не хочешь много считать - lz4.
источник

АЖ

Алексей Жалнин... in Distributed
а какой там недавно в ядро линукса добавили на замену lzma? или я путаю...
источник

PZ

Pavel Zlatovratskii in Distributed
Zstd
источник

PZ

Pavel Zlatovratskii in Distributed
Ты же понимаешь за счёт чего бротли выигрывает?
источник

АЖ

Алексей Жалнин... in Distributed
В отличие от большинства универсальных алгоритмов сжатия, brotli поставляется со встроенным 120-килобайтным словарём. Этот словарь содержит около 13 тысяч строк, фраз и других последовательностей, часто встречавшихся в большом корпусе текстовых и HTML-документов.[10][11] Подобная особенность позволяет увеличить степень сжатия для некоторых коротких файлов.
https://ru.wikipedia.org/wiki/Brotli
источник

АЖ

Алексей Жалнин... in Distributed
я дааааж не знаю кто выиграет на китайском тексте - бротли или злиб с предсохранённым словарём китайского
источник

АЖ

Алексей Жалнин... in Distributed
По данным LTCB, zstd 0.6 при максимальной степени сжатия показывает уровень сжатия, близкий к архиваторам boz, yxz, tornado; более высокий, чем у lza, brotli, bzip2, обеспечивая при этом очень быструю распаковку (2,2 нс/байт на Core i7-3930K при 4,5 ГГц)
...
Опционально алгоритм может проанализировать заданный набор данных для составления специализированных внешних словарей. Задаваемый пользователем словарь улучшает степень сжатия сходных файлов, но требуется при распаковке. Словари применяют для сжатия небольших файлов, имеющих общие наборы строк, например, xml-файлы
https://ru.wikipedia.org/wiki/Zstandard
источник

YB

Yanis Benson in Distributed
Он выигрывает и тогда, когда сжимает не текст
источник

YB

Yanis Benson in Distributed
Причем, даже у зопфли
источник

YB

Yanis Benson in Distributed
(который брутфорс путей сжатия совместимых с гзипом)
источник

YB

Yanis Benson in Distributed
Я, если честно, со словарем и не запускал ни разу.
источник

YB

Yanis Benson in Distributed
В любом случае, все эти тяжеловесные штуки имеют сравнительно небольшое превосходство в уровне сжатия(кроме исключительных случаев), и рассчитаны больше на контент, который предполагается сжать один раз, а разжимать тысячи
источник

PZ

Pavel Zlatovratskii in Distributed
В смысле? У него словарь же вроде в стандарте?
источник

YB

Yanis Benson in Distributed
Ну я напрямую использовал, там флаг надо ставить, чтобы он юзал словарь(это ухудшает сжатие нетекста).
источник

БГ

Бензофуран Гетероцик... in Distributed
А давайте возьмём сжатие нейросетями?)
источник

PZ

Pavel Zlatovratskii in Distributed
Так-то да, у него есть некоторые преимущества перед гзипом потому что там ЕМНИП шире просто зарезервированные значения используются.
источник

YB

Yanis Benson in Distributed
Перед гзипом вообще немудрено выиграть
источник

PZ

Pavel Zlatovratskii in Distributed
Вопрос в том, насколько мы хотим выигрывать.... так-то можно вообще на ZPAQ сослаться....
источник

YB

Yanis Benson in Distributed
Примерно все алгоритмы, которые относительно на слуху, и рассчитаны на максимальное сжатие, а не легковесность, у гзипа выигрывают.
источник

YB

Yanis Benson in Distributed
Мои обзоры неизменно приводили меня к тому, что если не знаешь, что использовать, надо использовать lz4.
источник