Телеграмм чат группы distributed страница 8695

Но вообще, даже со словарями для таких коротких сообщений выходят малоприменимы стандартные алгоритмы. Эффективность по мелочи, нормальная начинается от 512 байт

источник

19:49пожаловаться #4

Yanis Benson in Distributed

Нужен специализированный алгоритм.

источник

19:50пожаловаться #5

АЖ

Алексей Жалнин... in Distributed

сама по себе частотность символов больше используется в определении языка или типа текста..
для сжатия по ней определяется какие лексемы тащить в словарь... ну и чототам ещё

источник

19:50пожаловаться #6

Yanis Benson in Distributed

И, к слову, тот алгоритм, который я ещё не компилял, клялся-божился, что может даже три байта сжать часто.

источник

19:50пожаловаться #7

АЖ

Алексей Жалнин... in Distributed

результаты тестов в студию

источник

19:50пожаловаться #8

АЖ

Алексей Жалнин... in Distributed

клиенты гита справляются нормально

источник

19:51пожаловаться #9

Yanis Benson in Distributed

Все тащить день, если кратко, эффективность около 2 для бротли, около 1.5 для лз4/снэппи, около 1.75 для дефлейт5.

источник

19:52пожаловаться #10

БГ

Бензофуран Гетероцик... in Distributed

Частоты символов для оптимального кодирования
Частоты пар-троек-слогов - для кодирования уже их

источник

19:52пожаловаться #11

Yanis Benson in Distributed

Ну можно ещё байт выборки сжатия внешний добавить, конечно

источник

19:52пожаловаться #12

АЖ

Алексей Жалнин... in Distributed

"кодирование" == словарь

источник

19:52пожаловаться #13

Yanis Benson in Distributed

Нет

источник

19:53пожаловаться #14

Yanis Benson in Distributed

Возвратное кодирование(~= словарь) это не все виды кодирования при сжатии.

источник

19:54пожаловаться #15

Yanis Benson in Distributed

Ну, кстати, для интересующихся, в бородатые годы я писал утф-таргетированное сжатие какое-то прагматичное, и какой-то базовый метод вида поддерживать 2 последних использованных подтаблицы(даже без эскейпов) давал мне результаты, сравнимые со всем этим для текстов.

источник

19:58пожаловаться #16

Yanis Benson in Distributed

Надо бы сесть да поковыряться

источник

19:59пожаловаться #17

Yanis Benson in Distributed

Примерно уверен, что можно за пару вечеров набросать лучше, чем все вышеописанное для нормальных случаев без частностей по языку.

источник

20:00пожаловаться #18

АЖ

Алексей Жалнин... in Distributed

ага, конечно
пара вечеров
в сжатии, ага, лучше

источник

20:00пожаловаться #19

Pavel Zlatovratskii in Distributed

ну вот я предполагал тривиальное: сжат/несжат. Потому что часто оно просто не сжимается даже бротли.

При этом это перестаёт быть актуальным для шифрования, где всё равно надо бы перемешать во-первых и надо иметь некоторый минимальный размер во-вторых (а минимальный размер приводит к тому, что микросжатия не актуальны, а большой блок почти всегда сжимается)

источник

20:01пожаловаться #20