Size: a a a

2021 December 01

АЖ

Алексей Жалнин... in Distributed
самое полезное в статье - последний график
https://habrastorage.org/webt/fe/sv/pt/fesvptifrgue8v5todnadlgxqjc.png
источник

МЛ

Марк Лакост... in Distributed
))
чисто теоретически сообщения до 140 символов можно хранить в utf-c и как-нибудь их помечать, а если сообщение больше 140 символов, то уже хранить в utf-8 или других альтернативах
источник

АЖ

Алексей Жалнин... in Distributed
я всё жду, пока тут кто-нить потестит русский словарь на zstd (у самого лапки и вообще это с дивана вставать, корпус сообщений какой-нить конфы искать....)
источник

АЖ

Алексей Жалнин... in Distributed
зы: кто не смотрел - там на 140+ символов выигрывает алгоритм общего сжатия у механизма кодирования символов
источник

AK

Alejandro Kop in Distributed
подскажите, как к этому мне прикрутить эффект fadein или подобный ?
источник

АЖ

Алексей Жалнин... in Distributed
зы: поиск по истории пожатых сообщений как делать то?
источник

PZ

Pavel Zlatovratskii in Distributed
Индекс строить.
источник

АЖ

Алексей Жалнин... in Distributed
ага, а это не обработка (разжатие)
источник

PZ

Pavel Zlatovratskii in Distributed
В смысле? Ты разжал, построил индекс, разжатое грохнул, осталось пожатое в архиве, после поиска по индексу вытаскивается и разжимается...
источник

YB

Yanis Benson in Distributed
А в чем проблема?
источник

YB

Yanis Benson in Distributed
Вообще, для поиска по тексту чатов индексы не особо нужны
источник

YB

Yanis Benson in Distributed
Полный текст этого чата занимает всего 24мб
источник

YB

Yanis Benson in Distributed
Хранение индекса не окупится, кроме специфичных устройст с очень плохим доступом к хранилищу.
источник

БГ

Бензофуран Гетероцик... in Distributed
А теперь сколько весят все чаты твоего аккаунта?
источник

PZ

Pavel Zlatovratskii in Distributed
Индекс нужен для нормализации, я считаю.
Типа чтобы леммы искать, вот это всё.... то есть вопрос скорее оптимизации процесса поиска, чем оптимизации хранения.
источник

БГ

Бензофуран Гетероцик... in Distributed
(хватит локального SQLite с сообщениями и прочей суетой)
источник

АЖ

Алексей Жалнин... in Distributed
там выше была жалоба, что "обработка" сообщения - это плохо
а тут мы вынуждены обрабатывать перед построением индекса
источник

YB

Yanis Benson in Distributed
Раза в 2 больше.
источник

YB

Yanis Benson in Distributed
Но это все равно копеечные объемы
источник

YB

Yanis Benson in Distributed
Да, но индекс то хранить надо. А несколько мегабайт просканировать занимает долю секунды
источник