Телеграмм чат группы pgsql страница 10636

Seq Scan on csco_ifndq У вас тут гадит по большей части

19:54пожаловаться #1

s

Ну и просто вагон перебираемых данных, которые в кеш не влезают и диск насилуют

19:56пожаловаться #2

YS

Yaroslav Schekin in pgsql – PostgreSQL

если железа выделят побольше, партиционность таблиц поможет? тк сейчас в качестве эксперимента csco_idesind_2008_2020 это кусок csco_idesind, а там данные с 1993 года, если с ней начать работы...

Только если большинство запросов относятся к небольшому подмножеству partitions (и это можно точно определить на этапе их планирования / выполнения!). Иначе будет только [намного] хуже, скорее всего.

19:57пожаловаться #3

K

Yaroslav Schekin

Только если большинство запросов относятся к небольшому подмножеству partitions (и это можно точно определить на этапе их планирования / выполнения!). Иначе будет только [намного] хуже, скорее всего.

учту, спасибо еще раз.

19:57пожаловаться #4

s

Оперативки бы вам побольше. Явно и csco_ifndq с диска читается и временные файлы для хеша тоже не влезают и на диск пишутся, судя по temp written=2256631

19:58пожаловаться #5

K

sexst

Ну и просто вагон перебираемых данных, которые в кеш не влезают и диск насилуют

да, понимаю

19:58пожаловаться #6

s

Yaroslav Schekin

Только если большинство запросов относятся к небольшому подмножеству partitions (и это можно точно определить на этапе их планирования / выполнения!). Иначе будет только [намного] хуже, скорее всего.

Да вроде как как раз скан по периоду дат то как раз самый беспроблемный. БОльшая таблица (и, соответственно, индекс), конечно, ещё сильнее нехватку памяти усугубит, но тут уже гадание сплошное начинается - влезет нужное в кеш или не влезет, вытеснится или не вытеснится.

20:03пожаловаться #7

s

В целом я бы скорее не рассчитывал на эффект

20:04пожаловаться #8

K

но пример с временной таблицей содеражей временной отрезок 2008-2020 (а это самый частый диапазон у дата саентологов) дает прирост существенный даже в текущих условиях.

20:06пожаловаться #9

K

или создать 2 таблицы 1993-2008/2008-2020?

20:06пожаловаться #10

YS

Yaroslav Schekin in pgsql – PostgreSQL

но пример с временной таблицей содеражей временной отрезок 2008-2020 (а это самый частый диапазон у дата саентологов) дает прирост существенный даже в текущих условиях.

Так Вы эту временную таблицу, наверное, ещё как-то ограничиваете (не все поля выбираете, например)?
Вы, кажется, показывали, но я забыл и искать не хочется. ;)

20:08пожаловаться #11

B

BAHR in pgsql – PostgreSQL

👍

20:09пожаловаться #12

K

да, точно

20:09пожаловаться #13

s

но пример с временной таблицей содеражей временной отрезок 2008-2020 (а это самый частый диапазон у дата саентологов) дает прирост существенный даже в текущих условиях.

А у вас на основной то все полезные и сработавшие рекомендации умных людей отсюда уже применены чтобы сравнивать равноценно? У вас может изначально эти таблицы тоже целиком читались вообще

20:09пожаловаться #14

K

sexst

А у вас на основной то все полезные и сработавшие рекомендации умных людей отсюда уже применены чтобы сравнивать равноценно? У вас может изначально эти таблицы тоже целиком читались вообще

да, нужно анализатор и на них прогнать. после тюна постгреса не проверял.

20:10пожаловаться #15

K

пока жду когда покрывающий индекс большой таблицы создастся

20:11пожаловаться #16

s

да, нужно анализатор и на них прогнать. после тюна постгреса не проверял.

И индексы (если какие-то полезные создавались на частичной таблице) тоже нужно повесить, да. Если индекс по дате будет в память вмещаться и висеть там, то нужные строки по этому критерию выберутся быстро что с партиционированием, что без. Вот если не влезет индекс - вот тогда правильные партиции по дате сократят количество данных, которые нужно будет прочесть с диска.

20:14пожаловаться #17

s

Но до этого лучше не доводить, будет грустно

20:14пожаловаться #18

YS

Yaroslav Schekin in pgsql – PostgreSQL

sexst

И индексы (если какие-то полезные создавались на частичной таблице) тоже нужно повесить, да. Если индекс по дате будет в память вмещаться и висеть там, то нужные строки по этому критерию выберутся быстро что с партиционированием, что без. Вот если не влезет индекс - вот тогда правильные партиции по дате сократят количество данных, которые нужно будет прочесть с диска.

Там условие по дате только в одной таблице (не факт, что в другой вообще даты есть).
Т.е. "правильное" партиционирование тут сделать непросто.
И даже в случае партиционирования по датам, выигрыш будет либо тогда, когда при заполнении таблицы происходит много updates/deletes (повторных inserts), либо тогда, когда условия запроса как раз делают выгодным этот индекс по датам не использовать вообще.

20:20пожаловаться #19

s

postgresql.conf

(1.87 Кб)

aws m5.large vCPU 2, 8GB RAM

BTW, r5.large на 0.03$ дороже (0,126 vs 0,096 USD за час), но оперативки уже не 8гб, а хотя бы 16гб.