Идея очень простая: например, есть вектор длиной в 512 элементов, каждый элемент которого обрабатывается независимо от других. Можно все 512 элементов обрабатывать один за другим, а можно распределить по ядрам процессора: например, если ядер 8, то первые 1:64 обрабатывает 1-й поток, 65:128 - второй поток, и т.д.
Это разумно, естественно и реально сокращает время вычислений в разы