Size: a a a

2021 April 18

AT

Anatoly Tomilov in pro.algorithms
да хоть в машинных кодах
источник

K

Kotomord_λapki in pro.algorithms
На одном ядре?
источник

AT

Anatoly Tomilov in pro.algorithms
да. 1 поток
источник

CD

Constantine Drozdov in pro.algorithms
вообще не представляю, откуда там больше 2 коллизий в среднем на слово
источник

AT

Anatoly Tomilov in pro.algorithms
Референсный скрипт:
LC_ALL="C" awk -F '[^A-Za-z]+' '{ for (i = 1; i <= NF; ++i) if ($i) ++w[tolower($i)] } END { for(i in w) print w[i], i }' "$1" | sort -k1gr,2 >"$2"
где $1 это pg.txt, $2 — это файл с аутпутом, например out.txt. Хеши в выводе md5sum out.txt pgref.txt должны совпасть (ну или хеш д.б. d1362c6c9de664c34c3066ec1d01078f)
источник

AT

Anatoly Tomilov in pro.algorithms
конкретно эту схему не пробовал, но мне почти очевидна её неработоспособность
источник

AT

Anatoly Tomilov in pro.algorithms
может быть я неправ
источник

CD

Constantine Drozdov in pro.algorithms
если не пробовали, то лучше не утверждайте - слова естественного языка очень не любят различаться в середине :)
источник

AT

Anatoly Tomilov in pro.algorithms
на все эти манипуляции будут тратиться драгоценные такты
источник

CD

Constantine Drozdov in pro.algorithms
АЛУ быстрее ОЗУ
источник

AT

Anatoly Tomilov in pro.algorithms
10-11 тактов на байт в лучших решениях
источник

AT

Anatoly Tomilov in pro.algorithms
не в этой задаче
источник

CD

Constantine Drozdov in pro.algorithms
в смысле два кэшмисса
источник

CD

Constantine Drozdov in pro.algorithms
11 тактов на байт это очень много, вычисление хеша выше занимает меньше такта на байт
источник

AT

Anatoly Tomilov in pro.algorithms
если средняя длина слова 4-5 байт, то получается для trie голова почти полностью лежит в кеше и как раз где-то 2-3 кешмиса на выборки нод и получается
источник

CD

Constantine Drozdov in pro.algorithms
средняя длина слова с пробелом после вроде 6.2 для русского
источник

CD

Constantine Drozdov in pro.algorithms
но никто не заставляет вас хранить одну хешмапу для слов разной длины
источник

AT

Anatoly Tomilov in pro.algorithms
'z' - 'a' + 1 == 26. 5 бит. Хорош ли хеш однобайтный — просто xor?
источник

AT

Anatoly Tomilov in pro.algorithms
да. Но на сравнение длины тратятся драгоценные такты
источник

AT

Anatoly Tomilov in pro.algorithms
=)
источник