Телеграмм чат группы compilerdev страница 1789

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Compiler Development

999 membersпожаловаться на группу

2020 December 01

А⚙

Антон ⚙️ in Compiler Development

Еще раз вычислить длину для UTF-8 это O(N) задача, если она не закеширована, а если стоки мутабельны то это практически всегда и гарантированно придется делать. Что бы достать n-й символ из UTF-8 нужно его декодировать - это довольно недешевая операция. Для UCS-2 это O(1) и никакой амортизации при доставании символа соответственно)

А теперь скажи мне, зачем тебе нужен произвольный доступ по индексу

источник

22:24пожаловаться #1

M

MaxGraey in Compiler Development

Антон ⚙️

А теперь скажи мне, зачем тебе нужен произвольный доступ по индексу

Еще раз, проблема не только в произвольном доступе, он может быть и не нужен в 99%. Проблема в том, что когда ты сканируешь строку или тебе нужно ее разбить на code points с UTF8 ты делаешь каждый раз декодирование. Примерно вот такое:
https://bjoern.hoehrmann.de/utf-8/decoder/dfa

Там еще быстрыее реализации приведены. А для UCS-2 ты просто считываешь 2 байта из массива. Все)

источник

22:28пожаловаться #2

M

MaxGraey in Compiler Development

Еще ты можешь так же их сравнивать, так же как сравниваешь два куска памяти) А вот для сравнения 2-х utf8 строк придется их посимвольно деклдировать и сравнить codepoints

источник

22:30пожаловаться #3

А⚙

Антон ⚙️ in Compiler Development

Еще раз, проблема не только в произвольном доступе, он может быть и не нужен в 99%. Проблема в том, что когда ты сканируешь строку или тебе нужно ее разбить на code points с UTF8 ты делаешь каждый раз декодирование. Примерно вот такое:
https://bjoern.hoehrmann.de/utf-8/decoder/dfa

Там еще быстрыее реализации приведены. А для UCS-2 ты просто считываешь 2 байта из массива. Все)

И зачем тебе нужно на code point-ы разбивать?

источник

22:30пожаловаться #4

А⚙

Антон ⚙️ in Compiler Development

Еще ты можешь так же их сравнивать, так же как сравниваешь два куска памяти) А вот для сравнения 2-х utf8 строк придется их посимвольно деклдировать и сравнить codepoints

Лол, а вот это просто неправда

источник

22:30пожаловаться #5

M

MaxGraey in Compiler Development

Разница на самом деле коллосальная, так как тот же memcmp хорошо оптимизирован и векторизирован

источник

22:31пожаловаться #6

А⚙

Антон ⚙️ in Compiler Development

Разница на самом деле коллосальная, так как тот же memcmp хорошо оптимизирован и векторизирован

Строки в UTF-8 можно сравнивать memcmp

источник

22:31пожаловаться #7

E

EgorBo in Compiler Development

Антон ⚙️

Строки в UTF-8 можно сравнивать memcmp

только если ты сперва проведешь анализ что там все символы ASCII

источник

22:32пожаловаться #8

E

EgorBo in Compiler Development

но его можно векторизовать тоже

источник

22:32пожаловаться #9

E

EgorBo in Compiler Development

но не имеет смысла тогда memcmp

источник

22:32пожаловаться #10

M

MaxGraey in Compiler Development

Антон ⚙️

Строки в UTF-8 можно сравнивать memcmp

К сожалению вы плохо знакомы с темой. Это не так, даже UTF16 нельзя сравнивать чкркз memcmp (во всяком случае полностью)

источник

22:33пожаловаться #11

E

EgorBo in Compiler Development

лучше за 1 проход и то и другое сделать

источник

22:33пожаловаться #12

M

MaxGraey in Compiler Development

только если ты сперва проведешь анализ что там все символы ASCII

Это уже частный случай

источник

22:33пожаловаться #13

E

EgorBo in Compiler Development

собсно у нас в дотнете так сравнение строк работает - мы просто сравниваем их через SSE/AVX но как только натыкаемся на чото не ASCII - сразу в медленный фоллбек.

источник

22:34пожаловаться #14

E

EgorBo in Compiler Development

но я не уверен на 100%)

источник

22:34пожаловаться #15

M

MaxGraey in Compiler Development

Ну в C# и Java есть compact strings да. но по условию обе строки должны быть в ASCII / Latin1

источник

22:34пожаловаться #16

E

EgorBo in Compiler Development

в шарпе нет пока)

источник

22:34пожаловаться #17

А⚙

Антон ⚙️ in Compiler Development

только если ты сперва проведешь анализ что там все символы ASCII

Чего блять

источник

22:35пожаловаться #18

E

EgorBo in Compiler Development

джависты решили пойти путем компактинга, а мы - путем добавления отдельного типа Utf8String с utf8 литералами

источник

22:35пожаловаться #19

M

MaxGraey in Compiler Development

в шарпе нет пока)

Хм, я думал вы уже реализовали. Кто то там из ваших очешь хотел использовать редундатные байты в хедере для строк)

источник

22:35пожаловаться #20