Телеграмм чат группы compilerdev страница 1787

Обыно валидные символы для начала и середины токена не привышают значение 65500 в codepoint метрики, это значит что вместо UTF32 вполне можно обойтись 16-bit на символ (UCS-2 кодировка)

источник

17:25пожаловаться #8

А⚙

Антон ⚙️ in Compiler Development

hazer_hazer

Вербовка. Этап первый: Раст = безопасность

В контексте сравнения с C — да. Если что опыт IT-индустрии и показывает, так это то, что писать код без уязвимостей на C — это выше способностей обычного смертного

источник

17:26пожаловаться #9

h

hazer_hazer in Compiler Development

Антон ⚙️

В контексте сравнения с C — да. Если что опыт IT-индустрии и показывает, так это то, что писать код без уязвимостей на C — это выше способностей обычного смертного

Понимаю.
Я не любитель си в принципе. Особенно с точки зрения разработки. Плоскость беее

источник

17:27пожаловаться #10

А⚙

Антон ⚙️ in Compiler Development

MaxGraey

Обыно валидные символы для начала и середины токена не привышают значение 65500 в codepoint метрики, это значит что вместо UTF32 вполне можно обойтись 16-bit на символ (UCS-2 кодировка)

Ага, а потом огребать от:
* суррогатных пар
* порядка байт
* увеличение потребления памяти по сравнению с ASCII в два раза

Нет уж, UTF-16 — это отвратительный компромисс

источник

17:28пожаловаться #11

M

MaxGraey in Compiler Development

Антон ⚙️

Ага, а потом огребать от:
* суррогатных пар
* порядка байт
* увеличение потребления памяти по сравнению с ASCII в два раза

Нет уж, UTF-16 — это отвратительный компромисс

USC-2 без суррогатных пар. Внимательнее читайте, я ничего не говорил про UTF16

источник

17:29пожаловаться #12

YS

Yaroslav Schekin in Compiler Development

MaxGraey

Обыно валидные символы для начала и середины токена не привышают значение 65500 в codepoint метрики, это значит что вместо UTF32 вполне можно обойтись 16-bit на символ (UCS-2 кодировка)

Хмм... а почему не UTF-8 и байтовые позиции в потоке? Какая с этим проблема?

источник

17:29пожаловаться #13

M

MaxGraey in Compiler Development

MaxGraey

USC-2 без суррогатных пар. Внимательнее читайте, я ничего не говорил про UTF16

И не требует кодирования/декодирования. Это то же самое что ACSII, только размер поинта 16 бит

источник

17:30пожаловаться #14

А⚙

Антон ⚙️ in Compiler Development

MaxGraey

USC-2 без суррогатных пар. Внимательнее читайте, я ничего не говорил про UTF16

Остальные проблемы остаются, плюс прибавляется тот факт, что не все символы представимы

источник

17:31пожаловаться #15

M

MaxGraey in Compiler Development

Не внимательно читаете)

источник

17:31пожаловаться #16

M

MaxGraey in Compiler Development

Вам и не нужно представлять все символы. Только валидные для идентификаторов, а они зачастую не выходят за границу 16 бит)

источник

17:32пожаловаться #17

h

hazer_hazer in Compiler Development

MaxGraey

Вам и не нужно представлять все символы. Только валидные для идентификаторов, а они зачастую не выходят за границу 16 бит)

А эмодзи подпадают под эти промежутки?

источник

17:35пожаловаться #18

M

MaxGraey in Compiler Development

hazer_hazer

А эмодзи подпадают под эти промежутки?

Эмодзи так же представимы и не выходят за эти границы, так как эмодзи это графемные кластеры зачастую и состоят из набора тех же 16-битовых символов, но мы их видеим как один символ на экране)

источник

17:36пожаловаться #19

А⚙

Антон ⚙️ in Compiler Development

hazer_hazer

А эмодзи подпадают под эти промежутки?

Нет, как и иероглифы

источник

17:37пожаловаться #20