Телеграмм чат группы compilerdev страница 1790

Это lexicographically а не alphabetical сравнение и там об этом сказано. Это подходит для быстрой сортировки, но не подходит если нужно правильно сравнить две стоки в unicode aware стиле!

источник

22:38пожаловаться #8

Yaroslav Schekin in Compiler Development

MaxGraey

Еще раз, проблема не только в произвольном доступе, он может быть и не нужен в 99%. Проблема в том, что когда ты сканируешь строку или тебе нужно ее разбить на code points с UTF8 ты делаешь каждый раз декодирование. Примерно вот такое:
https://bjoern.hoehrmann.de/utf-8/decoder/dfa

Там еще быстрыее реализации приведены. А для UCS-2 ты просто считываешь 2 байта из массива. Все)

А я так и не понял, какое отношение это имеет к lexing / parsing.
Вы можете привести какой-то пример (любопытно же)?

источник

22:39пожаловаться #9

EgorBo in Compiler Development

Антон ⚙️

Разумеется. Но с локалями и у UTF-16 особых преимуществ не будет

и на что тогда такая реакция? у нас culture-aware сравнения всегда, но сперва мы пытаемся сравнить как простое ASCII и походу если видим что без ICU никуда - идем в slow fallback

источник

22:40пожаловаться #10

А⚙

Антон ⚙️ in Compiler Development

Yaroslav Schekin

А я так и не понял, какое отношение это имеет к lexing / parsing.
Вы можете привести какой-то пример (любопытно же)?

Кстати, да, резонный вопрос

источник

22:40пожаловаться #11

АП

Антон Пилипчук... in Compiler Development

Kir

У UTF-8 буквы потенциально разной длины, до 5 байт, вроде, так что просто str[i] а-ля C не прокатит, придётся с начала строки перебирать

я для решения таких проблем использую ICU и не мучаюсь

источник

22:40пожаловаться #12

EgorBo in Compiler Development

Антон Пилипчук

я для решения таких проблем использую ICU и не мучаюсь

медленно и +30мб к приложению -_-

источник

22:41пожаловаться #13

EgorBo in Compiler Development

правда icu можно пострипать хорошо

источник

22:41пожаловаться #14

MaxGraey in Compiler Development

Yaroslav Schekin

А я так и не понял, какое отношение это имеет к lexing / parsing.
Вы можете привести какой-то пример (любопытно же)?

Если в вашем лексере нет чтения символов из строки или сравнения строк, то беспокоиться не о чем. Я вообще отвечал на сообщение о том, что нужно все в UTF32 переводить и лишь заметил, что не обязательно

источник

22:41пожаловаться #15

EgorBo in Compiler Development

кстати @maxgraey вы таскаете с собой icu в вашем языке?

источник

22:41пожаловаться #16

Ilya Golovenko in Compiler Development

Возможно, достаточно было бы сделать case folding обеих строк перед сравнением? Для этого ICU можно не тащить

источник

22:42пожаловаться #17

А⚙

Антон ⚙️ in Compiler Development