Телеграмм чат группы compilerdev страница 1792

Довольно прикладной вопрос: неужели c++ компиляторы не умеют в частичную компиляцию?
Например, изменил одну букву в стринг литерале, он не может понять, что только это нужно заменить? Или есть какие-то тонкости, которые эту возможность убивают? Или может тогда компиляция становится очень сложной и долгой, и быстрее будет почти всегда просто скомпилировать как обычно?

источник

00:44пожаловаться #11

VA

Vladimir Atamanov in Compiler Development

hazer_hazer

Довольно прикладной вопрос: неужели c++ компиляторы не умеют в частичную компиляцию?
Например, изменил одну букву в стринг литерале, он не может понять, что только это нужно заменить? Или есть какие-то тонкости, которые эту возможность убивают? Или может тогда компиляция становится очень сложной и долгой, и быстрее будет почти всегда просто скомпилировать как обычно?

Предположу, что повторяющиеся литералы превращаются в одно упоминание — различие, которое нельзя выявить без полной рекомпиляции.

источник

01:02пожаловаться #12

BD

Berkus Decker in Compiler Development

Kir

У UTF-8 буквы потенциально разной длины, до 5 байт, вроде, так что просто str[i] а-ля C не прокатит, придётся с начала строки перебирать

сейчас до 4, ограничили

источник

01:02пожаловаться #13

BD

Berkus Decker in Compiler Development

Yaroslav Schekin

Эээ... зачем? Разве хранить адрес / указатель на начало лексемы (т.е. первый байт) и её длину (в байтах или символах) недостаточно для O(1)?
Лексема-то "посреди" символа начинаться не будет, я надеюсь.

+

источник

01:03пожаловаться #14

BD

Berkus Decker in Compiler Development

Yaroslav Schekin

Эээ... зачем? Разве хранить адрес / указатель на начало лексемы (т.е. первый байт) и её длину (в байтах или символах) недостаточно для O(1)?
Лексема-то "посреди" символа начинаться не будет, я надеюсь.

^ парсить исходник все равно придется в кодировке utf-8 если язык вменяемый (21 век)

источник

01:03пожаловаться #15

h

hazer_hazer in Compiler Development

Vladimir Atamanov

Предположу, что повторяющиеся литералы превращаются в одно упоминание — различие, которое нельзя выявить без полной рекомпиляции.

Так вот меня и интересует, почему нельзя сделать первичный промежуточный этап для определения неизменного кода. То о чем вы говорите никак этому не помешает.

Если нет оптимизаций включенных, то машинный код практически выглядит, как A -> B, где A это сорс код, а B машинный.

источник

01:04пожаловаться #16

BD

Berkus Decker in Compiler Development

MaxGraey

Обыно валидные символы для начала и середины токена не привышают значение 65500 в codepoint метрики, это значит что вместо UTF32 вполне можно обойтись 16-bit на символ (UCS-2 кодировка)

в свифте идентификаторы-эмодзи поддерживаются

источник

01:04пожаловаться #17

BD

Berkus Decker in Compiler Development

hazer_hazer

Пожалуй мне стоит в этой теме получше разобраться. А то не понятно кому из вас верить

https://www.christianfscott.com/rust-chars-vs-go-runes/

Christianfscott

What’s the difference between a Rust char and a Go rune?

Rust and Go have similar ways of dealing with UTF-8 encoded text. Rust gives you the .chars() method on strings, which returns a sequence of chars (no surprise). Go on the other hand gives you []rune(str), which returns a slice of runes. What’s the difference between these two things?
The answer is that a char is a Unicode Scalar Value, whereas a rune is a Unicode Code Point. That is… not very helpful.