Телеграмм чат группы compilerdev страница 2244

ждал этого коммента

12:54пожаловаться #1

да. но тогда вам придется проверять пробелы на уровне парсинга, а обычно пробелы вне строк всегда пропускают.
вам придется либо добавить токен пробела, либо для всех мест, где важно отсутствие пробелов делать два разных токена, например Underscore и UnderscoreNoWS

12:57пожаловаться #2

РС

а почему вы так думаете? в каких кейсах могут возникнуть проблемы из-за пробела?

12:58пожаловаться #3

ну смотрите.
aaa bbb, если вы на уровне лексера сделаете три токена Letter{'a'} и три токена Letter{'b'}, то на уровне парсера у вас будет 6 токенов Letter и получится просто `Variable{'aaabbb'}
Тогда вам придется создать отдельный токен для пробелов — что довольно странно.
Либо, вам придется создать специальный токен LetterNoWS, и тогда у вас будет два токена LetterNoWS{'a'} потом один Letter{'a'}. И когда вы будете парсить Variable, надо будет проверять, что внутри Variable только LetterNoWS, а в конце может быть либо Letter либо любой другой токен, который вообще не может быть в Variable.
И это очень сильно усложняет всё в принципе. Так что советую идентификаторы на уровне лексера собирать

13:03пожаловаться #4

РС

вы правы, но тут ведь неоднозначность на уровне грамматики получается

13:05пожаловаться #5

РС

условно, если пользователь пишет грамматику для подобных конструкций - его задача это предусмотреть

13:06пожаловаться #6

неа. никакой неоднозначности.
asadasdasdas1232132131 — это идентификатор
asdasd eiwubfewu — это два идентификаторы
asdasd{} — это идентификатор, потом токен {, потом токен }

13:06пожаловаться #7

то есть. у вас простые правила.
идентификатор может начинаться только с _ или буквы, а дальше к этому добавляются ещё и цифры. Но вы продолжаете собирать символы для идентификатора пока не встретите токен, который не может быть частью идентификаторы (и пробел в их числе).

13:08пожаловаться #8

РС

а как тогда в грамматике описать что переменные могут начинаться только с нижнего подчеркивания и могут состоять только из 3-х символов

13:11пожаловаться #9

не хотелось бы это делать опять, так как я никаким образом не хороший пример, но вот лексер — он оооочень простой:
https://github.com/hazer-hazer/Jacy/blob/85967aa3f72a0181a0a4fb535eedb8982959ec45/src/parser/Lexer.cpp#L201

13:11пожаловаться #10

ну. парсить бесконечно. а потом сказать "НЕЛЬЗЯ"

13:11пожаловаться #11

Dmitry Popov in Compiler Development

LR мощнее, чем монадные парсер-комбинаторы? А можно примеров?

14:51пожаловаться #12

Kir in Compiler Development

LR(1) мощнее, чем LL(1).

Пример:

S = Add
Add = Add + Factor | Factor
Factor = Factor * Term | Term
Term = "(" Add ")" | int

из-за левой рекурсии, для применения LL(1) или комбинаторов нужно переделать эту грамматику в не-леворекурсивную.

А у комбинаторов вместо choice оператор left-biased choice. Так что LR(1) с приоритетами мощнее комбинаторов.

15:17пожаловаться #13

Kir in Compiler Development

В лексере описать, это ж не часть парсера

15:18пожаловаться #14

Ну. Можно же использовать left-corner хак в LL

15:20пожаловаться #15