Телеграмм чат группы dereference_pointer

2020 November 27

#prog #rust #моё

В Rust есть такая удобная вещь, как сопоставление с образцом (pattern matching), и она работает в том числе и для строк. К сожалению, оно позволяет сопоставлять только строки целиком, но не по частям. В частности (no pun intended), match не позволяет разделить строку на некоторый фиксированный префикс и всё остальное.

Или всё же позволяет? В конце-концов, можно написать так:

match str_value.as_bytes() {
    [b'p', b'r', b'e', b'f, b'i', b'x', rest @ ..] => {}
    _ => {}
}

, и тут даже будет помогать компилятор — он подскажет нам, если мы будем дважды проверять один и тот же префикс. Но тут есть и недостатки: остаток строки (rets во второй строчке) — не &str, а &[u8], ну и, конечно, это довольно неудобно писать. Первый недостаток отчасти перекрывается str::get_unchecked/std::str::from_utf8_unchecked — отчасти, поскольку в паттерн байта можно написать и часть многобайтового символа, а вот второй недостаток обойти сложнее. В идеале мы бы хотели написать матч в виде сопоставления части строки, чтобы потом он скомпилировался в примерно такой же код, как наверху — чтобы к нему могли быть применены те же оптимизации, что и к обычному матчу, и чтобы получить выгоду от проверки полноты покрытия — но это довольно существенное вмешательство в синтаксис, требующее написания процедурного макроса, написание которого отводится читателю в качестве самостоятельного упражнения.

Если же ослабить требование максимальной эффективности генерируемого кода (серьёзно, Rust и так достаточно быстрый), то можно обойтись более слабыми macro_rules!. Как можно переписать сопоставление с префиксом на обычные функции? Один из способов — это написать match, в котором значение ни с чем не сопоставляется, а условие "начинается с заданного префикса" задаётся в охранном выражении (guard clause). Сказано — сделано:

macro_rules! prefixes {
    (match $value:ident {
        $($prefix:literal.. => $arm:expr,)*
        _ => $catch_all:expr $(,)?
    }) => {
        match $value {
            $(x if x.starts_with($prefix) => $arm,)*
            _ => $catch_all,
        }
    }
}

Ну и давайте сделаем какую-нибудь функцию, которая использует этот макрос:

fn use_prefixes(s: &str) -> String {
    prefixes!(match s {
        "foo".. => s.to_string(),
        "bar".. => [s, s].concat(),
        _ => String::new(),
    })
}

fn main() {
    let inputs = [
        "foobar",
        "barfoo",
        "overall",
    ];

    for input in &inputs[..] {
        println!("{:?}", use_prefixes(input));
    }
}

Но, погодите-ка, так потеряли одно из преимуществ компилятора: проверку полноты покрытия! Как мы можем её восстановить? Пойдём ленивым путём: сделаем свою функцию, в которой будем матчить по переданным строкам и позволим компилятору сделать работу за нас. Однако возникает вопрос, где эту функцию хранить? Простейший способ добиться этого — обернуть весь итоговый match в один блок и сделать внутри этого блока функцию. Так как функция не будет использована, она будет помечена #[allow(dead_code)], а на внутренний match повесим #[warn(unreachable_patterns)], чтобы предупреждения компилятора были даже в том случае, если они по каким-то причинам выключены на верхнем уровне:

macro_rules! prefixes {
    (match $value:ident {
        $($prefix:literal.. => $arm:expr,)*
        _ => $catch_all:expr $(,)?
    }) => {{
        #[allow(dead_code)]
        fn non_repeating() {
            #[warn(unreachable_patterns)]
            match "" {
                $($prefix => (),)*
                _ => (),
            }
        }
        match $value {
            $(x if x.starts_with($prefix) => $arm,)*
            _ => $catch_all,
        }
    }}
}

Попробуем оставить в use_prefixes одинаковые префиксы:

fn use_prefixes(s: &str) -> String {
    prefixes!(match s {
        "foo".. => s.to_string(),
        "foo".. => [s, s].concat(), // <--
        _ => String::new(),
    })
}

Что же скажет компилятор?

Блог*