Телеграмм чат группы ProCxx страница 14509

Size: a a a

pro.cxx

3725 membersпожаловаться на группу

2020 April 10

Artöm Bakri Al-Sarmini in pro.cxx

Yuri Hudobin

...Но не поместится в char32_t, если эмодзи с модификатором пола или расы.

Это разве не графемный кластер (или как это называется)?

источник

13:51пожаловаться #1

Artöm Bakri Al-Sarmini in pro.cxx

Короче, желаю автору определится, что такое символ и зачем ему они

источник

13:51пожаловаться #2

Yuri Hudobin in pro.cxx

Возможно. Поэтому Егору все же следует читать из файла просто байтики.

Привет. А как правильно прочитать файл в utf8 посимвольно в чистом c?

Егор, дерзай:

inline std::size_t utf8len(char c) noexcept {

 if (!(c & 0x80)) return 1;
  if (c & 0x40) {
    if (c & 0x20) {
      if (c & 0x10) {
        if (c & 0x08) {
          if (c & 0x04) { return 6; }
          return 5;
        } return 4;
      } return 3;
    } return 2;
  } return 1;
}

источник

13:53пожаловаться #4

Pavel Kazakov in pro.cxx

⁣

Так я посимвольно хочу

Не путай глифы и графемные кластеры с код поинтами и байтами

источник

13:55пожаловаться #5

Pavel Kazakov in pro.cxx

⁣

Разве? У меня помещается

Они разные есть

источник

13:56пожаловаться #6

Pavel Kazakov in pro.cxx

Большинство не поместится (на винде)

источник

13:56пожаловаться #7

Alex in pro.cxx

Dmitrij V

Егор, дерзай:

inline std::size_t utf8len(char c) noexcept {

 if (!(c & 0x80)) return 1;
  if (c & 0x40) {
    if (c & 0x20) {
      if (c & 0x10) {
        if (c & 0x08) {
          if (c & 0x04) { return 6; }
          return 5;
        } return 4;
      } return 3;
    } return 2;
  } return 1;
}

это 100% правильный код????

это 100% правильный код????

ну у меня работает, есть сомнения ?

источник

13:58пожаловаться #9

Alex in pro.cxx

у меня откуда-то давно выдранный код на С, который определяет длину символа в байтах по таблице + if, и это весьма замедляет работу со строками

источник

13:58пожаловаться #10

ДЛ

Дмитрий ⬡ Лапшин in pro.cxx

⁣

Так я посимвольно хочу

Крайне рекомендую не хотеть читать юникод посимвольно. Почитай про графемы, единицы кодировки и code points.

источник

13:58пожаловаться #11

ДЛ

Дмитрий ⬡ Лапшин in pro.cxx

Dmitrij V

Егор, дерзай:

inline std::size_t utf8len(char c) noexcept {

 if (!(c & 0x80)) return 1;
  if (c & 0x40) {
    if (c & 0x20) {
      if (c & 0x10) {
        if (c & 0x08) {
          if (c & 0x04) { return 6; }
          return 5;
        } return 4;
      } return 3;
    } return 2;
  } return 1;
}

UTF8 не бывает длиннее 4.

источник

13:58пожаловаться #12

⁣

⁣ in pro.cxx

Дмитрий ⬡ Лапшин

Крайне рекомендую не хотеть читать юникод посимвольно. Почитай про графемы, единицы кодировки и code points.

Да господи, читал я про все это

источник

13:59пожаловаться #13

Pavel Kazakov in pro.cxx

Alex

А что такое символ? :) Decomposed UTF, как в OSX, например, в это определение вписывается?

источник

13:59пожаловаться #14

⁣

⁣ in pro.cxx

Короче, перефразирую вопрос

источник

14:00пожаловаться #15

Alex in pro.cxx

не знаю таких тонкостей, это не важно, если результат консистентный

источник

14:00пожаловаться #16

magras in pro.cxx

Dmitrij V

ну у меня работает, есть сомнения ?

Вы для символа из середины последовательности возвращаете 1.

Кроме того, я бы избавился от лестницы инвертировав условия.

источник

14:00пожаловаться #17

Dmitrij V in pro.cxx

magras

Ок, можете кинуть сюда, если знаете, чего уж таить ;)

источник

14:01пожаловаться #18

Alex in pro.cxx

magras

думаю, вызывать на байте из середины последовательности - ошибка.
Лично мне нужен код, который максимально быстро по первому байту utf8 кода скажет длину этой последовательности, чтобы я мог прыгнуть на следующий символ.

источник

14:02пожаловаться #19

Alex in pro.cxx

Хотя, я вас обманул, у меня тоже код простой, без таблиц

источник

14:03пожаловаться #20