[C++] tolower
Слышал, что icu может сделать все для меня, но не пробовал.попробуй
тоже используем ICU
Чем вы пользуетесь, когда надо сконвертить в нижний/верхний регистр строку? Про строку известна кодировка, она может быть любой.Сферическая кодировка в вакууме?
Всегда надо ставить задачу правильно: что ты делаешь, зачем делаешь и для кого делаешь. От этого инструментарий зависит.
Ику надо ли использовать в твоем случае? Не уверен, я вот не использую. Мне проще было написать свою говнофункцию для UTF-8.
Всегда надо ставить задачу правильно: что ты делаешь, зачем делаешь и для кого делаешь. От этого инструментарий зависит.Это моя подзадача Если ты подразумеваешь, что моя подзадача является решением большей задачи, и надо определиться, правильно ли я выбрал подзадачу, то постить сюда все задачу бессмысленно - либо скажут, что за меня программировать не будут, либо вообще все переделают
Так что подзадача звучит так, как я ее сформулировал. А вопрос звучит как "что люди для этого используют".
Кстати, в итоге я остановился на MAFSA. Все равно ее использую, кодировки на самом деле либо cp1251, либо utf-8 будут. MAFSA, конечно, в верхний регистр приводит, а не в нижний, но пока эта мелочь не стоит более длительных копаний.
Кстати, в итоге я остановился на MAFSA. Все равно ее использую, кодировки на самом деле либо cp1251, либо utf-8 будут. MAFSA, конечно, в верхний регистр приводит, а не в нижний, но пока эта мелочь не стоит более длительных копаний.Так и надо, но ты же можешь пропатчить и сделать нижний регистр.
Я верхний юзал для того чтобы сразу было понятно всё.
По серкрету открою MAFSA-0.3, http://lemmatizer.org/download/new/libMAFSA-0.3.tar.gz
Она умеет офигенную вещь, но Бачан вроде уже знает.
Оставить комментарий
erotic
Чем вы пользуетесь, когда надо сконвертить в нижний/верхний регистр строку? Про строку известна кодировка, она может быть любой.Стандартный tolower(c)/tolower(c, loc) не подходит для мультибайтных кодировок. Что-то там было в сях с префиксом mb для мультибайтных последовательностей, но мне кажется с разнокалиберными UTF-ами оно все равно не будет работать.
Слышал, что icu может сделать все для меня, но не пробовал.