python regexp: \w и буквы национальных алфавитов

Andbar

Следующие команды выполняю в python shell-е:

import re

re.sub(r'(?u)\w', ' ', "&#12405;&#12427;&#12373;&#12392;will_be_space", re.UNICODE)

re.sub(r'(?u)\w', ' ', "абвгдеёжзийклмнопрстуфхцчшщъэюя", re.UNICODE)

В результаты выполнение обеих команд закрадываются непробельные символы. Как можно решить данную проблему (и если достаточно обновиться, то до какой версии)?
Проверялось на следующих версиях питона (в первом случае, на первую команду замены вообще выдаёт "Unsupported characters in input"):
Python 2.5 (r25:51908, Sep 19 2006, 09:52:17) [MSC v.1310 32 bit (Intel)] on win32, IDLE 1.2
Python 2.5.2 (r252:60911, Jan 4 2009, 21:59:32) [GCC 4.3.2] on linux2

vall

у тебя строки не юникодные

Andbar

сделал юникодные. Под linux'ом с Python 2.5.2 помогло, под виндой с Python 2.5 - нет.

vall

http://www.python.org/dev/peps/pep-0263/
http://evanjones.ca/python-utf8.html

Andbar

гм... По ходу, это был глюк IDLE, а не питона.

Оставить комментарий