python regexp: \w и буквы национальных алфавитов

Andbar

Следующие команды выполняю в python shell-е:
import re
re.sub(r'(?u)\w', ' ', "ふるさとwill_be_space", re.UNICODE)
re.sub(r'(?u)\w', ' ', "абвгдеёжзийклмнопрстуфхцчшщъэюя", re.UNICODE)
В результаты выполнение обеих команд закрадываются непробельные символы. Как можно решить данную проблему (и если достаточно обновиться, то до какой версии)?
Проверялось на следующих версиях питона (в первом случае, на первую команду замены вообще выдаёт "Unsupported characters in input"):
Python 2.5 (r25:51908, Sep 19 2006, 09:52:17) [MSC v.1310 32 bit (Intel)] on win32, IDLE 1.2
Python 2.5.2 (r252:60911, Jan 4 2009, 21:59:32) [GCC 4.3.2] on linux2

vall

у тебя строки не юникодные

Andbar

сделал юникодные. Под linux'ом с Python 2.5.2 помогло, под виндой с Python 2.5 - нет.

Andbar

гм... По ходу, это был глюк IDLE, а не питона.
Оставить комментарий
Имя или ник:
Комментарий: