Распознавание кодировок

Vincet86

Нужна с++ библиотека для распознавания кодировки по тексту, ну и приветствовалось бы конечно что бы она и конвертить умела) Но основное это автоматическое распознавание кодировки. Никто не встречал таковой?

vall

libenca

Vincet86

Спасибо :)

Vincet86

А есть что-нибуть подобное enca только мультиязычное? Т.е что бы не надо было привязыватся к определенному языку?

slonishka

ыы. по частоте встречаемости букв чтоли? =)
Content-Language:

хотя какой там CL, если кодировку угадывать надо.

evgarus

Ну или для верности разбивать на слова и смотреть какому языку они все принадлежат... Но это будет работать только в случае если ошибок нет :)
Блин, да это очень громоздкая должна быть функциональность. Хоть как-то множество возможных языков сократить можно?

Vincet86

Я и сам понимаю что такая вряд ли есть, но научник думает почему-то по другому Впрочем я уже его переубедил =)

vall

pilot

ыы. по частоте встречаемости букв чтоли?
n-грамм.

vall

порой такое приходит что и без m-грамм не разберёшься =)

Vincet86

http://libcharguess.sourceforge.net/
вот вроде распознавалка мультиязычная и мультикодировочная. что думаете ?;)

Vincet86

Крутая вещь вроде как, это обертка для Mozilla charset detection algorithm. Мультиязычная, на сайте можно посмотреть че да как(в смысле мозиловском) =)
Оставить комментарий
Имя или ник:
Комментарий: