doc to html
и что, это проблема? у меня стоит именно 2000 офис, и ни разу не наблюдал несовместимостей ни с более старшими, ни с более младшими версиями
add-on, попытался установить поверх OfficeXP ничего не вышло. Ругается сцуко. А возможности установить 2000 у меня пока что нет.
я скачал этот
В 2003 (или даже ХР) оффисе есть тип сохранения - html, filtered
Да, есть, только лишнего кода не слишком убавляется, а если и убавляется, то непонятно какого! =(
![](/images/graemlins/smile.gif)
RTF to XHTML Converter 1.6 от Sautin Soft.
Программа подходит по всем параметрам!
Они дают демку, но она только на 15000 символов, что очень мало по сути!
И регистрация у них какая-то через задницу. Если поможете, буду очень сильно признателен!
Сломанные версии RTF to XHTML Converter 1.6 :Программа подходит по всем параметрам!
Они дают демку, но она только на 15000 символов, что очень мало по сути!
И регистрация у них какая-то через задницу. Если поможете, буду очень сильно признателен!
Решали такую задачу года 2 назад - недорешали. Свели к минимуму проблему perl'овским скриптом (doc -> html сохранял через Win32::OLE и дальше этот html "чистил" HTML::TreeBuilder - проблема как раз с css, таблицами и рисунками в полный рост - заложили априорные данные о содержимом файлов). Не знаю как сейчас, а html у perl'а выходил не xhtml'ем надо другой модуль искать на cpan.org - может уже написали.
Гы. Помню самый большой облом ждал, когда выяснилось, как форматировались документы в word.
Так что можно пожелать только удачи!
![](/images/graemlins/smile.gif)
Определяется это путем сравнения двух хтмл файлов, сохраненных с флагом filtered и без него.
Оставить комментарий
nata59
Проблема такова:есть много больших документов в .doc формате.
Необходимо перегнать их в html формат.
Если делать через save as..->*.html в MSWord, получается очееень тяжелый html, очень много лишнего кода.
Необходима программа, которая бы выносила всю графику в отдельную папку и сохраняла в графическом формате, а также создавала таблицу стилей CSS исходящего документа.
В инете рылся два дня. Есть путные программки, но они платные и взлому не поддались.
Есть примочка от MS, которая чистит WordHTML от мусора, но она только для 2000 офиса.
Подскажите решение проблемы, если она существует и, если возможно, ссылки на программки.
Заранее спасибо, буду рад любой помощи.