Превратить воррдовый "html" в нормальный

xz_post

Еще один вопрос по html...
Есть большое количество шаблонов отчетов в вордовом виде. Ьольшие таблицы, на форматирование текста можно забить... Само собой код там ужасный. МОдифицировать его очень сложно, а переписывать заново не хочется. Можно ли этот html-код привестии к нормальному виду при помощи утилит?

sergei1969

dream waver кое-что может почистить, но не всё

boris1963-11

Когда из ворда экспортируешь в html там есть что-т1 типа "сделать чистый html". При этом никакой мусор не добавляется.

xz_post

да, но при этом он чище не становитсья...

boris1963-11

А у меня становится почти голым...
У тебя какой ворд?

xz_post

2003 я выполнил команду "Сохраненить в нтмл с фильтром" - или можно как то иначе импортнуть

vijrel7878

я как-то пробовал - ничего не получилось. Использовал deramveawer b др. программы. Слишком много дерьма все равно остается. Как вариант - писать макросы. Но на этом деле я тоже закопался, так как слишком разнородности много.
Если найдешь хороший способ - пиши. Я в итоге копи/пастом в dreamveawer, а что-то руками

boris1963-11

По-моему, ещё во FrontPage была такая фишка - очистить документ от тегов - воодишь название тэга. В принципе, это и самой написать можно - удалить все подстроки вида <spanчто-то>, </span> ну и т.д...

durka82

Есть вариант напечатать в pdf, а потом из него сделать html.
Но на предмет мусора результат не исследовал, хотя мелгомягкого мусора там быть не должно...

boris1963-11

Когда ты из ПДФа будешь делать ХТМЛ, у тебя мусора будет горааздо больше И этот мусор уже будет ОЧЕНЬ СИЛЬНО мешать тому, чотбы скажем, по всей странице изменить размер текста.

durka82

А если сохранить в rtf, а уже rtf переводить в html?

boris1963-11

А это уже, наверное, вариант. В принципе, в РТФ ведь кроме жирный/курсивом/подчёркнутый/шрифт/размер практически ничего и нет! Можно самой конвертер написать

durka82

Попробуй Яндекс

Dasar

> В принципе, в РТФ ведь кроме жирный/курсивом/подчёркнутый/шрифт/размер практически ничего и нет! Можно самой конвертер написать
Оригинал:
Фильмы
rtf-ный вариант выданный word-ом:
{\rtf1\ansi\ansicpg1251\uc1\deff0\stshfdbch0\stshfloch0\stshfhich0\stshfbi0\deflang1049\deflangfe1049{\fonttbl{\f0\froman\fcharset204\fprq2{\*\panose 02020603050405020304}Times New Roman{\*\falt Times New Roman};}
{\f40\froman\fcharset0\fprq2 Times New Roman{\*\falt Times New Roman};}{\f38\froman\fcharset238\fprq2 Times New Roman CE{\*\falt Times New Roman};}{\f41\froman\fcharset161\fprq2 Times New Roman Greek{\*\falt Times New Roman};}
{\f42\froman\fcharset162\fprq2 Times New Roman Tur{\*\falt Times New Roman};}{\f43\froman\fcharset177\fprq2 Times New Roman (Hebrew){\*\falt Times New Roman};}{\f44\froman\fcharset178\fprq2 Times New Roman (Arabic){\*\falt Times New Roman};}
{\f45\froman\fcharset186\fprq2 Times New Roman Baltic{\*\falt Times New Roman};}{\f46\froman\fcharset163\fprq2 Times New Roman (Vietnamese){\*\falt Times New Roman};}}{\colortbl;\red0\green0\blue0;\red0\green0\blue255;\red0\green255\blue255;
\red0\green255\blue0;\red255\green0\blue255;\red255\green0\blue0;\red255\green255\blue0;\red255\green255\blue255;\red0\green0\blue128;\red0\green128\blue128;\red0\green128\blue0;\red128\green0\blue128;\red128\green0\blue0;\red128\green128\blue0;
\red128\green128\blue128;\red192\green192\blue192;}{\stylesheet{\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs24\lang1049\langfe1049\cgrid\langnp1049\langfenp1049 \snext0 Normal;}{\*\cs10 \additive \ssemihidden
Default Paragraph Font;}{\*\ts11\tsrowd\trftsWidthB3\trpaddl108\trpaddr108\trpaddfl3\trpaddft3\trpaddfb3\trpaddfr3\tscellwidthfts0\tsvertalt\tsbrdrt\tsbrdrl\tsbrdrb\tsbrdrr\tsbrdrdgl\tsbrdrdgr\tsbrdrh\tsbrdrv
\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs20\lang1024\langfe1024\cgrid\langnp1024\langfenp1024 \snext11 \ssemihidden Normal Table;}{\*\cs15 \additive \ul\cf2 \sbasedon10 \styrsid3499419 Hyperlink;}}
{\*\latentstyles\lsdstimax156\lsdlockeddef0}{\*\rsidtbl \rsid3499419\rsid7277988\rsid8729323}{\*\generator Microsoft Word 11.0.6359;}{\info{\author Serge}{\operator Serge}{\creatim\yr2005\mo4\dy10\hr14\min14}{\revtim\yr2005\mo4\dy10\hr14\min16}{\version3}
{\edmins2}{\nofpages1}{\nofwords5}{\nofchars34}{\*\company IT}{\nofcharsws38}{\vern24703}}\paperw11906\paperh16838\margl1701\margr850\margt1134\margb1134
\deftab708\widowctrl\ftnbj\aenddoc\noxlattoyen\expshrtn\noultrlspc\dntblnsbdb\nospaceforul\formshade\horzdoc\dgmargin\dghspace180\dgvspace180\dghorigin1701\dgvorigin1134\dghshow1\dgvshow1
\jexpand\viewkind1\viewscale200\pgbrdrhead\pgbrdrfoot\splytwnine\ftnlytwnine\htmautsp\nolnhtadjtbl\useltbaln\alntblind\lytcalctblwd\lyttblrtgr\lnbrkrule\nobrkwrptbl\snaptogridincell\allowfieldendsel\wrppunct
\asianbrkrule\rsidroot7277988\newtblstyruls\nogrowautofit \fet0\sectd \linex0\headery708\footery708\colsx708\endnhere\sectlinegrid360\sectdefaultcl\sftnbj {\*\pnseclvl1\pnucrm\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl2
\pnucltr\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl3\pndec\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl4\pnlcltr\pnstart1\pnindent720\pnhang {\pntxta )}}{\*\pnseclvl5\pndec\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl6
\pnlcltr\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl7\pnlcrm\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl8\pnlcltr\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl9\pnlcrm\pnstart1\pnindent720\pnhang
{\pntxtb (}{\pntxta )}}\pard\plain \ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs24\lang1049\langfe1049\cgrid\langnp1049\langfenp1049 {\field\fldedit{\*\fldinst {\insrsid3499419 HYPERLINK "http://kinfo.ru" }}{\fldrslt {
\cs15\ul\cf2\insrsid3499419 \'d4\'e8\'eb\'fc\'ec\'fb}}}{\insrsid7277988
\par }}

freezer

есть дохрена конверторов doc -> html

Marinavo_0507

XML-вариант ещё для пущего устрашения приведи.

Dasar

да, тоже страшно

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Word.Document"?>
<w:wordDocument xmlns:w="http://schemas.microsoft.com/office/word/2003/wordml"
xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word"
xmlns:sl="http://schemas.microsoft.com/schemaLibrary/2003/core"
xmlns:aml="http://schemas.microsoft.com/aml/2001/core"
xmlns:wx="http://schemas.microsoft.com/office/word/2003/auxHint"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882"
w:macrosPresent="no"
w:embeddedObjPresent="no"
w:ocxPresent="no"
xml:space="preserve">
<o:DocumentProperties>
<o:Title>Фильмы</o:Title>
<o:Author>Serge</o:Author>
<o:LastAuthor>Serge</o:LastAuthor>
<o:Revision>1</o:Revision>
<o:TotalTime>0</o:TotalTime>
<o:Created>2005-04-25T19:33:00Z</o:Created>
<o:LastSaved>2005-04-25T19:33:00Z</o:LastSaved>
<o:Pages>1</o:Pages>
<o:Words>7</o:Words>
<o:Characters>44</o:Characters>
<o:Company>IT</o:Company>
<o:Lines>1</o:Lines>
<o:Paragraphs>1</o:Paragraphs>
<o:CharactersWithSpaces>50</o:CharactersWithSpaces>
<o:Version>11.6359</o:Version>
</o:DocumentProperties>
<w:fonts>
<w:defaultFonts w:ascii="Times New Roman" w:fareast="Times New Roman" w:h-ansi="Times New Roman"
w:cs="Times New Roman"/>
</w:fonts>
<w:styles>
<w:versionOfBuiltInStylenames w:val="4"/>
<w:latentStyles w:defLockedState="off" w:latentStyleCount="156"/>
<w:style w:type="paragraph" w:default="on" w:styleId="Normal">
<w:name w:val="Normal"/>
<w:rPr>
<wx:font wx:val="Times New Roman"/>
<w:sz w:val="24"/>
<w:sz-cs w:val="24"/>
<w:lang w:val="RU" w:fareast="RU" w:bidi="AR-SA"/>
</w:rPr>
</w:style>
<w:style w:type="character" w:default="on" w:styleId="DefaultParagraphFont">
<w:name w:val="Default Paragraph Font"/>
<w:semiHidden/>
</w:style>
<w:style w:type="table" w:default="on" w:styleId="TableNormal">
<w:name w:val="Normal Table"/>
<wx:uiName wx:val="Table Normal"/>
<w:semiHidden/>
<w:rPr>
<wx:font wx:val="Times New Roman"/>
</w:rPr>
<w:tblPr>
<w:tblInd w:w="0" w:type="dxa"/>
<w:tblCellMar>
<w:top w:w="0" w:type="dxa"/>
<w:left w:w="108" w:type="dxa"/>
<w:bottom w:w="0" w:type="dxa"/>
<w:right w:w="108" w:type="dxa"/>
</w:tblCellMar>
</w:tblPr>
</w:style>
<w:style w:type="list" w:default="on" w:styleId="NoList">
<w:name w:val="No List"/>
<w:semiHidden/>
</w:style>
<w:style w:type="character" w:styleId="Hyperlink">
<w:name w:val="Hyperlink"/>
<w:basedOn w:val="DefaultParagraphFont"/>
<w:rsid w:val="00B05510"/>
<w:rPr>
<w:color w:val="0000FF"/>
<w:u w:val="single"/>
</w:rPr>
</w:style>
</w:styles>
<w:docPr>
<w:view w:val="print"/>
<w:zoom w:percent="200"/>
<w:doNotEmbedSystemFonts/>
<w:proofState w:spelling="clean" w:grammar="clean"/>
<w:attachedTemplate w:val=""/>
<w:defaultTabStop w:val="708"/>
<w:punctuationKerning/>
<w:characterSpacingControl w:val="DontCompress"/>
<w:optimizeForBrowser/>
<w:validateAgainstSchema/>
<w:saveInvalidXML w:val="off"/>
<w:ignoreMixedContent w:val="off"/>
<w:alwaysShowPlaceholderText w:val="off"/>
<w:compat>
<w:breakWrappedTables/>
<w:snapToGridInCell/>
<w:wrapTextWithPunct/>
<w:useAsianBreakRules/>
<w:dontGrowAutofit/>
</w:compat>
</w:docPr>
<w:body>
<wx:sect>
<w:p>
<w:hlink w:dest="http://kinfo.ru" w:target="_blank">
<w:r>
<w:rPr>
<w:rStyle w:val="Hyperlink"/>
</w:rPr>
<w:t>Фильмы</w:t>
</w:r>
</w:hlink>
</w:p>
<w:sectPr>
<w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="708" w:footer="708" w:gutter="0"/>
<w:cols w:space="708"/>
<w:docGrid w:line-pitch="360"/>
</w:sectPr>
</wx:sect>
</w:body>
</w:wordDocument>

ruler

Office HTML Filter
Оставить комментарий
Имя или ник:
Комментарий: