Превратить воррдовый "html" в нормальный
dream waver кое-что может почистить, но не всё
Когда из ворда экспортируешь в html там есть что-т1 типа "сделать чистый html". При этом никакой мусор не добавляется.
да, но при этом он чище не становитсья... 

А у меня становится почти голым... 
У тебя какой ворд?

У тебя какой ворд?
2003 я выполнил команду "Сохраненить в нтмл с фильтром" - или можно как то иначе импортнуть
я как-то пробовал - ничего не получилось. Использовал deramveawer b др. программы. Слишком много дерьма все равно остается. Как вариант - писать макросы. Но на этом деле я тоже закопался, так как слишком разнородности много.
Если найдешь хороший способ - пиши. Я в итоге копи/пастом в dreamveawer, а что-то руками
Если найдешь хороший способ - пиши. Я в итоге копи/пастом в dreamveawer, а что-то руками
По-моему, ещё во FrontPage была такая фишка - очистить документ от тегов - воодишь название тэга. В принципе, это и самой написать можно - удалить все подстроки вида <spanчто-то>, </span> ну и т.д...
Есть вариант напечатать в pdf, а потом из него сделать html.
Но на предмет мусора результат не исследовал, хотя мелгомягкого мусора там быть не должно...
Но на предмет мусора результат не исследовал, хотя мелгомягкого мусора там быть не должно...
Когда ты из ПДФа будешь делать ХТМЛ, у тебя мусора будет горааздо больше
И этот мусор уже будет ОЧЕНЬ СИЛЬНО мешать тому, чотбы скажем, по всей странице изменить размер текста.
И этот мусор уже будет ОЧЕНЬ СИЛЬНО мешать тому, чотбы скажем, по всей странице изменить размер текста.А если сохранить в rtf, а уже rtf переводить в html?
А это уже, наверное, вариант. В принципе, в РТФ ведь кроме жирный/курсивом/подчёркнутый/шрифт/размер практически ничего и нет! Можно самой конвертер написать 

Попробуй Яндекс 

> В принципе, в РТФ ведь кроме жирный/курсивом/подчёркнутый/шрифт/размер практически ничего и нет! Можно самой конвертер написать
Оригинал:
Оригинал:
Фильмыrtf-ный вариант выданный word-ом:
{\rtf1\ansi\ansicpg1251\uc1\deff0\stshfdbch0\stshfloch0\stshfhich0\stshfbi0\deflang1049\deflangfe1049{\fonttbl{\f0\froman\fcharset204\fprq2{\*\panose 02020603050405020304}Times New Roman{\*\falt Times New Roman};}
{\f40\froman\fcharset0\fprq2 Times New Roman{\*\falt Times New Roman};}{\f38\froman\fcharset238\fprq2 Times New Roman CE{\*\falt Times New Roman};}{\f41\froman\fcharset161\fprq2 Times New Roman Greek{\*\falt Times New Roman};}
{\f42\froman\fcharset162\fprq2 Times New Roman Tur{\*\falt Times New Roman};}{\f43\froman\fcharset177\fprq2 Times New Roman (Hebrew){\*\falt Times New Roman};}{\f44\froman\fcharset178\fprq2 Times New Roman (Arabic){\*\falt Times New Roman};}
{\f45\froman\fcharset186\fprq2 Times New Roman Baltic{\*\falt Times New Roman};}{\f46\froman\fcharset163\fprq2 Times New Roman (Vietnamese){\*\falt Times New Roman};}}{\colortbl;\red0\green0\blue0;\red0\green0\blue255;\red0\green255\blue255;
\red0\green255\blue0;\red255\green0\blue255;\red255\green0\blue0;\red255\green255\blue0;\red255\green255\blue255;\red0\green0\blue128;\red0\green128\blue128;\red0\green128\blue0;\red128\green0\blue128;\red128\green0\blue0;\red128\green128\blue0;
\red128\green128\blue128;\red192\green192\blue192;}{\stylesheet{\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs24\lang1049\langfe1049\cgrid\langnp1049\langfenp1049 \snext0 Normal;}{\*\cs10 \additive \ssemihidden
Default Paragraph Font;}{\*\ts11\tsrowd\trftsWidthB3\trpaddl108\trpaddr108\trpaddfl3\trpaddft3\trpaddfb3\trpaddfr3\tscellwidthfts0\tsvertalt\tsbrdrt\tsbrdrl\tsbrdrb\tsbrdrr\tsbrdrdgl\tsbrdrdgr\tsbrdrh\tsbrdrv
\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs20\lang1024\langfe1024\cgrid\langnp1024\langfenp1024 \snext11 \ssemihidden Normal Table;}{\*\cs15 \additive \ul\cf2 \sbasedon10 \styrsid3499419 Hyperlink;}}
{\*\latentstyles\lsdstimax156\lsdlockeddef0}{\*\rsidtbl \rsid3499419\rsid7277988\rsid8729323}{\*\generator Microsoft Word 11.0.6359;}{\info{\author Serge}{\operator Serge}{\creatim\yr2005\mo4\dy10\hr14\min14}{\revtim\yr2005\mo4\dy10\hr14\min16}{\version3}
{\edmins2}{\nofpages1}{\nofwords5}{\nofchars34}{\*\company IT}{\nofcharsws38}{\vern24703}}\paperw11906\paperh16838\margl1701\margr850\margt1134\margb1134
\deftab708\widowctrl\ftnbj\aenddoc\noxlattoyen\expshrtn\noultrlspc\dntblnsbdb\nospaceforul\formshade\horzdoc\dgmargin\dghspace180\dgvspace180\dghorigin1701\dgvorigin1134\dghshow1\dgvshow1
\jexpand\viewkind1\viewscale200\pgbrdrhead\pgbrdrfoot\splytwnine\ftnlytwnine\htmautsp\nolnhtadjtbl\useltbaln\alntblind\lytcalctblwd\lyttblrtgr\lnbrkrule\nobrkwrptbl\snaptogridincell\allowfieldendsel\wrppunct
\asianbrkrule\rsidroot7277988\newtblstyruls\nogrowautofit \fet0\sectd \linex0\headery708\footery708\colsx708\endnhere\sectlinegrid360\sectdefaultcl\sftnbj {\*\pnseclvl1\pnucrm\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl2
\pnucltr\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl3\pndec\pnstart1\pnindent720\pnhang {\pntxta .}}{\*\pnseclvl4\pnlcltr\pnstart1\pnindent720\pnhang {\pntxta )}}{\*\pnseclvl5\pndec\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl6
\pnlcltr\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl7\pnlcrm\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl8\pnlcltr\pnstart1\pnindent720\pnhang {\pntxtb (}{\pntxta )}}{\*\pnseclvl9\pnlcrm\pnstart1\pnindent720\pnhang
{\pntxtb (}{\pntxta )}}\pard\plain \ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjustright\rin0\lin0\itap0 \fs24\lang1049\langfe1049\cgrid\langnp1049\langfenp1049 {\field\fldedit{\*\fldinst {\insrsid3499419 HYPERLINK "http://kinfo.ru" }}{\fldrslt {
\cs15\ul\cf2\insrsid3499419 \'d4\'e8\'eb\'fc\'ec\'fb}}}{\insrsid7277988
\par }}
есть дохрена конверторов doc -> html
XML-вариант ещё для пущего устрашения приведи.
да, тоже страшно 

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Word.Document"?>
<w:wordDocument xmlns:w="http://schemas.microsoft.com/office/word/2003/wordml"
xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word"
xmlns:sl="http://schemas.microsoft.com/schemaLibrary/2003/core"
xmlns:aml="http://schemas.microsoft.com/aml/2001/core"
xmlns:wx="http://schemas.microsoft.com/office/word/2003/auxHint"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882"
w:macrosPresent="no"
w:embeddedObjPresent="no"
w:ocxPresent="no"
xml:space="preserve">
<o:DocumentProperties>
<o:Title>Фильмы</o:Title>
<o:Author>Serge</o:Author>
<o:LastAuthor>Serge</o:LastAuthor>
<o:Revision>1</o:Revision>
<o:TotalTime>0</o:TotalTime>
<o:Created>2005-04-25T19:33:00Z</o:Created>
<o:LastSaved>2005-04-25T19:33:00Z</o:LastSaved>
<o:Pages>1</o:Pages>
<o:Words>7</o:Words>
<o:Characters>44</o:Characters>
<o:Company>IT</o:Company>
<o:Lines>1</o:Lines>
<o:Paragraphs>1</o:Paragraphs>
<o:CharactersWithSpaces>50</o:CharactersWithSpaces>
<o:Version>11.6359</o:Version>
</o:DocumentProperties>
<w:fonts>
<w:defaultFonts w:ascii="Times New Roman" w:fareast="Times New Roman" w:h-ansi="Times New Roman"
w:cs="Times New Roman"/>
</w:fonts>
<w:styles>
<w:versionOfBuiltInStylenames w:val="4"/>
<w:latentStyles w:defLockedState="off" w:latentStyleCount="156"/>
<w:style w:type="paragraph" w:default="on" w:styleId="Normal">
<w:name w:val="Normal"/>
<w:rPr>
<wx:font wx:val="Times New Roman"/>
<w:sz w:val="24"/>
<w:sz-cs w:val="24"/>
<w:lang w:val="RU" w:fareast="RU" w:bidi="AR-SA"/>
</w:rPr>
</w:style>
<w:style w:type="character" w:default="on" w:styleId="DefaultParagraphFont">
<w:name w:val="Default Paragraph Font"/>
<w:semiHidden/>
</w:style>
<w:style w:type="table" w:default="on" w:styleId="TableNormal">
<w:name w:val="Normal Table"/>
<wx:uiName wx:val="Table Normal"/>
<w:semiHidden/>
<w:rPr>
<wx:font wx:val="Times New Roman"/>
</w:rPr>
<w:tblPr>
<w:tblInd w:w="0" w:type="dxa"/>
<w:tblCellMar>
<w:top w:w="0" w:type="dxa"/>
<w:left w:w="108" w:type="dxa"/>
<w:bottom w:w="0" w:type="dxa"/>
<w:right w:w="108" w:type="dxa"/>
</w:tblCellMar>
</w:tblPr>
</w:style>
<w:style w:type="list" w:default="on" w:styleId="NoList">
<w:name w:val="No List"/>
<w:semiHidden/>
</w:style>
<w:style w:type="character" w:styleId="Hyperlink">
<w:name w:val="Hyperlink"/>
<w:basedOn w:val="DefaultParagraphFont"/>
<w:rsid w:val="00B05510"/>
<w:rPr>
<w:color w:val="0000FF"/>
<w:u w:val="single"/>
</w:rPr>
</w:style>
</w:styles>
<w:docPr>
<w:view w:val="print"/>
<w:zoom w:percent="200"/>
<w:doNotEmbedSystemFonts/>
<w:proofState w:spelling="clean" w:grammar="clean"/>
<w:attachedTemplate w:val=""/>
<w:defaultTabStop w:val="708"/>
<w:punctuationKerning/>
<w:characterSpacingControl w:val="DontCompress"/>
<w:optimizeForBrowser/>
<w:validateAgainstSchema/>
<w:saveInvalidXML w:val="off"/>
<w:ignoreMixedContent w:val="off"/>
<w:alwaysShowPlaceholderText w:val="off"/>
<w:compat>
<w:breakWrappedTables/>
<w:snapToGridInCell/>
<w:wrapTextWithPunct/>
<w:useAsianBreakRules/>
<w:dontGrowAutofit/>
</w:compat>
</w:docPr>
<w:body>
<wx:sect>
<w:p>
<w:hlink w:dest="http://kinfo.ru" w:target="_blank">
<w:r>
<w:rPr>
<w:rStyle w:val="Hyperlink"/>
</w:rPr>
<w:t>Фильмы</w:t>
</w:r>
</w:hlink>
</w:p>
<w:sectPr>
<w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="708" w:footer="708" w:gutter="0"/>
<w:cols w:space="708"/>
<w:docGrid w:line-pitch="360"/>
</w:sectPr>
</wx:sect>
</w:body>
</w:wordDocument>
Office HTML Filter
Оставить комментарий
xz_post
Еще один вопрос по html...Есть большое количество шаблонов отчетов в вордовом виде. Ьольшие таблицы, на форматирование текста можно забить... Само собой код там ужасный. МОдифицировать его очень сложно, а переписывать заново не хочется. Можно ли этот html-код привестии к нормальному виду при помощи утилит?