как распечатать книгу, которая для этого совсем не приспособлена

sergey_m

Есть книга от O'Reilly по PostgreSQL, которая доступна целиком online. http://www.commandprompt.com/ppbook/.
Хочется её распечатать, что бы нормально читать. Но она представлена в виде HTMLек, которые печатать совсем не прикольно. Есть идеи?

rfgbnfy

html отпарсить .

eduard615

html2tex
хрен ли тут думать

rfgbnfy

всё равно потом от мусора очищать . а от мусора лучше очищать пока хтмль присутствует ...........

sergey_m

Дело в том, что htmlек очень много и они очень замусорены баннерами и прочим. И они не помещаются на 1 A4.

rfgbnfy

вот поэтому я и говорю - надо смотреть на код , находить закономерность (например нужный текст всегда находится в 5 таблице страницы , или он находится в таблице у которой всегда (и только у неё) определённый style) , и вручную простенький парсер написать специально под этот текст . Кинь парру ссылок на внутреннии страницы - а то там юзабилити херовое .

stream2008

1) Выделяешь нужный кусок текста
2) Копируешь его в буфер обмена
3) Вставляешь в какую-нибудь дрянь типа Ворда.
4) тжс для следующей хтмл-ки.

eduard615

прекрастный образец продуктивной работы.
я тебе наврал, лучше не html2tex, а html2latex. я в свое время mojo book перегонял им. хирургическим вмешательством при помощи опции ban весь мусор убирается. лежит на спане.

Asgard

Глеб, а мб не разрушать мозг.
Зайди ко мне и возми книгу
Оставить комментарий
Имя или ник:
Комментарий: