сайт -> OpenOffice Calc
под линукс, в эксель?
хорошо, в OpenOffice Calc
может, в csv ?
хотя там нельзя в ячейки формулки вписывать
ooolib (тока он на perl, так что изначальный рвотный рефлекс надо подавлять силой воли). Это вроде бы stand-alone решение, т.е. самого OpenOffice оно не требует.
Еще можно попробовать Python-UNO. хотя, необходимость постоянного висения окошка OpenOffice, пусть и на специально созданном для этого Workplace раздражает. Зато, удобно и на Python![](/images/graemlins/laugh.gif)
В прынцыпе, если основной проблемой является именно перенос в OpenOffice, то можно попробовать посмотреть в сторону Еще можно попробовать Python-UNO. хотя, необходимость постоянного висения окошка OpenOffice, пусть и на специально созданном для этого Workplace раздражает. Зато, удобно и на Python
![](/images/graemlins/laugh.gif)
хотя, необходимость постоянного висения окошка OpenOffice, пусть и на специально созданном для этого Workplace раздражает.Даже если правильно опции выставлять? Под Windows нормально Calc запускается без открывания окон (сам его из Java гонял, правда на уже существующем файле).
есть какие-то проблемы в запуске экселя на линукс? у меня на машине работает, что я делаю не так?
что я делаю не так?Невнимательно читаешь посты, не понимаешь вопросов, понтуешься.
а как выдрать инфу с сайта?
есть ли какой-нибудь аналог libxml2 для perl?
Java Curl + Poi снимается все и пишется все
Посмотри perl-libxml-perl:
The libxml-perl perl module is a collection of smaller Perl modules, scripts,А формат OpenOffice простой: распакуй файл OOCalc zip'ом и посмотри. Если страница на сайте в XML, то можно обойтись и без Перла, одним лишь XSLT. Если в HTML, то, может быть, сначала привести её в соответствие с XHTML каким-нибудь tidy, а затем преобразовать с помощью XSLT каким-нибудь Saxon'ом?
and documents for working with XML in Perl. libxml-perl software works
in combination with XML::Parser, PerlSAX, XML::DOM, XML::Grove and others
Помнится, почненный DarkGray хорошо разбирался в XSLT — можно спросить у него.
HTML-Parser + ooolib, ибо оба на perl
спасибо, я пока остановился на связке
wget -qO - 'http://pda.gismeteo.ru/27612.htm' |tidy -asxhtml 2>/dev/null| saxon7batch - your_stylesheet.xsl
Кажется, этого достаточно, осталось лишь написать стилевик. См. http://nwalsh.com/docs/tutorials/xsl/xsl/frames.html — очень неплохой туториал для простых людей
![](/images/graemlins/smile.gif)
но для создания чего-то, что потом еще придется поддерживать/модифицировать не катит. При этом, разбираться в такой штуке как OpenDocument вообще никакого желания не возникает (it was hard to invent, it should be hard to parse). Понятно, например, желание аффтаров KOffice не иметь ничего общего с кодом OpenOffice.org'а (который, как говорят, просто ужасен для чего они самостоятельно написали парсер этого семейства форматов. Однако, для небольших целей, таких как выдирание для Оркадея информации по уязвимостям в bugtraq'ах, решение на основе UNO представляется более целесообразным. Например, тем фактом, что позволит создавать не только OpenDocument, но и родные MS Office'овские форматы. Такое мое мнение.
Про Оркадея --- это я так, предположил![](/images/graemlins/laugh.gif)
Ну, вообще говоря, "reverse-engineering" открытых стандартов методом пристального взгляда на необъятные xml довольно-таки специфическое занятие. В том смысле, что для быстрого решения частных задач, конечно же, подходит (hello, Про Оркадея --- это я так, предположил
![](/images/graemlins/laugh.gif)
![](/images/graemlins/smile.gif)
чем UNO предпочтительнее ooolib?
2. Предположительно, авторы OpenOffice лучше всех знают о форматах OpenDocument и о своих родных форматах, поэтому вероятность получить нечитаемый OO.org документ на выходе почти равна нулю.
3 и главное. Есть биндинги для Python.
ooffice -headless спасает отца русской демократии.
PHP + Pear::SpreedSheetWriter
экземпл, который оказался лучше и понятнее, чем документация по Python-UNO bridge
html-парсер на питоне есть в стандартной библиотеке (модуль htmllib)
нашел гуглом html-парсер на питоне есть в стандартной библиотеке (модуль htmllib)
Оставить комментарий
disna
Есть некий сайт, публикующий некую статистическую информацию на конкретной странице. Необходимо извлечь часть этой информации, быть может, как-то обработать и запихать в табличный формат(например xls, но лучше sxc). Как сделать это проще всего?Необходимое требование: решение должно быть под linux.