HTML для ламаков посоветуйте.

badmint

Народ, подскажите чё почитать.
Нужно научиться с разных сайтов помещать инфу на свою страничку. Причём
1) Инфа должна обновляться постоянно.
2) Инфа представлена на сайтах разными способами, т.е. не просто текст, а и графики и т.д.
3) Дизайн не важен, важно чтоб вся нужная инфа была грамотно собрана в одном месте и постоянно обновлялась.
На скока я знаю вроде даже есть специальные проги какие-то, чтоб без проганья делать свой сайт и помещать
туда всякую фигню, которую хачешь....

katrin2201

1) Инфа должна обновляться постоянно.

Вручную или автоматически?

2) Инфа представлена на сайтах разными способами, т.е. не просто текст, а и графики и т.д.
3) Дизайн не важен, важно чтоб вся нужная инфа была грамотно собрана в одном месте и постоянно обновлялась.

Если вручную, то сюда идеально походит wiki.

badmint

обновления ИСКЛЮЧИТЕЛЬНО автоматически! :crazy:

karkar

На скока я знаю вроде даже есть специальные проги какие-то, чтоб без проганья делать свой сайт и помещать туда всякую фигню, которую хачешь....

1. Такие штуки зовутся CMS (content management systems но автоматически они с чужих сайтов собирать ничего не будут. Такую логику надо на чем-то писать. Тут вариантов масса, в зависимости от предпочтительного/доступного языка и умений. У множества языков - php, perl, python, ruby, с, etc. - есть средства (обычно библиотеки) для получения страниц с внешних сайтов, обработки текста и вытаскивания его частей. Назови язык, и тебе скажут, как на нем это реализовать.
Мои друзья когда-то на чистом С забацали сайтик вроде novosti.ru, который собирал новости с других новостных сайтов и выводил у себя. Кажися, до сих пор работает.

2. Многие сайты, которые регулярно что-то публикуют, публикуют это также в виде RSS, который довольно легко забирать и отображать у себя, т.к. формат этого дела известен.

uncle17

эххх... скорей бы властные структуры прознали, что такое RSS

А то сейчас у меня скрипт шаройобится при запуске по почти сотне сайтов, вытаскивает оттуда страницы с новостями и парсит каждую по-своему. Так новости и собираем...

feliks28

А то сейчас у меня скрипт шаройобится при запуске по почти сотне сайтов, вытаскивает оттуда страницы с новостями и парсит каждую по-своему. Так новости и собираем...

А какой-нить feed43.com не катит?

uncle17

опа... Не видел такого. Пасибо, попробуем. Но, насколько я понял, шаблоны для вытаскивания все равно писать для каждого, а я уже с регэкспами и так придрочился
UPD: Ну да, точно. То же самое и делает, но нативные регэкспы несравненно гибче

feliks28

Мне он нравится тем что фильтр наглядно создается и тем, что созданными rss можно обмениваться, а не каждый заново пишет только для себя.
Не нравится, что ограничение 3 часа...

Commandor

У меня на работе робот вытаскивает новости других сайтов по Xpath - значительно быстрее настраивается на каждый сайт.

valodyr

Xpath же на XML работает, если сайты на кривом HTML4, то придется сначала каким-нибудь tidy приводить все в порядок, и еще фиг знает, получится ли.

Оставить комментарий