[нубский вопрос] посоветуйте движок

sap978

Привет всем!
Мне нужно сделать типа сайта, но нужен модный движок, в котором можно удобно обрабатывать данные из внешних источников и записывать их во внутренние базы данных.
Чего такого присоветуете? Или всё самому писать?

Helga87

Точно не надо всё самому писать, сейчас куча всего готового есть. Максимум, что может потребоваться — допилить напильником.
Приведи пример задачи, а то под сбор данных из внешних источников и записью во внутренние базы попадают и индекс у поисковика, и Youtube, и cian.ru, и ваще чо угодно.

sap978

Есть куча внешних источников, которые каждый день обновляют инфу.
Ну, скажем курсы валют с сайта РБК (для примера)
Я хочу вот каждый день собирать такие данные и записывать к себе.
Есть еще определенная проблема, что некоторые публикуют ежедневные данные, например, в виде эксель-файлов (я не очень с похапе и вообще с таким проганьем, поэтому меня это повергает в легкий шок)

freako

ТОгда это совсем другое дело. тебе нужно будет две вещи - сам сайт - с любым движком.
И второе - парсер. который будет запускаться по крону и тырить инфу с других сайтов, складирую её в твою БД. вот его придётся писать с нуля скорее всего

sap978

жопа

Helga87

Поддерживаю сообщение . Еще вопрос: что ты потом с этими данными хочешь уметь делать? Генерировать отчеты, графики или считать какие-то отдельные цифры? Пользоваться будешь ты один или широкий круг людей (в зависимости от этого объем работ, очевидно, разный — "для себя" можно и голые sql скрипты гонять, а потом засовывать результаты в excel, если это не слишком частая операция)

sap978

Ты правильно предполагаешь
Отчеты, графики, модели.
Широкий круг людей.

val63

Ты хочешь, чтобы у тебя все в один формат срезалось, или чтобы робот просто кидал данные в помойку, из которой потом вручную будет извлекаться, что надо?
Стоимость разработки первого случая оценивается миллионами имхо.
Второй попроще.

sap978

миллиардами, бл.
я такую штуку делал, только не для веба, а для экселя, просто миллиарды.

val63

Ну удачи, фигле

saveliev_a

ЕМНИП, у Оракла есть настраиваемое решение для сбора из кучи источников, но деталей, к сожалению, не знаю. Да и стоит оно, судя по тому, что это Оракл, не копейки.

0000

Если не сильно круто драть инфу надо, то имхо все просто решается. Пусть и самописью, но
1. В php достаточно просто реализуется механизм парсинга страниц, если шаблон известен
2. Ничего экстра-сложного для этого в php знать не надо.
Т.е. вся сложность написать парсеры для каждого сайта по отдельности, ну и придумать структуру базы, чтобы удобно было инфу уже систематизировать.

val63

+постоянная поддержка, т.к. сайты меняются
+вьюер

PooH

ну надо посмотреть, какие источники используются
написать парсер под каждый тип - xml, html(как подвид xml SQL
потом все это скинуть в одну помойку и оттуда доставать для анализа
проблема в масштабе - стоимость там сильно нелинейно растет.

agent007new

А в пых-пыхе есть что-нить для работы с экселем?

0000

Точно не уточнял, но обработку excel-файла видел где то.
Всегда можно с csv поработать.

kill-still

Ты шутишь? Какие миллиарды? По 5-20к за каждый "тип" источника данных максимум.
2Саша: всё верно говорят, граббер самому писать, это не сложно.

agent007new

Всегда можно с csv поработать.

Ну не всегда. Чтобы с csv поработать, нужно чтобы стыренный откуда-то эксельник (прайс там или еще чего) кто-то сконвертил в csv сначала, т.к. инфа собирается без каких-либо договоренностей с владельцами ресурсов, то на месте существующей эксельки ничего в другом формате не появится - нужно будет все равно парсить именно эксельку

val63

Миллиарды - это не я, а ТС придумал.
Стоимость - это некоторая функция от количества источников, количества типов промежуточных данных и количества визуализаторов. Говоря о лямах, я имел в виду промышленное применение (>1000 источников). У ТС, видимо, задачи не оч масштабные просто.

kill-still

ок, уговорил.

полляма + нанять студента, который будет маски и схемы забивать для источников.

val63

У меня возникает ощущение, что ты собираешься это купить и торгуешься.

kill-still

Врядли. Хотя спасибо за идею.

sap978

1000 очень много.
у меня в пределах 20 источников, наверное пока.

Оставить комментарий