обработка и анализ большого массива данных

tarajna

есть несколько связанных таблиц с числом записей ~миллиона. знаете ли вы какую нибудь систему для того чтобы эти данные можн обыло покрутить и посмотреть с разных сторон? в идеале чтобы можно было делать простой анализ данных (средние,дисперсия, графики, кластеризация) в графической оболочке самой системы, но также чтобы в ней можно было делать sql запросы и тут же писать скрипты на каком нибудь нормальном языке(C, Delphi, Java, Fortran..) для более тонкой обработки и анализа полученных данных. наверняка ведь такие проги есть! как-то ведь люди работают с большими массивами данных. подскажите плз, кто что знает..
скажу сразу, Excel не совсем подходит

perevoz81

Мне кажется, что сильно загнул. Наврядли такое есть. Если просто анализ (типа дисперсии) то
можно найти (может быть а со скриптами ты перебрал.
Смотря, что конкретно тебя интересует.

tarajna

в принципе, для того, чтобы была возможность обрабатывать данные скриптами, можно попробовать подцепиться к базе данных(или что за система это будет) через ODBC, JDBC и другие механизмы стандартного цепляния на базы. черт с этим.
но какие есть системы для анализа и обработки данных хотя бы в рамках собственного графического интерфейса? в принципе хочется то совершенно естественных вещей на мой взгляд графики там разные построить, кластеризовать данные, вычислить средние, посравнивать различные кластеры.. вообщем четкой задачи пока нет, но ведь должны быть системы, в которых можно было бы удобно эти данные повертеть, посмотреть!

perevoz81

А как насчет Statisticи?
Вроде специально для сбора статистики и практически с графикой.
Это единственное, что с ходу приходит в память. Есть и другие, но
вроде Statistica круче.

Dasar

Можешь попробовать посмотреть в сторону OLAP, там похожие задачи, значит должны быть и решения.

ROMZES

Почему нельзя с базой данных типа SQL Server или Oracle поработать?
Пишешь срипт в Delphi или VB и обрабатываешь все?
В SQL есть и дисперсия и среднее арифметическое...
Ну и Statistica, вроде, с базами данных умеет работать.

tarajna

Oracle и SQL Server все таки не системы обработки инфомации, а серверы баз данных. там(по крайней мере в Oracle, в SQLServer - не помню) крайне неудобно работать с конкретными данными в таблицах. что-то вроде Notepad для редактирования текста . Можно конечно из VB или Delph'ей к ним подцепиться, но тогда все придется делать вручную, вплоть до графиков - а велосипед изобретать не хочется.
Самое лучшее, если Statistica - это то что я думаю и она умеет работать с базами - такая связка была бы удобна.

tarajna

тогда сразу вопрос - у кого есть дистрибутив Statistic'и ? в сети все у кого она расшарена - offline.

ROMZES

На сколько я помню, с базами данных она работать умеет.
Еще есть программа Origin, тоже вроде с БД работает.

shlyumper

http://root.cern.ch/
достаточно неплохой вариант, но, возможно, несколько специфический.

ranet

скажу сразу, Excel не совсем подходит
аргументируй
MS SQL Server + Excel (лучше XP или старше)
для сиквела миллион записей ерунда, так же как и для Excel в роли OLAP клиента.
P.S. можно pivot tablе замутить или OLAP куб.

6yrop

Crystal Reports 9, там тоже вроде сейчас OLAP есть

tarajna

>>скажу сразу, Excel не совсем подходит
>аргументируй
не хочет он открывать таблицы более чем с 65535 строками.
хотя, если ты предлагаешь его прицепить к SQL Server'у, и если он это умеет...
можно попробовать поставить SQLServer. только у меня Win2000.

tarajna

OLAP интересная штука оказалось : ) надо только клиента с сервером найти и поставить.

ranet

msde ставиться даже на win98.
Разумеется в тех разрезах, что ты будешь смотреть не может быть более 255 столбцов и ... строк, но вряд ли ты собираешься просто при помощи Excel просматривать записи, что-то вычислять будешь, аггрегировать, конечные срезы дожны быть явно меньше ограничений Excel. Ну если OLAP понравится, прямая дорога от MS SQL к Analysys Services.
P.S. все это дело (связка ms sql + excel) будет требовательна к памяти. Например, сталкивался с таким пайвотом (источник 1.2*10^6 строк который на машинах с объемом оперативки <=128 не обновляется (ошибка: нехватает памяти)

6yrop

Напиши на какой OLAP системе ты остановился (я тоже этим интересуюсь).

ROMZES

OLAP вроде со статистикой не совсем дружит, там же усредненные данные хранятся, т.е., например, из 100 записей формируется одна обобщенная.
На нем разрезы хорошо смотреть, а для дисперсии или кластеризации точность снижается кластеры можно потерять, так как данные не полные...

ranet

в OLAP есть сгруппированные данные, но все оригинальные данные там тоже есть, на нижнем уровне (во всяком случае они там могут быть, если ты захочешь). К тому же миллион записей, это не повод для серверного OLAP, хватит и Excel (могу ошибаться, так как пока ты в общих словах описал задачу).
Про статистику: по второму пункту теста FASMI, любое средство многомерного анализа, позволяет выполнить любой логический и статистический анализ, характерного для данного приложения ...
В любом случае нужно копать в сторону OLAP, могу посоветовать:
http://www.olap.ru
OLAP форум на sql.ru

6yrop

я праильно понимаю, что если не писать своего клинта, то клиентами для MS SQLServer и Analysys Services выступают Excel или Access, т.е. какого либо отдельного приложения Microsoft не предоставляет?

ranet

для пользователей - Microsoft Data Analyzer
для разработкиков в Analysys S. есть Analysis Manager (аналог EM для сиквела, так же есть аналог QA)
в остальном так ты написал

6yrop

Спасибо, что сказал о Microsoft Data Analyzer, а то я смотрю в Books Online для SQLServer и там ничего про готового клиента не говориться. Вообще странно прога входит в Office, но на http://office.microsoft.com в списке продуктов его нет. Я его только по поиску нашел. И я так понимаю Microsoft Data Analyzer недавно вышел?

ranet

похоже оно появилось в только в офисе XP, знаю что есть такое и примерно для чего, но никогда не работал с этим приложением. информации действительно мало, в msdn в соотв. разделе <10 статей. если будешь разбираться с этим зверьком, поделись опытом, раскажи что это.
Оставить комментарий
Имя или ник:
Комментарий: