Подскажите софт для кластеризации

kuliev

Интересует любой софт со встроенными алгоритмами кластеризации. Несколько программ у меня есть, но было бы очень полезно иметь их как можно больше, чтобы выбрать наиболее подходящую. Пожалуйста, перечислите, кто что знает

CapitanJack

ты под кластеризацие что понимаешь? Высокую готовность/доступность?

kuliev

под кластеризацией понимаю разбиение множества объектов на классы, внутри которых объекты более похожи друг на друга, чем на объекты из других классов. Понимаю, в общем в стандартном смысле

Danvu

в матлабе, например, есть.
функции kmeans и linkage.

kuliev

в матлабе, например, есть.
функции kmeans и linkage.

Спасибо. Но маловато как-то. Никто не встречал реализации алгоритма diana (disive analysis)где-нибудь?

kuliev

гз

elena-kotenok75

SPSS?

kuliev

а что там стоит? какие алгоритмы?

elena-kotenok75

понятия не имею. общение с SPSS у меня не было продолжительным, да и закончилось на 11-й версии (сейчас - 15-я..).
с их сайта:
Сегментация/снижение размерности
Группировка людей или объектов для данных любого объема
В SPSS для Windows есть несколько методов кластеризации, позволяющих проводить сегментацию данных. Выбор метода зависит от объема имеющихся данных и от того, есть ли необходимость работать одновременно с данными нескольких типов. Подобная гибкость в выборе метода обеспечивает наиболее точную сегментацию имеющихся данных.
Если необходимо кластеризовать данные, в которых есть как количественные (например, доход так и категориальные (например, семейное положение) переменные, и/или объем данных достаточно велик, то используется метод Двухэтапного кластерного анализа (в SPSS Base) — масштабируемая процедура кластерного анализа, позволяющая работать с данными различных типов. На первом этапе работы алгоритма наблюдения предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество кластеров. Если необходимое количество кластеров неизвестно, процедура сама автоматически определяет его.
Например, при помощи Двухэтапного кластерного анализа маркетолог может выделять группы людей, одновременно используя такие показатели как пол, возраст и уровень дохода. Полученные результаты позволят менеджерам телевизионной компании ориентировать телепередачи на определенную аудиторию и повысить их рейтинг.
Если необходимо сгруппировать данные в достаточно больших файлах, например, если Вы анализируете базу данных клиентов, то, как правило, используется Кластеризация k-средними (в SPSS Base). В этой процедуре создается заранее известное (заданное) количество кластеров. Можно выбрать один из двух методов классификации наблюдений — итерационное обновление координат центров кластеров или только классификацию. Информацию о принадлежности к кластерам и о расстояниях от окончательных центров кластеров можно сохранить в файле данных.
Например, при помощи метода k-средних можно провести кластеризацию городов, разбив их на однородные группы с тем, чтобы выявить схожие города для разработки маркетинговых стратегий.
Если объем данных небольшой, то можно воспользоваться процедурой Иерархического кластерного анализа (в SPSS Base) Она начинается с того, что каждое наблюдение образует один кластер. Затем кластеры объединяются до тех пор, пока не получится один. На каждом этапе объединения получается кластерное решение — то есть модель с определенным количеством кластеров. Когда объединение закончено и все кластеры объединены в один, из всех кластерных решений, полученных на каждом этапе объединения кластеров, нужно выбрать наиболее подходящее. Процедура позволяет использовать 40 мер сходства и различия, проводить стандартизацию данных с использованием различных методов, а также кластеризовать либо наблюдения, либо переменные. При этом можно использовать исходные переменные или переменные, преобразованные одним из методов. При помощи процедуры Близости можно генерировать расстояния и меры сходства. Вычисление статистик на каждом из этапов кластерного анализа помогает выбирать наилучшее решение.
Иерархический кластерный анализ можно использовать в маркетинговых исследованиях для выявления телепрограмм, которые привлекают зрителей с одинаковыми предпочтениями. Кластеризацию телепрограмм можно провести, разбив их на однородные группы, основанные на сходных характеристиках зрителей. Это позволит выделить сегменты для проведения рекламных кампаний.
Оставить комментарий
Имя или ник:
Комментарий: