聚类分析的简单案例有哪些(聚类分析的简单案例)
基本概念聚类是一种发现数据之间内部结构的技术。将所有数据实例聚类到一些相似的组中,这些相似的组称为聚类。同一集群中的数据实例彼此相同,而不同集群中的实例彼此不同。聚类技术通常被称为非监督学习,因为与监督学习不同,在聚类中没有表示数据类别的分类或分组信息。
通过上面的表达式,我们可以将聚类定义为对在某些方面具有相似性的数据成员进行分类和组织的过程。因此,集群是数据实例的集合。这个集合中的元素彼此相似,但是它们都不同于其他集群中的元素。在集群的相关文献中,数据实例有时被称为对象,因为现实世界中的对象可以用数据实例来描述。同时,它有时也被称为数据点,因为我们可以用R维空间中的一个点来表示一个数据实例,其中R表示数据的属性个数。下图是一个二维数据集的聚类过程,从中可以清楚的看到数据的聚类过程。虽然隐藏在2D或3D数据集中的簇可以通过视觉检查清楚地发现,但是随着数据集维度的增加,通过视觉检查很难甚至不可能观察到它们。
SAS聚类分析案例1问题背景考虑以下案例。一名棒球管理员希望根据运动员的兴趣相似性对他们进行分组。显然,在这个例子中,没有响应变量。管理者希望能够轻松识别团队成员的分组情况。同时,他也想知道不同组别的选手之间的差异。
本案例的数据集是SAMPSIO库中的DMABASE数据集。以下是数据集中主要变量的描述信息:
在这种情况下,球队、位置、联赛、部门和薪金变量的模型角色被设置为拒绝,薪金变量的模型角色被设置为拒绝,因为其信息已经存储在LOGSALAR中。聚类分析和自组织映射不需要目标变量。如果您需要识别目标变量上的组,您可以考虑预测建模技术或定义分类目标。
2聚类方法概述聚类分析常与监督分类相混淆,监督分类是对已定义的分类响应变量预测分组或类别关系。另一方面,聚类分析是一种无监督的分类技术。它可以根据所有输入变量识别数据集中的分组和类别信息。这些组和簇被赋予不同的编号。但是,不能用聚类数来评价类别之间的近似关系。自组织地图试图创建集群,并在地图上以图形方式绘制集群信息,而我们没有这里不考虑。
1)建立初始数据流
2)设置输入数据源节点。
打开输入数据源节点。
从SAMPSIO库中选择DMABASE数据集。
将NAME变量的模型角色设置为id,TEAM,POSIOTION,LEAGUE,DIVISION和SALARY变量设置为rejected。
探索变量的分布和描述性统计。
选择interval variables选项卡,您可以看到只有LOGSALAR和SALARY变量缺少值。选择category variables选项卡,您可以看到没有丢失值。在这个例子中,没有涉及到类别变量。
关闭输入数据源节点并保存信息。
3)设置备选节点。
虽然并不总是需要处理缺失值,但有时缺失值的数量会影响聚类节点生成的聚类解。为了生成初始聚类,聚类节点往往需要一些完整的观测值。当缺失值过多时,就需要使用替代节点来处理。虽然这不是必需的,但在本例中使用了。
4)设置聚类节点
打开集群节点并激活变量选项卡。K-means聚类对输入数据很敏感。通常,考虑标准化数据集。
在变量选项卡上,选择标准差单选框。
选择聚类选项卡。
据观察,默认选择聚类数量的方法是自动的。
关闭集群节点
5)聚类结果
在群集节点运行流程图以查看群集结果。
6)限制集群的数量
打开集群节点
选择聚类选项卡。
在“分类编号选择”部分,单击“选择标准”按钮。
输入最大分类数10。
单击“确定”关闭群集节点。
7)结果的解释
我们可以定义每一类的信息,结合背景识别每一类的特征。选择箭头按钮,
选择三维聚类图的某一类别,
选择工具栏中的刷新输入均值图图标,
单击此图标可查看此类别的标准化均值图表。
同样,其他类别也可以按照这种方法来解释。
8)使用洞察节点
洞察节点可用于比较不同属性之间的异常。打开insight节点,选择整个数据集,然后关闭节点。
从insight节点运行。
变量_SEGMNT_标识类别,距离标识观测值与类别中心的距离。使用insight窗口的分析工具评估和比较聚类结果。
首先将_SEGMNT_的测量方法由区间转换为标称。
聚类应用于商业。聚类分析用于发现不同的客户群体,并通过购买模式来表征不同客户群体的特征。聚类分析是市场细分的有效工具,也可用于研究消费者行为,发现新的潜在市场,选择实验市场,以及作为多元分析的预处理。在生物学中,聚类分析用于对动物和植物进行分类,对基因进行分类,并获得种群内在结构的知识。从地理上看,聚类可以帮助在地球上观察到的数据库供应商趋于相似。在保险行业中,聚类分析通过一个较高的平均消费来识别汽车保险单持有人的群体,同时根据房屋的类型、价值和地理位置来识别一个城市中不动产的群体。在互联网应用中,聚类分析用于对互联网上的文档进行分类,以修复信息。在电子商务中,聚类分析也是电子商务网站建设数据挖掘中非常重要的一个方面。通过对具有相似浏览行为的客户进行聚类,分析客户的共同特征,电子商务用户可以更好地了解他们的客户,并为他们提供更合适的服务。
聚类分析应用3354市场细分聚类是将数据划分到不同的类或簇中的过程,因此同一簇中的对象非常相似,而不同簇中的对象则有很大的不同。
从统计学的角度来看,聚类分析是一种通过数据建模来简化数据的方法。传统的统计聚类分析方法包括系统聚类、分解、加法、动态聚类、有序样本聚类、重叠聚类和模糊聚类。
从机器学习的角度来看,聚类相当于隐藏模式。聚类是搜索聚类的无监督学习过程。与分类不同,无监督学习不依赖于预定义的类或带有类标签的训练样本,标签需要通过聚类学习算法自动确定,而分类学习的样本或数据对象具有类标签。是集群观察学习,不是范例学习。
从实际应用的角度来看,聚类分析是数据挖掘的主要任务之一。而且,聚类可以作为一个独立的工具来获得数据的分布,观察每个数据簇的特征,集中精力对特定的簇做进一步的分析。聚类分析也可以作为其他算法的预处理步骤,如分类和定性归纳。
集群的核心思想是物以类聚,人以群分。在市场细分领域,当消费同一种商品或服务时,不同的顾客有不同的消费特征。通过研究这些特征,企业可以制定不同的营销组合,从而获得最大的消费者剩余,这是客户细分的主要目的。在销售区域的划分上,只有将企业所拥有的子市场合理地划分为几个大的区域,才能有效地制定符合区域特点的营销战略和战术。在金融领域,对基金或股票进行分类,选择分类投资风险。
下面以一个汽车销售案例来介绍聚类分析在细分市场中的应用
业务目标业务理解:数据名称《汽车销售.csv》。本例中使用的数据是一个关于汽车的数据,其中包含各种品牌和型号的车辆的销售价值、定价和物理规格。价格和物理规格可以从edmunds.com和制造商处获得。定价是美国国内售价。如下所示:
经营目标:准确定位市场,为汽车设计和市场份额预测提供参考。
数据挖掘目标:通过聚类对现有车辆进行分类。
数据准备通过数据探索了解数据质量和字段分布,剔除有问题的行或列,优化数据质量。
在第一步中,我们使用statistics节点来审计数据质量。从审计结果中,我们发现存在缺失数据,如下图所示:
第二步是处理缺失数据,我们选择使用缺失填充节点删除这些记录。配置如下:
我们选择层次聚类进行建模和分析,尝试将各种车型按照销量、价格、发动机、马力、轴距、车宽、车长、制动、排量、油耗等指标进行分类。
因为层次聚类可以自动确定类别的数量,我们需要以自定义的方式定义最终聚类中的类别数量。分层节点配置如下(默认配置):
您可以使用交互式表格或右键单击分层聚类节点来查看聚类结果,如下图所示:
然后用饼状图查看每个班级的规模,结果如下:
从图中可以看出,分成三类的样本数量相差太大,cluster_0和cluster_1都只包含一个样本。这个分类没有意义,需要重新分类。我们尝试在层次聚类节点的配置中指定一种新的聚类方法:complete。新的聚类样本数分布如下:
cluster_0和cluster_1、cluster_2的样本数分别为:50和9、93。
执行树/冰柱图后,可以从上往下看。一开始是一个大类,然后往下分两类。越往下,类别就越多,最后每个记录被细分为一个类别,如下所示:
我们可以用柱状图来查看每个品类的销量和均价,如下图所示:
各品类总销量分布图
各品类平均销量分布图
每个类别的平均价格分布图
让让我们来看看每个类别的销售分布情况。首先,我们需要使用Java代码段节点或派生节点来生成销售字段,配置如下:
然后按饼状图看销售分布。cluster_0、cluster_1、cluster_2的市场份额分别为32.39%、0.53%和67.08%,如下图所示:
总结通过这个案例,我们可以发现聚类分析真的很简单。聚类计算后,主要通过图形探索评价聚类的合理性,确定聚类后,分析每类的特点。
推荐阅读
- 华为正在推进5.5G技术(华为汪涛做好准备_5.5G共筑未来之基)
- 康佳A3手机(康佳a3)
- 2014世界杯阿根廷,2014世界杯阿根廷德国
- 领驭2.0价格和配置图片,领驭2.0价格和配置
- 便宜的油烟机能用吗(便宜的油烟机)
- 雨润总裁毕国祥女儿毕习习怎么死的,毕习习资料背景照片
- 小康k07和k17对比,小康K07价格和配置
- 诺基亚6220c参数(诺基亚 6220c)
- 家用电磁炉工作原理图(家用电磁炉电路原理图)
- 2014世界杯决赛文章,2010世界杯决赛回放
- 欧盟确认2035年起禁售燃油车意味着什么,欧盟确认2035年起禁售燃油车
- 双绞线传输器的作用(双绞线传输器接线图)
- 网曝那英准备离婚,始末及详细经过曝光背后原因竟如此
- 智能手机排行榜2012年(智能手机排行榜2012)
- 法拉利456价格,法拉利456-5.5-MT-GT最新报价配置
- Arduino(UNO元件和原理图分析)
- 东京奥运会圣火意外熄灭,东京奥运会奥运圣火点燃
- 僵尸预警指南百度云(僵尸预警指南)
- 1公里油耗怎么算钱,LeSabre怎么样内饰油耗最新价格