艾巴生活网

您现在的位置是:主页>科技 >内容

科技

什么叫数据挖掘(数据挖掘技术解析)

2024-05-29 12:19:53科技帅气的蚂蚁
数据挖掘是指自动搜索隐藏在大量材料中具有特殊相关性的信息的过程。在世界各地的计算机存储中,都有大量未使用的数据,而且还在快速增长。

什么叫数据挖掘(数据挖掘技术解析)

数据挖掘是指自动搜索隐藏在大量材料中具有特殊相关性的信息的过程。在世界各地的计算机存储中,都有大量未使用的数据,而且还在快速增长。这些数据就像有待开采的金矿,但进行数据分析的科学家、工程师和分析师的数量一直相对较少。这种差距被称为数据挖掘的主要原因。数据挖掘是一个跨学科的领域,涉及神经网络、遗传算法、回归、统计分析、机器学习、聚类分析、特殊群体分析等。需要开发挖掘大规模海量多维数据集的算法和系统,开发合适的隐私和安全模式,提高数据系统的便利性。

数据挖掘不同于传统的统计学。统计推断是假设驱动的,即形成一个假设,并在数据的基础上进行验证;数据挖掘是数据驱动的,也就是说,它自动从数据中提取模式和假设。数据挖掘的目标是提取能够容易地转换成逻辑规则或可视化表示的定性模型。与传统统计学相比,数据挖掘更加以人为本。

数据挖掘技术简介

数据挖掘的技术有很多,根据不同的分类有不同的分类。下面重点介绍数据挖掘中的一些常用技术:统计技术、关联规则、基于历史的分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析和概念描述。

1、统计技术

数据挖掘涉及许多科学领域和技术,如统计技术。统计技术挖掘数据集的主要思想是统计方法对给定的数据集假设一个分布或概率模型(如正态分布),然后根据模型采取相应的方法进行挖掘。

2、关联规则

数据关联是数据库中一种重要的发现知识。如果两个或两个以上的变量的除法I有某种规律性,就叫相关。相关性可分为简单相关性、时间序列相关性和因果相关性。关联分析的目的是找出数据库中隐藏的关联网络。有时候我们不知道数据库中数据的关联函数,即使知道也是不确定的,所以关联分析产生的规则是可信的。

3、基于历史的MBR(基于记忆的推理)分析。

首先根据经验知识寻找相似的情况,然后将这些情况的信息应用到当前的例子中。这是MBR(基于记忆的推理)的精髓。MBR首先寻找与新记录相似的邻居,然后使用这些邻居对新数据进行分类和评估。使用MBR主要有三个问题:寻找某些历史数据;确定表示历史数据的最有效方式;确定距离函数、关节函数和邻居的数量。

4、遗传算法

基于进化理论,采用遗传组合、遗传变异和自然选择等设计方法的优化技术。主要思想是:按照优胜劣汰的原则,形成一个由当前群体中最适合的规则组成的新群体,以及这些规则的后代。通常,规则的适合度用于评估训练样本集的分类准确度。

5、聚集检测

将一组物理或抽象对象分成由相似对象组成的多个类的过程称为聚类。聚类产生的簇是一组数据对象,这些数据对象与同一个簇中的数据对象相似,而与其他簇中的数据对象不同。相异度是根据描述对象的值来计算的,距离常作为一种度量方法。

6、连接分析

链接分析,链接分析,它的基础理论是图论。图论的思想是寻找一个可以得到一个好结果但不是完美结果的算法,而不是寻找完美解的算法。连接分析使用的思想是,如果不完美的结果是可行的,那么这样的分析就是好的分析。利用连接分析,可以从一些用户的行为中分离出一些模式;同时,产生的概念应用于更广泛的用户群。

7、决策树

决策树提供了一种显示规则的方式,例如在什么条件下将获得什么值。

8、神经网络

从结构上讲,神经网络可以分为输入层、输出层和隐含层。输入层的每个节点对应一个预测变量。在对应于目标变量的输出层中可能有多个节点。输入层和输出层之间是隐藏层(对神经网络的用户是不可见的)。隐藏层的数量和每层中的节点数量决定了神经网络的复杂性。

除了输入层的节点外,神经网络的每个节点都与其前面的许多节点(称为该节点的输入节点)相连接,每个连接对应一个权重Wxy。这个节点的值是通过把它的所有输入节点的值和相应的连接权值的乘积之和作为一个函数的输入而得到的,我们称这个函数为活动函数或压缩函数。

9、粗集

粗糙集理论的基础是在给定的训练数据中建立等价类。所有形成等价类的数据样本都是无差别的,即它们等价于描述数据的性质。给定真实世界的数据,通常有一些类不能通过可用属性来区分。粗糙集用于近似或粗略定义这个类。

10、模糊集

模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”的域值或边界。模糊逻辑使用0.0到1.0之间的真值表来显示特定值是给定成员的程度,而不是使用类或集合的精确截断。模糊逻辑为高抽象层次的处理提供了便利。

11、回归分析

回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型中加入多项式项,形成非线性模型。

12、差异分析

差异分析的目的是试图找出数据中的异常,如噪声数据、欺诈数据和其他异常数据,从而获得有用的信息。

13、概念描述

概念描述是描述某一对象的内涵,概括其相关特征。概念描述分为特征描述和特色描述。前者描述了某个类对象的共同特征,后者描述了不同类对象之间的差异。生成一个类的特征描述只涉及类对象中所有对象的共性。

业务应用数据挖掘的实施步骤:

1.进行多部门访谈,以用户实际行为为主要信息来源,确定和了解业务目标;

2.数据挖掘的数据准备和数据理解;

3.建立模型,评估模型并发布结果。

数据挖掘的具体应用示例:

1.业务管理:数据库营销、客户群划分、背景分析、交叉销售等市场分析行为,以及客户流失分析、客户信用评分、欺诈发现等。

2.营销:通过收集、加工、处理大量与消费行为相关的信息,确定特定消费群体或个人的兴趣、消费习惯、消费倾向和消费需求,进而推断相应消费群体或个人的下一步消费行为。然后以此为基础,针对识别出的消费群体进行特定内容的针对性营销,提高了营销效果,为企业带来更多利润。

3.企业危机管理:对企业数据库中的大量业务数据进行提取、转换、分析和建模,提取关键数据辅助业务决策。

4.产品制造:在产品制造过程中,往往会有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等)。这些数据反映了各个生产环节的状态,既保证了生产的顺利进行,又通过对这些数据的分析得出了产品质量与这些参数的关系。这样,通过数据挖掘对这些数据进行分析,就可以提出有针对性的改进产品质量的建议,就有可能提出新的更高效、更经济的控制模式,从而给制造商带来巨大的回报。这个系统有CASSIOPEE(由acknow用KATE discovery工具开发),已经用于诊断和预测波音飞机制造过程中可能出现的问题。

5.互联网应用:SNS应用数据挖掘,给用户带来大量基于直接信息的潜在信息和价值,能够保持用户对SNS的始终兴趣。商家可以更方便地将商品推送给目标人群,消费者也更容易买到自己最需要的最实惠的商品。