艾巴生活网

您现在的位置是:主页>科技 >内容

科技

大数据的高级分析算法有哪些种类_大数据的高级分析算法有哪些

2024-07-28 13:04:51科技帅气的蚂蚁
说到大数据和高级分析,就很热闹了。顶级分析公司已经广泛撰写了这些概念所采取的措施,这些措施可以为数字时代的企业带来革命性的变化。全

大数据的高级分析算法有哪些种类_大数据的高级分析算法有哪些

说到大数据和高级分析,就很热闹了。顶级分析公司已经广泛撰写了这些概念所采取的措施,这些措施可以为数字时代的企业带来革命性的变化。全球排名前《财富》的500强公司都在大数据和高级分析方面进行了大量投资,并从中受益匪浅。问题是,很多公司也希望取得不可思议的成绩,但不确定确切的起点。

高级分析通常从单一用例开始。这包括应用新的数据转换和分析方法来发现数据中以前未知的趋势和模式。当这些新信息应用于业务流程和操作规范时,它可能会改变您的业务。

为了从数据中获得更多的价值,请使用以下五种算法。

线性回归

线性回归是高级分析最基本的算法之一。这也使它成为应用最广泛的产品之一。人们可以很容易地看到它是如何工作的,以及输入数据和输出数据之间的关系。

线性回归使用两组连续定量测量值之间的关系。第一组称为预测变量或自变量。另一个是响应变量或因变量。线性回归的目标是确定公式形式的关系,公式根据自变量描述因变量。一旦这种关系被量化,就可以对自变量的任何实例预测因变量。

时间是最常用的自变量之一。无论你的自变量是收入、成本、客户、使用量还是生产率,如果你能定义它与时间的关系,你就可以用线性回归来预测值。

逻辑回归

逻辑回归听起来类似于线性回归,但它实际上专注于涉及分类的问题,而不是定量预测。这里输出变量值是离散的有限的,不是连续的,有无限值,就像线性回归一样。

逻辑回归的目标是分类输入变量的实例是否适合类别。逻辑回归的输出值介于0和1之间。接近1的结果表明输入变量更符合类别。接近0的结果表明输入变量可能不适合此类别。

逻辑回归通常用于回答明确定义的是或否问题。客户还会再买吗?买家的信用值得吗?潜在客户会变成客户吗?预测这些问题的答案,会在经营过程中产生一系列的行动,有助于增加未来的收入。

分类和回归树

分类树和回归树使用决策对数据进行分类。每个决策都基于与输入变量之一相关的问题。有了每个问题和相应的答案,数据实例更接近于以特定的方式进行分类。这组问题和答案以及随后的数据划分创建了一个树形结构。每行问题的末尾都有一个类别。这被称为分类树的叶节点。

这些分类树可能会变得非常大和复杂。控制复杂性的一种方法是通过修剪树或故意删除问题级别,在精确匹配和抽象之间取得平衡。适用于输入值(训练中已知的值和训练中未知的值)的所有实例的模型非常重要。为了防止这个模型过度拟合,需要在精确拟合和抽象之间取得微妙的平衡。

分类树和回归树的一个变种叫做随机森林。随机森林不是单棵树有多个逻辑分支,而是由许多小树和简单树组成的顶点。每棵树评估数据实例并确定分类。一旦所有这些简单的树完成了它们的数据评估,该过程将合并单个结果,以基于较小类别的组合来创建类别的最终预测。这通常被称为系综法。这些随机森林通常在平衡精确匹配和抽象方面做得很好,并且已经在许多商业案例中成功实现。

与关注是或否分类的逻辑回归相反,分类和回归树可用于预测多值分类。它们也更容易可视化和看到指导算法进行特定分类的确定路径。

k最近邻法(KNN)

k近邻法也是一种分类算法。之所以称之为“懒学习者”,是因为过程的训练阶段非常有限。学习过程由存储的训练数据集组成。在评估新的示例时,将评估到训练集中每个数据点的距离,并基于新数据示例与训练示例的接近程度,就数据示例属于哪个类别达成共识。

根据训练集的大小和范围,该算法在计算上可能非常昂贵。因为每个新实例都必须与训练数据集的所有实例进行比较,并且可以获得距离,所以该过程每次运行时都会使用许多计算资源。

这种分类算法允许数据的多值分类。此外,有噪声的训练数据往往会使分类发生倾斜。通常选择k近邻,因为它易于使用,易于训练,易于解释结果。当你试图寻找相似的物品时,它通常被用在搜索应用中。

k均值聚类

K- means聚类侧重于创建相关的属性组。这些组被称为集群。一旦创建了这些集群,您就可以根据它们评估其他实例,看看它们最适合在哪里。

这项技术经常被用作数据探索的一部分。首先,分析师指定聚类的数量。K-means聚类过程是基于在一个称为“质心”的公共中心周围寻找相似的数据点,并将数据分解成这个数量的聚类。这些集群不同于类别,因为它们最初没有业务意义。它们只是输入变量的密切相关的例子。一旦识别和分析了这些集群,就可以将它们转换成类别,并为它们提供有业务意义的名称。

K-means聚类经常被使用,因为它易于使用和解释,并且速度很快。需要注意的一个方面是K-means聚类对异常值非常敏感。这些异常值将极大地改变这些聚类的性质和定义,并最终改变分析结果。

#智能制造#,这些是高级分析规划中使用的一些最流行的算法。每种方法都有优缺点,可以有效利用各种方法产生商业价值。实现这些算法的最终目标是进一步优化数据,以便将结果信息应用于业务决策。正是这个过程为下游过程提供了更精细、更有价值的数据,这对于公司真正利用其数据的价值并达到预期的结果非常重要。责任编辑:抄送