几何平均数和调和平均数是什么(有什么作用_详细资料讨论)
不同平均数的比较;图片:维基百科
可能是最常见的数据分析任务。
你有一组数字。你想用更少的数字来概括它们,最好只有一个数字。所以,你把这组数字加起来,然后除以数字的个数。哇,你得到了平均,对吧?
也许吧。
与流行的观点相反,从数学上来说,平均值通常不是一回事。含义:没有一种数学运算可以被恰当地称为平均。我们通常称平均值为算术平均值,具体计算过程如上所述。我们称之为平均因为我们希望它符合口头定义平均:典型且正常的中间值。我们经常是对的,但是正确的频率比我们想象的要低。
概述统计数据
算术只是获得平均价值。从技术上讲,这些属于概览统计、集中趋势测量和位置测量。
中位数可能是第二个最著名的汇总统计。由于中位数是数据集中间的值,所以它通常比平均值更平均。我赢了这里不讨论中位数,但在许多情况下,算术平均数在中位数更合适的地方被滥用了。有关中位数的更多信息,请参考以下三篇文章:
https://www . LinkedIn . com/pulse/20140715160509-29681087-中位数与平均家庭收入/
http://wkuappliedeeconomics . org/ind blogs/mean-vs-median-income-the-one-to-use and-it-mean-for-south-central-Kentucky/
https://medium . com/@ JLMC/understanding-three-simple-statistics-for-data-visualization-2619 dbb 3677 a
本文将重点讨论相对未知的几何平均和调和平均。
毕达哥拉斯平均数
平方平均和毕达哥拉斯平均;图片:维基百科
算术平均数是毕达哥拉斯的三个平均数之一(这个名字来自研究这些性质的毕达哥拉斯及其学派)。另外两个毕达哥拉斯平均数是几何平均数和调和平均数。
为了理解它们的基本功能,让让我们从熟悉的算术平均数开始。
算术平均数
算术平均值这个名字很贴切:我们把数据集中的所有数字相加,然后除以数据集中包含的数字个数。
但是,加法并没有什么特别之处。这只是一个简单的数学运算。算术平均适用于数字之间存在加法关系的数据集。这样的关系通常被称为线性关系,因为如果我们按升序或降序排列所有的数字,这些数字往往会落在一条直线上。一个简单且理想化的例子是误差为3的等差数列:
然而,并不是所有的数据集都适合用这种关系来描述。某些数据集中存在乘法或指数关系,例如,公共比率为3:
我们看到算术平均值(156)并不特别接近我们数据集中的大多数数字。实际上,它是中位数(27)的五倍。
通过在数轴上绘制数据,可以更清楚地看到这种失真。
那么,我们该怎么办?
介绍…
几何平均数
因为数据集中的数之间的关系是乘法,所以我们可以通过乘法和开平方得到几何平均数(如果总数有几个,我们就开平方几次)。
我们可以看到,在几何级数上,几何均值更能代表数据集的中值。其实在这个几何级数的数据集上,等于中位数。
您也可以从单个数轴上看到这一点:
几何平均的实际应用
事实上,有许多实际场景适合使用几何平均数,因为像乘法这样的关系在现实世界中很常见。
一个经典的例子就是复利问题。
假设我们有一笔本金为100,000美元的5年期存款,年利率发生变化:
年利率:1%,9%,6%,2%,15%
我们想求平均年利率,计算5年后的本金和利息之和。我们试图平均这些利率:
(.01 .09 .06 .02 .15) 5=.066=6.6%
然后我们将平均利率代入复利计算公式:
100000 * (1.066 ** 5 - 1) 100000=137653.11
比较以下不使用平均利率直接计算的结果:
100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15=136883.70
可见我们简单计算方法的误差接近1000美元。
我们犯了一个常见的错误:我们将加法运算应用于乘法过程,得到了不准确的结果。
现在,让让我们试试几何平均数:
1.01 * 1.09 * 1.06 * 1.02 * 1.15=1.368837042
1.368837042的5次方根=1.0648565
将几何平均代入复利计算公式:
100000 * (1.0648 ** 5 - 1) 100000=136883.70
这个数字正好等于我们逐年计算的结果。
我们使用了适当的平均值,得到了正确的结果。
几何平均还适合哪些场景?
几何平均数的一个很酷的特点是,你可以用完全不同的尺度来平均数字。
例如,假设我们想要比较来自不同来源的对两家咖啡店的在线评论。问题是源一的评价用的是五星制,源二的评价用的是百分制:
咖啡店a
资料来源:4.5
资料来源:68
咖啡店b
来源1: 3
资料来源2: 75
如果我们直接从原始分数计算算术平均值:
咖啡店A=(4.5 68)/2=36.25
咖啡店B=(3 75)/2=39
根据以上数据,我们得出结论:咖啡店B是赢家。
如果我们对数字稍微敏感一点,就会知道在应用算术平均得到准确的结果之前,需要将数据集中的值归一化到相同的尺度。
因此,我们将来源一中的评估乘以20,并将其从五星级扩展到来源二的百分位数:
#咖啡店A
4.6 * 20=90
(90 68)/2=79
#咖啡店B
3 * 20=60
(60 75)/2=67.5
我们发现咖啡店A其实是赢家。
然而,几何平均数允许我们在不考虑尺度问题的情况下得到同样的结论:
咖啡店A的平方根=(4.5 * 68)=17.5
咖啡店B的平方根=(3 * 75)=15
算术平均数被较大的数字所支配,因此得到错误的结果。这是因为算术平均期望的是数字之间的加法关系,而没有考虑规模和比例。因此,在应用算术平均值之前,需要将数字转换为相同的标度。
另一方面,几何平均可以轻松处理尺度问题,因为本质上是一种乘法关系。这是一个非常有用的属性,但是请注意我们失去了什么:我们不再有一个可解释的尺度。在这种情况下,几何平均实际上是无单位的。
比如上面的几何平均,既不是百分制的17.5分,也不是五星制的15星。它们只是没有单位的数字,彼此比例相同(技术上讲,它们的标度是原标度5 100的几何平均,即22.361)。但是,如果我们只需要对比两家咖啡店的评价,那么这就赢了没问题。
几何平均综述
几何平均数是把数值相乘而不是相加,然后取n次的根而不是除以n。
它基本上是说:如果我们的数据集中的数字都相同,那么这个数字应该是多少才能得到与实际数据集相同的乘积?
这使得它非常适合于描述乘法关系,例如比率,即使这些比率具有不同的比例。(因此常用来计算财务指标和其他指标。)
缺点:应用几何平均数时,可能会丢失有意义的比例和单位。此外,它对离散值的不敏感性可能会掩盖可能具有重大影响的大值。
和生活中的大多数事情一样,很少有牢不可破的规则说一定要用几何平均数(复利等少数情况除外)。有一些启发式规则和经验规则,但它无疑需要判断和科学怀疑来应用合理的经验。
我们将在最后的总结中继续讨论这些,但现在让让我们介绍一下最后一个毕达哥拉斯平均数…
调和平均值
算术平均需要加法,几何平均用乘法,调和平均用倒数。
我们可以用文字来描述调和平均数:数据集的倒数的算术平均数的倒数。
这听起来像很多倒计时,但它它实际上只是几个简单的步骤:
取数据集中所有数字的倒数。
求这些倒数值的算术平均值。
取上一步的倒数。
维基百科的一个简单例子1、4、4谐波平均值为2:
请注意,由于0没有倒数,调和平均值与几何平均值一样,无法处理包含0的数据集。
好了,我们已经了解了数学部分是如何工作的。但是调和平均适用于什么场景呢?
调和平均值的实际应用
为了回答上面的问题,我们需要回答:互惠适用于哪些场景?
因为倒数类似于除法,但它它只是一个伪装的乘法(乘法只是一个伪装的加法),我们意识到倒数帮助我们更方便地除以分数。
比如5 3/7是多少?如果你记得初等数学,你大概会把5乘以7/3(3/7的倒数)。
但是,有一种等效的方法可以将5和3/7缩放到一个公分母:
5/1 3/7=35/7 3/7=35 3=112/3=11.66667
同样,在用几何平均作为捷径之前,我们发现了不同尺度算术平均相加的关系,没有经过标准化。调和平均数帮助我们找到乘除关系,而不用担心公分母。
所以调和平均自然成为几何平均之上的又一层乘/除。因此,处理包含不同长度或周期的比率的数据集是有帮助的。
(你可能在想,等等,我以为几何平均数是用来表示不同规模的平均利率和比率的!"你你说得对。你呢你不是第一个对此感到困惑的人。以下是我自己写的,只是为了理清自己的思考和理解。希望下面的例子能让这个话题更清晰,所有的不同点都会在文末的总结部分回顾。)
平均速度
在现实世界中,使用调和平均值的一个经典例子是以不同的速度穿过物理空间。
考虑去一趟便利店然后回来:
行程速度为30英里/小时。
回程时遇到了交通堵塞,所以车速是每小时10英里。
旅程和回程走同一条路线,这意味着相同的距离(5英里)。
全程平均速度是多少?
同样,我们也可以不加思考地直接套用30英里/小时和10英里/小时的算术平均值,然后骄傲地宣布结果是20英里/小时。
但是再想一想:由于你在一个方向上的速度更高,你以那个速度完成了你的5英里旅程,并且在整个旅程中花费的时间更少,所以你在整个旅程中的平均速度赢了不要是30英里/小时和10英里/小时之间的中点,它应该更接近10英里/小时,因为你在10英里/小时的速度下会花更多的时间开车。
为了正确应用算术平均值,我们需要确定以每个速度行驶所花费的时间,然后用适当的权重对算术平均值的计算进行加权:
去:5/(30/60)=10分钟
返回:5/(10/60)=30分钟
总行程:10 30=40分钟
加权平均值:(30 * 10/40) (10 * 30/40)=15英里/小时
因此,我们可以看到,真实的平均速度是15英里/小时,比使用未加权算术平均计算的速度低5英里/小时(或25%)。
你可能已经猜到我们下一步要做什么了.
让尝试使用调和平均值:
2/(1/30 1/10)=15
根据每个方向花费的时间自动调整的旅行的真实平均速度是15英里/小时!
有几点需要注意:
可以直接应用调和平均值的前提是不同速度行驶的总距离相等。如果距离不同,我们需要使用加权调和平均或加权算术平均。
当距离不相等时,算术平均仍以不同速度行驶的时间加权,调和平均以不同速度行驶的距离加权(因为取倒数已经隐含考虑了不同速度的时间比例)。
毕达哥拉斯平均数的大部分复杂性和麻烦来自于比率的性质以及我们对比率的哪一方面更感兴趣。例如,算术平均值总是用分母的单位来表示。在旅行问题中,比率是每小时的英里数。所以算术平均给出的结果用分母(隐藏在某种意义上)单位表示,小时:(30m/1HR 10m/1HR)2=20m/1HR=20 mph。如果我们在每个方向上花费相同的时间,那么这个结果将是准确的。但是,我们知道,每个方向花费的时间是不一样的。相反,调和平均通过取倒数来翻转这些比率,将我们实际感兴趣的数字放入分母,然后取算术平均并再次翻转,以给出我们需要的平均速度。(可以用财经的市盈率来进一步探讨这个问题。请参考论文使用市盈率调和平均值来提高公司估值。)
几何平均数之所以适用于复利问题,是因为利率的周期是相等的:每个利率都是一年。如果周期是可变的,也就是说,每个利率的持续时间是不同的,那么我们也需要使用某种权重。
几何平均数可以处理乘法关系,比如复利问题和不同尺度上的比率,而调和平均数则通过神奇的倒数来适应另一个层次的乘/除关系,比如可变的周期或长度。
类似于复利问题和几何平均,这是调和平均的一个准确、客观、正确的应用案例。然而,事情并不总是那么清楚。调和平均数还有其他精确的、可以用数学方法演示的应用,包括物理、金融、水文,甚至(来自传统的)棒球统计。与数据科学更密切相关:调和平均数常用于评估机器学习模型的准确性和召回率。然而,在更多的情况下,调和平均值的应用需要判断以及你对数据和手头问题的灵活理解。
摘要
1.三个毕达哥拉斯平均数密切相关。
例如,我们已经看到:
不同尺度上分数的几何平均数,在这些数值标准化到同一个尺度后,有时会保留算术平均数的顺序。
调和平均值相当于行驶速度的加权算术平均值(权重为相对行驶时间)。
在下一篇文章中,我们将会看到,数据集的几何均值等价于数据集中每个数的对数的算术均值。所以,就像调和平均只是算术平均加上一些倒数变换一样,几何平均也只是算术平均加上对数变换。
2.毕达哥拉斯平均数遵循严格的顺序。
根据相应的公式,调和平均值总是小于几何平均值,几何平均值总是小于算术平均值。
这三个平均值是彼此接近还是彼此远离,取决于数据的分布。上述规则的唯一例外是,在数据集中所有数字都相等的极端情况下,三个平均值也相等。也就是说,以下不平等关系成立:
调和平均值几何平均值算术平均值
这一点从本节开头毕达哥拉斯平均数的几何描述中也可以看出来。
认识到这个顺序有助于理解什么时候应用哪个平均值,以及不同平均值对结果的影响。
让让我们回顾一下之前的加法和乘法数据集,这一次我们将绘制所有三个平均值:
很明显,几何平均和调和平均似乎比这个线性和加性数据集的中间低很多。这是因为这两个平均值对较小的数字比对较大的数字更敏感(使它们对较大的离散值相对不敏感)。
这里,几何平均精确地位于数据集的中点,而调和平均向低端扭曲,算术平均由于较大离散值的影响向高端扭曲。
它描述一个集中的趋势和用调和平均值表达最好的数据集是不容易的,所以我我将直接进入下一部分.
3.严格的规则,一些启发式的方法,以及大量的判断空间
不同尺度的比率:使用几何平均(或对标准化数据应用算术平均)。
期间的一致复合比率:使用几何平均。
不同周期或长度的比率:使用调和平均(或加权平均)。
知道你对比率的哪一边更感兴趣,以决定应用哪个平均值。算术平均值用分母单位表示(显式或隐式)。调和平均值允许您反转比率,并以原始分子单位表示结果。
如果数据显示相加结构:算术平均值通常是一个安全的选择。
如果数据显示乘法结构和/或包含大的离散值:几何平均或调和平均可能更合适(中位数也可能更合适)。
任何决定都有缺陷和妥协:
使用几何平均值可能会导致有意义的比例或单位的丢失。
包含0的数据集不能应用几何平均或调和平均,包含负数的数据集意味着不能应用几何平均。
使用几何平均或调和平均时,听众可能对这两个概念并不熟悉。
通常,更实用且易于解释的方法是:
当离散值较大时,直接使用中值。
删除离散值
使用加权算术平均数或统计变换,而不是晦涩的毕达哥拉斯平均数。
统计语言R内置了矩阵求逆和三次样条插值的方法,但是没有内置计算简单几何平均或调和平均的函数,这可能多少暗示了这两种平均的使用场景比较狭窄。(但是Google sheets和Excel确实包含了这两个平均值。)
如果你想用一句话概括整篇文章,那么:
了解数据的本质,仔细思考你用来描述数据的汇总统计,从而避免使用错误平均值的风险。
请留言分享你使用这两个不太常见的毕达哥拉斯平均数的案例和经验(以及你在本文中发现的错误)。
推荐阅读
- 三星Galaxy(S10+测评)
- xfplay影音先锋怎么搜片看电影
- 宋江浔阳楼题反诗原文(宋江浔阳楼题反诗)
- 如何改名字要什么手续需要多久,改名字要哪些手续
- 诺基亚滑盖手机全部型号?(nokia 手机大全)
- 如何辨别网络诈骗,辨别诈骗网站的方法
- 最新款牧马人越野车图片_牧马人越野车图片
- 隶书的书写特点,隶书的来历,隶书的写法,隶书的特点
- layout工程师是什么意思(layout工程师是什么)
- 如何发布出租信息,如何发布qq群匿名消息
- 华为笔记本电脑性价比排行榜?(笔记本电脑排名)
- 怎么投诉物业工作人员态度差,怎么投诉物业
- 2016YY十大主播排行榜,YY主播人气排名
- 梅赛德斯是指所有奔驰吗? 奔驰梅赛德斯
- 阿苯达唑硝氯芬片猫可以吃吗?(兽用阿苯达唑片说明书)
- gap(year什么意思)
- 无线麦克风连接电脑教程,无线麦克风与电脑连接方法
- LOL,奥拉夫_S6上单天赋
- appleid密码忘了怎么办?(苹果id密码忘了怎么办)