FRM考试作为金融类的考试,里面涉及到数学的一些基础知识。其中主要就是概率与统计的内容,在本篇文章中,小编就请来咱们的FRM老师为大家讲解FRM数学基础中的有关统计学的知识。

样本变异量是基本统计学一个很难懂也很难教的概念。初学统计学的学生一开始就遇到这个概念,如果没学懂,很可能就对统计学丧失了信心或兴趣。这个概念难懂之处并不只在于它的意义或用处,更在于它的公式:

变异量的概念

首先,我们假设给有一组n个数目的数据:X1,X2,X3.......Xn, 他们的样本平均数是X。

变异量所要测量的是这一组数据彼此间差异的程度,它告诉我们数据的同构型或一致性。我们可以先想象这组数据全部相同的情况:数据彼此之间完全没有差异,也就是同构型高到不能再高了,一致性也大到不能再大了,此时变异量为0。如果数据彼此间差异*大,也就是同构型或一致性*低,此时变异量*大。

然则为何变异量要用上面的公式计算?要算数据彼此间差异的程度,不是算出数目两两之间差异的总和或其平均值就好了吗?这样说虽然不无道理,但实际上大有问题。

设想我们把数据中所有数目依其大小标在一直在线,一共有n个点,则这些点两两之间一共会有C(n,2)=n!/(n-2)!2!个距离,例如n=3会有3个距离,n=4会有6个距离,n=5会有10个距离,等等。但这些距离并不是相互独立的,因为除了相邻两点之间的距离外,其它的距离都可以算出来。举例来说,若n=3而三点为x1<x2<x3,则共有|x1-x2|、| x2-x3|、|x1- x3|三个距离,但|x1-x2|+| x2-x3|=|x1- x3|,也就是3个距离中只有2个是独立的,第三个可以由这两个独立的距离算出来。推而广之,直线上n个点x1<x2<…<xn,虽然可有C(n,2)个距离,只有|x1-x2|、| x2-x3|、|x3- x4|、…、|xn-1- xn|这n-1个相邻两点之间的距离是独立的;这n-1个距离知道之后,其它的距离也就知道了。这n-1个相邻两点的「独立」距离,包含了样本变异量所有的信息,因此我们不妨暂且把n-1唤作「自由度」。换句话说,「自由度」就是样本变异量所含独立信息的数目。

如果我们把总变异量定义为数据中这些独立信息的总和,则当我们把总变异量除以自由度n-1,我们就得到这些独立信息的平均变异量了。但这样的定义有一个问题,我们看下式就明白了:

这就等于我们小学时学过的植树问题:「一条路有90公尺,沿路每边种了10棵树,两端都种,请问每边树与树间的平均距离多少?」这样来算变异量,除了用到数据*数和*小数之间的「范围」(range) 外,完全忽略了中间n-2个相对点位置所含的信息,因此它不是一个适当的方法。

此外,因为两数相减可能得到负数,但距离必须是正的,所以我们常用*值来算距离。但*值函数y=|x|在x=0的地方有个尖锐转折,不是一个平滑函数,数学上不好处理。比较好的消去负号的方法是平方:负负得正。

因此统计学不用数据点两两之间距离*值的和来算总变异量,而是用每个数据点与平均数距离平方的总和,也就是前面所说的「差方和」。差方和的好处是它用到了数据中每一点的位置,但它同时也必须用到样本平均数。用了样本平均数之后,数据中的n个点与平均数的距离就有一个限制了。

因此它们只包含了n-1个独立的信息。我们把n-1唤作「自由度」,也就是独立信息的数目。把差方和除以「自由度」就得到变异量;它可以诠释为每个独立信息对数据所含总信息——差方和——的平均贡献。变异量因为用了距离的平方,必须开根号才能回到原来的距离单位。于是我们把变异量开根号,得到的结果,就是所谓「标准偏差」(standard deviation):

这里讲解的FRM数学基础知识主要是回答一个问题,即统计学中自由度修正为啥n-1?融跃FRM老师针对这个问题做了详细解答,如果有什么疑惑,欢迎留言咨询咱们的老师。