方差分析干嘛用的?
方差分析,是为了看某个因素,是不是影响,另外一个因素。
它是研究,分类型自变量,对数值型因变量的影响:有没有影响,影响有多大。
教材上,给的例子是,4个行业,对投诉的次数的影响: 比如零售、旅游、航空、制造,这4个行业,每个行业里有若干公司,这些公司规模相当,然后每个公司有投诉次数。 看这个数据情况,希望得到一个判断:行业对投诉有无影响?
先说一下,涉及到的概念:
- 因素/因子:就是因变量,就是要被检验的东西,这里就是投诉数量
- 自变量:就是引起变化的源,也就是行业
- 水平:就是自变量里面的离散的值,这里就是这4个行业,4个值,还有,每个水平,都独立出来一个“总体”,这个例子里,4个行业,就相当于把总体化成了4堆,这4个要分别对待。
现在,就是要看,自变量(也叫因素、因子),是不是影响因变量?影响有多深?要干这事,工具就是方差分析。
方差分析有一些假设:
- 各个总体(就是各个行业自己的各自公司的投诉数)要符合正态分布
- 方差$$\sigma^2$$相同!这单很重要,就是叫“方差分析”的由来。
所以,自变量(行业)对因变量(投诉数)有没有影响,就转变成了,每个行业的投诉均值、方差的考察问题。 朴素上讲,如果各行业对投诉数没影响,那均值和方差应该大抵相同才对。 但更科学的方法是,用假设检验。
先提出假设:自变量对因变量没有影响,$$H_0: \mu_1 = \mu_2 = ...$$(即行业对投诉量没有影响)
那么,对应的备择假设$$H_1: \mu_1 ,\mu_2, ...$$,不全相等(即行业对投诉量有影响)
那,就需要构建统计量了,还得知道,统计量符合啥分布,最后,就可以通过算概率,来接受还是拒绝原假设了。
构建统计量:
- 算各个总体的均值(各个行业的投诉的均值)
- 算全部的均值(把各个行业都放到一起,算所有行业的投诉均值)
- 算误差平方和
- 总体平方和SST:全部观察值和全部均值的误差平方和
- 组内平方和SSE:又叫因素平方和,各组均值和全部均值的误差平方和
- 组间平方和SSA:各个样本和组内均值的误差平方和
- 组间均方MSA:比较组内均方和组间均方的差异,$$MSA=\frac{SSA}{k-1}$$,k为因素水平个数,我们的例子是4个行业,4
- 组内均方MSE:$$MSE=\frac{SSE}{n-k}$$,n是全体(4个行业加一起)的样本数
经过上述准备,我们终于构建出一个大法器:
这是一个F分布,然后用这个分布,就可以去根据你要求的置信水平$$\alpha$$,去做假设检验了,就不细赘了。
大体思路就是这样,我其实也没有再深入,感觉上暂时用不到,搞清楚大体思路,就可以了,用到的时候,再深入研究,别太浪费我的精力分配。
总结一下吧,
方差分析,他要解决的是,某个离散型因素,是不是影响某个结果,他们之间是不是有相关性?(多强的问题,我没有再深入研究,实际上,教材也给出了,就是$$R^2$$分析),为了干这个是,做了一堆正态、方差假设,然后费了一番劲,构建了一个符合F分布的统计量,用它来做假设检验。 朴素的假设,就是你们这些不同的离散值对应的子总体,你们的均值应该差不多才对。通过这个假设检验,反向判断出相关性与否的结论。