前面说过,抽样出来的集合($$X_1,X_2,...X_n$$),也是有分布的,他们的分布,他们的**“函数”(统计量)**,也有一个分布了吧。
这里多说一句,你不是抽样么,你可以抽无数次啊(假如是放回抽样),我们说这个分布,指的是无数次的抽样的分布,这里的分布,就是你无数次抽样后, 这帮统计量的分布。
好,这帮货都会呈现啥分布呢?答案是常见的有“$$\mathcal{X}^2卡方分布,t分布,F分布$$”,参考:1,2吧。
抽样集合符合一个分布,当抽样量大了以后,这个分布会趋向一个稳定分布,这个分布就叫这个统计量的渐进分布。
提这个概念干啥,是为了引出下面的这玩意:
如果$$X_1,X_2,...$$是总体样本N(0,$$\sigma^2$$)的样本集,可以证明,
-
$$\sqrt{n}\bar{X}/\sigma$$ ~ N(0,1)
这个结论很有用,对后面假设检验,就构建这个统计量,用于假设检验。
当
n叫做自由度,自由度可以解释为自由的独立变量的个数,我也没深究。
对于卡方分布,一堆正态分布的平方和 就呈现了卡方分布。
X ~ N(0,1)标准正态分布,Y ~
好了,你现在可以用这玩意了,
你抽出来的样本($$X_1,X_2,...X_n$$),我们用他们构建一个新的统计量,
你看,前者是个正态分布,后者是个$$\mathcal{X}^2$$卡方分布,两者一凑(当然还得做一下归一化成标准正态分布啥的),就合体完正好服从T分布了。
嘿!你看,理论结合实践了,用起来了,居然把凑出的统计量,套到了一个T分布上了,哈哈。这T分布用处可以多了,后面会用的。
一般来说,当你的样本量很小(30个以下)或者你不知道总体标准差时,就会使用t分布,这也就是很多检验都用t分布,因为现实中这种情况非常见;当n>=30的时候,t分布就很接近正态分布了。
总结一下,一个正态分布除以一个卡方分布,就变成了T分布。
再接再来,我们再“凑”一个新的分布出来!
先说说新引出的F分布,
Y 服从~ 自由度为m的$$\mathcal{X}^2$$卡方分布,Z 服从~ 自由度为n的$$\mathcal{X}^2$$卡方分布,俩合体一下,就变成了F分布。
这合体,称作第一自由度为m,第二自由度为n的F分布:F(m,n)
总结一下,一个卡方分布分布除以另外一卡方分布T分布,就变成了F分布