分布。但可惜试验者通常只有能力和精力做一次这样的试验(就算能做好多次,也在文章发表之后再说吧)。如果零假设正确,得到的xbar更有可能在零附近不太远的地方。如果得到的xbar距离零远得太离谱,这样极端的情况在一次试验中恐怕不太可能发生。既然发生了,更有可能是因为零假设本身是错误的,因而拒绝零假设。取到比某个极端阈值更加极端值的概率,就是p值(Fisher的显著性检验理论,区别于Ego
Pearso
JerseyNeyma
的假设检验I类II类错误理论)。在本例中,如果零假设正确,(根据正态概率分布)则xbar取到比196更大或比196更小值的概率仅有5。于是设定一个标准,如果一次试验得到大于196或小于196的xbar(p005),那么就很有“信心”认为零假设错误,盒子里所有球数字的平均值不太可能等于零。频率学派里的“信心”在此处理解为,在零假设正确的情况下,如果真的重复了100次这样的试验,用以上的标准做出对零假设的判断,平均意义上将出现5次错误的拒绝。换句话说,零假设本身正确而被假设检验流程拒绝的可能性是5(通常的取值有5,1等等,没有什么科学依据,5就是Fisher当年第一次在田间随便一说,后来大家认为都能接受就成习惯了)。而事实上,上帝知道盒子里所有球数字的平均值是196,如果真的重复了100次这样的试验,平均意义上有约50次将得到xbar小于196的结果,而剩下约50次将得到xbar大于196的结果。也就是说,该试验者按照这样的假设检验流程,有50的可能性得到p005的结果拒绝零假设,有50的可能性得到p005的结果不能拒绝本应拒绝的零假设。场景2:描述同模拟1,但上帝观察了每一个球上的数字,总结得到,X服从均值为00000196,标准差为10的正态分布。那么从中有放回地随机抽取100个,计算这些球上数字的平均值xbar,则xbar也是一个随机变量(每做一次取100个球的试验得到的一个均值是不确定的),应当服从均值为00000196,标准差为1的正态分布。试验者希望通过从盒子中有放回地随机抽取100个球,利用这100个球的信息,推断盒子里所有球上数字的均值是否等于零。他目前只能知道一次试验得到的平均值xbar应当服从一个平均值未知,标准差为1的正态分布。
f于是他建立的零假设(
ullhypothesis)是,盒子里所有球上数字的平均值等于零。可以推断,在不考虑零假设的情况下,如果重复100次这样的试验,可以得到100不全相同的xbar,这些xbar应当服从一个平均值未知,标准差为1的正态分布。但可惜试验者通常只r