你还记得三个超级重要的抽样分布吗?
1、卡方分布
卡方分布是指符合标准正态分布的样本总体。每个样本的平方和形成的新随机变量称为卡方分布,记为22(n)。
(1) 卡方分布概率密度函数:
(2) 卡方分布的期望和方差:E(X)=n, D(X)=2n
(3) 概率分布质量函数:
### 卡方分布def chi_ditribution(): x=np.linspace(0, 10, 100) Fig,ax=plt.subplots(1,1) linestyles=[':', '--', '- 。 ', '-'] deg_of_freedom=[1, 4, 7, 6] for df, ls in zip(deg_of_freedom, linestyles): ax.plot(x, stats.chi2.pdf(x, df), linestyle=ls) plt.title('Chi-square distribution') plt.grid(True) plt.legend()chi_ditribution() 对应于卡方检验。卡方x2 检验可用于拟合检验和相关分布。其核心原理是根据样本数据估计总体频率与期望频率是否存在极限差异。
(4)显着性分析应用实例:一家咖啡店通过统计得到了如下一组数据。老板想看看不同职业和咖啡口味之间是否存在限制性差异。
咖啡统计
def cal_chi2(df): '''卡方检验''' kt=chi2_contingency(df) print('卡方值=%.4f, p值=%.4f, 自由度=%i预期_frep=%s'% kt) return ktdf.plot(kind='bar')cal_chi2(df) 卡方值=138.2050,p值=0.0000,可见不同职业和咖啡口味并不是独立的,有是显着差异。当然,从上面的直方图中我们也可以清楚地看出,不同的职业对于咖啡的口味有着不同的偏好。
再比如,男性和女性对化妆品的统计数据如下。那么:性别和是否化妆之间是否存在显着差异?这也可以使用卡方检验来解释。
2.t-分布:
t 分布也称为学生分布,通常用于基于小样本估计方差未知的正态分布总体的均值。
(1) t分布概率质量函数:
(2) t分布概率图:
def t_distribution(): ''' t-分布''' x=np.linspace(-5,5,100000) for i in range(1, 4,1): y_t=stats.t.pdf(x, i ) plt.plot(x,y_t, label=f'i={i}') plt.legend() plt.grid(True) t_distribution() t 分布的检验分为三种类型:
2.1 单样本t检验:
单样本检验用于确定样本均值与总体均值之间是否存在统计显着性差异。
例如,随机选择某辆车进行尾气检测。数据如下。这辆车的尾气排放明显大于20吗?
某车型汽车尾气检测结果随机抽样
车辆尾气数据分布
显然不显着,t值=3.001649525885985,p值=0.014916414248897527。
又如:已知新生儿的平均体重为3.31公斤。 30名新生儿的样本来自高山缺氧地区。平均体重为3.21kg,标准差为0.5。该地区新生儿体重是否符合正常标准?
我们还可以使用单样本t检验:p=0.07079,我们可以得出结论,根据现有的数据信息,无法确定该区域的异常出生体重。
2.2 配对样本t检验:
配对样本t检验的目的是检验样本差异均值与0之间差异的显着性。
例如:某医院研究某种咖啡对成人心肌血流的影响时,随机选取12名健康成年人进行心肌血流检测。数据如下。那么,这种咖啡对心肌血流量有影响吗?然后我们可以使用配对t检验进行分析。
心肌血流数据
心肌血流数据直方图
t 检验双尾p 值=0.0032,存在显着差异。
2.3 独立样本t检验
独立样本t检验的目的是确定两个样本均值对应的总体均值是否存在差异。例如,工人A和B在同一台机床上加工的轴承零件的直径数据如下。工人A和工人B加工的产品有显着差异吗?
A、B机床加工轴承数据
A、B加工轴承直径分布
独立样本t检验p值=0.40810.05,我们可以认为两者的加工精度没有显着差异。
3.F-分布
F 分布是服从卡方分布的两个独立随机变量的比率除以其自由度的抽样分布。这是一种不对称分布,位置不可互换。相应的F检验也称为方差比检验、方差同质性检验。
(1) F分布概率函数:
(2) F分布期望和方差:
(3) F分布概率分布
#### F 分布def f_distribution(): ''' F 分布概率''' x=np.linspace(0,4.5, 10000) fd1=stats.f.pdf(x,10,10) fd2=stats. f.pdf(x,80,50) plt.plot(x, fd1, 'g--',label='y=f(x,10,10)') plt.plot(x, fd2, 'k- ',label='y=f(x,80,50)') plt.legend() plt.title('F distribution') plt.grid(True)f_distribution()F test 主要测试两组之间的差异数据关于稳定性,我们用上面工人A和B加工零件的例子来尝试一下。
F检验p值=0.9269,表明两组数据的稳定性没有显着差异,反映出工人A和工人B加工的零件稳定性相当。
本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/jxjy/13196.html
用户评论
这篇文章真是太棒了!统计学里确实经常要使用到这些常用的抽样分布,我当时学习的时候也印象深刻,感觉这个知识点非常重要。
有13位网友表示赞同!
啊,终于有人提到了这些基础的抽样分布啦!我都快要忘记了它们的具体含义了。还好这篇文章的解释很清晰,让我迅速回忆起来
有20位网友表示赞同!
我一直觉得统计学的知识体系庞大而复杂,常常会迷失方向。看到这篇博文,终于让我理清了一些思路。这3个抽样分布的确是基础且重要的内容,要好好复习一下。
有17位网友表示赞同!
确实,这三个抽样分布经常在实际应用中遇到,特别是对于做数据的分析和预测的人来说更是必备的知识。这篇博文给我的启发很大,我会把这些知识点整理一下,方便以后回顾。
有16位网友表示赞同!
我有点不太理解文章里的解释方式,感觉有些抽象难懂。能不能用一些具体的例子来演示一下?这样更容易让人理解。
有16位网友表示赞同!
虽然这三个抽样分布很重要,但是学习起来确实不是太容易。我觉得如果能搭配视频讲解或互动练习,会更有效地帮助人们掌握这些知识点。
有7位网友表示赞同!
我一直以为这些抽样分布都是很 esoteric 的理论,没想到它在实际应用中竟然那么普遍!这篇文章让我看到了统计学知识的实用性,很有启发意义
有20位网友表示赞同!
我有一个问题,这个博文只提到了三个抽样分布,是不是还有其他的重要分布呢?如果介绍更多类型的抽样分布,会更全面一些吧。
有16位网友表示赞同!
我倒是觉得这三个抽样分布已经够复杂了,不用再额外学习其他类型。我还是先好好掌握这三个,再去接触其他更高级的知识点比较合适。
有15位网友表示赞同!
我很喜欢这个博文提出的观点,统计学中的知识体系的确需要系统性的学习才能真正理解。我决定从这三个抽样分布入手,逐步深入探索统计学的奥秘
有13位网友表示赞同!
啊,我的大学时代真是太过轻松了,现在回想起来还记得这些抽样分布吗?感觉我已经忘得差不多了!看来要找时间回顾一下这篇博文了
有10位网友表示赞同!
我最近在阅读一些数据分析的文章,发现这些抽样分布经常被用到。这篇博文让我对它们的应用场景有了更深刻的理解。
有15位网友表示赞同!
学习统计学确实需要不断地练习和实践才能 wirklich 掌握。这篇文章虽然介绍了基础知识,但还需要通过实际案例来加深理解吧?
有16位网友表示赞同!
我对这三个抽样分布的解释感到困惑,感觉有点过于严谨,能不能用更通俗易懂的语言来阐释呢?
有7位网友表示赞同!
我觉得这个博文很有用,让我回想起了一些旧知识,也激发了我想学习更多统计学内容的兴趣。希望作者能发布更多精彩的文章!
有18位网友表示赞同!
我之前对抽样分布的了解停滞不前了,这篇博文给了我很大的帮助,尤其是三个重要的类型详细讲解,让我对它们有了更深刻的认识。
有18位网友表示赞同!
还是觉得学习统计学需要一个好的老师和合适的学习资源,这篇文章虽然还不错,但我感觉缺少了一些实践操作的指导,比如给出一些练习题或案例分析,这样能更有效地帮助人们掌握这些知识点
有13位网友表示赞同!
我赞赏作者能够把复杂的统计学知识用生动的语言进行讲解,让人更容易理解。希望以后也能看到更多深入浅出的文章!
有18位网友表示赞同!