深入浅出R语言数据分析与假设检验基础教程
在之前的统计学学习中,我已经对假设检验有了初步的了解。接下来结合R语言进一步了解假设检验。
假设检验是指利用检索到的数据,按照设计的方法,对预先做出的某种统计假设进行检验,以确定该假设是否正确。在统计推断的过程中,需要对参数做出一定的假设,然后对所提出的假设进行假设检验。用一个例子来说明假设检验的基本概念。
示例:假设一家工厂生产一批产品,其产品率p 未知。按规定,若p=0.01,则该批产品合格,否则不合格。这里的“p=0.01”是必要的假设,记为H。假设从这批产品中随机抽取100个样品,发现其中3个样品不合格。这个采样结果成为判断假设H是否成立的依据。显然,样本中的缺陷产品数量越多,对假设H越不利,反之亦然。设样品中的缺陷产品数量为X。问题是:X应该在多大程度上被拒绝?
我们来分析一下:既然否定H就等于否定大量产品,所以必须用数据和事实来慎重对待。统计学中常见的做法是:先假设H成立,然后计算X3?由于X的分布为B(n,p),其中n=100,所以很容易计算出Pp=0.01{X3}0.08。显然,对于p0.01来说,这个概率值更小。也就是说:当假设H(p=0.01)成立时,100个样本中出现3个及以上缺陷样本的概率不超过0.08。这可以被视为“小概率”事件。实验中不太可能发生小概率事件。因此,预先做出的假设“p=0.01”是非常值得怀疑的。当需要做出最终判断时,应拒绝该假设,并判定该批产品不合格(即p0.01)。
上面的例子涵盖了假设检验的一些重要的基本概念。一般来说,假设 是一个用于确定总体分布的未知参数,所有可能性的集合记为,则任何关于 的假设都可以表示为“ '”,其中' 是 设置。在统计假设检验中,首先要有一个假设作为检验的对象,通常称为零假设或原假设。相应地,为了使问题陈述更加清楚,常常提出相反的假设,称为备择假设。原假设和备择假设通常表示为:
其中, 0 和1 是 的两个不相交真子集,H0 代表原假设,H1 代表备择假设。
关于的假设通常有以下三种形式(其中 0 为给定值):
假设检验基于样本。样本的某些值可能有利于原假设H0,而其他值可能对H0不利。因此,样本空间可以根据一些公认的合理标准分为两部分。一部分是拒绝区域。当样本落入剔除区时,H0被剔除;另一部分可以称为接受区域。当样本落入其中时,H0不会被拒绝。
构建拒绝域的常用方法是找到一个统计量g(例如从C中取出的g的样本A问题中的缺陷产品数量。
示例:对于假设检验问题,令X1, X2,
那么以W构成拒绝域的检验方法称为显着性水平检验。
显着性水平的常用值有0.1、0.05、0.01等。对于显着性水平的检验,假设原假设H0成立,样本落入拒绝域W,则意味着一个小的概率事件已经发生,并且实验中小概率事件的发生是可疑的,其结果是原假设H0的否定。
第一个例子中,如果预先给定=0.1,Pp=0.01{X3}=0.08,那么当p0.01时,概率就更小了。根据定义W={X3},给出假设检验H0:p=p0=0.01,显着性水平=0.01,拒绝域。 H0可以通过X=3被拒绝。但如果预先给定显着性水平=0.05,则对应的显着性水平检验的拒绝域为W={X4}。此时X=3无法拒绝H0。可见,显着性水平越小,拒绝原假设就越困难。换句话说:显着性水平越小,当样本落入拒绝区域并因此拒绝H0时就越可信。
通常,假设提出者往往事先对原假设H0有一定程度的信任,或者一旦拒绝H0就意味着要做出重大决定,就需要谨慎行事。因此,检验的显着性水平设置得比较小,这体现了“保护原假设”的思想之一。
本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/gjjy/12321.html
用户评论
这篇文章太棒了!用R语言做数据分析假设检验的基本概论真是让我大开眼界。作者讲解得非常清晰,尤其是对于初学者来说,能够理解这些概念真的很重要。期待更多这样的内容!
有6位网友表示赞同!
我觉得文章的内容有点枯燥,虽然假设检验是个重要的主题,但作者的表达方式让我有点难以集中注意力。或许可以加入一些实际案例,让读者更容易理解?
有15位网友表示赞同!
非常感谢分享!我最近刚接触R语言,这篇文章让我对假设检验有了更深入的理解。特别是关于p值的解释,真是让我恍然大悟!希望能看到更多关于数据分析的实用技巧。
有13位网友表示赞同!
作为一名数据科学的学生,这篇文章的内容让我感觉有点浅显。我希望能看到更深入的分析,比如如何在实际项目中应用这些假设检验的方法。期待后续的更新!
有5位网友表示赞同!
这篇文章让我意识到假设检验的重要性,尤其是在数据分析中。作者用R语言的实例让我更容易理解这些概念,特别是如何设置零假设和备择假设。非常实用!
有5位网友表示赞同!
我认为这篇文章的结构有些混乱,虽然信息量很大,但缺乏逻辑性。希望作者在以后的文章中能更清晰地组织内容,让读者更容易跟上思路。
有20位网友表示赞同!
用R语言做数据分析假设检验的基本概论真是个好话题!我一直觉得假设检验是数据分析的核心,这篇文章让我更加坚定了这个看法。希望能看到更多关于这个主题的深入讨论。
有7位网友表示赞同!
文章的例子有点简单,缺乏实际应用的深度。如果能加入一些真实的数据集分析案例,可能会更吸引读者的注意力。希望作者能考虑这个建议!
有15位网友表示赞同!
非常喜欢这篇文章!作者把复杂的假设检验概念讲得通俗易懂,尤其是对于我这样的初学者来说,真的很有帮助。希望能继续看到更多关于R语言的实用技巧!
有11位网友表示赞同!
我觉得这篇文章的内容虽然重要,但缺乏一些实际操作的指导。比如在R语言中如何具体实现这些假设检验的步骤,如果能详细列出代码示例就好了。
有7位网友表示赞同!
这篇文章让我对假设检验有了新的认识,尤其是它在数据分析中的应用。我觉得作者的讲解方式很吸引人,期待能看到更多这样的内容!
有14位网友表示赞同!
作为一名在校学生,我觉得这篇文章的内容有点过于基础了。希望作者能分享一些更高级的假设检验技巧,或者一些实际项目中的应用案例。
有12位网友表示赞同!
这篇文章的写作风格我非常喜欢,简洁明了,重点突出。用R语言进行数据分析假设检验的基本概论真的是个好话题,期待更多类似的文章!
有7位网友表示赞同!
我对这篇文章的内容有些失望,虽然假设检验很重要,但我觉得作者没有深入探讨它在实际数据分析中的应用。希望能看到更具体的案例分析。
有13位网友表示赞同!
非常感谢这篇文章,作者的解释让我对假设检验的概念有了更清晰的理解。希望在未来的文章中,能看到更多关于如何在R中实现这些检验的方法!
有20位网友表示赞同!
这篇文章让我感到有些无聊,虽然内容重要,但我觉得作者可以用更生动的例子来吸引读者的兴趣。希望下次能看到更有趣的写作风格!
有18位网友表示赞同!
用R语言做数据分析假设检验的基本概论真是个好主题!我觉得这篇文章很有启发性,尤其是对我这种刚入门的读者来说,真的很有帮助。期待更多这样的内容!
有12位网友表示赞同!
我认为这篇文章的内容虽然重要,但缺乏一些实际操作的指导。比如在R语言中如何具体实现这些假设检验的步骤,如果能详细列出代码示例就好了。
有8位网友表示赞同!