可汗学院：统计学精品课

名称：可汗学院：统计学精品课
分类：名校公开课
观看人数：加载中...
时间：2021-11-14 10:23

课程介绍

1、统计的含义

（1）统计工作：即统计实践，是指很据科学的方法从事统计设计、收集、整理、分析研

究和提供各种统计资料和统计咨询意见的活动的总称。其成果是统计资料（原始调查资料和加工处理后的系统资料）；

（2）统计资料：即统计工作过程中所获得的各种有关数字资料以及与之相关的其他资料

的总称。通常以统计表、统计图和统计报告的形式变现，用以反映社会经济现象的规模、水平、速度、结构和比例关系等信息的数字和文字资料；

（3）统计科学：即统计理论，是指统计工作实践的理论概括和科学总结。

2、统计学

统计学：是一门搜集、整理、分析数据方法的科学，其目的是探索数据的内在数量规律性，以达到对客不雅观事物的科学认识。

3、统计学的研究对象

统计学研究的对象是：社会经济现象总体的数量特征和数量关系。

其根本特征：在质与量的辩证统一中，研究大量社会经济现象总体的数量方面，反映社会现象发展变化的规律性在具体时间、地点和条件下的数量表示，揭示事物的本质、彼此联系、变换规律和发展趋势。

4、统计学研究特点

数量性、总体性、具体性、社会性

5、统计工作的过程及基本本能机能

统计工作的过程：统计设计、统计调查、统计整理、统计分析（定性—定量—定性：循环往复）；

统计设计：指按照统计研究对象的特点和研究的目的、任务，对统计工作的各个方面和各个环节的通盘考虑和安排，是统计认识过程的第一个阶段，即定性认识的阶段；

统计调查：指按照统计研究对象和目的要求，依据统计设计的内容、指标和指标体系的要求，有计划、有目的、有组织的收集原始资料的工作过程，即由定性到定量认识的阶段；

统计整理：指按照统计研究的目的，将统计调查得到的原始资料和通过各种方法得到的次级资料进行科学的分类和汇总，使其条理化、系统化的工作过程，即为统计分析准备在必然程度上可以反映总体特征的统计资料；

统计分析：指在统计整理的基础上，按照研究的目的和任务，应用各种科学的统计方法，从静态和动态两个方面对研究对象的数量方面进行计算、分析研究，认识和揭示所研究对象的本质和规律性，做出科学的结论，进而提出建议和可预测性的意见的工作过程，即从定量到定性深入认识的阶段。

定量资料与定性资料的区分

定量资料：从“量”的角度出发，进行数量的分析、比力，最终结果也用“数量”表示，例如：血压、年龄。

定性资料：从“是什么”，“属于什么”的角度出发，对事物的性质进行分析，例如：性别、血型。

定量资料可以转化为定性资料：例如设定年龄边界X，≥X为A组，＜X为B组，那么A组和B组对应的样本量则为定性资料。

图一、成组设计定量资料差异性分析

图解分析：“Y”，yes，代表满足；“N”，no，代表不满足。对于两组定量资料进行差异性分析，同时满足正态性和方差齐性的情况下，方可使用t检验。满足正态性，不满足方差齐性，使用t^'检验或者Wilcoxon秩和检验。既不满足正态性，又不满足方差齐性，则只能使用Wilcoxon秩和检验。

图二、单因素多组设计定量资料差异性分析

图解分析：“Y”，yes，代表满足；“N”，no，代表不满足。对于多组定量资料进行差异性分析，同时满足正态性和方差齐性的情况下，方可使用方差分析。满足正态性，不满足方差齐性，使用Welch方差分析或者Kruskal Wallis秩和检验。既不满足正态性，又不满足方差齐性，则只能使用Kruskal Wallis秩和检验。

实际运用

一些文献对统计描述这一块写得过于简单，审稿人往往容易从其中抓住论文的辫子，下面是一些例子。

正确描述：符合正态分布的计量资料以均数±标准差表示。配对设计一般考察每对数据的差值所代表的总体值与0之间的不同是否具有统计学差异。若不雅观测的定量指标满足正态分布，则可以使用t检验；不然，使用秩和检验。

正确描述：符合正态分布的计量资料以均数±标准差表示，符合方差齐性则采用t检验；不符合正态分布的计量资料以中位数M(P25，P75)表示，采用秩和检验。

多组设计两两比力这个知识点最容易错

实例：论文将实验设计为4组，4组小鼠别离进行不同的干预办法，而跋文录和不雅观测指标，并评估比力这4种干预办法的效果，具体统计数据绘制表格如下。

S组

HSR组

SP组

ATR组

不雅观测指标1

4.1±0.8

6.5±0.6a

8.8±0.9b

10.0±1.1c

不雅观测指标2

注：与S组比拟，aP＜0.05 与HSR组比拟，bP＜0.05 与SP组比拟，cP＜0.05。

想一想，上述比力应该用什么统计方法？

A. t检验

B. 秩和检验

C. 方差分析

D. 上述都不合错误

简洁分析：

论文设计分为4组，a，b，c的P值对应组间两两比力。对于这类设计的组间两两比力，统计方法首先对这4组整体进行方差分析，先要说明四组不完全相同，也即4组之间的方差分析的P值小于0.05。在上述四组不完全相同的前提之下，再进行组间两两的比力，并且这种两两的比力的p值不是以0.05为准，而是以0.05除以比力的次数（这里总共比力的次数为C2/4，也就是6次）。这里有两两比力的专门方法，包罗LSD法，Bonferroni法，Tukey法以及SNK法等。LSD法：相对简单，容易得到有统计学差异的结果；Bonferroni法：对实验误差率控制得严格，相对保守，不容易得到有统计学差异的结果；Tukey法：此法要求高，对结论持谨慎态度的人倾向于使用它；SNK法：对实验误差率控制也较为严格。

深度剖析：

不能使用t检验代替多组设计（K≥3）组间两两比力的原因主要有：

1、每进行一次比力，犯错误的概率（实验误差率）的概率依然是以前所确定的显著性水平，通常为0.05。这里设计了4个组，组间的两两比力总次数为C=6次，那么这6次比力均正确的概率为(1-0.05)6=0.735，犯错误的概率为1-0.735=0.265，远大于0.05了。

2、割裂了整体设计，数据的利用低，检验统计量的自由度小导致结论可信度下降。