当前位置:课程学习>>第十一章 研究资料的整理与分析>>学习内容>>知识点二
描述统计是通过对由实验或观察、调查所得到的数据进行整理并计算其特征数,以描述数据的分布特征,把握数据全貌的方法。
一、集中量数
集中量数是用来描述数据分布集中趋势的统计量。
(一)算术平均数
1.算术平均数的含义
算术平均数是所有观察数据的总和除以数据个数所得的商,简称为平均数或均数、均值。它反映某一现象的数量标志在一定条件下的一般水平,通常用符号 表示,读作x杠,有时也用M表示。它的计算公式为:
(11.3)
式中,N表示数据的个数;
X1,x2,……表示变量X的各次观测结果;
是希腊字母,表示连加求和。
2.算术平均数的计算
(1)原始数据求平均数
当一组数据是原始数据时,就把它们直接代入公式11.1来求平均数。
[例1]已知5名学生的身高(单位:cm)分别为:98,99,105,102,101,求他们的平均身高是多少?
解:将5名学生的身高代入公式(11.1)得:
(cm)
(11.4)
(2)分组资料求平均数
如果一组原始数据编成了次数分布表,已经看不到原始数据,在这种情况下,一般采用的方法是:各组组中值乘以各组次数,求其和,再除以总次数,所得结果即为这组数据算术平均数的近似值。其计算公式为:
(11.5)
式中,x为各组组中值;f为各组次数;N为总次数。
[例2]请利用表11—2的资料计算算术平均值。
表11—2某小班40名儿童身高的平均数计算表(CM)
身高 |
组中值 |
频数 |
组中值×频数 |
101~103 99~101 97~99 95~97 93~95 总和 |
102 100 98 96 94 |
3 4 14 13 6 40 |
306 400 1372 1248 564 3890 |
(3)加权算术平均数
一组同质数据中某些数多次重复出现,或参与计算平均数的每一个数据,在总体中的地位并不一样。这时,必须使用加权算术平均数。
所谓加权算术平均数,是指一组同质数据中每一数值与其对应权数乘积的总和,再除以权数总和所得之商。其公式为:
(11.6)
式中,Wi为相应的权重(=1、2、3…)。
[例3]某幼儿园有4个小班,一班45人,二班40人,三班有42人,四班38人。各班幼儿平均身高分别为78.5、79、80.75、82.5。问如何估计该幼儿园小班全体幼儿的平均身高?
解:因为已知各班人数以及各班的平均身高,估计全年级的总体水平要用加权算术平均数。
3.平均数的优点和缺点
算术平均数是最重要、最完善的集中量数,它具有以下优点:
(1)反应灵敏。
(2)计算严密。
(3)计算简单。
(4)简明易解。
(5)适合于进一步用代数方法演算。
(6)较少受抽样变动的影响。
但是,算术平均数也有一些缺点,在一定程度上限制了它的应用。比如,计算中,常常会因少数极端值的影响而大大改变其数值,削弱其代表性。
(二)中位数
1.中位数的含义
中位数是按顺序排列在一起的一组数据中居于中间位置的数。这个数可能是数据中的某一个,也可能根本不是原有的数。中位数,简称中数。
一般用于下列情况:①当一组观测结果中出现两个极端数目时;②当次数分布的两端数据或个别数据不清楚时;③当需要快速估计一组数据的代表值时。
2.中位数的计算方法
中位数的计算方法是,先把所有数据按照大小顺序排列并编号,然后分三种情况处理:
①当数据的个数n为奇数时,中位数就是正中位置的那个数。
②当数据的个数n为偶数时,中位数就是中间两个数值的平均数。例如,表11—3中有8个数据,故中位数为第4号和第5号数据的平均数,即
表11—3
数据 | 20 |
41 |
53 |
56 |
74 |
79 |
86 |
92 |
编号 | 1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
③当有重复数据,或者由于数据过多,需要归类计算中数时,需要借助相应的公式进行。
(三)众数
众数是指一组数据中,出现频数最多的那个数的数值。用M表示众数。
主要在以下情况中使用:①需要快速而粗略地寻找一组数据的代表值时;②需要利用算术平均数、中位数、众数三者的关系来粗略地估计频数分布的形态时;③数据分布中有两极端的数值时。
2.众数的计算方法
众数可以通过观察来找到。在一组原始数据中,出现的频数最多的那个数值就是众数。
二、差异量数
差异量数是表示一组数据的差异情况或离散程度的量数。
有时,两组数据分布,其集中趋势相同而离散趋势不同,或者离散趋势相同而集中趋势不同,在这种情况下,就不能说这两种分布是完全相同的。只有对集中量数与差异量数都作出考察,才能比较清晰地了解数据分布的全貌。差异量数可以反映集中量数所具有的代表性。差异量数越大,集中量数代表性越小;差异量数越小,集中量数代表性越大;差异量数为0,集中量数即该数值本身。
(一)标准差
标准差是指一组数据中每个数值与该组数据平均数值差的平方和除以N-1的平方根。其计算公式为:
(11.7)
标准差适合于对所观测的样本水平比较接近,且使用同一测验对同一特质进行测量的不同样本之间离散程度的比较,所以标准差被称为绝对差异量数。
(二)差异系数
差异系数又称相对差异量数,或相对标准差,是同一组数据标准差与平均数的比率。其计算公式为:
(11.8)
差异系数是用来比较同一团体或个人在不同测量单位的测验中的分数,或者比较不同团体进行同一种观测获得的数据。差异系数大表示该组数据离散程度大,差异系数小表示该组数据离散程度小。
[例4]在同一语言表达测验中,一组儿童的平均分数为60分,标准差为4.02分,二组儿童的平均分数是80分,标准差为6.04分,问这两个组的测验分数中,哪一个分散程度大?
解:
(11.9)
7.55%>6.7%,所以,二组儿童测验分数的离散程度大。
一般地,差异系数值常在5%~35%之间,如果大于35%,可怀疑所求得的平均数是否失去意义,如果小于5%,可怀疑平均数与标准差的计算是否有误。
三、相关关系
相互联系关系大体上有三种:因果关系、共变关系、相关关系,即两类现象在发展变化的方向与大小方面存在一定关系,但不能确定哪个是因,哪个是果。这就需要了解描述变量间关系特征的量数,即相关系数。
相关就是指两组或两组以上资料或配对变量之间的相互关系。
1.相关类型
(1)正相关与负相关
按照两个变量相互伴随变化的方向,可分为正相关和负相关。
(2)完全相关、不完全相关和零相关
按照变量间相关程度分,可分为完全相关、不完全相关和零相关。
相关程度的大小用相关系数r表示,r的取值范围为。r>0为正相关,r<0为负相关,r=0为零相关。图11—5就是正相关、负相关和零相关的示意图。
图11-10相关的三种情况
2.相关系数的求法
描述两个变量之间的相关程度时,最常用的相关系数是积差相关系数。积差相关系数的计算公式是:
(11.11)
或者
(11.12)
式中
[例5]为了研究儿童性格发展与家庭教育之间的关系,随机对12名儿童的性格特点及其家长的教育情况进行了调查,得到每名儿童的性格总分(X)和每个家庭的教育总分(Y),如表11—5所示,求儿童性格总分与家庭教育总分之间的积差相关系数。
表11—412名儿童的性格总分与家庭教育总分
表11—5儿童性格和家庭教育分数相关计算表
儿童性格(X ) |
家庭教育(Y) |
x的平方 |
y的平方 |
xy |
72 83 69 56 67 69 80 76 50 72 65 75 |
80 85 76 65 72 70 74 79 70 80 80 63 |
5184 6889 4761 3136 4489 4761 6400 5776 2500 5184 4225 5625 |
6400 7225 5776 4225 5184 4900 5476 6241 4900 6400 6400 3969 |
5760 7055 5244 3640 4824 4830 5920 6004 3500 5700 5200 4725 |
合计834 |
894 |
58930 |
67096 |
62462 |
3.解释和应用相关系数应注意的问题
(1)存在相关,仅意味着变量间有关联,并不一定是因果关系。
(2)相关关系不是百分率,也不等距,因此,不能对相关系数直接进行加、减、乘、除运算。
(3)相关系数r受变量取值区间大小及观测值个数的影响较大,变量的取值区间越大,观测值的个数越多, r受抽样误差的影响越小,结果越可靠。因此,在研究事物间关系时,应适当加大变量的取值区间,并获得足够的观测值,一般要求样本容量在30以上或更多些。在比较两相关系数大小时,也必须考虑到观测值数目上的差异。
(4)相关系数的正负号表示相关方向,其绝对值表示相关程度的高低。通过实际观测值计算的相关系数,须经过显著性检验确定其是否有意义。在相关系数有意义的前提下,一般根据表11—6对其进行解释。
表11-6 |r |的取值与相关程度
|r|取值范围 |
|r|的意义 |
0.00—0.19 0.20—0.39 0.40—0.59 0.60—0.89 0.90—1.0 |
极低相关 低度相关 中度相关 高度相关 极高相关 |
通过对教育研究资料描述统计的学习,你是否掌握了如何进行教育研究资料描述统计的方法了呢?接下来让我们一起进入边学边练。