第四章 集中趋势和离中趋势
第一节 集中趋势的测定
一、平均数的概念和作用
( 一 ) 平均数的概念
平均数又称平均指标,是综合指标的一种表现形式。它是指同质总体内各个总体单位某一数量标志或等级在一定时间、地点条件下所达到的一般水平。平均数可以反映一组数量的集中趋势。
如平均工资、平均收入、平均成本、平均利润、平均价格、平均单产、平均劳动生产率、平均周转速度等,都是统计中经常应用的平均数。
平均数具有两个特点:
第一,平均数是用一个代表性的数值来说明被研究总体某一数量标志的一般水平,对总体具有充分的代表性;
第二,平均数把总体各个单位之间数值差异抽象化,反映的是总体单位的综合特征。
(二)平均数的作用
1 、平均数具有比较分析的作用
平均数的比较作用包括两种情况:
( 1 ) 同一总体在不同空间的对比,包括不同地区、不同部门和不同单位之间的比较。例如用人均居住面积对比,就可以反映城乡居民居住水平的差异。
( 2 ) 同一总体在不同时间上的比较,以反映总体一般水平的发展变化及其规律性。例如,职工人均收入每年的不同数值,可以看出其发展趋势。
2 、平均数可以作为论断事物的一种数量标准或参考
例如,评论一个学生考试成绩的好坏,可以用该生所在班的学生平均成绩来衡量。又如,在企业的生产管理中,制定的生产定额、劳动定额、物资消耗定额等的依据是实际已达到的平均先进指标。
3 、平均数可以进行数量上的推断
在统计估算推断中,往往用部分单位的平均数去推断总体平均数,或根据总体平均数来推断总体标志总量。
平均数通常有以下几种:算术平均数、调和平均数、几何平均数、中位数和众数。
二、算术平均数
算术平均数是总体各个单位的标志值之和除以总体单位总数所得的商。算术平均数是应用最广的平均数。其基本公式为: 算术平均数 = 总体标志总量 / 总体单位总数
(一)简单算术平均数
简单算术平均数是将总体各单位的标志值直接相加,再除以总体单位数而求得的平均数。
简单算术平均数的计算公式如下:
其中: 代表算术平均数;
x 代表标志值;
n 代表总体单位数。
简单算术平均数适用于总体中各变量值出现的次数为一次(或为同样多次)的情况,只需将各变量值相加,除以项数便可得到算术平均数。
例 1 简单算数平均数
9 名同学统计学考试成绩如下:
98 95 85 79 75 68 64 63 49
(二)加权算术平均数
在总体单位数量很多,资料经过整理的、按数量标志分组后编成的变量数列的条件下,算术平均数的计算就必须采用加权算术平均数的方法。
1 、单项式数列的加权算术平均数
单项式数列的加权算术平均数的计算方法是:用标志值乘以相应的各组单位数求出各组标志总量,再除以加总得到的总体单位总数。计算公式为:
其中:f为权数(总体单位数)。
权数是标志值所出现的次数,因为它在平均数的计算中具有权衡轻重的作用,所以又将其称为权数。 加权算术平均数的公式也可为:
可见,加权算术平均数受两个因素的影响:即标志值 x 和权重 |
|
的影响。 |
2 、组距式数列的加权算术平均数
组距式数列的加权算术平均数的计算是:以组中值作为各组标志值的代表值,将其乘以相应的各组单位数求出各组标志总量,再除以加总得到的总体单位总数。计算公式仍为:
其中: x 为各组的组中值
组中值的计算根据数列的不同有不同的方法(闭口数列,开口数列)。
以组中值计算的算术平均数有一定的假定性,假定总体各单位的标志值在组内是均匀分布的,实际上分布并不十分均匀,于是在组中值和实际组平均数之间不可避免地会有一定的误差,所以,用组中值计算的平均数是一个近似值。
(三)算术平均数的数学性质
1 、各个标志值与算术平均数的离差之和等于零
( 1 )简单算术平均数:
证明:
( 2 )加权算术平均数:
亦成立。
2 、各个标志值与算术平均数的离差平方和为最小值
( 1 )简单算术平均数:
( 2 )加权算术平均数:
以简单算术平均数为例证明:
(四)算术平均数应用上的特点
1 、算术平均数在应用上的广泛性。
2 、 算术平均数容易受极端值的影响。实践中,可以采用“掐头去尾法”来消除极值对于算术平均数的影响。
3 、 组距式数列的加权算术平均数的假定性。当组距数列有开口组时,组中值一般按邻组组距计算,假定性就更大,平均数的代表性也就会受到一定的影响。
三、调和平均数
(一)调和平均数的概念
调和平均数是各个标志值倒数的算术平均数的倒数,又称为倒数平均数。
(二)调和平均数的计算方法
1. 简单调和平均数。对于未分组资料调和平均数公式为:
其中: h 代表简单调和平均数;
x 代表各标志值;
n代表标志值的项数。
2 、加权调和平均数。对于分组资料,必须用加权调和平均数的公式计算。
其公式为:
其中: M 为调和平均数的权数。
例 3 调和平均数的应用:
现有某公司所属甲、乙、丙三个企业上月生产计划完成资料
按计划完成程度分组 |
组中值 x |
实际产值(万元) m |
计划产值( m/x ) |
90 ~ 100 |
95 |
190 |
200 |
100 ~ 110 |
105 |
252 |
240 |
110 ~ 120 |
115 |
322 |
280 |
Σ |
――――― |
764 |
720 |
则有:三个企业平均计划完成程度
加权调和平均数是加权算术平均数的变形:
调和平均数的计算仍然是总体标志总量除以总体单位总数的结果。调和平均数是算术平均数的变形,其计算结果和算术平均数的计算结果是一致的,只是依据所掌握的资料不同而采取不同的计算形式计算平均指标。
令 M = xf ,则 f = M / x 代入算术平均数公式
采用加权平均法计算平均指标的关键是正确地确定权数。一般来讲,当所掌握的资料直接给出权数时,用加权算术平均法;当所掌握的资料没有直接给出权数,权数需要计算出来时,应采用加权调和平均数公式计算。
在经济分析中,有时要用相对数来计算平均指标。如果已知资料为相对数的分子,而未知相对数的分母,则采用加权调和平均数公式计算;如果已知资料为相对数的分母,而未知相对数的分子,需要采用加权算术平均数公式计算。
(三)调和平均数应用的特点
1 、 调和平均数也易受极端值的影响。
2 、 当组距数列有开口组时,以组中值代表标志值计算的调和平均数只是一个近似值。
3 、 调和平均数的应用范围狭小,没有算术平均数运用广泛。
四、几何平均数
几何平均数是几个变量值连乘积用项数开方所得的结果。
1 、简单几何平均数。
用以下公式表示:
其中: 代表几何平均数
X 代表标志值
n 代表标志值的项数
П为连乘符号
2 、加权几何平均数。
用以下公式表示:
其中: f 代表重复出现的次数。
在用几何平均数计算时,如果 n 大于 2 ,可采用对数法来计算。将公式两边同时取对数,如简单几
平均数:
在统计分析中,几何平均数主要用于计算平均比率和平均发展速度。
例 4 几何平均数的应用:
某机械厂所属 4 个车间的制品合格率为:
毛坯车间 96 %,粗加工车间 94 %,精加工车间 90 %,装配车间 85 %,
则有:各车间平均产品合格率
五、位置平均数
位置平均数是一种按其在数列中的特殊位置而决定的平均数。
(一)中位数的计算方法
中位数是把总体各单位的标志值按大小顺序排列后,处于中点位置的标志值,用Me 表示。中位数的计算要根据所掌握的资料来决定。
1 、未分组资料中位数的确定
资料未分组时,确定中位数首先要将标志值按大小顺序排列,然后利用下面公式确定中位数的位置:
当总体单位数为奇数时,位于数列中间位置的标志值为中位数;当总体单位数为偶数时,位于数列中间两项的算术平均数为中位数。
2 、分组资料中位数的确定
( 1 )按单项数列计算中位数。
按单项数列计算中位数时,首先应计算出单项数列的累计次数。累计方法有两种:从标志值最小一组的次数起逐项累计为较小制累计;从标志值最大一组的次数起逐项累计为较大制累计。计算累计次数确定中位数所在的组,其组值为中位数。
( 2 )按组距数列计算中位数
基本步骤为:
第一步:确定中位数所在组。用较小累计和较大累计,确定中位数所在组。
第二步:用插补法计算中位数的近似值。
A 、计算出中位数所在组内中位数以下(上)的项数;
B 、中位数以下项数与全组次数相比,计算出组内中位数项数以下(上)的比例(系数);
C 、 用比例推出插入值,其方法是用该组的组距乘以系数。若按下限计算,则加上这个插入值就是中位数的近似值;若按上限计算,则减去插入值。
以上计算过程可以概括为一个公式,包括上限公式和下限公式,其计算结果是一致的。
下限公式为:
其中: Me代表中位数;
L代表下限;
代表中位数所在组的次数;
代表中位数所在组以下的累积次数;
代表总次数;
i代表中位数所在组的组距。
上限公式为:
其中:U代表中位数所在组的上限;
代表中位数所在组以上的累积次数。
例 6 现有以下调查资料:
入分组(元) |
人数 |
较小制累计 |
较大制累计 |
600 元以下
600——800
800——1000
1000 元以上 |
100
160
200
50 |
100
260
460
510 |
510
410
250
50 |
总 计 |
510 |
|
|
(二)众数的确定方法
1 、 众数的特点和作用
众数也是平均数的一种。在总体中出现次数最多的那个标志值(变量值)就是众数,它代表总体单位各标志值的一般水平。在统计中,众数有时用来说明一种社会现象的一般水平。
众数所代表的经济现象的一般水平不受极端值的影响,也不受开口组组中值假定性的影响。众数的特殊作用和代表的一般水平,是算术平均数和调和平均数所不能代替的。
2、 众数的计算方法
3、( 1 )根据单项数列计算。单项数列中总体单位最多的一组的标志值便是众数。
复众数——如果有两个及以上的标志值所对应的总体单位都为最多,则称为复众数。
例 5 (见上)
( 2 )根据组距数列计算。根据组距数列只能计算出众数的近似值。
①组中值法。这种方法是根据所给的组距数列资料先确定众数组,即次数出现最多的组为众数组。众数组的组中值是上限加下限除以 2 所得,这个组中值为众数近似值。
其公式为:
其中:M0代表众数;
L代表下限;
U代表上限.
利用组中值法计算众数的假定条件是:众数组组内的变量值分布是均匀的。
②插补法。按众数组次数与两个邻组次数的差数比例来确定众数近似值的方法称为插补法。其公式为:
其中: L 代表下组限;
U 代表上组限;
代表众数组次数与前一组次数之差;
代表众数组次数与后一组次数之差;
i 代表众数组的组距。
在计算众数时,所给的变量数列的资料次数分布常常不对称,这时计算众数要受到邻组次数的影响。当众数组前一组的次数大于众数组后一组的次数时,众数值将偏近众数的下限。反之,当众数组前一组的次数小于众数组后一组的次数时,众数值将偏近众数的上限。
例 6 (见上)
六、计算和应用平均数指标应注意的问题
(一)平均数必须应用于同质总体
(二)应用组平均数补充说明总平均数
(三)用变量数列的资料补充总平均数
第二节 离中趋势的测定
现象的离中趋势是指总体中某一数量标志的变动范围和离散程度。反映现象离中趋势的统计指标称为标志变异指标。
一、标志变异指标的意义
标志变异指标是指一系列用来衡量分配数列中各标志值的变动范围或离差程度的综合指标,亦称为标志变动度。
平均指标和标志变异指标分别反映事物发展在数量方面的共性(集中趋势)与特殊性(离中趋势),两者相辅相成,有助于我们全面认识社会经济现象的数量规律,从而为统计分析和决策提供有力的工具。
标志变异指标的作用,主要有以下两个方面:
第一, 标志变异指标是衡量平均数代表性的尺度。一般说来,标志变异指标值越大,平均数的代表性越小;标志变异指标值越小,平均数的代表性越大。
第二, 标志变异指标是反映社会经济活动过程均衡性的一个重要指标。一般来说,标志变异指标值越小,社会经济活动过程越均衡;反之,则说明社会经济过程存在着陡起陡落现象,需要加以调整和控制。
二、全距
全距是指数列中最大的标志值与最小的标志值的差,全距又称为“极差”。
全距( R ) = 最大标志值 — 最小标志值
三、平均差
平均差是各单位标志值对算术平均数的离差绝对值的算术平均数,又称为平均离差,用 A.D. 表示。
平均差有两种:一种是简单平均差;一种是加权平均差。
1 、简单平均差是在资料未分组时采用的计算方法。计算公式为:
2 、加权平均差是在资料经过分组以后采用的计算方法。计算公式为:
四、标准差
标准差是各变量值与其算术平均数的离差平方的算术平均数的平方根。标准差又称均方差,一般 表示。
标准差的计算,根据所给的资料不同,有简单式和加权式两种方法。
1 、简单式。对未分组资料计算标准差时采用此式,其公式为:
2 、加权式。按照分组资料计算标准差时采用加权式,其公式为:
五、标志变动系数(离散系数)
标志变动系数又称离散系数,是用相对数形式表示的标志变异指标。
全距、平均差和标准差是表示标志变异程度的绝对数指标,它们不仅取决于标志值的离散程度,还取决于计算变量值的一般水平。对于不同总体的标志变异程度就不适于直接进行比较,而需要计算标志变动系数,来消除不同总体水平的影响。
标志变动系数公式为:
其中:V代表标志变动系数。
可见,成人组平均身高的代表性要好于幼儿组的。
六、是非标志的标准差
在统计实践中,有时把某种社会经济现象的全部总体单位,分为具有某一标志值的单位和不具有某一标志值的单位两组。
(一) 是非标志的成数
是非标志只有两个标志值:具有所研究的标志值和不具有所研究的标志值。所以通常用成数来表示
其内部结构:
其中: N1 表示具有所研究的标志值的单位数;
N0 表示不具有所研究的标志值的单位数;
N 表示全部总体单位数;
p , q 表示各自在全部总体单位数中所占比重。
又因为: N1 + N0 = N
则: p + q = 1
(二) 是非标志的平均数和标准差
非标志的标志值数量化:具有所研究的标志值“是”或“有”用 1 来表示;不具有所研究的标志
值“非”或“无”用 0 来表示。
则是非标志的平均数为:
是非标志的标准差为:
例 9 一批苹果有天水运抵天津港,随机抽出 200 箱检验,有 4 箱不符合要求,试问是非标志的平均数和方差各为多少?
解:
第三节 偏态和峰度的测定
一、偏态
(一)偏态的概念
偏态反映次数分布的非对称程度。
偏态通常分为两种:右偏(或正偏)与左偏(或负偏)。它们是与对称分布为标准相比较而言的。在对称分配的情况下,算术平均数与中位数、众数是合而为一的;在偏态分配的情况下,它们是分离的。如果算术平均数的数值大于众数的数值,即:算术平均数在众数的右边,则称为右偏(或正偏)。 如果算术平均数的数值小于众数的数值,即:算术平均数在众数的左边,则称为左偏(或负偏)。
(二)偏态的测定方法
1 、算术平均数和众数比较法
偏态系数
2 、动差法
统计动差的公式为:
其中: k=1 ,表示集中趋势(算术平均数);
k=2 ,表示离中趋势(方差);
k=3 ,表示偏态;
k=4 ,表示峰度。
偏度
二、峰度
(一)峰度的概念
峰度是指次数分配曲线顶端的尖峭程度。
峰度说明次数分配曲线与正态曲线相比较,是尖顶还是平顶,其尖顶或平顶的程度。峰度通常分为三种:正态峰度、尖顶峰度与平顶峰度。当分配数列的次数比较集中于众数的位置,使次数分配曲线较正态分配曲线更为隆起的,属于尖顶峰度。当分配数列的次数,对众数来说比较分散,使次数分配曲线较正态分配曲线更为平滑的,属于平顶峰度。
(一) 峰度的测定方法
峰度
根据经验, =3 时,次数分配曲线为正态曲线; >3, 为尖顶曲线; <3 ,为平顶曲线,当 接近于 1.8 时,曲线接近水平直线。 |