第五章 抽样估计
第一节 抽样估计的意义和作用
一、抽样估计的意义
(一)抽样估计的概念
抽样估计——是按随机原则,从全部研究对象中抽取一部分单位进行观察,并根据样本的实际数据,对总体的数量特征作出具有一定可靠程度的估计和判断,从而达到对全部研究对象的认识的一种统计方法。抽样估计的中心问题是如何根据已知的部分资料来估计未知的总体情况。
(二)抽样估计的特点
1 、抽样估计是按随机原则抽选调查单位。抽中的单位具有较大的代表性。
随机原则——是指在抽取调查单位时,总体中的每个单位都有同等被抽中的机会,抽选与否纯粹是偶然事件。
2 、抽样估计是用样本的指标数值去推算总体的指标数值。
3 、抽样估计可以将抽样误差控制在一定的范围以内,以保证抽样推断的结果达到预定的可靠程度的要求。
二、抽样估计的作用
(一)对某些不可能进行全面调查的无限总体,而又要求反映其全面情况的总体现象,必须采用抽样估计的方法。
(二)对某些属于破坏性或消耗性产品质量的检查只能进行抽样估计。
(三)对某些不必要进行全面调查的现象总体可以利用抽样估计法取得资料。
(四)抽样调查可以对全面调查资料进行验证,并以此作为修正数字的参考。
(五)抽样估计法可以用于生产过程的质量控制。
(六)利用抽样估计原理,可以对某些总体的假设进行检验,判断真伪,为制定决策提供依据。
三、抽样估计法的理论基础
从数量关系上讲,抽样估计是建立在概率论的大数法则和中心极限定理基础之上的。
大数法则证明:如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数 n ,可以用几乎趋近于 1 的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对于任意的正数 a 有:
其中:
i 为抽样平均数;
为总体平均数;
n 为抽样单位数。
即随着抽样单位数 n 的增加,抽样平均数 有接近于总体平均数 的趋势,或者说,抽样平均数 在概率上收敛于总体平均数 。
概率论中的中心极限定理,论证了对任意分布总体,随着抽样单位数 n 的增加,抽样平均数的分布便趋于正态分布。
第二节 概率与概率分布
一、概率的概念及其计算方法
概率是用以衡量随机事件出现的可能性大小的一种尺度。
随机事件——在一定条件下进行某项目实验,某事件 A 可能发生,也可能不发生,则事件 A 就称作随机事件。
设有一种试验全部可能出现的基本情况有 n 种,则称该试验是由 n 个基本事件所构成。若每个基本事件出现的可能性都相同,且我们所关心的事件A是由其中 m(m ≤ n) 个基本事件构成的,则事件A出现的概率为 m/n ,记为:
P( A ) = m/n
也就是说,随机事件中某一结果发生的次数占所有结果发生的次数的比率就是该结果发生的概率。
概率是一个界于0与1之间的分数。
概率依其不同的计算方法,可以分为古典概率、试验概率和主观概率。
古典概率——是无需经过任何统计试验即可计算各种可能发生结果的概率。
试验概率——是根据大量的、重复的统计试验结果计算随机事件各种可能发生结果的概率。
主观概率——是依据个人对随机事件的认识,主观地确定随机事件中各种可能发生结果的概率。
二、概率分布的概念和种类
( 一 ) 概率分布的概念
概率分布是由随机变量的所有可能取值或随机事件中所有可能发生的结果( Xi )及其相应的概率( P ( Xi ))组成,它反映了随机变量取值或随机事件中各种结果的分布状况和分布特征。
任何概率分布都满足如下两个要求:
第一,随机变量任一取值的概率都界于0与 1 之间,即:
0 < P( Xi ) < 1
第二,随机变量各个可能取值的概率之和等于1,即:
ΣP( Xi ) = 1
概率分布可以用表或图来表示,将随机变量的各个可能取值及其相应的概率列于表上,即是概率分布表。
(二)概率分布的种类
按随机变量性质的不同:
1 、数量型随机变量的概率分布
( 1 )离散型
根据变量X的概率分布,即可以从概率意义上求得X的期望(均值)与方差。
( 2 )连续型
连续型随机变量的概率分布,可以用连续型随机变量X取值区域内的各段区间及其概率来表示。
2 、品质型随机变量的概率分布
三、两种常见的概率分布
(一)二项分布
二项分布是重复抽样的概率分布。如果在相同条件下进行 n 次相互独立的试验,其结果构成一个容量为 n 的样本,每次试验只可能出现两种情况: A 与(是A的对立事件),其中A出现的概率为 q ,出现的概率为 p ,则样本中包含A事件的个数X是一个随机变量。
在一次试验中, A 事件出现概率为 q ,不出现的概率为 p ,那么在连续 n 次试验中,A事件共出现 k 次的概率为:
(k=0,1,2, …,n)
由于这一分布的概率与二项式( q+p ) n 的展开式各项相同,所以通称为二项分布。
根据二项分布概率,可求得其期望与方差。
二项分布具有以下特点:
1 、二项分布的概率开始随 x 的增加而变大,到达最大可能值后,又随 x 的增加而下降。当试验次数 n 为偶数时,二项展开式项数为奇数,因而有一项最大值;当 n 为奇数时,二项展开式项数为偶数,此时有两个最大值。
2 、当A事件出现的概率与不出现的概率相等时,即 ,二项分布完全对称,整个分布呈一钟型。随着 n 的不断增加,此钟型趋于一条光滑曲线,称之为正态分布曲线。
3 、若事件 A出现的概率与出现概率不相等,即 ,则概率分布不对称而向左右偏斜。但若试验次数 n 充分大时,概率分布则不断趋于正态分布。
(二)正态分布
二项分布 --- 属于离散型随机变量的分布 ;
正态分布 --- 属于连续型随机变量的分布。
1 、正态分布的密度函数 f ( x )为:
正态分布具有如下性质:
(1)对称性。以X = 为对称轴,曲线完全对称地向两边伸展。
(2)非负性。密度函数 f( X ) 均处于 0X 轴上方。
(3)当 X = 时,f(X)值最大。
(4)在X = ±δ处,为f( X )曲线的拐点。
(5)当X→∞时,f(X)→0
2 、正态分布的标准化。
正态分布函数为:
令新的随机变量为:
可得到标准正态分布的函数为:
标准正态分布函数F(t)是t的函数,给定t值就有相应的F(t)。
例如:t = 1 F(t) =68.27%
t = 1.96 F(t) =90%
t = 2 F(t) =95.45%
t = 3 F(t) =99.73%
t = 4 F(t) =99.99%
第三节 抽样估计的基本概念
一、全及总体和抽样总体
(1) 全及总体——简称总体或母体,指调查对象的全部单位,即它是由具有某种共同性质的许多单位组成的。全及总体的单位数通常用N表示。
(2) 抽样总体——简称样本或子样,指在全及总体中按随机原则抽取的那一部分单位所构成的集合体。
样本单位——组成抽样总体的单位,样本单位数亦称样本容量,通常用 n 表示。样本单位数总是大于 1 而小于总体单位数N的,即 1 < n < N。
n/N 称为抽样比例:样本单位数大于等于 30 个 ( n>30 ) 称为大样本;
样本单位数在30个以下( n <30)称为小样本。
二、全及指标和抽样指标
(一) 全及指标——是指根据全及总体各单位标志值计算出来的、反映总体某种属性或特征的综合指标,亦称为总体指标或总体参数。
常用的全及指标有:总体平均数、总体成数、总体标准差和总体方差。
1、总体平均数。代表总体单位数量标志一般水平的指标称为总体平均数或全及总体平均数。它表明变量变动的集中趋势。通常用表示。
其中: X1 , X2 ,…, Xn 为总体中每一个调查单位的取值;
N是总体单位数。
2、总体成数。当总体的一个现象有两种表现时,其中具有某一种表现的单位数占总体单位数目的比重,叫总体成数,亦称全及成数,或简称成数,用P表示。其计算公式为:
其中:N代表总体单位数;
N1 代表具有某一种表现的总体单位数;
N0 代表具有另一种表现的总体单位数;
P,Q代表成数。
∵ N1 + N0 = N
∴
则 Q = 1— P
总体标准差和总体方差。说明全及总体单位之间标志值的变异程度指标,叫做总体标准差,又称全及总体均方差,用δ表示,总体标准差的平方称为总体方差,用δ2 表示。其计算公式为:
(二) 抽样指标——抽样指标是指根据抽样总体各单位标志值计算的综合指标,称样本指标。
常用的抽样指标有:抽样平均数、抽样成数、抽样总体标准差和抽样总体方差。
抽样平均数。代表样本单位数量标志一般水平的指标称抽样平均数或样本平均数,通常用表示。
其中: x1 , x2 ,…, xn 代表样本总体中每一个调查单位的取值; n 代表样本单位数。
抽样成数。在抽样总体中,一个现象有两种表现时,其中具有某一种表现的单位数占抽样总体单位数的比重,叫做抽样成数,亦称样本成数,用 p 表示。其计算公式为:
其中:n代表抽样总体单位数;
n1 代表具有某一种表现的抽样总体单位数;
n0 代表具有另一种表现的抽样总体单位数;
p 、q代表抽样成数。
同总体成数:∵n1 +n0 = 1
∴
则 q = 1-p
3、 抽样总体标准差和抽样总体方差。说明抽样总体之间标志值变异程度的指标,叫做抽样总体标准差,用S表示。抽样总体标准差的平方称为抽样总体方差,简称样本方差,用S2 表示。其计算公式为:
一个全及总体可以抽取许多个样本,而样本不同,抽样指标的数值也各不相同。可见,抽样指标的数值不是唯一确定的。因为抽样指标是样本变量的函数,是随机可变的变量。
全及指标与抽样指标的代表符号
三、重复抽样和不重复抽样
在所研究的总体中抽取样本单位,可采用重复抽样和不重复抽样两种方法。
重复抽样——重复抽样,亦称重置抽样。采用这种方法抽取样本单位的特点是:同一单位有多次被抽中的机会,并且总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。
不重复抽样——不重复抽样,亦称不重置抽样。采用这种方法抽取样本单位的特点是:同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈来愈少。每个单位抽中或抽不中的机会在各次是不同的。
第四节 抽样估计的一般原理
一、抽样估计的特点
(一)抽样估计运用的是归纳推理方法。抽样估计用归纳法推断结论,其正确性必须经过事实的验证。
(二)抽样估计运用的是概率原理。
(三)抽样估计的结论存在着一定的抽样误差,抽样误差范围可以事先通过一定资料计算并加以控制。
二、抽样估计的优良标准
优良的估计,需满足三个要求: 1 、无偏性; 2 、一致性; 3 、有效性。
(一)无偏性——用抽样指标估计总体指标,要求抽样指标的平均数等于被估计的总体指标。 即:
(二) 一致性——用抽样指标估计总体指标,要求其样本的单位数充分大时,抽样指标也充分地靠近总体指标。即:
(三)有效性——用抽样指标估计总体指标时要求作为优良估计量的方差应该比其它估计量的方差小。
由于样本变量 x 和总体变量是同分布的,根据方差性质可知:
这就是说,用抽样平均数 估计总体平均数 ,比用总体的变量 X 估计总体平均数更为有效。
三、抽样误差
由样本估算总体,两者之间总是要出现差距的,这种由样本得到的估计值与被估计的总体未知真实特征值之差,就是误差,即样本指标数值与总体指标数值之间的差数。
|
1 登记性误差 |
|
误差由于产生的原因不同可分为 { |
|
a 偏差 |
|
2 代表性误差
{ |
|
|
|
b 随机误差——抽样误差 |
登记性误差——是指在调查过程中,由于各种主、客观原因的影响而引起的诸如测量错误、记录错误、计算错误、抄录错误,以及被调查者所报不实、指标含义不清、口径不一致、遗漏或重复调查等原因而造成的误差。登记性误差也称为调查误差或工作误差。
代表性误差——是指用部分来代表总体,推算全面时所产生的误差。只有在抽取部分样本单位来代表总体推算全面时,才有这种误差。代表性误差有两种,即偏差和随机误差。
偏差——指没有严格遵守随机原则而产生的系统性误差。
抽样误差——指随机性的代表性误差。
抽样估计中,常用的误差概念有抽样误差、平均抽样误差和极限抽样误差。
(一)抽样误差
抽样误差——就是指随机误差,也就是按随机原则抽样时,在没有登记性误差和偏差条件下,单纯由于不同的随机样本得出不同的估计量,因而产生的样本指标与总体指标之间的离差。
由于总体平均数和成数是唯一确定的,抽样平均数和成数则是随机变量,因而抽样误差也不是唯一确定的,而是随机变量。
影响抽样误差的因素。影响抽样误差大小的因素,主要有以下三种:
( 1 )抽样单位数目的多少。在其它条件不变的情况下,抽样单位数目越多,抽样误差越小;反之,抽样单位数目越少,抽样误差就越大。
( 2 )总体被研究标志的变异程度。在其它条件不变的情况下,总体被研究标志的变异程度越大,抽样误差也越大;反之,总体被研究标志的变异程度越小,抽样误差也越小。
( 3 )抽样方法和组织形式的不同。
A、抽样的方法不同,抽样误差的大小也不同。一般来说,不重复抽样的抽样误差小于重复抽样的抽样误差。
a 单纯随机抽样
B、抽样组织形式有 { b 等距抽样
c 类型抽样
d 整群抽样
不同的抽样组织形式会有不同的抽样误差。由于经过排队和分类,可以缩小标志变异程度,因而抽取相同数目的调查单位,等距抽样和类型抽样的抽样误差会小于简单随机抽样法的抽样误差。
(二)抽样平均误差
抽样平均误差——就是抽样平均数(或抽样成数)的标准差,它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度,通常用 u _ x 或 uP 表示。用以反映抽样误差的一般水平。
在抽样估计中,总是以平均误差作为计算误差范围的尺度。
1、抽样平均数的平均误差。在重复抽样的条件下,抽样平均数的平均误差计算公式为:
其中,代表抽样平均数的平均误差;
δ2代表总体方差;
δ代表总体标准差;
n代表样本单位数。
由上式可以看出:抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数 n ,因为总体标准差δ是不能改变的(它是客观存在的)。
在不重复抽样的条件下,抽样平均数的平均误差计算公式为:
( 当总体单位数N很大时,用N代替N—1。)
将上面重复抽样和不重复抽样的平均误差公式相比,两者相差一个修正系数 ,这个修正系数是大于0而小于 1 的正数。可见,在同样条件下,不重复抽样的平均误差永远小于重复抽样的平均误差,采用不重复抽样方法比采用重复抽样方法的代表性要高。
2 、抽样成数的平均误差。
抽样成数的平均误差的计算与抽样平均数的平均误差的计算原理相同。
成数的标准差 ,所以,成数的方差是 P ( 1 — P )。它有一个特点,即其最大值为 0.25 ( 0.5 × 0.5 ),也就是当两种表现的总体单位各占一半时,它的变异程度最大。
在重复抽样条件下,其计算公式为:
在不重复抽样条件下,其计算公式为:
(当N很大时,以N代替N—1)
同样道理,抽样成数的平均误差也受总体标志变异程度(总体标准差)和样本单位数多少的影响;同时,不重复抽样的误差要小于重复抽样的误差。
在没有总体方差或总体标准差时,可以用样本方差S2 代替总体方差δ2 ,用 p ( 1 — p )代替 P ( 1 — P ),或选用成数方差最大值 0.25 ( P=0.5 )代替。
(三)极限抽样误差
抽样极限误差——是指样本指标与总体指标之间抽样误差的一种可能范围。 即用一定的概率保证抽样误差不超过某一给定的最大可能范围,又叫置信区间。
样本指标是围绕着总体指标左右变动的,两者都可以用绝对值表示为
这种以绝对值表示的抽样误差的可能范围,就称为极限误差,或称为抽样误差范围和允许误差。
抽样极限误差通常用符号“Δ”表示,Δ _ x 为抽样平均数的极限误差;Δ p 为抽样成数的极限误差。由于全及总体平均数和总体成数都是未知的,要求用实测的抽样平均数和抽样成数进行估计,因此,抽样误差范围的实际意义是希望被估计的总体平均数 包含在 ±Δ _ x 的范围内,总体成数P包含在 p ±Δ p 的范围内。即有:
四、抽样误差范围及其估计的可靠程度
(一) 抽样误差范围及其估计的可靠程度
抽样平均误差是衡量误差范围的尺度,它表明抽样估计的准确度;抽样极限误差则表明抽样估计准确程度的可能范围。所以,进行抽样估计不但要考虑其准确程度,还应研究估计的可靠程度。
抽样极限误差通常是以抽样平均误差作为标准来衡量的,用 或 up 分别除 或Δp ,得出相对数t,在数理统计中称t为概率度,表示相对误差范围。用公式表示,即:
抽样极限误差也可以表示为抽样平均误差的若干倍,其倍数即是概率度t。用公式表示如下:
如果把可靠程度即概率用P来表示,那么P就是t的函数,也就是P = F(t),表明概率分布是概率度的函数。
从一个全及总体中连续进行多次抽样,可以得到一系列的样本,分别求出各个样本的平均数(或成数),便可形成一个抽样平均数(或成数)的概率分布。根据中心极限定理证明,不论全及总体是否属于正态分布,只要当抽样总体单位数足够多时(一般以 n >30为标准),则抽样平均数(或成数)的分布,逼近于全及平均数(或成数)为对称中心的正态分布。其主要特点是:
1 、若干个抽样平均数(或成数)大于或小于全及平均数(或成数)的概率分布是完全对称的,亦即正误差和负误差的可能性(即概率)是完全一致的。
2、抽样平均数(或成数)越接近于全及平均数(或成数),其出现的可能性 ( 即概率P ) 越大,反之,越远离全及平均数(或成数),其出现的概率越小,随着概率度t的增大,概率P的数值也随之增大,逐渐接近于1。这说明预定的概率保证程度越大,则抽样推断估计的可靠程度越大。
(二)点估计和区间估计
1 点估计(定值估计)
参数估计的方法有 {
2 区间估计
点估计——是以抽样得到的样本指标作为总体指标的估计值,同时给出极限误差和相应的可靠程度的一种估计方法。定值估计也可以用指出估计值,同时给出估计精度和相应的可靠程度来表示。
区间估计——是根据一定的精确度和可靠程度的要求,用样本指标和抽样误差去推断总体指标的可能范围的一种估计方法。
根据Δ = t · u ,当 u 确定之后,要缩小抽样误差Δ必须缩小t值,但概率保证程度F(t) = P( | — | < t · u = ,又是t的递增函数,如果t值缩小,必然会降低概率保证程度F(t),即估计的可靠性降低。相反,如果要提高估计的可靠性,必须增加t值,而这样做的结果又会使Δ增大,即估计的准确度降低了。
1 、根据已经给定的极限抽样误差范围Δ,求概率保证程度F(t),具体步骤是:
(1)抽取样本,计算样本平均数(或样本成数),作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差 u 。
(2)根据给定的抽样极限误差范围Δ,估计总体平均数(或总体成数)的下限
—Δ _ x_ (或 p —Δ p )和上限 + Δ _ x (或 p + Δ p )。
(3)将抽样极限误差Δ除以抽样平均误差 u ,求出概率度 t 值,再根据t值查概率表求出相应的可信度F(t)。
2 、根据给定可信度F(t)的要求来估计极限抽样误差的可能范围Δ,具体步骤是:
(1)抽取样本,计算样本平均数(或样本成数)作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差 u 。
(2)根据给定的可信度F(t)的要求,查概率表求得概率度t值。
(3)根据概率度和抽样平均误差计算抽样极限误差的可能范围,并据以计算被估计的总体平均数(或总体成数)的上、下限。
五、抽样数目的确定
(一)确定必要抽样数目的原则是:在保证预期的抽样推断可靠程度的要求下,抽取的样本单位数不宜过多
(二) 决定抽样数目的因素
1 、总体被研究标志的变异程度;
2 、 允许误差的大小;
3 、 可靠程度的高低;
4 、 抽样方法与组织形式的不同。
A 抽样方法: 重复抽样需要多抽,
不重复抽样则可少抽;
B 抽样组织形式: 1 )简单随机抽样 2 )类型抽样 3 )等距抽样 4 )整群抽样。
5 、人力、物力和财力的允许条件。
(三)必要抽样数目的计算
在简单随机抽样中,必要抽样数目的计算公式有:
1 、在重复抽样条件下:
(1)平均数的必要抽样数目公式为:
(2)成数的必要抽样数目公式为:
2、在不重复抽样条件下:
(1)平均数的必要抽样数目公式为:
(2)成数的必要抽样数目公式为:
在实际工作中,由于抽样比例一般很小(即很小),虽然采用的是不重复抽样,但仍按重复抽样的公式来计算必要的抽样数目。
根据平均数的公式和成数的公式所计算出的必要抽样数目往往不等,有时甚至相差很大,为了保证抽样推断的准确程度,则应选用其中较大的 n 值。
第五节 抽样组织形式及其误差的计算
一、简单随机抽样
(一)简单随机抽样的概念和特点
简单随机抽样——又称为纯随机抽样,它是对全及总体的所有单位不进行任何分类或排队,而是完全按随机原则从总体所有单位中抽选出样本单位加以观察,保证总体的每个单位都有同等的机会被抽中,即按随机原则直接从含有N个单位的总体中抽出 n 个单位组成样本。从理论上讲,简单随机抽样最符合抽样调查的随机原则,是抽样调查最基本的形式。
简单随机抽样的特点是:方法简便,易于掌握;
局限性:当总体单位数目很大,标志变异程度也大时,则不宜采用。
(二)抽样方法
简单随机抽样通常是用抽签的方法抽取所要调查的单位。具体做法是:将总体各单位编号,然后随机抽取,直到抽够预定数目。可利用随机数表来抽样。
二、类型抽样
(一)类型抽样的概念
类型抽样——又称分类抽样或分层抽样,它是先将总体按主要标志进行分组(或分类),再按随机原则从各组中抽取样本单位的一种抽样组织形式。
(二)抽样方法
类型抽样的样本单位数在各类型之间的分配有两种方法:
1 、不等比例类型抽样法。各类型的样本单位数,可以平均分配,或按各类型组标志变异程度确定应抽的单位数。标志变异程度大的组多抽一些单位;标志变异程度小的组就少抽一些。这样,各组的抽样比例是不相等的。
2、 等比例类型抽样法。是按照类型的大小等比例分配样本单位的方法。即:
所以各组的样本单位数应为:
采用等比例抽样,可以避免样本平均数由于各组比重差异而引起的误差。由于等比例类型抽样法对样本单位的分配比较合理,在实际工作中应用较多。
(三)类型抽样的误差计算
类型抽样平均误差公式如下表所列:
三、等距抽样
(一)等距抽样的概念
等距抽样——又称为机械抽样或系统抽样,它是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。等距抽样是不重复抽样。
(二)抽样方法
1、无关标志排队法。是指总体单位采用与调查项目没有关系的标志进行排队的方法。无关标志排队法的具体工作比较简便,所以实际工作中经常应用。
2、有关标志排队法。是指总体单位采用与调查项目有关的标志进行排队,并根据总体单位数和样本单位数计算出抽选间隔(或称抽选距离),然后按一定的间隔抽选样本单位。其计算公式为:
式中: k 代表抽样距离,又称抽样间隔。
第一个样本单位的取得:
( 1 )如果是按无关标志排队,可以从第一个间隔内的任意一个单位开始抽取,
( 2 )如果是按有关标志排队,考虑到样本单位的代表性,一般是从第一间隔内居中的单位开始抽取。
(三)等距抽样的误差计算
通常是用简单随机抽样的误差公式来计算按无关标志排队的等距抽样的平均误差;用类型抽样的误差公式来计算按有关标志排队的等距抽样的平均误差。
四、整群抽样
(一)整群抽样
整群抽样——又称集团抽样,它是先将总体各单位划分成若干群,再以群为单位从中随机抽取出若干群来,对被抽中群的所有单位进行全面调查的一种抽样组织形式。
(二)抽样方法
在组织整群抽样时,首先,对所要研究的全及总体根据需要划分出群的单位。其次,把各群按时间顺序或空间顺序排列编号。最后,可按简单随机抽样或等距抽样的方法抽取样本群。
(三)整群抽样的误差计算
整群抽样都采用不重复抽样的方法,其计算公式为:
其中:R为总体的群数;
r为样本的群数;
δ2为群间方差;
为样本平均数;
i 为第 i 群的样本平均数( i = 1 , 2 ,…,r)。
五、多阶段抽样
(一)多阶段抽样的概念
多阶段抽样——是指在抽样时先从总体中抽取某种更大范围的单位,再从中选的大单位中抽取较小范围的单位,逐次类推,最后从更小范围单位中抽选样本的基本单位,分阶段完成抽样的组织工作。当总体很大时,抽样调查要直接抽选总体的基本单位在技术上有很大困难,一般都要采用多阶段抽样方法。 例如,我国农产量抽样调查:
省抽县→县抽乡→乡抽村→村抽地块→地块抽具体的样本点→样本点测框。
又如,我国职工家计调查:
调查城市→调查单位→抽选职工→调查户→生活费收支情况。
多阶段抽样的特点:组织工作较复杂; 样本的代表性较高;可节约人力、物力和财力。
(二)多阶段抽样的误差计算
在多阶段抽样中,前几个阶段的抽样,都类似整群抽样,最后一个阶段类似类型抽样或等距抽样。每个阶段抽样都会存在抽样误差,因此,多阶段抽样的抽样误差是各阶段抽样误差之和。
例如,两阶段抽样,第一阶段,从总体全部组 R 中抽取部分组 r ;第二阶段,抽取的部分组的全部单位 M 中抽取部分单位 m 。
则样本的平均数 :
两阶段抽样的平均误差是由两部分构成的:第一部分是第一阶段从总体全部组抽部分组所引起的组间误差;第二部分是由第二阶段在中选的组中抽部分单位所引起的组内平均误差。在总体R组中抽取 r 组,又在 r 组中每组M个单位抽取m单位的情况下,样本平均方差 等于组平均数组间方差的 以及各组内方差平均数的 两项之和。再考虑阶段抽样是不重置抽样,各项还必须乘以各自的修正系数,所以样本平均数的抽样平均误差 u _ x 为:
式中: |
为组(群)平均数的组(群)间方差; |
|
为各组(群)内方差的平均数。 |
应用以上公式,在得不到总体资料的情况下,可以用样本资料来代替。
若是更多个阶段抽样,则每增加一个阶段抽样,其抽样误差计算公式中便相应增加一项群的抽样误差。
|