引例: O’Brien et al. (1995) 对Philadelphia地区的病人进行抽样, 目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。
等概率的抽取样本医院的缺点? 首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用
等概率简单估计量可能会有大的方差。 其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要
去一家医院,并且合理分配调查人员的工作负担也是比较困难的。 第三,调查成本在调查开始的时候是未知的,一个40个医院的样本可能包括了主
要的大的医院,这会导致比预计更大的成本。 其他办法? 1、调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。
2、如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?
3、而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。
4、分层抽样:抽样选择概率小的单位会有较高的权数。
5、采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。 抽样的关键是每个样本的选择概率是已知的。
P(单元i在第一次抽取中被抽中)=i P(单元i被选入样本)=i
一、不等概率抽样适用情况
第一,抽样单元在总体中所占的地位不一致。第二,调查的总体单元与抽样总体的单元不一致。第三,改善估计量。不等概率抽样的优点主要是大大提高了估计精度,减少抽样误差,但使用它也由条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须得。
二、不等概率抽样的分类 1、放回不等概率抽样
每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,然后进行下一次抽样,这样,每次抽样过程都是从同一个总体独立进行的,这种不等概率抽样称为(有)放回不等概率抽样。由于是放回的,因此某个单元可能在样本中出现多次,出现这种情况时,对这个单元的调查只进行一次,但计算时按抽样中几次计算几次的原则进行。
放回不等概率抽样中,最常用的是按照总体单元的规模大小来确定单元在每次入样的概率。假设总体中第i个单元的大小或规模的度量为Mi,总体的总规模
M0为:
MiMNi这种不等概率抽样称作放回的与规模大小成比例的概率抽M0Mii1样(probability proportional to size),简称PPS抽样。
PPS抽样的实施主要有两种方法:代码法与拉希里法。 (1)代码法
在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都产生一个[1, M0]之间的随机数,设为m,则代码所对应的单元被抽中。如此进行n次抽取,就构成了PPS抽样的样本。如果Mi不是整数,则乘以某个倍数,使M0Zi为整数,每个单元赋予与M0Zi相等的代码数,然后进行代码法抽样。
例1,设某个总体有N=10个单元,相应的单元大小Mi及其代码如下表所示,用PPS方法抽取一个n=3的样本。 i 1 2 3 4 5 6 7 8 9 10 Mi Mi10 累计Mi10 6 151 166 303 381 531 631 667 727 738 代码 1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738 0.6 14.5 1.5 13.7 7.8 15 10 3.6 6 1.1 M073.8 6 145 15 137 78 150 100 36 60 11 738 表中的Mi10是由于Mi不是整数,乘以某个倍数后M0Zi变为整数,这样就可以给每个单元赋予与M0Zi相等的代码数,然后实施代码法抽样。先在[1,783]中产生第一个随机数为354,再在[1,783]中产生第二个随机数为553,最后在[1,783]中产生第三个随机数为493,则所对应的第5、7、6号单元被抽中。 (2)拉希里法
不需要累计,两次随机数决定抽中的单位。第一次:1-N之间的随机数i;第二次:1-max{Mi}之间的随机数m如果Mi>m,第i个单位被抽中。
在例1中,max{Mi}=150,N=10,在[1,10]和[1,150]中分别产生(n,m): (3,120), M3=15 对于不放回不等概率抽样,样本的抽取可以有以下几种方法: (1)逐个抽取法;(2)重抽法;(3)全样本抽取法;(4)系统抽样法 不放回不等概率抽样中,假设总体中第i个单元被包含到样本的概率用i表示(inZi),如果包含概率i与单元规模大小成比例,这种不放回不等概率抽样称为PS抽样。 三、有放回不等概率整群抽样估计量 对于有放回不等概率抽样选样本容量为n的样本,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计。总体总量的估计量为样本中所有yiZi的平均。 1nyiˆYHH(是总体的无偏估计)------(1) ni1Zi Mi1nyiM0ˆ如果采用PPS抽样,即Zi,则:YHHM0ni1Zinyi Mi1in注意到(1)式的估计量是n个独立观测的平均值,每个单元的总值估计量方差是 YiYi1N2ˆˆˆZ(Y)V(Y)Z(Y)2。 YV(Y),所以的方差为: iHHiHHHHZini1Zii1N11nyiˆ2ˆˆV(YHH)的无偏估计为:v(YHH)(YHH) nn1i1Zi如果采用的是PPS抽样,则 2nnˆ2yMyiY112i0ˆˆv(YHH)(YHH)(HH) nn1i1Zin(n1)i1MiM0例2,某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下所示: i 1 2 3 4 5 6 7 8 9 Mi yi i 10 11 12 13 14 15 16 17 18 Mi yi i 19 20 21 22 23 24 25 26 27 Mi yi 38.23 10926 13.7 0.75 2.85 2 5 10.8 2 8.81 1024 13 30 1102 600 290 430 992 5.5 15 7 15 12.3 3.85 15.8 9 21 1900 864 17 1045 220 4600 2370 940 640 1.5 10 8 80 28.42 13672 9.01 0.75 5 28.43 9.97 5.2 3845 480 311 9284 842 510 说明:标明“*”的样本单元被抽中两次,在估计时要计算两次;Mi为企业去年完成的产量(单位:万吨);yi为企业当月完成的利润(单位:百元) 根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%的置信度下,估计的相对误差。如果要求在相同的条件下相对误差达到20%,所需的样本量应该是多少? 解:由上述条件知n=30, M0=3676,估计当月完成的利润: ˆYHHM0nyi367610926109261024510()757087(百元) M3038.2338.2313.76.2i1inˆ的方差及标准差估计: YHH2nˆ2MyiY0ˆv(YHH)(HH)n(n1)i1MiM036762109267570872102475708725107570872[()2()()]302938.23367613.736766.236763676267306.430317005145.830ˆ)v(Yˆ)174118(百元) s(YHHHHˆ的相对误差: 在置信度为95%时候,对应的t=1.96, YHHˆ)s(Y174118HHrt1.9645% ˆ757087YHH因此,在置信度仍为95%,相对误差r120%时,所需样本量为: r20.452n12n()30152 0.2r1四、不放回不等概率抽样 在不放回不等概率抽样中,每个单元入样的概率i及任意两个单元同时入样的概率ij统称为包含概率。 1对固定的n,包含概率满足:in,ij(n1)i,ijn(n1), 2iji1j1i1NNNN特别地,如果每个单元入样概率与其大小或规模的度量Mi严格成比例,记 ZiMiM0,则对于固定的n,有inZi。这种情形的抽样为严格的PS抽样。 1、Horvitz_Thompson估计量 对于不放回不等概抽样,对总体总量Y的估计采用Horvitz_Thompson估计: nnnyiyiˆˆYHT,i为第i个单元的包含概率。式中,还可以有,YHTWiyi, i1ii其中:Wi1i。 ˆ是Y得无偏估计,它的方差为: 如果i0(i1,2,,N),则YHT ˆ)1iY22V(YHTiNNNi1ii1jiijijYiYj ijˆ)()(Y/Y/)2 如果n固定,则:V(YHTijijiijji1jiNNYiˆV(Y)(i1,2,,N)之间的由方差表达式可知,要使估计量的方差HT小,应使 i差别尽可能小。 ˆ)的无偏估计为: 如果i0,ij0(i,j1,2,,N;ij),则v(YHTˆ)1iy22v(YHTinnni1ii1jiijijyiyj ijijˆ)也可用耶茨、格伦迪和森提出的: 如果n固定,则v(YHTˆ)vYGS(YHTi1jinnijijyiyi2(),这个也是无偏估计。 ijij2、其他公式在某种程度上可用HH,HT表现 ˆNy(等概抽样),在SRS等概抽样条件下,每个单元例如:在SRS中, Yinnn1NNˆ包含概率是i,Wi,则YHTWiyiyi;又如,对于HT估计量Ninnˆyi,在入选概率与规模成比例条件下,的性质为nZ,则 YiiiHTinyi1nyiˆˆYHTYHH nZinZi五、PS抽样的实施 (1)n=2条件下严格的πPS抽样:布鲁尔方法、德宾方法 (2)n>2条件下严格的πPS抽样:水野方法 (3)n>2条件下非严格的πPS抽样:莫蒂方法 1、布鲁尔方法 条件:所有Zi<0.5。逐个抽取:第一个与 Zi(1Zi)成比例的概率抽取;第二个 12Zi与 Zi成比例的概率在N-1个单元内抽取。 1Zj2、德宾方法 条件:所有Zi<0.5。逐个抽取:第一个与Zi成比例的概率抽取;第二个与 Zj(11)成比例的概率抽取。 12Zi12Zj3、水野方法 总体差异不要太大,Zin1。 n(N1)*逐个抽取:关键:第一个单元与Zi(余的N-1个单位不放回等概抽取。 n(N1)Zin1)成比例的概率抽取,剩 NnNn4、莫蒂方法 逐个抽取:第一个单元按照Zi的概率抽取,第二个单元按照 Zi的概率抽取,1Zj第三个单元按照 Zk的概率抽取,依次递推,直至第n个单位。 1ZiZjPr(S/i)yiˆ估计量:YM Pr(S) 因篇幅问题不能全部显示,请点此查看更多更全内容