统计工作的三个中心阶段:统计调查、统计整理、统计分析
统计调查——有组织、有计划地搜集资料。要求:准确、完整、及时。统计调查所搜集的数字资料主要是原始资料,同时也包括对次级资料的搜集 统计调查的基本要求:准确(实事求是)、及时、完整(调查单位的完整和统计资料的完整)。 一、调查组织方式(按调查单位的范围大小分为) 1、全面调查(全部单位一一加以调查) (1)统计报表制度(制度化的经常性调查):由政府部门组织,采用统一的表格,自上而下布置,自下而上报告;搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务;精心周密设计、高度统一、规范。回收率高,内容相对稳定,便于资料积累、对比。层层上报、逐级汇总,可以满足各部门需要。以真实性准确的原始记录和核算资料为基础,按照国家统一规定的表格形式搜集统计资料的一种调查方式。 分类:基本统计报表、专业统计报表(性质);定期报表、年报(时间);基层报表、综合报表(单位)
(2)普查(专门组织调查):工作量大,时间性强,需要大量人力和财力;搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据;建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料发表调查;规定统一的标准时点 规定统一的普查期限。规定调查的项目和指标 2、非全面调查(专门组织调查,一部分单位)
(1)重点调查:在总体中选择个别或部分重点单位进行调查。重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重;及时了解总体基本情况,为主管部门指导工作服务。一次性调查;专门设计和配备人员现场调查。经常性调查;同报表制度结合,用统计报表调查。
(2)典型调查:在全面分析的基础上,有意识地选择代表性的典型单位进行现场调查;为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的本质特征、因果关系、变化趋势。为理论和政策性问题研究提供依据;适宜于研究处于萌芽状态事物和倾向性问题;适宜于分析事物的类型,它们之间的差别和关系;“„解剖麻雀‟;„ 划类选典‟;„抓两头‟”。 (3)抽样调查:按随机原则(指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会)从总体中抽取样本;以样本指标(统计量)为依据推断总体参数或检验总体的某种假设;抽样误差可以事先计算并加以控制。 抽样调查的组织方式:
简单随机抽样(纯随机抽样):将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小 类型抽样(分层抽样):将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。 等距抽样(机械抽样):将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。 整群抽样-----方法:将总体全部单位分为许多个““群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有单位登记调查。
多阶段抽样例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从省内部县中抽取5个县,第二阶段:从抽中的5个县中各抽4个乡,第三阶段:从抽中的20个乡中各抽5个村,第三阶段:从抽中的20个乡中各抽5个村,样本n=100×10=1000(户) 抽样方法:
放回抽样:抽出样本单位登记后放回总体,再抽时总体不变
不放回抽样:抽出样本单位登记后不放回总体,再抽时总体渐次减少 二、调查方案设计
1、方案内容:确定调查目的;确定调查对象和调查单位;拟订调查提纲;确定调查时间;编制调查的组织计划 2、调查表、问卷设计:
(1)调查表:单一表(又称卡片式,是指一张表只登记一个单位情况的表式; 例:《工业企业统计报表》);一览表(一览表是把多个调查单位和相应的项目按次序登记在一张表格里的统计表。 例:《人口普查登记表》) (2)问卷设计:
问卷结构:说明词 + 主题词句 + 作业记录
基本要求:主题明确,形式简明,文字通俗,容易理解,便于回答。词句编排,层次分明,先易后难。
问卷形式①开放式词句,②对选式词句,③多项选择式词句,④顺位式词句,⑤标度式词句 三、统计调查质量控制:准确、快速、完整、精练
统计误差:指统计调查结果所获得的统计数字与客观事物实际数值的差别。
1、登记性误差:亦称调查工作误差,是指调查登记以及资料汇总中由于主客观原因而引起的误差。 如:计算错误、抄录错误、汇总错误而产生的误差,由于遗漏或重复登记而产生的误差等等。登记误差在全面调查和非全面调查中都有可能发生。偶然性登记误差、系统性登记误差。
2、代表性误差:指在非全面调查中,利用部分单位资料推断总体资料时所产生的误差。 (1)偏差:指没有严格遵守随机原则 而产生的系统性误差。
(2)随机性误差:随机性误差是指遵循随机原则,但由于抽取的样本不同而产生的误差即为随机性误差。随机性误差是不可避免的。
登记性误差
调查误差 编 差
代表性误差 实际误差 随机误差
抽样平均误差(统计推断中的抽样误差就是抽样平
均误差。它是处于调查所固有的,是对抽样推断精确度的量度) 3、影响抽样误差的因素:样本容量;总体内部差异;抽样方式
第二节 统计整理与显示
统计整理——对调查资料去伪存真、去粗取精、科学分类、浓缩简化 主要任务:资料审核、分组、汇总、制表(图)等。 一、数据的预处理:
1、数据的审核:检查数据中的错误。完整性审核、准确性审核(逻辑检查――从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,主要用于对分类和顺序据的审核;计算检查-―检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于对数值型数据的审核) 2、数据的筛选:找出符合条件的数据。(当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选,将某些不符合要求的数据或有明显错误的数据予以剔除,将符合某种特定条件的数据筛选出来) 3、数据排序:升序和降序;寻找数据的基本特征。
基本问题:要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的。对分类数据和顺序数据主要是做分类整理;对数值型数据则主要是做分组整理;适合
于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。 二、数据的整理与显示:
(一)分类数据的整理与显示:
1、基本过程:列出各类别、计算各类别的频数、制作频数分布表、用图形显示数据。 频数――――落在各类别中的数据个数
比例――――某一类别数据占全部数据的比值
百分比――――将对比的基数作为100而计算的比值 比率―――不同类别数值的比值
2、分类数据的图示—条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形 ;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。
例题1:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”商品广告;服务广告;金融广告;房地产广告;招生招聘广告;其他广告。
人数(人) 广告类型 比例 频率(%)
112 0.560 56.0 商品广告 3、分类数据的图示—饼图:也称圆形图,是用圆
51 0.255 25.5 服务广告 形及圆内扇形的角度来表示数值大小的图形;主
9 0.045 4.5 金融广告 要用于表示总体或样本中各组成部分所占的比
16 0.080 8.0 房地产广告 例,对于研究结构性问题十分有用;绘制圆形图
10 0.050 5.0 招生招聘广告 时,总体中各部分所占的百分比用园内的各个扇
2 0.010 1.0 其他广告 形角度表示,这些扇形的中心角度,是按各部分
200 1 100 合计 数据百分比占3600的相应比例确定的。
(二)顺序数据的整理与显示:
1、累积频数:各类别频数的逐级累加。累积频率:各类别频率(百分比)的逐级累加。
例题分析:在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意? 甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 向上累积 户数 百分比 户数 百分比 (户) (%) (户) (%) 24 108 93 45 30 300 8 36 31 15 10 100.0 24 132 225 270 300 — 8.0 44.0 75.0 90.0 100.0 — 向下累积 户数 百分比 (户) (%) 300 276 168 75 30 — 100.0 92 56 25 10 — 非常不满意 不满意 一般 满意 非常满意 合计 2、顺序数据的图示—累计频数分布图 3、环形图:环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示,环形图与圆形图类似,但又有区别:圆形图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环;环形图可用于结构比较研
究 ;环形图主要用于展示分类和顺序数据。 例题分析: (三)、数值型数据的整理: 1、分组作用:(1)划分现象类型(例:按所有制性质划分,我国现有8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济);(2)研究总体结构:例:上海市按GDP计算的三次产业结构(%)
1980年 1990年 1996年 1997年
GDP 100 100 100 100 第一产业 3.2 4.3 2.5 2.3 第二产业 75.7 63.8 54.5 52.2 第三产业 21.1 31.9 43.0 45.5
(3)研究现象之间的依存关系:中国农民家庭按收入分组的恩格尔系数(1984年) 按收入分组(元) <200 <300 <400 <500 <600 <800 <1000
恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6
2、分组标志的选择与分组形式:关键:服从研究任务需要,反映总体本质特征
数量标志分组
按分组标志性质分
品质标志分组
形式 简单分组
按分组标志个数分 复合分组
分组体系
4、分组的方法:频数分布(分布数列)是一种重要的分组资料,反映总体单位在各组的分布状态。(分布数列)分类:
品质数列
变量数列 单项数列 等距数列
组距数列
异距数列
变量数列的编制:
(1)计算极差 单项数列:离散型且取值不多。 (2)确定形式
组距数列:离散型且取值多或连续型
(3)组距数列:组距;组数;
(4)计算各组频数,频率,累计频数,累计频率等。 (5)组中值的计算:闭口组;开口组
单变量值分组:将一个变量值作为一组;适合于离散变量;适合于变量值较少的情况。
组距分组(要点):将变量值的一个区间作为一组,适合于连续变量;适合于变量值较多的情况;需要遵循“不重不漏”的原则;可采用等距分组,也可采用异距分组。 组距分组步骤:
确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按
lgn美国统计学家斯特吉提Sturges 提出的经验公式来确定组数
K1 K3.322logN(N为数据个数))lg2确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小
值及所分的组数来确定,即组距=( 最大值 - 最小值)÷ 组数 统计出各组的频数并整理成频数分布表 组距分组(几个概念):
下限:一个组的最小值;上限:一个组的最大值;组距:上限与下限之差;组中值:下限与上限之间的中点值。
频数分布表的编制(例题分析):某电脑公司2006年前四个月各天的销售量数据(单位:台)。试对数据进行分组。
lg(120)K1810确定组数:根据 Sturges 提出的经验公式得组数K为:
lg(2)确定各组的组距:组距=( 237 - 141)÷ 10=9.6 10 用Excel制作频数分布表
等距分组表(上下组限重叠):
等距分组表(上下组限间断):
等距分组表(使用开口组)
组距分组与异距分组(在表现频数分布上的差异): 等距分组:各组频数的分布不受组距大小影响;可直接根据绝对频数来观察频数分布的特征。 异距分组:各组频数的分布受组距大小不同的影响;各组绝对频数的多少不能反映频数分布的实际状况,需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。 (四)数值型数据的图示:
1、分组数据—直方图(用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,直方图下的总面积等于1)和折线图(折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉,折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的)。
2、 未分组数据—茎叶图(用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成, 其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。对于n(20 n 300)个数据,茎叶图最大行数不超过L = [ 10 × lg(n) ] 。茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息)和箱线图(用于显示未分组的原始数据的分布,箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成,其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU),连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 )
3、时间序列数据—线图:时间一般绘在横轴,指标数据绘在纵轴,图形的长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。
3、 多变量数据—雷达图:显示多个变量的图示方法,在显示或对比各变量的数值总和时十 分有用,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比。可用于研究多个样本之间的相似程度。设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是:先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。
数据类型及图示(小结):
品质数据数值型数据
汇总表分组数据原始数据时序数据多元数据
数据的类型条形图饼图环形图直方图折线图茎叶图箱线图线图雷达图
因篇幅问题不能全部显示,请点此查看更多更全内容