740 likes | 910 Views
政府统计数据质量管理体系: 构建、应用. 傅德印. 主要观点. 准确性≠数据质量: 政府统计数据质量内涵广泛 政府统计数据质量管理体系 是政府统计体系的重要组成部分 政府统计数据管理体系应包括: 统计数据质量控制技术体系 统计数据质量保证体系 结束语. 准确性 ≠ 政府统计数据质量. 统计数据质量是质量一般涵义与统计工作及其结果具体相结合而产生的范畴。 人们对统计数据质量的认识经历了由浅入深的过程。 统计数据质量研究的三个阶段 统计数据质量研究的主要内容 对统计数据质量涵义的界定. 统计数据质量研究三个阶段进程.
E N D
主要观点 • 准确性≠数据质量:政府统计数据质量内涵广泛 • 政府统计数据质量管理体系是政府统计体系的重要组成部分 • 政府统计数据管理体系应包括: • 统计数据质量控制技术体系 • 统计数据质量保证体系 • 结束语
准确性≠政府统计数据质量 • 统计数据质量是质量一般涵义与统计工作及其结果具体相结合而产生的范畴。 • 人们对统计数据质量的认识经历了由浅入深的过程。 • 统计数据质量研究的三个阶段 • 统计数据质量研究的主要内容 • 对统计数据质量涵义的界定
统计数据质量研究三个阶段进程 • 第一阶段(20世纪初-30、40年代),统计数据质量研究主要是围绕着调查数据的准确性、样本的代表性,沿着两条思路展开的。 • 一是调查数据准确性与抽样误差 • 二是调查数据准确性与非抽样误差 • 第二阶段(20世纪40年代-70年代),统计数据质量的研究是围绕着统计调查误差模型的建立及由此展开的专项研究展开的。 • 第三阶段(20世纪70年代-现在),统计数据准确性的研究继续深化,同时,质量的涵义扩大,对统计数据质量的研究发展到如何建立有效的保证、控制、评估体系。 • 一是统计数据准确性的研究得以深化 • 二是统计数据质量管理及控制成为政府统计研究的热点
国内外关于统计数据质量研究的主要内容 • 误差的来源、分类以及如何对误差(质量)文档及监测的研究。误差分布以及误差模型的研究。 • 统计调查设计质量与规范的研究(如问卷设计、调查规模、分组体系、保密问题)。对统计数据搜集目的的研究。用户的最初要求,潜在用户及潜在需求的研究。调查实施计划框架充分性的研究。对调查过程的综合概括以及对统计数据质量环的研究。 • 统计数据搜集质量的研究(如回答者误差、访问员误差、调查方式的影响、数据搜集质量的测量、新技术对统计调查及其数据质量的影响)。数据搜集系统的问题及处理。普查抽样调查有机结合的研究。
国内外关于统计数据质量研究的主要内容 • 统计数据处理及操作质量的研究(如编码、误差手册、自动编码、数据录入质量、数据编辑、数据处理质量及改进、数据处理过程的控制系统)。 • 质量评估和控制的研究(如调查质量的测量、数据质量评估方法、调查误差模型及分析、误差文档及监测、用户的质量评价、质量管理)。数据质量的测量与控制方法的研究。统计数据报告内容及结构的研究。 • 数据误差对参数估计,统计分析的影响(分析、评估误差对数据建模的影响及表现方式)。调查误差对数据质量的影响及分析。参数估计的准确性及精确性。探索性数据分析和模型识别技术的应用。奇异值诊断方法和数据编辑技术的应用。不完整数据处理计划和实施。
国内外关于统计数据质量研究的主要内容 • 统计数据质量与调查费用及调查效率的研究。 • 统计数据质量改进中的问题及对策研究。提高统计数据质量的管理步骤。统计理论与实际工作者如何提供支持管理者决策的统计数据。统计数据内部一致性,外部一致性的检验。统计数据文件、统计资料的管理。 • 目前统计数据质量控制的成功经验。目前统计数据的质量水平。统计数据质量理论研究成果与统计数据质量改进实践相结合的研究。 • 显然,从一般的误差理论,到调查数据的误差理论;从抽样误差到非抽样误差;从单纯的数据误差与准确性到数据的综合质量;从民间统计数据质量到政府统计数据质量;从统计数据质量的事后检验、控制到统计数据质量的事前保证;从统计数据质量的保证与控制技术到政府统计数据质量的管理;从理论到实践等都有研究。
对统计数据质量的界定 • 界定统计数据质量涵义的原则 • 统计数据质量应建立在一般质量广义概念的基础上。 • 不同类型统计数据以及不同统计机构的统计数据质量涵义的侧重点是不同的。 • 总之,统计数据质量涵义的界定,要体现统计数据自身的质量要求,统计工作各方面各环节的要求,以及具体问题、具体层次、具体部门的统计数据质量涵义的要求。
对统计数据质量涵义的界定 • 从统计数据自身特性上看,统计数据质量是指数据的准确性、全面性、系统性及一致性 。 • 从统计数据与统计工作的关系上看,统计数据质量特性应包括目的性(相关性,适用性)、时效性、保密性、经济性(成本)等。(如图) • 从统计工作过程保证统计数据质量的关系上看,统计数据质量还应包括,统计设计质量,统计调查质量,统计整理质量,统计分析质量以及统计服务、咨询、监督质量。 • 从具体问题和具体层次上看,政府统计、企业统计、民间统计的数据质量特性具有不同的侧重点。 以上四个层次又是有机联系的,后一层次的数据质量涵义必须以前一层次的数据质量涵义为基础,这样则构成综合的统计数据质量涵义。
统计工作主体与统计数据质量 被调查者 统计数据: 准确性、全面性 系统性、一致性 统计机构 数据用户
政府统计数据质量管理体系 • 构建统计数据质量管理体系必要性 • 统计数据质量管理体系总体框架
理论基础 • 构建统计数据质量管理体系的理论基于以下的认识: • 统计工作过程是统计数据信息搜集加工过程,政府统计数据是统计数据信息生产加工过程的核心产品。 • 统计数据搜集加工过程是认识过程,也是组织管理过程。 • 统计组织管理的中心工作是统计数据质量的管理。 • 统计数据质量管理的关键是建立和实施统计数据质量管理体系。
统计指标体系 产品体系 国民经济核算体系 政府统计体系 统计调查方法体系 统计信息自动化体系 技术体系 统计标准化体系 管理体系 数据质量管理体系 统计数据质量管理体系是政府统计体系的重要组成部分 • 政府统计体系是大规模生产数据及提供信息服务的有机整体。 • 因此,统计数据质量管理体系与国民经济核算体系、统计指标体系、调查方法体系、自动化体系、标准化体系一样是政府统计体系的重要组成部分。
现实基础 • 对我国政府统计数据质量及其管理现状进行客观认识是构建数据质量管理体系的出发点和落脚点。 • 改革开放以来,我国政府统计进行的一系列统计改革和措施。 • 指标体系的不断优化和实施; • 国民经济核算体系的改革、优化实施; • 统计调查方法体系的不断优化改进; • 统计标准化体系的改进、实施; • 专项调查中全面质量管理的开展; • 各种质量评估的进行。 …… • 这些措施使我国的政府统计数据越来越能够全面反映国家的社会、经济、科技总体活动情况,是我国政府统计数据质量不断提高的重要体现,也是政府统计数据质量体系建立的基础。
现实需要 • 但是,我国政府统计数据质量在局部上还存在许多问题: • 调查内容还不能及时适应决策的要求; • 统计标准化水平仍较低; • 统计调查方法依赖全国统计报表的格局还没有得到根本改变; • 统计调查实施中,基层统计数据的仍存在虚报、瞒报、错报、漏报统计数据的现象。 • 这些问题在一定程度上影响着统计数据质量,也是统计数据质量管理的问题。
政府统计数据质量管理体系总体框架 • 根据统计数据质量广泛涵义,建立实施系统、规范的政府统计数据质量管理体系。 • 从横向看,政府统计数据质量管理体系的主体内容至少应包括统计数据质量控制技术体系和政府统计数据质量保证体系两方面。(如图 ) • 从纵向看,包括政府统计数据质量管理体系的建立、实施、评审、及认证等活动。统计数据质量管理体系的建立和实施至少要经过3 个阶段和17个步骤。(如图)
政府统计数据质量管理体系 数据质量 保证体系 数据质量 控制技术 分组技术 对比 分析 技术 组织机构 职责 程序 模型技术 过程 人员资源 政府统计数据质量管理体系
统计数据质量控制技术体系 • 统计数据质量控制技术体系是从统计技术角度出发构建的数据质量控制的技术支持体系 • 统计数据质量的分类控制与评估技术 (质量文档方法) • 统计数据质量控制的比较分析技术 (逻辑检查、探索性数据分析技术等) • 统计数据误差模型的建立与分析技术 (调查误差模型,判别分析模型,二元选择模型等)
统计数据质量的分类控制与评估技术 • 对统计数据质量各方面、各阶段的潜在的,事实的影响因素、控制措施、控制结果和水平进行分类,一一罗列、描述、反映。质量信息公开,赢得信任,提高质量。 • 分类控制与评估技术原理 • 分类控制与评估技术的常见类型 • 分类控制与评估技术的实施 • 分类控制与评估技术的发展
分类控制与评估技术原理 • 是把统计分组原理与统计数据质量控制及评估的各项质量活动有机结合,对统计工作的各方面、各环节中有关统计数据质量的活动,在全面系统地认识基础上,按照一定的标准进行分类,根据分类结果确定影响统计数据质量的强点、弱点以及影响因素,并对这些强点、弱点、以及影响因素实施事前、事中、事后的预防、监督、改进措施的技术体系。 • 统计数据质量分类控制与评估技术目的在于详细揭示政府统计数据质量的影响因素,预防、控制、减少误差的影响,同时,质量活动和信息公开,取得信任,提高质量。
分类控制与评估技术的常见类型 • 以调查变量或调查项目为依据的分类控制与评估技术。 • 以调查误差类型为依据的分类控制与评估技术。 • 以统计工作过程实施的各阶段为依据的分类控制与评估技术。 • 多种分类控制与评估技术的结合运用。
分类控制与评估技术的实施 适用于政府统计多种分类控制与评估技术结合方式: • 首先横向上按照调查项目或调查变量进行分类; • 其次纵向上按照统计工作阶段进行分类; • 然后在纵横交叉的环节再进行误差分类; • 最后根据交叉分类结果实施不同的控制措施。 • 具体实施可以通过表格形式来进行,即把分类所得的有关统计数据质量的各项活动项目以及质量标准,事先通过问题的形式罗列起来形成一系列的表格,实际执行中,根据表格中的各项问题来检查执行情况,根据检查结果对统计数据质量状况、影响因素作出分析和评价。 • 实例
人口普查中多种分类控制与评估技术有机结合模式表人口普查中多种分类控制与评估技术有机结合模式表
人口普查中多种分类控制与评估技术有机结合运行表人口普查中多种分类控制与评估技术有机结合运行表
分类控制与评估技术的发展 • 政府统计数据质量分类控制与评估技术的发展,则体现在误差文档(Error Profile)、质量文档(Quality Profile)的建立及其对数据误差的监测应用上。 • 关于误差文档、质量文档
误差文档的原理与意义 • 误差文档及监测是20世纪70年末、80年代初由分类控制思想逐渐发展起来的。 • 原理:误差文档及监测首先是对统计数据生产过程各方面、各阶段的误差影响因素、控制措施、控制结果形成一种描述性的反映文件,然后以此为出发点,确认各种非抽样误差的主要来源,过程控制的实际水平以及尽可能地量化误差的组成部分,检查和评估统计数据生产各方面、各环节产生的误差、相互影响以及对统计数据最终结果的影响。 • 一项完善的误差文档不仅要把调查过程及潜在的误差来源罗列出来,而且要能够列出全部调查误差中每个阶段中的误差影响。 • 意义:通过误差文档及监测可以为统计数据生产者找出统计数据质量存在的问题,以便为进一步提高统计数据质量确定哪些步骤需要重新设计,哪些步骤需要更好的实行控制提供指南。同时通过误差文档及监测所固有的简单、真实实用的特性,也有助于统计数据用户恰当地评价、认识统计数据的局限性,以便更好地开发和利用统计数据资料。
误差文档应用效果 • 最初由于统计工作者担心,提供一份详细的反映调查过程中误差监测的报告,势必导致对统计数据可信性的降低,认为承认有统计误差实际既等于承认统计工作没有做好,建立统计调查的误差文档会引起许多消极的影响。所以,只有由Bailar和Beller提出的两项误差文档。 • 但随着人们对误差文档及监测的理论研究和认识的不断深入,实际情况是,描述可能的误差来源以及统计机构对此所采取的措施,是增加而不是减少统计数据用户的信任。 • 任何一个了解统计调查特别是政府统计的人都知道调查必然有误差,处理解决统计设计、数据搜集及统计分析质量方面的问题是统计工作重要组成部分。 • 所以20世纪90年代以后,关于误差文档及监测的理论研究和实际应用才不断丰富起来。如在意大利、瑞典的农业统计调查中都进行了应用。
比较分析技术与探索性数据分析技术 • 比较分析技术的原理 • 比较分析技术的常见类型 • 探索性数据分析方法的应用(比较分析技术的重要组成部分)
比较分析技术的原理 • 是根据统计数据生产过程及结果确定统计数据质量证据,依据质量证据与相应的统计标准进行比较,进而得出统计数据质量结论并制定相应的控制措施的技术方法。 • 比较分析技术目的在于通过实际执行的统计过程及结果与相应的理想统计过程及统计真值进行比较,从而找出统计数据质量存在的问题及差距,确定数据质量水平,其原理具体可概括为如下图。
比较分析技术的原理图 统计数据质量证据 统计数据质量标准 质 量 结 论 质 量 措 施 实际资料来源 实际统计口径 …… 实际计算方法 实际统计结果 规范的资料来源 规范的统计口径 …… 规范的计算方法 统计数据标准 进行比较 制定 得出 质量信息反馈
比较分析技术的常见类型 • 与规范的统计工作程序进行比较分析。 • 与规范的统计指标口径、范围进行比较分析; • 与规范的原始资料来源进行比较分析; • 与规范的统计指标计算方法进行比较分析等。 • 与统计数据标准、统计数据客观存在的数量关系进行比较分析。 • 与独立来源的统计数据进行比较; • 利用数据逻辑关系进行分析比较; • 与统计指标之间客观存在的相关关系进行比较分析; • 与统计指标的影响因素进行分析比较; • 与动态趋势数据进行分析比较等。 • 复查检验与抽样评估方法 • 数理统计检验法
我国部分主要统计指标及用于质量检验的相关指标表我国部分主要统计指标及用于质量检验的相关指标表
对比分析法在我国主要统计数据质量评估中应用表对比分析法在我国主要统计数据质量评估中应用表
探索性数据分析方法 • 探索性数据分析方法在统计数据质量控制、评价中的应用,正日益成为统计数据质量控制比较分析技术中的重要组成部分。 • 关于探索性数据分析方法在统计数据质量控制中的应用研究,详见Velleman和Curran等人的研究。
探索性数据分析方法的应用 • 探索性数据分析技术在统计数据质量控制的应用中,其特点表现在: • 不受极端值的影响,而且能简单、直观的展示出极端值,为统计数据质量问题分析判断提供依据; • 在判别极端值的方法上强调运用残差分析和直观显示的方法; • 不需要过多数学计算,易于理解,易于基层统计人员的接受,特别适用于统计技术水平比较低的情况。 • 为此,在政府统计数据质量控制中,探索性数据分析技术的应用范围可表现在: • 一是在统计数据生产过程中特别是对汇总数据质量控制中的应用;(实例说明) • 二是在进行政府统计数据统计分析前质量保证中的应用。
比较分析技术应用探索性数据分析 • 以开发区统计数据为例,就探索性数据分析方法在数据质量控制与评价中的应用进行实例说明。 • 这种评价分析的目的在于: • 一方面使统计数据用户在应用统计数据时,对数据有一个客观认识; • 另一方面,通过评价找出统计数据的不足,以便制定出控制措施,进一步改进和提高统计数据质量。
探索性数据分析方法的应用 • 在开发区统计的许多数据中,选择“开发区高新技术企业主要经济指标”资料为典型进行分析。 • 指标包括: 企业数(Y1) 职工总数(Y2) 年总产值(Y3) 年总收入(Y4) 年出口总额(Y5) 年利润总额(Y6) 年交纳税费总额(Y7) 利税总额(Y8) 年R&D支出总额(Y9)
比较分析技术应用探索性数据分析 分析思路及步骤: • 第一,找出极端值 • 用茎叶图法对已汇总数据进行分析,基本思路是测定汇总数据中的极端值。 • 第二,从横向判断问题数据 • 横向上,就某一开发区而言,如果每个指标上都表现为极端的值,或都表现为正常的值,则可以认为这些地区的资料属于同一组,即属于质量较正常的组。 • 如果某一开发区的资料在某个指标上为正常,而在另外的指标上表现极端,把这些开发区归为一组,认为是可能有数据质量问题的组,或者是需要进一步调查和核实的组。
探索性数据分析方法的应用 • 第三,从纵向判断问题数据 • 纵向上,对于某一开发区而言,如果它上报的数据,每一年的数据都属于正常的值或者都属于极端的值,则可以认为这些地区的资料属于同一组。 • 如果某一开发区的数据在某一年上是正常的,而在另一年上则属于极端值的,把上报这些数据的开发区也归为一组,认为是数据质量有问题的或需要进一步调查和核实的组。
探索性数据分析方法的应用 • 把横向的分组结果与纵向的分组结果同时考虑,则会得到更为详细的分组: 综合考虑横向分组和纵向分组之后,所得的分组结果应为:正常组包括(H1或Z1),不正常组包括(H2,H0,Z2,Z0)。
探索性数据分析方法的应用 • 由于不同开发区规模各异,上述总量指标不具有可比性,探索性数据分析结果(不再列出)有待改进。因此,指标加工如下: • Y10=总收入-总产值= Y4- Y3 • Y11=总收入/总产值= Y4 / Y3 • Y12=利润总额/利税总额= Y6 / Y8 • Y13=交纳税费总额/利税总额= Y7 / Y8 • Y14=总产值/职工总数= Y3/ Y2 • Y15=总收入/职工总数= Y4 / Y2 • 根据茎叶图分析,整理得到极端值信息汇总如下:
探索性数据分析方法的应用 • 上表中所列地区出现极端值的情况大多属于个别指标或个别年份上,所以,表中所列的开发区均属于数据质量可能存在问题的组。建议对这些开发区所上报的数据应做进一步的调查和审核。 • 一个有趣的现象时,表中“沈阳”本不会出现极端值,加()表示其极端值的出现,是录入误差所致。这一无意的验证也说明,这种方法适合于原始数据录入过程中的误差核对与质量控制。
政府统计中误差模型的建立与分析技术 • 误差模型建立与分析技术涵义 • 调查误差模型建立与分析技术的一般思路 • 误差模型建立与分析技术种类 • 控制无回答的一般方法和模型(略) • 测定、控制统计测量误差的方法和模型(略) • 汇总数据质量评价模型
误差模型建立与分析技术涵义 • 误差模型建立与分析技术是以整体的方式测定抽样误差、非抽样误差以及汇总处理误差的影响,并进行控制的方法技术。 • 误差模型基于以下两点认识: • 一是误差不仅包括随机因素影响产生的误差,而且包括非随机因素影响产生的误差; • 二是对全部调查误差要使用数学语言表示出来,并是在一定的假定的基础上,对各个分类误差的大小,各类误差的关系及其对总的误差的影响,用数学公式表示出来,分析每一部分误差的影响以及研究控制、减少或调整每一部分误差的方法、技术和措施。
调查误差模型建立与分析技术的一般思路 对误差测定 及对误差的 调整修正 建立误 差模型 分析误 差影响