大数据时代做好人口抽样调查的思考——基于浙江2015年1%人口抽样调查
随着“互联网+”与传统产业的飞速融合,我们迎来了大规模生产、分享和应用数据的时代。当前,运用大数据推动经济转型升级、完善社会治理、提升政府服务和管理能力已成为趋势。2015年9月,经李克强总理签批,国务院印发了《促进大数据发展行动纲要》,全面系统部署我国大数据发展工作。2016年2月,浙江省人民政府印发了《浙江省促进大数据发展实施计划》,把打造全国大数据产业中心,大力推动大数据发展和运用作为发展信息经济的重要目标。作为人口统计专业人员,如何在大数据时代更好地开展人口调查工作,值得研究和探索。
一、什么是大数据
笔者认为大数据是互联网发展到现今阶段的一种表象或特征,它基于“云计算”为代表的现代信息技术,以自动记录、储存和连续扩充的方式,使一切可记录的信息数据化。然后通过对这些原本很难收集和使用的数据进行整合分析,得到与研究问题相关的有用信息。随着互联网与各个传统行业的融合不断深入,大数据将逐步为经济社会创造更多的价值。它主要具备以下三个特点:
1. 大数据 信息量巨大,为多维度的数据分析提供了选择空间。
传统抽样调查获得的样本数据,是以特定研究为目的,依据严格设计的抽样方案而获得的结构化数据。不仅数据量有限,对方案设计和采集过程都提出了极高的要求,若抽样方案的设计不够合理,采集过程偏差较大,样本数据就不能满足使用要求;同时,受到方案的限制,样本数据的分析空间也十分有限。以1%人口抽样调查为例,由于样本量的控制,方案设计时考虑更多的是样本对各市常住人口的代表性,抽中样本的分布在各县(市、区)间差异较大,自然无法满足测算区县一级常住人口的要求。
大数据则是一切可记录和存储、源源不断扩充、超大容量的各类型数据汇总,除了结构型数据,更多的是非结构型数据、半结构型数据或异构数据,很多数据难以用传统的统计指标或统计图表加以体现。大数据的大体量与多样性,弥补了抽样调查中由于样本有限,对某些规律、弱小信息捕捉不力的缺陷,为多维度、多层次的数据分析提供了可能性。
2. 大数据结构复杂多样,无法按传统方法分类统计。
随着大数据的迅速发展,数据结构变得更为复杂,大部分数据信息都已经脱离出数据结构的范畴,属于非结构化数据,包括纸质信息与数字化的视频、音频、邮件、图片等等。各种数据格式之间互不兼容,给数据的提取、存储、管理和应用带来了很大困难。
传统的结构化数据已有一整套较为完整的数据处理方式,量化的结果可直接用于各种运算与分析。但大数据是杂乱、不规整、良莠不齐的,传统的量化方式已无法直接处理非结构化数据。我们需要将统计研究的对象范围从结构性数据扩展到一切数据,重新思考数据的定义和分类方法,并以此为基础发展和创新统计分析方法,做好大数据与传统结构化数据的对接。
3. 大数据重视相关性而不是因果关系。
大数据已然逐步占据当前信息社会的中心舞台,也使得传统知识观中的因果规律遭到极大的挑战。大数据的核心在于预测,它通过各种复杂的数学算法处理海量数据来预测事情发生的可能性。这是一种从相关性着手,通过对过去的理解,释放出对未来预测的新型思维方式,它从本质上改变了传统数据的开采模式。另外,尽管大数据能够非常好地检测相关性,但其自身无法告诉我们哪一种相关性是有意义的。譬如,在互联网上大数据的收集是根据关键词搜索来统计的,然而很多关键词看似与研究的问题相关,实际上相差甚远。如果在收集数据的过程中缺乏严谨的审核条件,大数据的量级规模会扩大这虚假的相关性,导致我们做出错误的判断。
二、什么是1%人口抽样调查
在社会经济发展过程中,人口始终是一个重要因素,其年龄、性别、受教育程度结构和生育、就业等因素对一个国家或地区的经济发展潜力、社会进步状态有全面而深远的影响。人口变动情况是人口统计的重要内容,国务院2010年颁布的《全国人口普查条例》明确规定,人口普查每10年进行一次,尾数逢0的年份为普查年度。我国作为世界上人口最多的国家,经济发展速度快,社会流动规模大,经过10年的发展,人口结构必然会发生很大的变化,所以又建立了在两次全国人口普查之间的1%人口抽样调查制度,又称为“小普查”。开展全国1%人口抽样调查,能准确、及时地掌握各地区的人口变动情况,对研究未来人口发展趋势,保障、改善民生,以及制定各项方针政策都具有极其重要的意义。
1. 调查目的和内容。
2015年全国1%人口抽样调查的目的是了解2010年以来我国人口在数量、素质、结构、分布以及居住等方面的变化情况,为制定国民经济和社会发展规划提供科学准确的统计信息支持。调查标准时点为2015年11月1日零时,调查内容主要包括姓名、性别、年龄、民族、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。
2. 抽样方案的设计。
在传统调查的数据获取过程中,由于受技术、时效性以及经济成本等原因的限制,抽样调查作为一种科学的采样方式,得到了广泛的应用。在调查经费一定的情况下,样本量和抽样方法的确定主要考虑以下两个方面:首先要保证各市调查的样本量对本市有较好的代表性,主要指标的相对误差控制在10%以内;再者要保证落实到各县(市、区)调查样本量差距不大,调查的最终样本规模与其人口规模大体一致,便于组织实施。
2015年1%人口抽样调查,以全国为总体,以各地级市为子总体(其中各地级市的样本量来自于各地级市常住人口的平方根占所属省的比例乘以1%人口抽样分配到该省的样本量)。我省采取分层、二阶段、概率比例、整群的抽样方法,共抽取了2602个村级调查单位,调查设计样本量为65万常住人口,约占全部常住人口的1.18%。在1%人口抽样调查中,采用二阶段抽样:第一阶段抽取村级单位,第二阶段抽取调查小区。平均每个调查小区常住人口数为250人,80户左右。在第一阶段抽样时,抽取方法为分层、概率比例抽样。
分层抽样的原则是尽可能使层内各单位之间人口变动指标的差异减少,各层人口指标差异增大,以降低抽样误差。分层后,按抽样比和各层人数等比例分配每一层的样本量。由于每层调查的人数是按人口比例分配的,层与层之间调查的人数差异很大。根据分层原则:一是充分利用人口普查的资料,依据城乡属性、外出人口比例、外来人口比例、非农人口比例等多个经济发展指标,将所有村级单位细分为24层(包括开发区、大学城等特殊层)。二是在层内按比例抽取村级样本单位。各层按与村级单位数成比例的PPS系统抽样方法抽取村级单位,其中各层样本村级单位数按该层村级单位总数占全部的比例分配。在每个抽中的村级单位中,采用简单随机抽样抽取一个调查小区样本。
分层、概率比例抽样使得每一层抽中的概率与其人口估计规模成正比,即人口少的层被抽中的概率小;在抽中的村(社区)里,无论规模大小,都选择一个常住人口250人左右的调查小区,使抽中概率小的地区,每一个人被抽中的概率增大;这一大一小的概率乘积,使得全市每个人被调查的概率保持不变。 这种抽样方式既保证了每个地级市每一层中的村(社区)有同等被抽中的概率,又兼顾不同层间被抽中样本的规模与全市的分布大体一致,因而对11个市具备了更好的代表性,也能够如实反应全省的情况。
3. 调查数据的质量。
通过2015年1%人口抽样调查的原始数据与2010年第六次人口普查数据进行结构比对,我们发现,这次1%抽样调查的数据质量是相当高的。从图1来看,两次调查的分年龄人口占比的曲线惊人的一致,波峰与波谷正好向后顺延了5年,只是70岁以上的曲线略有不同,这主要是老年人口样本量较小导致的抽样误差。图2的分年龄性别比的曲线也说明了这个问题,2015年1%抽样调查70岁以上的性别比都略高于2010年人普的同年龄段人口,95岁以上的性别比甚至出现了奇异值,再次证实抽样调查样本量越小,数据越容易发生偏差。
图1 2015 的1%与2010“六普”分年龄占比
图2 2015的1%与2010“六普”分年龄性别比
三、人口抽样调查的局限性
1. 抽样调查的误差不可避免。
抽样误差是抽样调查中的一个特有概念,是随机抽样中因偶然因素引起的样本不能完全代表总体所产生的误差。在抽样调查中,用任何一套样本的调查数据推断总体,都不可能得到确切的总体真值。抽样误差是不可避免的,是绝对存在的。1%人口抽样调查采取的是分阶段抽样,每个阶段都会产生误差。就第一阶段抽取村级单位来说,全省近32000个村级单位,平均每村(社区)户籍人口为1522人,而抽中的2603个村级单位,平均户籍人口有2200人,很显然,抽中的村相对规模较大,情况更复杂,代表性也愈强。但从推算总体的角度来说,肯定会产生偏差。
同时,调查中的人为误差也一直存在,尤其在目前统计与政体没有分开的情况下,将调查数据与政绩挂钩,必然会在统计数据上出现虚报和瞒报的行为,基层统计调查都不同程度受到过行政干预。同时基层调查员经过层层培训,对指标的理解把控,以及对工作的责任心都参差不齐,也会造成数据偏差。
在这种背景下,就需要通过技术加权、部门数据佐证,大数据补充等多种方法多角度评估抽样调查的数据质量。
2. 抽样调查无法满足多层次统计信息需求。
抽样调查一般只能满足单层次的统计信息需求。如以省级为总体进行样本设计时,抽样调查数据只能解决省级的代表性,而无法满足省级以下各级政府使用数据的需求。2015年的1%人口抽样调查在进行样本设计时,以全国为总体,以各地级市为子总体,所以对全省和11个地级市都有代表性;但细化到县(市、区)一级,由于样本量少且分布不均,分县的常住人口推算是完全没有代表性的。
随着户籍制度的取消和人口流动的频繁,常住人口将替代户籍人口越来越多地被应用于各级政府行政决策的方方面面,因而会有更多的数据需求。由于经费和人力的限制,政府不可能每年都进行全面的人口调查。如何在抽样调查的背景下做好分县常住人口的测算,是各级统计机构面临迫在眉睫的问题。
四、如何做好大数据时代的人口抽样调查
抽样调查是一种有严密理论依据的科学调查方法,其理论与方法体系主要依托于概率论,概率论起始于十七世纪,至今已发展得相当成熟。作为一种非全面调查方法,抽样调查在小数据时代以最少的人力成本,最小的采样数据在社会统计中得到了广泛的应用。它的经济性、准确性、灵活性和时效性等优点在实际调查工作中受到充分认可。当然,每一种调查方法都存在着一定的缺陷,在大数据时代,抽样调查也面临着诸多机遇与挑战。经过多部门收集汇总的大数据库就像一座待开发的宝库,不论对产业环节的实践者还是对公共服务部门都有极具诱惑力的价值。但由于研究问题的复杂性,大数据有时并不能如实地反应总体情况,
大数据具有不确定性,较强的复杂性。 从抽样调查的角度来讲,大数据更多的功能是一种辅助信息,并不是真实的总体信息,离开抽样调查的大数据将失去可靠的基础保障。在大数据时代,抽样调查与大数据应该实现相互佐证,互为补充的功能。
在大数据时代,做好人口抽样调查,笔者认为有以下三个值得推进的举措:
1. 运用信息化手段采集调查数据。 积极推进移动智能终端综合管理平台的应用,充分利用PDA、智能手机、联网直报等现代信息技术和设备采集统计调查数据,从程序角度,更大提高人口抽样调查数据质量。
2. 共享政府各部门的电子化行政记录和综合统计数据系统。 人口问题涉及社会的方方面面,公安部门的流动人口登记情况、卫计部门的出生人口数据,社保部门的保险缴纳情况等等,都可以依托政府统一的政务数据交换平台,实现实时传输与共享。这对分析人口的结构数据,把握人口发展趋势都很有借鉴意义。
3. 开发对大数据的挖掘与分析功能,整合各类非结构化数据资源。 随着“互联网+”的高速发展,人作为一个社会属性,很多信息在大数据中都有体现,譬如淘宝网上某地级市用户群的年龄结构,铁道部门“春运季”车票的销售情况等等。统计部门应不断提高大数据分析技术,对各类非结构化数据资源进行多目标、多角度、多层次的加工、整合,推进大数据在人口抽样调查评估分析中的应用。
(人口就业处 赵静)