指数的统计理论研究和实证分析
提要: 本文运用统计学中常用的综合指数、可变结构指数和不平等度指数理论,以劳动工资统计并结合国民经济核算资料为实证,分析论证了统计常用指数的局限性,提出科学应用指数的新思路,意在从统计指数的角度不断改进完善相关统计方法和统计制度,使包括指数在内的统计数据能够更加全面准确地反映经济社会发展的实际水平。
统计学中的指数是综合运用绝对数、相对数的一种方法,对指数进行科学构建研究在经济统计分析中有着非常重要的理论和现实意义。本文以劳动工资统计并结合国民经济核算资料为实证,阐述常用的指数编制和运用,并实证分析统计常用指数的局限性,提出科学运用指数的新思路,研究其变动趋势和综合发展水平,使统计数据全面准确反映经济社会发展的实际水平。
一、常用相关指数及其应用分析
1. 综合指数编制。 综合指数编制有简单综合和加权综合两类。所谓简单综合指数就是把价格或实物量直接相加对比。从劳动工资统计制度看,各单位支付给劳动者的劳动报酬以及其他根据文件规定支付的工资,无论是计入成本还是不计入成本的,无论是以货币形式支付的还是以实物形式支付的,均应列入工资总额的范畴。以表1为例:如某单位以甲乙丙三项物品作为实物形式支付工资的一部分 ,可以计算简单综合物量指数和简单综合价格指数。
表1:按基期及报告期分的实物物量和单价比较表
商品 | 计量单位 | 支付物量 | 单价(元) | ||
Q 0 | Q 1 | P o | P 1 | ||
甲 | 台 | 12 | 13 | 180 | 202 |
乙 | 架 | 20 | 22 | 9 | 11 |
丙 | 个 | 16 | 18 | 15 | 10 |
简单综合物量指数
=ΣQ 1 /Q 0 =(13+22+18)/(12+20+16)=110.4%;
简单综合价格指数
=ΣP 1 /P o =(202+11+10)/(180+9+15)=109.3%
这种简单指数用于不同的物量品种在数学理论上可以操作但是无经济意义的计算结果在实际工作中没有应用价值,既不能代表这家单位支付职工实物形式的工资报酬报告期比基期增长10.4%,也不能代表9.3%的实物形式的工资报酬增长水平。为此,综合指数都必须是加权的,所用权数,是以指数化因素而言的。一般情况下,价格指数这类质量指标用物量这类数量指标作权数,而物量指标指数则用价格指标作权数,通过加权,就把不能同度量的价格P和物量Q都过渡到能同度量的价值量指标PQ。因此,综合指数中的权数又称同度量因素,它不仅起到加权的作用,还能起到同度量的作用。同度量因素时期的选择,一般有两种:一是固定在基期,二是固定在报告期。即两个比较常用的用基期的指标作权数计算价格指数和物量指数的拉氏指数和用报告期的指标作权数计算价格指数和物量指数的派氏指数。
通过案例分析显示,按照拉氏或派氏编制的指数均忽略了价格和物量因素间的相互关系。以表1为例,计算得到:
P=ΣP 1 Q 1 /ΣP o Q 1 =3048/2808=108.5%,ΣP 1 Q 1 -ΣP o Q 1 = 240元;
L=ΣP 0 Q 1 /ΣP o Q 0 =2808/2580=108.8%,ΣP 0 Q 1 -ΣP o Q 0 =228元。
结果显示 :综合指数分析中相对数和绝对数的矛盾。
2. 可变结构指数。 可变结构指数是指两个不同的平均数相比得出的指数受两个因素影响,一个是现象本身水平变动的影响,另一个是现象内部结构变动的影响。要分析这两个因素对可变结构指数的影响,一是假定现象内部结构没有变化,仅考虑现象本身水平的变动,即计算固定结构指数;二是假定现象水平没有变化,仅考虑现象内部结构的变动,即计算结构影响指数,这三个指数形成了一个指标体系,并能够进行指数体系的因素分析。其公式表示为:
可变结构指数=;
固定在报告期的固定结构指数=;
固定在基期的结构影响指数=
即可变结构指数=固定结构指数×结构影响指数
从劳动工资统计看,现有劳动工资统计报表中涉及按行业、职业、结构、地区分的劳动工资总额、从业人员等历年主要指标,根据这些基础指标以及相关经济社会综合指标,可以计算出一系列的相关增速,这是指数最直接的形象表述,如增长10%,就是指数为110%,下降10%,就是指数为90%。因此,从业人员增速,平均工资增速;全社会劳动生产率增速;从业人员与人口之比、平均工资行业之比、地区之比、职业之比、劳动者报酬占GDP比重、平均工资和城乡居民收入之比的变动等都是指数,其中,利用简单算术平均数计算的平均工资指数是最常用的指数。然而,运用常规统计方法得出的指数结果常常遇到一些困惑。以按经济类型分的2014年浙江省平均工资数据为例: 2014年,浙江全社会单位就业人员年平均工资48145元,比2013年增长8.6%,其中,非私营单位就业人员和私营单位就业人员年平均工资分别为61572元和38689元,增长8.8%和9.6%。
结果显示 :浙江省全社会单位从业人员平均工资增速均低于私营和非私营增速。
表2:按经济类型分的浙江省全社会单位就业人员平均工资变化情况
单位:亿元,万人、元、%
年份 | 工资总额 | 其中:非私营 | 私营 | 平均就业人员 | 其中:非私营 | 私营 | 平均工资 | 其中:非私营 | 私营 |
2014 | 12615 | 6666.8 | 5948.2 | 2620 | 1082.76 | 1537.44 | 48145 | 61572 | 38689 |
2013 | 11067.7 | 5985.1 | 5082.6 | 2497.3 | 1057.98 | 1439.30 | 44319 | 56571 | 35313 |
名义增长 | 14.0 | 11.4 | 17.0 | 4.9 | 2.3 | 6.8 | 8.6 | 8.8 | 9.6 |
3. 不平等度指数。 目前,常用的对行业、地区、城乡所有制收入差异进行衡量的不平等度指数有泰尔指数、基尼系数等。泰尔指数或称泰尔熵标准作为衡量收入差距(或者称不平等度)的指标,是由泰尔(Theil,1967)利用信息理论中的熵概念来计算收入不平等而得名。假设U是某一特定事件A将要发生的概率,P(A)=U。这个事件发生的信息量为E(U)肯定是U的减函数。用公式表达为:E(U)=log(1/u)。当有n个可能的事件1,2,…,n时,相应的概率假设分别为U1,U2,…,Un,Ui≥0,并且∑Ui=1。
熵或期望信息量可被看作每一件的信息量与其相应概率乘积的总和:
E(U)= ∑Uih(Ui)= ∑Ui log(1/Ui)
显然,n种事件的概率Ui越趋近于(1/n),熵也就越大。在物理学中,熵是衡量无序的标准。如果Ui被解释为属于第i单位的收入份额,E(U)就是一种反映收入分配差距不平等的尺度。收入越平均,E(U)就越大。如果绝对平均,也就是当每个Ui都等于(1/n)时,E(U)就达到其最大值logn。泰尔将logn—E(U)定义为不平等指数——也就是泰尔指数:
T=logn—E(U)= ∑ui*lognui
基尼系数是国际上用来综合衡量平均收入分配差异状况的一个重要分析指标。根据基尼系数性质,在计算平均工资基尼系数中,我们设平均工资分布曲线(洛伦茨曲线)和平均工资绝对无差异曲线之间的面积为A,实际平均工资曲线右下方的面积为B。如下图:
以A除以(A+B)的值表示不平等程度,我们称这个数值为平均工资基尼系数,该系数值域为(0,1)。如果基尼系数越逼近零,表示平均工资平衡度越高;如果系数越逼近1,表示平衡度越差。用G i ,i=1,2,…,n表示全省按行业分的n个组成部分的工资总额,P i 表示各行业的年平均从业人员数,A i =G i /P i 为各行业的平均工资。定义i的编号以A i 从小到大的次序排列。设g i =G i /G, p i =P i /P,其中G和P分别表示工资之和与人口之和,即G=∑G i ,P=∑P i ,设累计变量g is =∑g i (S=1,…n), p is =∑p i ( S=1,…n)。
在平面坐标中,(p is , g is )集合点顺序连接的曲线即为洛伦茨曲线。在图中,洛伦茨曲线和45度线之间的面积A和45度线下的面积(A+B)之比就是平均工资基尼系数,即G=A/(A+B)连接点(p (i-1)s , g (i-1)s )到点(p is ,g is ),由基尼系数的原理定义:
B=∑(g (i-1)s + g is )/2(p is - p (i-1)s )=(∑(2 g is +g i ) p i )/2或
B=∑(g is - g (i-1)s )(1- p (i-1)s +1- p is )/2=(∑(2-2 p is + p i )g i )/2
得出全省平均工资基尼系数计算公式为G=1-∑(2-2 p is + p i )g i 。
根据上述泰尔指数和基尼系数计算原理,以2005年以来行业平均工资数据为数值,得出浙江省近年来行业泰尔指数和基尼系数(表3计算结果直接取自2015年62期浙江统计分析《浙江行业工资差异分析》罗斌一文)。
表3:浙江省近年来泰尔指数和基尼系数
年份 | 泰尔指数 | 基尼系数 | ||
数值 | 变化 | 数值 | 变化 | |
2005 | 0.0978 | —— | 0.2237 | —— |
2006 | 0.0932 | -0.0046 | 0.2098 | -0.0139 |
2007 | 0.0902 | -0.0030 | 0.1982 | -0.0116 |
2008 | 0.0816 | -0.0086 | 0.1827 | -0.0155 |
2009 | 0.0896 | 0.0080 | 0.1917 | 0.0090 |
2010 | 0.0830 | -0.0066 | 0.1753 | -0.0164 |
2011 | 0.0668 | -0.0162 | 0.1607 | -0.0146 |
2012 | 0.0521 | -0.0147 | 0.1374 | -0.0233 |
2013 | 0.0482 | -0.0039 | 0.1340 | -0.0034 |
2014 | 0.0457 | -0.0025 | 0.1344 | 0.0004 |
结果显示 :无论是泰尔指数还是基尼系数,浙江行业间工资差异均呈现整体逐步缩小趋势。
二、指数编制存在的缺陷
1. 综合指数方面 。以表1数据的计算可以看出,从相对数分析,L>P,说明物量变动对实物总额的影响要大于价格变动所产生的影响,即物量变动因素指数大于价格变动因素指数。但是从绝对数分析,(ΣP 1 Q 1 -ΣP o Q 1 )>(ΣP 0 Q 1 -ΣP o Q 0 )说明价格的变动带来的影响要大于物量变动到来的影响,所以分析报告期相比于基期的工资总额中实物价值的变动, 究竟是由价格变动还是物量变动起主要因素就产生了截然不同的结果。
2. 可变结构指数方面 。表2显示,由于全社会就业人员平均工资以上年为100的指数为108.6,均低于非私营和私营平均工资指数108.8和109.6,数据一经公布,一些百姓表示不解。确实,从理论上计算,这样的计算没有任何问题,但是从实际看,解释这个结果产生的原因就有点复杂,更进一步分析,其实是我们采用简单算术计算平均工资所产生的缺陷。表2显示,在工资总额中,2014年非私营和私营占比分别为52.8%和47.2%,在从业人员中,2014年非私营和私营占比分别为41.3%和58.7%, 比重的较大反差以及简单算术计算极易受到极端数值的影响,代表性也会打折扣,由此计算的一系列衍生指标包括指数也会受到影响 。
3. 不平等度指数 。从表3数据以及泰尔指数、基尼系数的编制原理分析看,由于泰尔指数对高工资水平人群工资变化比较敏感,因此,泰尔指数下降主要反映了高工资行业人群工资变化大幅缩小了整体工资差异。而由于基尼系数对中间工资水平人群工资变化比较敏感,因此,基尼系数下降主要反映了中等工资水平人群工资变化对行业工资差异的影响。因此, 仅用某个指数来判断行业工资差异程度有失偏颇,同样在判断地区及其他结构差异程度也存在这样的问题 。
三、对指数运用分析的新思考
1. 采用几何平均数的加权形式完善综合指数的计算分析 。由于其绝对数和相对数分析结果可能所产生的矛盾,本文引入几何平均数概念对同度量因素的综合指数编制进行完善,即在编制质量指标指数时,以基期和报告期数量指标的几何平均数作为同度量因素,而在编制数量指标时,以基期和报告期质量指标的几何平均数作为同度量因素。由于对于同一组数据,几何平均数介于算术平均数和调和平均数之间,其取值处于相加性结构指数之间,所以一般情况下采用几何平均数的加权形式会更加合理并符合实际。根据这一思路仍以表1数据计算可以得出:
I P =(ΣP 1 √Q 0 Q 1 )/ (ΣP 0 √Q 0 Q 1 )=2923.4/2691.5=108.6%
ΣP 1 √Q 0 Q 1 -ΣP 0 √Q 0 Q 1 =232元
I q =(ΣQ 1 √P 0 P 1 )/ (ΣQ 0 √P 0 P 1 )=2918.2/2683.4=108.8%
ΣQ 1 √P 0 P 1 -ΣP 0 √Q 0 Q 1 =235元
结果显示:无论是相对数还是绝对数有I P <I q 且
(ΣP 1 √Q 0 Q 1 -ΣP 0 √Q 0 Q 1 )<(ΣQ 1 √P 0 P 1 -ΣP 0 √Q 0 Q 1 ),即在表1中,价格相对于物量来说在影响实物价值作为工资发放方面起到主要作用。
2. 结合运用中位数或者众数等改善可变结构指数的计算分析 。针对根据表2计算得出的全社会平均工资指数均低于非私营和私营平均工资指数这一原因,主要是由于职工结构发生较大变化。其实,在平均数集合中,还有调和平均数、几何平均数、中位数、众数以及平方均数等,如果计算平均工资能够结合运用中位数或者众数,或者像一些比赛评分中去掉高分组和低分组,那么计算得出总体指数均高于或者低于分结构指数这样的情况就不太会出现,平均数更有代表性,指数变动也更加反映实际,老百姓也更容易接受。
3. 结合发展水平指标改善不平等度指数的计算分析。 以泰尔指数和基尼系数为代表的指数不仅可以衡量地区、行业、居民收入分配差距,在实际应用中还可以用来分析其他综合性指标的分布发展程度(本文仅以基尼系数为例展开分析,其余不平等指数的分析方法同样适用)。由于劳动工资统计数据的局限性,本文引入人均GDP基尼系数概念并结合人均GDP以评价浙江11个市的发展平衡程度。利用基尼系数的计算方法可以得到各市人均GDP基尼系数(详见表4)。
表4 : 2014年浙江各市人均GDP基尼系数
杭州 | 宁波 | 温州 | 嘉兴 | 湖州 | 绍兴 | 金华 | 衢州 | 丽水 | 台州 | 舟山 |
0.182 | 0.190 | 0.339 | 0.041 | 0.062 | 0.182 | 0.200 | 0.156 | 0.143 | 0.211 | 0.061 |
表5 : 2014年浙江各市人均GDP
单位:元
杭州 | 宁波 | 温州 | 嘉兴 | 湖州 | 绍兴 | 金华 | 衢州 | 丽水 | 台州 | 舟山 |
103757 | 98262 | 47115 | 73462 | 66916 | 96436 | 59027 | 52778 | 49424 | 56318 | 89306 |
从表4分析看,11市发展的内部平衡程度有较大差异,其中,温州、台州的基尼系数较高,列全省第一和第二,表明温台地区内部发展不平衡的现象比较突出,而相对应的嘉兴、湖州、舟山等地区内部发展比较均衡,人均GDP基尼系数均<0.1。表5显示,人均GDP水平较高的是杭州、宁波等地,但温州、丽水的人均GDP相对较低,最高的杭州是最低温州的2.2倍。表4、5比较后可以看出,各地人均GDP水平和基尼系数的数值排序并不是同步的。但温州市两个指数的排序是一致的,是否具有特殊性,需要进一步研究。
根据浙江省提出“翻四番”的目标,将人均GDP目标值设定为10.4万元,权数为0.7;基尼系数目标值设定为0.15,权数为0.3(由于权数对水平测算会产生一定的影响,因此权数的设定需要在实际操作中不断论证完善)。根据表4、5的数据计算得到用人均GDP和人均GDP基尼系数两指标结合的各市发展均衡水平。
表6: 2014年各市发展均衡水平
杭州 | 舟山 | 宁波 | 绍兴 | 嘉兴 | 湖州 | 丽水 | 衢州 | 金华 | 台州 | 温州 |
94.5 | 90.1 | 89.7 | 89.6 | 79.4 | 75.0 | 66.3 | 64.3 | 62.2 | 59.2 | 45.0 |
表6比较客观反映了11市的发展均衡水平,随着我国国民经济核算体系的不断完善,GDP数据更趋全面准确,以不平等度指数结合平均水平来判别地区发展均衡水平不失为一个行之有效的统计评价方法。
(人口就业处 潘强敏)