中国农村收入不平等:运用农户数据的回归分解
学习材料范文 发布时间:2012/6/8
中国农村收入不平等:运用农户数据的回归分解
一、引言
围绕中国农村收入分配问题,在国内外已有很多研究(wan,)。他们指出,自20世纪70年代末以来,中国农村收入分配不平等有不断恶化的趋势,这种趋势将对中国经济和社会发展产生严重后果,并且如果这种收入分配不平等持续恶化,将影响社会和政治的稳定。,全国人大和政协两次重大会议体现了对农村收入和收入不平等问题的前所未有的关注,中国政府也将收入分配问题排在政府工作的首要位置。
在中国城乡收入不平等趋势不断扩大问题上,人们已普遍达成共识。但是,这里不讨论有关这些扩大的原因。一般来说,影响收入的变量也将决定收入的不平等。因此,经济理论和常识可以用来识别这些变量。换句话说,人们可以很容易地写出一系列可能解释收入差距的因素,例如不同的资源禀赋和政策偏好。然而,为了排列出政策的优先次序,有必要从变量对整个不平等影响程度的角度将变量排序并解析这一不平等。收入不平等的分解方法一般都遵循shorrocks(1980、1982、1984)和bourguignon(1979)的理论。在这些理论构架下,人们可以通过按人口分组或按要素分组来分解收入不平等,前者产生了所谓的“组内因素”和“组间因素”,它用来调查例如城乡收入差距、男女收入差距等问题(参照shorrocks&wan,)。例如kanbur&zhang(1999)发现,中国地区间收入不平等的70%~78%是由组间因素(城镇和乡村)决定的,其余部分由组内因素决定。这种分解并没有告诉人们哪些是这两组因素中导致收入不平等的最基本的因素。而且,这一分析可能产生虚假结果。例如,分析性别造成的收入不平等可能夸大了性别的作用。妇女如果在进入劳动力市场前接受较少的教育就不易找到工作,这可能与工作场所的性别歧视关系不大,这一现象在很多发达国家普遍存在。同样,如果其他个人属性例如教育、年龄、职业等其他假定都一样,大量种族间成分与肤色的关系就不大。显然,必须限定其它因素来识别、衡量某一特定变量的作用。
分解影响收入不平等的因素要求知道所有收入来源的完备信息,要求用要素收入的总和来表示全体收入。除了难以得到所需的数据外,这种处理方法也不能起到用来量化收入不平等的基本决定因素的作用。例如,众所周知,收入由教育、经历和其他个人或家庭的属性来决定。这些基本决定因素影响全部的收入来源,包括工资、投资利润和转移收入。把全部收入不平等分解成与每个基本决定因素相关的组成部分,这将是有意义且有用的。然而,这种方法会导致把整个收入不平等仅仅归结于收入来源而非基本决定因素。
在描述中国农村收入不平等方面,目前的研究应用了很多不同的方法,但这些研究只是系统性分析中国农村收入不平等的基本决定因素的初步尝试。回归分解方法之所以新颖,是由于它允许根据任一种不平等度量标准来排列这些决定因素。而且,本文使用了家庭水平数据,以补充基于总量数据文献的不足。
在第二部分,本文就中国农村收入不平等和数据来源做一个简短的讨论;第三部分描述回归分解技术和收入函数;随后的第四部分对分解结果和政策含义进行解释;第五部分为结束语。
二、中国农村收入不平等和数据来源
收入不平等可以从不同的总体水平来考察。从全国来看,省或地区(有时候为有代表性的县)经常被看作分析的对象。这是很多关于中国农村收入不等的研究基础。从总体看,人们发现收入差距很大。例如,上海农村人均纯收入为6224元,与此同时,贵州农村仅为1490元。如表1(略)所示,相对发达的东部农村收入普遍较高,中部省份的农村人均收入大多位于全国平均水平附近,而人均收入低于元的省份都位于中国西部。
多年来,中国地区间收入差距在扩大。1985年,最高的农村人均纯收入是最低的3.2倍。,这一比率扩大到4.3倍。当用人均收入水平指标从高到低来排列省份时,多年来排序很少有变化,它表明,从全国和各个地区来看,中国经济持续增长,但收入水平并没有同步增长。
收入不平等不仅存在于省际之间,而且存在于同一省份的不同村庄之间和同一个村庄内的不同家庭之间。表2(略)记录了9个村庄之间的农户人均收入的分配情况。表2(略)的最后一行反映了云南省村庄1的人均纯收入水平是同省村庄2的12倍。在湖北,村庄3中的65%的家庭人均纯收入低于元,而村庄2仅有17%。广东的村庄也明显存在收入差距。后面的分析表明,村庄间的收入差距大约占总体不平等的40%。在农户水平上,差异甚至更大。在云南,,村庄2占55%的农户的人均纯收入低于500元,而广东村庄1中超过80%的农户的人均纯收入超过10000元,如此大的农户间收入差异表明中国农村收入不平等的惊人程度。
中国迅速扩大的收入不平等现象已经引起相当多人的关注。其中,大多数文献只提供了简单的描述但没有时间序列,他们中很多人使用代表变量,例如农业产出(例如howes&hussain,1994)、地区收入(例如tsui,1991),甚至粮食产量(例如lyons,1991),而不是个人收入。这些代表变量在中国可能不能充分代表生活水平(魏后凯等,1997)。tsui(1991),knight&song(1993),chen&fleisher(1996)认识到了这些不足,明确呼吁使用人均收入数据来分析中国的收入不平等问题。
本文将使用家庭水平调查数据计算各种收入不平等指标并分解收入不平等。数据来源于中国农业部农村经济研究中心(简称“农研中心”)收集的数据。农研中心的调查始于1986年,调查覆盖的所有家庭都要记录收入、费用和其他信息。农研中心观察点收集、审查、处理和报告信息。这些年,农研中心的调查方法在不断改进,1986~1990年调查的口径是相同的(有312个变量),而1993年调查则扩大了(有394个变量),并且在1995年更进一步扩大(有439个变量)。为确保变量在时间上的一致性,本项研究使用1995~的数据。
本文使用广东、湖北、云南3个省的数据。广东位于中国东南部,是中国最富裕的省份之一;湖北位于中国中部,处于平均水平;云南作为中国西部的典型,是个贫穷的省份。从每个省选出3个村庄代表不同的发展状况(参阅表2(略))。虽然不能说这组数据能够代表全国,但它们的确能够涵盖不同的地理——经济状况,而且比只依靠一个省份数据的研究更有代表性。
三、回归解析方法和收入函数
回归解析方法是oaca(1973)20世纪70年代初提出的,但并没引起人们足够的重视,直到最近情况才有所改变(juhn et al.,1993),wan()曾提出了关于这种技术的具体描述。有关这种技术的具体应用可参阅fields&yoo(),morduch&sicular (),heltberg&rasmus(),zhang&zhang(),wan()的有关论文。
得到一个收入函数是进行回归解析的第一步。在确定中国农村的收入函数时,有关人力资本理论及生产理论必须被考虑进去。不像工资收入者,农民除了依靠出卖劳动获得收入外,土地和实物资本是他们必须依靠的。因此,农业生产都应当有土地、劳动力和资本投入。按照人力资本理论,这里也应包括技能变量例如教育、训练程度及经验(常由年龄代表)。为了和在发展问题文献中被普遍接受的做法相一致,这里采用农户的受教育水平及年龄。
即使生产投入及人力资本是相同的,考虑那些可能改变收入的其它因素也是必要的。一个因素是农户所从事的商业活动的类型。农研中心依据这些商业活动将农户分成10种不同的类型,包括种植业、林业、畜牧业、渔业、工业、建筑业、交通运输业、零售业、食品业及其他服务业,最后还有不从事任何商业活动的。这些显示了农户取得收入的主要部门。显然,要表达来自不同商业活动的收入水平的差别,设定一系列虚拟变量是很必要的。这些虚拟变量合在一起将被当作一个“行业指标”。在中国,政府经常从行政管理的角度强调粮食生产,是因为种植粮食的收益较低甚至收益为负。结果,仅仅因为一个农户种粮,另一个农户种植蔬菜或其他经济作物,两个农户的收入就会不同,因此,种植结构显得至关重要,它通常被定义为粮食面积与总的种植面积之比。最后,考虑两个具有相同数量资源的农户,其收入来源也可能不同,本研究把农户分为两类:一类领取工资,另一类未领取工资。工资收入者的数量反映了城镇化程度,将它包括在模型中能使人清楚城镇化对中国农村地区收入不平等的影响。在理想状态下,城镇化应被定义在乡镇或县及水平上,然而,在仅仅获取了农户层面数据的情况下,这样做是不可能的。
地理位置是决定收入的一个很重要的因素,因为它与诸如距离市场远近、基础设施、地域文化等一些非流动资源密切相关。数据的不可获得性使得地理变量不能直接进入方程,然而,在实物和人力资本投入及其他要素既定的条件下,应用村庄虚拟变量能够反映地理和所在地的信息。应当指出,虽然模型中使用了村庄虚拟变量,但这里也没必要使用固定效果模型(fied—effects model),因为家庭层次上的数据将被用来估计收入函数。最后,考虑到技术进步及改革的影响,年份虚拟变量也应被考虑到函数中。
这样,收入函数所包含的变量有:因变量是指收入(个人年纯收入)和自变量。自变量如下(虚拟变量未列):①资本:人均资本存量;②土地:人均可耕地面积;③劳动力:每户劳动力数量;④工资收入者:家庭劳动力中工资收入者所占比例;⑤教育:户主的受教育年限以及受教育年限的平方;⑥培训:家庭成员中接受过职业教育的人的比例;⑦年龄:户主的年龄以及户主年龄的平方;⑧粮食:粮食播种面积占总播种面积的比例。
标准mincer模型规定了如何选择参数,收入函数的公式为:
ln(收入)=f(土地,劳动力,资本,……虚拟变量)(1)
(1)式中,f代表线性函数关系。由于收入变量是符合正态分布的,本文使用了半对数模型(shorrocks and wan,)。
很多技术可以用来模拟使用面板数据的模型,尽管如此,笔者发现kmenta (1986 )的迭代gls方法可以用来很好地处理本研究所使用的数据,这种方法不仅可以得到不同家庭的异离中趋势,也可以得到自相关数据。模型结果如表3(略)所示。
除了虚拟变量之外,所有的系数的正负号与预期的相同,而且绝大多数变量都在1%或5%的水平上显著。特别是对变量年龄的平方和受教育年限的平方这两个变量的负的符号的含义