当前位置: 东星资源网 > 文档大全 > 自我鉴定 > 正文

基于BP神经网络的农户小额信贷信用风险评估研究_农户小额信贷

时间:2019-01-29 来源:东星资源网 本文已影响 手机版

  摘要:利用2009年杨凌区三家农村信用社的实地调研资料进行了农户小额信贷信用风险评估的实证研究,对指标变量分别进行正态性检验、差异性检验和多重共线性检验,利用MATLAB7.O软件建立了8-14-1结构的13P神经网络农户信用风险评估模型。模型对训练集样本的总体判别正确率为100%,对测试集样本违约类农户的预测正确率达90%,总体正确率达84.09%。准确度较高,能够为农村信用社识别农户信用风险提供较好的依据。
  关键词:小额信贷;信用风险;BP神经网络
  中图分类号:F830.51 文献标识码:A 文章编号:1009-9107(2012)02-0078-06
  引言
  农户小额信贷是指农村信用社基于农户的信誉,在核定的额度和期限内向农户发放的不需抵押、担保的贷款。1993年,中国社科院农村发展研究所将小额信贷项目第一次借鉴到中国,我国政府给予了大力支持。自2000年开始,为加大支农力度,缓解农户贷款难问题,在中国人民银行推动下,农村信用社作为正规金融机构全面试行并推广农户小额信贷。据有关数据显示,截至2009年3月末,全国农户小额信用贷款余额2518.6亿元,同比增长17.5%,增速同比增加1.9个百分点;农户联保贷款余额为2006.3亿元,同比增长33.6%,增速同比增加13.4个百分点。农户小额信贷在解决农户贷款难问题、促进农民增收、支持农村经济发展等方面发挥了重要作用。
  然而,由于农民控制风险能力有限,农村信用基础薄弱,农户小额信贷不需抵押、担保的特点使得农村信用社在小额信贷实施过程中面临较大的信用风险。农户违约现象时有发生,导致农户小额信用贷款的不良率居高不下,影响农村信用社的整体贷款质量,阻碍了农村信用社的健康发展和小额信贷的可持续发展。银监会监管部主任杨家才在“2009中国农村金融论坛”上指出,目前涉农贷款不良率是7.4%,工业贷款不良率是2.29%,大企业贷款不良率是1.15%,中小企业贷款不良率是4.5%,涉农贷款的不良率大大高于其他类贷款。另有资料显示,截至2009年初,庐江农村信用合作联社农户小额信用贷款余额1941万元,不良贷款金额719.8万元,不良率达37.1%。因此,有效控制农户信用风险、提高信贷质量已成为农村信用社面临的重要任务。
  目前,农户小额信用贷款采取“等级管理,分级定额,随用随贷,余额控制,周转使用”的管理办法。在农户资信等级评定时,一般是通过信贷员、村委会的主观意见或使用评分表打分来确定。这些方法虽简单易行,但主观性大且执行过程不规范,没有借助量化的数学模型,容易导致农户信用状况评价不准,不能完全满足农村信用社信用风险管理的需要。本研究尝试利用BP神经网络建立农户信用风险评估模型,以此来识别农户在小额信贷中的信用风险,严把贷款出口关,提高农户小额信贷质量,促进小额信贷的可持续发展。
  一、BP神经网络介绍
  人工神经网络(Artificial Neural Network,简称ANN),是一种旨在模仿人脑结构及其功能的脑式智能信息处理系统,是由大量处理单元相互连接构成的高度并行的非线性系统,具有高度的非线性映射能力,良好的容错性和联想记忆功能,自适应能力较强。神经网络特有的这些性能,加之其对数据分布没有严格要求,也无需详细描述自变量和因变量间的函数关系,并且分类精度较高,使其在信用风险分析领域得到广泛应用。神经网络对信用风险的评估是通过其分类功能实现的,即先找出一组对信用分类有影响的因素作为网络输入,再通过有教师或无教师训练建立信用风险评估模型,当输入新样本时该模型即可对其信用风险进行判别分类。
  Rumelhart和Mc Celland于1986年对具有非线性连续变换函数的多层感知器的误差反向传播(Error Back Proragation,BP)算法进行了详尽的分析,实现了多层感知器的设想。采用BP算法的多层感知器是至今为止应用最广泛的神经网络,通常将其称为BP网络。BP网络是一种单向传播的多层前馈网络,由输入层、隐含层和输出层组成,一个三层的BP网络可完成由任意n维输入空间到m维输出空间的非线性映射。BP算法的思想是,学习过程由信息的正向传递和误差的反向传播这两个过程组成。在正向传递过程中,输入样本信息从输入层经隐含层逐层计算后传向输出层,若输出层实际输出和期望输出不符,则计算输出层误差值,然后转入误差的反向传播阶段。在误差反向传播过程中,输出误差经隐含层向输入层逐层反传,并将误差摊分给各层所有单元,各层单元的误差就作为修正其权值的依据。这种不断调整权值的过程,即是网络的训练学习过程。当达到规定的误差或一定的训练次数,训练结束。其网络结构如下图1所示。
  
  二、实证研究
  (一)样本选择与分组
  本研究所用样本来自2009年陕西省杨凌区3家农村信用社提供的资料。按照五级分类标准,逾期3个月以上的贷款为不良贷款,本研究也按此标准来确定农户是否违约。在样本选择过程中考虑到样本类别的均衡,尽量使违约类样本数量和不违约类样本数量大致相等,在按时还贷的农户中随机挑选了112户,在未按时还贷的违约农户中随机挑选了106户,总计218户。删除24个部分数据有缺失值的不合格样本后,最终确定有效样本为194个,其中不违约样本有102个,违约样本92个。
  BP神经网络分为训练和工作两个阶段,网络模型性能的好坏主要看其是否具有较好的泛化能力,即对新样本正确处理的能力。一般将总样本随机分成训练集样本和测试集样本两部分,对模型泛化能力的测试应当用测试集样本数据进行检验。有的资料认为训练集样本规模一般应达到有效样本的75%-80%,本研究将194个样本分成训练样本和测试样本两组:利用SPSSl6.0软件在102个不违约样本中随机抽取78个,在违约样本中随机抽取72个,将这150个样本数据作为训练样本集,而将其余的24个不违约样本和20个违约样本共44个样本作为测试样本集。
  (二)指标确定
  本研究初始选取的指标来自农村信用社农户小额信用贷款资信等级评定表和农户借款申请书等档案,选取了户主年龄、户主性别、家庭人口数、家庭劳动力数、耕地面积、农业收入、非农收入、年总支出、信用社入股金额、房屋价值、机械价值、其他资产价值、贷款数额、贷款用途、贷款月利率共15个指标。在以上指标中,户主的性别和借款用途两个变量是语言变量,需要转换为离散的数值量。在本研究中,户主的性别为男时赋值为0,性别为女时赋值为1;当贷款用途为用于种植业、养殖业等农业基本生产时赋值为1,用于加工、运输、经商等个体经营时赋值为2,用于生活用品、建房、治病、上学等一般消费时赋值为3。
  为了选择对违约农户和非违约农户区分能力最 强的指标变量以及消除变量间的多重共线性问题,对以上所选取的15个指标用SPSSl6.0软件分别进行正态性检验、参数及非参数检验和指标变量之间的多重共线性检验。
  1.正态性检验。在进行样本差异性检验之前,采用单样本K-S检验即Kolmogorov-Smirnov检验法,对每一个变量分别进行正态性检验。检验结果表明,在0.05的显著性水平下,变量户主年龄的概率P值为0.179,大于0.05,而其余14个变量的概率P值均为0,说明除变量户主年龄服从正态分布以外,另外14个变量都不服从正态分布。
  2.差异性检验。两独立样本T检验。两独立样本T检验的前提是样本来自的总体应服从或近似服从正态分布,本研究对服从正态分布的变量户主年龄采用两独立样本T检验。T检验结果的F统计量观察值的概率P值为0.098,大于显著性水平0.05,认为两总体方差无显著差异;对应的T统计量观察值的概率P值为0.027小于0.05,认为两总体均值存在显著差异。
  
  两独立样本K-S检验。对除变量户主年龄外的其他不服从正态分布的变量采用两独立样本K-s检验。在K-s检验结果中,耕地面积、农业收入、非农收入、年总支出、房屋价值、贷款数额、贷款用途几个变量的概率P值小于0.05,认为这几个变量在两总体的分布间存在显著差异,其他几个变量在两总体间则不存在显著差异。因此可以认为户主年龄、耕地面积、农业收入、非农收入、年总支出、房屋价值、贷款数额、贷款用途这8个变量在违约组和非违约组之间的差异显著,在模型建立过程中可只保留差异显著的8个变量,而将其他7个变量予以易II除。
  3.共线性检验。BP神经网络具有很强的非线性映射能力和自适应能力,输入变量之间是否存在共线性问题对网络的处理结果影响不大,但为使网络的训练效果更佳,本文使用方差扩大因子法进行变量问的多重共线性检验。VIF值越大,多重共线性问题就越严重,一般认为VIF值不应大于5,但也可适当放宽标准至不大于10。当VIF值大于10时,可认为变量之间存在严重的共线性。检验结果显示,变量非农收入的方差扩大因子VIF值最大,但也仅为2.974,小于5,表明所选择的8个变量之间并不存在多重共线性问题,可以将这8个变量直接作为建立BP网络模型的输入变量。
  (三)数据处理
  为消除数据量纲和变量自身变化大小的影响,加快网络训练的收敛速度,在模型建立之前,采用最小一最大标准化法对变量进行归一化即标准化处理,将网络的输入、输出数据限制在[0,1],从而使各输入分量在网络训练开始时处于同等重要的地位。计算公式如下:
  (四)BP神经网络信用风险评估模型的实现
  1.BP网络结构设计。(1)隐含层确定。单隐层BP网络能完成由任意n维到m维的映射,与一个隐层相比,采用两个隐层并无助于改善网络性能,但随隐层层数的增加,训练时间将急剧增加,且在训练过程中往往容易陷入局部最小误差而无法收敛。通过调节网络隐层神经元数目可提高其误差精度,且训练效果也比增加层数更明显。因此本研究以一个隐层建立单隐层的三层BP神经网络。(2)输入层和输出层确定。输入参数的合理与否对网络的性能有重要影响。选择输入量的基本原则一是变量对输出有较大影响且能够提取或检测,二是各变量之间互不相关或相关性很小。输入层节点数目取决于输入数据的维数。通过前述指标筛选,最终有8个指标对农户是否违约影响较大且变量间不存在相关性,可以作为建立BP网络模型的输入变量,因此本研究确定BP网络输入层的神经元个数为8个。输出层的选择相对容易,其节点数取决于输出数据类型和表示该类型所需数据的大小两个方面。当BP网络用于模式分类问题时,可用二进制数表示输出结果,其节点数可根据待分类类别数确定。本研究将农户信用风险分为违约和不违约两类,因此可定义1个输出节点,用1表示违约类农户,0表示不违约类农户。(3)隐层节点数的确定。隐层节点数太少,网络提取样本信息的能力差,将不足以反映训练集的样本规律。若隐层节点数太多,又可能会提取出样本中非规律性的内容如噪声等,造成“过度吻合”,降低网络的泛化能力,另外还会增加网络的训练时间。对于隐层节点数的确定,至今没有准确的理论和规则,需要的往往是更多的经验。在具体设计时,可先根据经验公式初步确定隐含层节点数,然后通过对不同节点数的网络进行训练对比,再最终确定节点数。本研究采用公式作为计算隐层节点数的参考公式,得出隐节点数为17个。在网络训练过程中不断改变隐层节点数,通过比较不同隐节点数下网络的训练误差精度及对两类样本的判别准确率,在满足网络的训练误差精度的前提下,选取判别准确率最高时的节点数作为网络模型最终的隐层节点数。经过多次测试,最终确定隐层的节点数为14,由此构成了一个8-14-1型的BP神经网络模型,在满足误差精度的情况下,此时模型对两类样本的判别准确率最高。(4)传递函数的选取。BP网络常用的传递函数有对数S型logsig函数、双曲正切S型tansig函数和线性函数purelin。由于BP神经网络的非线性映射能力是通过S型传递函数所体现的,所以隐层一般采用S型传递函数,而输出层传递函数可以采用s型或线性。当用s型传递函数作为输出层的传递函数时,其非线性逼近速度快于线性传递函数。本研究将隐层传递函数确定为tansig函数,从而将隐层输出值控制在(-1,+1)之间;因为网络的输出值为0或1,所以输出层传递函数采用iogsig函数。(5)训练函数的确定。对网络的训练本研究采用L-M改进算法和批处理的训练模式。L-M改进算法的收敛速度最快,并且适用于中小型网络。对于L-M算法,MATLAB神经网络工具箱提供了批处理模式下的训练函数trainlm。本研究将选择trainlm作为网络的训练函数。
  
  2.训练参数设置。(1)学习率。学习率决定网络每一次训练中所产生的权值变化量,其选择合理性是网络稳定的关键,太大可能导致系统不稳定,太小会导致收敛速度慢、训练时间过长,不过能保证收敛于某个极小值。一般情况下,倾向于选取较小的学习速率以保证网络系统的稳定性,其选取范围通常在0.01-0.8之间。当前都是根据经验来选择,并没有合理的解释与推导。可以通过观察网络训练的误差变化曲线来判断选取的学习率是否合理.曲线下降较快说明学习率比较合适,若出现较大的振荡则说明学习率偏大。经过反复测试,本研究最终确定学习率为0.4。(2)训练次数。训练次数将直接影响网络的准确性和泛化能力,次数过小不能完成训练所设定的目标误差,次数过大则容易造成“过度学习”现象,使得网络在对测试样本进行仿真测试时的准确度不高。本研究将最大训练次数确定为10000,当训练时间超过该设定时,学习过程自动终 止。(3)训练目标误差。MATLAB中默认目标误差为0,但实际情况中训练样本集很难达到。本研究输出值设为0和1两种情况,属于二分类问题,对训练精度要求不是特别高,将目标误差设为0.001。
  3.网络训练。在网络训练时需要注意的是将两类样本交叉输入,因为集中输入同一类样本将使网络在训练时只建立与该类样本相适应的映射关系,而集中输入另一类样本时,网络权值的调整又转向新的映射关系而否定前面训练的结果。当网络的隐含层节点数为14时,网络根据训练样本进行训练的误差变化曲线图如图2所示。
  BP网络模型对训练集样本的判别分类准确率达到100%,判定结果如表l所示。
  4.网络测试。在训练误差达到要求后,根据测试集样本的网络模型输出与期望输出的误差,判断网络的泛化性能。当网络的隐含层节点为14时,测试集样本的网络模型输出见表2。
  BP网络模型对测试集样本的分类准确率如表3所示。
  通过测试样本集网络输出结果表2可以看出,1号、5号、10号、11号、29号、30号及31号样本的网络输出结果与期望输出不符,判别分类出现错误。通过对测试样本的判别分类表3可以看出,BP网络模型对违约样本分类识别的正确率达到了90%,对不违约样本分类识别正确率为79.17%,整体的分类识别正确率为84.09%,取得了较好的评估结果,证明了所建BP网络模型的精确性和有效性。
  本研究将违约类农户误判为非违约类农户称为第一类错误,将非违约类农户误判为违约类农户称为第二类错误。显然,对于金融机构来说,第一类错误的危害性远比第二类错误严重,犯第二类错误顶多是没有将贷款发放出去而损失一笔利息收入,而犯第一类错误则会造成贷出的款项无法收回而形成果账。Ahman曾经得出这样一个研究结论,犯第一类错误造成的损失是第二类错误造成的损失的20倍至60倍。因此,应尽量避免第一类错误的发生。本研究所建立的BP网络模型对违约类样本识别的准确率达到90%,犯第一类错误的概率仅为10%,能够较好的避免第一类错误的发生,因而可认为是一个较好的信用风险评估模型,可以将其作为农村信用社识别农户信用风险的工具。
  三、结论及政策建议
  (一)结论
  随着小额信贷的发展,如何有效控制农户信用风险、提高信贷质量以促进小额信贷的可持续发展已成为农信社面临首要任务。农户小额信贷信用风险的评估研究对于完善农户小额信贷业务,实现小额信贷的可持续发展有着重要的意义。
  1.本文利用陕西省杨凌区3家农村信用社提供的数据资料,借助SPSSl6.0软件对样本数据分别进行正态性检验、参数及非参数检验和多重共线性检验,选择出对违约农户和非违约农户区分能力最强的指标变量,消除变量间的多重共线性问题,在信息量不减少的情况下减少变量的个数,从而减少了神经网络模型的输入单元个数,降低网络模型的复杂程度,提高了训练速度。
  2.利用MATLAB7.0软件对农户小额信贷信用风险进行实证研究,建立了8-14-1结构的BP神经网络模型。模型对训练集样本的识别正确率达100%,对测试样本集违约类农户的识别正确率达90%,总正确率达84.09%,虽然网络模型对测试样本集未违约类农户的识别准确率只有79.17%,但农村信用社在一定程度上可以容忍此类错误发生所带来的机会损失。因而,BP网络模型能够为农村信用社识别和预测农户信用风险提供较好的依据。
  3.BP神经网络是一种非参数模型,具有较强的非线性映射能力、容错能力和鲁棒性,对数据的分布要求不严格,分类精度较高,并且可以很容易地继承现有领域知识,不断接受新样本、新经验对模型进行调整。另外,BP神经网络模型中的权重通过网络对样本训练形成,不需要对各项指标确定权重,克服了由人工评价带来的主观性及模糊随机性的影响,保证了结果的准确性和客观性。
  (二)政策建议
  健全农户信用档案,建立农户信息数据库。深入调查农户的详细资料是建立农户信用档案的基础工作,也是农户小额信贷信用评级的依据。当前的农户信用档案资料不够详细,不能够全面反映农户家庭特征,影响农户小额信贷的质量。详细规范的信用数据是建立有效的信用风险评估模型的基础,也能够使信用风险评估模型选择更多的特征变量,进而提高模型的识别能力。此外,任何信用风险评估模型的应用都基于充足的历史数据,也是保证其准确适用的前提。加快农村信用社信息化建设步伐,建立农户档案数据库,对农户信用档案实行电子化管理,能够为信用风险评估模型的建立和完善提供大量的数据支撑,并实现农户小额信贷的实时发放和日常管理,提高农村信用社的金融管理能力。
  引进专业技术人才,提高员工计算机水平。由于诸多历史原因,当前我国农村信用社员工的年龄结构和知识结构老化,整体文化水平偏低,缺乏高素质的专业人才。BP神经网络信用风险评估模型和数据库的建立、维护等需要较强的计算机专业知识,且农村信用社在办理各项业务也均已实现电子化操作,而能熟练操作计算机和精通软硬件维修的人员很少,大部分计算机操作人员是经过短期培训上岗,其专业技能低,设备出现故障不能及时排除。因此,农村信用社有必要引进精通计算机的专业技术人才,以更好的实现对农户信用风险的评估管理和业务操作能力。另外,定期对现有工作人员进行计算机知识的培训,提高员工对计算机设备的操作能力和管理维护能力。

标签:神经网络 小额 农户 信贷