Documente Academic
Documente Profesional
Documente Cultură
10. cnki .
cn33 - f.
1336/ 2008.
03.
012
第 3 期 总第 197 期 商 业 经 济 与 管 理 No.3 Vol.197
2008 年 3 月
JOURNAL OF BUSINESS ECONOMICS Mar.2008
会计信息的数据挖掘方法与银行信贷风险预测
彭 寿 康
(浙江工商大学 金融学院 , 浙江 杭州 310018)
一 、引言
信用风险是指因借款人没有完全履约 , 致使银行资产遭受损失的风险 。 世界银行对全球银行业危机的
研究表明 , 信用风险管理不善进而引发流动性危机 , 是银行破产的最主要原因 。 在银行的风险管理实践中 ,
信贷风险评估是个重要环节 , 尽管要求贷款企业提供必要的财务数据早已成为银行工作的一种常态 , 但银
行的信贷风险评估却被一个问题所困惑 :
究竟哪些财务指标中含有预测企业贷款风险的信息 、怎样利用这
些信息 ? 可以说 , 这个问题能否解决 , 在很大程度上影响到银行的信贷风险评估质量和信用风险管理水平 。
数据挖掘是 20 世纪 80 年代末开始出现的 , 从大量的 、有噪声的实际数据中 , 挖掘有用信息的一种技术 。
[ 1]
经过 20 世纪 90 年代的迅猛发展 , 该技术已广泛应用于各个领域 , 并且新的应用领域还在不断开发出来 。
本文从信息熵理论出发 , 以银行信贷风险评估为视角 , 提出一种会计信息的数据挖掘方法 , 这种方法可以计
量各个财务指标中所含有的预测企业贷款风险的信息量 。 借助于这种方法 , 本文还提出了信贷风险预测的
两种新的模型 , 实证结果显示 , 两种模型都有良好的预测准确性 。
二 、财务指标预测信息含量的计量方法
基于会计数据的信贷风险评估模型是近年来得到广泛应用的一种银行信用风险管理工具 , 对这种工具
1968)的企业破产预测研究 。 尽管几十年来许多学者在此领域不懈努力 、
的探索始于 Beaver(1966)和 Altman(
也取得了很多成果 , 有个问题却始终困绕着该领域的研究者 :
究竟哪些指标可以作为企业信贷风险评估的
预测变量 ? 由于已有的经济理论无法回答这个问题 , 现有研究只能通过各种方法(如经验判断 、T 检验 、逐步
回归 、因子分析等)进行探索 , 于是出现在不同文献中的指标就有几十个之多 , 这充分反映了信贷风险评估
中预测变量选择的无序 。
收稿日期 :
2007 -08 -06
基金项目 :
教育部人文社会科学规划课题(06JA790105)
作者简介 :
彭寿康(1957-), 男 , 江苏苏州人 , 浙江工商大学金融学院教 授 , 经 济学博士 , 主要 从事金融监 管 、风 险管理研
究。
第3期 彭寿康 :
会计信息的数据挖掘方法与银行信贷风险预测 51
预测变量选择问题的关键是 :
怎样判断一个指标含有的预测某类事件发生的信息价值 ? 实际上 , 不仅
在银行信贷风险评估 、货币危机预警等预测问题中需要解决这个问题 , 就是在金融机构偿付能力监管指标
的设计和有效性分析中 , 也会遇到同类问题 。 因此对它的研究就有很大的意义 。基于信息熵理论和数据挖
掘技术 , 本文提出一种度量一个指标所含有的预测某类事件发生的信息价值的计量方法 , 具体分析如下 。
用(x 1 , x 2 , … …x n , y)表示贷款申请企业 , 其中 x i 代表企业的各个财务指标(在申请贷款 时由企业提
供)、y 代表企业是否违约(贷款发放一定时间后 , 如一年后 , 由银行参照某种标准界定)。信贷风险评估就是
通过 x i 来预测 y , 核心环节是要知道哪些 x i 对预测 y 有信息价值 、怎样构建预测模型 。借款企业是否违约
具有不确定性 、是个随机事件 , 若知道某个财务指标 x i 的取值后 , 可降低 y 这个随机事件的不确定性 , x i 对
信贷风险预测就有信息价值 。 在信息论和统计学中 , 随机变量的不确定性可用信息熵来度量 , 其对离散型
和连续型变量的定义分别为 :
N +∞
I(y)=-∑
i =1
Pi log Pi , I(y)=-∫
-∞
f(x)log f (x)dx 。
其中 P i 为离散型变量取不同值的概率 、f (x)为连续型变量的密度函数 。 信贷风险预测中 , 若以 P 1 表示企
业信贷的违约概率 , 企业违约的不确定性就可用
I(y)=-P 1 log P 1 -(
1 -P 1)log(
1 -P 1)
表示 。
确定一个临界点 x 0 , 按条件 x i ≤x 0(x i <x 0 )
可将企业分为两组 , 若两组企业所占比例分别为 q1 , q2 , y 在
两个组中的信息熵为 I 1(y ), I 2(y), 则利用指标 xi 后 , y 的不确定性的减少就可用
Gain(x i)=I(y)-q1 I 1(y)-q2 I 2(y)
来度量 。使 Gain (x i)达到最大时的临界点称为阈值 , 对应的 Gain(x i)称为用 x i 预测 y 时的信息增益 。 按照
信息论的观点 , 信息增益度量了指标 x i 在信贷风险预测中的价值 :
x i 的信息增益越大 , 用 x i 预测 y 的价值
就越大 。 计算一个指标的信息增益 , 需要不断探索临界点 、反复计算信息熵 , 计算量是很大的 。 值得庆幸的
是 , 近年来数据挖掘技术的发展使这个问 题得到解决 。 现在借助一些数 据挖掘软件 , 如 IBM 公司开发的
Intelligent Miner 软件 , 可以较方便地求得各个指标的阈值 。
信息增益的取值在[ 0 , I(y)
] 上 , 当指标的信息增益值为 I(y)时 , I 1 (y )=I 2(y)=0 , 这个指标对信贷风
险预测有最大价值 :
因为按照该指标的值是否大于阈值将企业分为两组后 , 各组中的 y 都不再具有不确定
性 , 一个组全部为违约企业 , 另一个组全部为非违约企业 , 于是只要使用该指标 , 就可建立起完美的预测规
则 。确定各个指标的阈值后 , 如果参照 Beaver 方式建立单一财务指标的信贷风险预测模型 , 使用指标 x i 为
预测变量时 , 预测规则应该是 :
当 x i ≤阈值(x i 为正指标)或 x i ≥阈值(x i 为负指标)时 , 判断企业会违约 。 更
进一步 , 本文提出一种计量财务指标的预测信息含量的方法 , 具体分析如下 :
从单一财务指标的预测规则知 , 若 x i ≤阈值(xi 为正指标)或 x i ≥阈值(x i 为负指标), 应判断企业将会
违约 , 在信贷风险预测中 , 这可以看成是财务指标 x i 发出了警报 。 如果某一企业的指标 x i 发出警报后该企
业违约了 , 这个警报就是一个信号(正确的警报);
如果企业后来没有违约 , 这个警报就是一个噪音(错误的
警报)① 。在信贷风险预测中 , 财务指标 x i 的信号比 、噪音比可定义为 :
指标 x i 的信号比 =x i 发出警报的违约企业数/ 违约企业总数 ,
指标 x i 的噪音比 =x i 发出警报的未违约企业数/ 未违约企业总数 。
如果一个财务指标的信号比很大(接近于 1)、噪音比很小(接近于 0), 银行对该指标发出的警报就应该更加
三 、信贷风险预测模型的构建方法
从国内外学者的研究现状看 , 信贷风险预测模型的构建方法主要有两类 :
基于 Morton 期权定价理论的
信贷风险预测模型(如 KMV 模型)和基于企业会计数据的信贷风险预测模型 。由于前一类模型的基本假设
是公司的股票价格可以反映公司的内在价值 , 而我国许多上市公司的股票还不能全部流通 , 股票市场的投
机风气也较国外更甚 , 公司的股票价格还不能很好地反映公司的内在价值 , 因此基于 Morton 期权定价理论
的预测模型(KMV 模型)的基本假设在我国并不满足 。
构建基于会计数据的信贷风险评估模型有多种方法 , 包括传统的线性判别分析 、Logistic 回归 、Probit 模
型 , 以及基于数据挖掘的决策树 、朴素贝叶斯分类 、人工神经网络等[ 3] [ 4] 。 为进一步说明信号噪音差方法在
银行信贷风险预测中的作用 , 本文下面提出构建信贷风险预测模型的两种新的方法 。
(一)信贷风险预测的线性模型
线性预测模型是银行信贷风险评估中使用很广的一类模型 , 如 Altman 的 Z 记分模型就属于这类模型 。
预测变量确定后 , 建立线性模型的关键是确定各个指标的权重 , Z 记分模型采用判别分析法来确定指标权
重 , 然而由于这种方法的前提假设(等协方差矩阵 、服从多元正态分布)通常不能得到满足 , Z 记分模型构建
方法的合理性受到一些研究者的质疑 。
延续上节的分析思路 , 本文提出一种线性模型的构建方法 。 很显然 , 一个指标的预测信息含量越大 , 信
贷风险评估时对这个指标所提供的信息就应该越重视 , 预测模型中它的权重应该越大 。由于信号噪音差计
量了一个指标所含有的预测信息量 , 因此可以构造信贷风险的线性预测函数 :
Z =(λ
1ρ1 x 1 +λ
2ρ2 x 2 +…λ
kρkx k)
/w,
其中 ρ
i 为第 i 个指标的信号噪音差 , w =∑ρ
i , 当 x i 为正指标时 , λ
1 =1 , 当 x i 为负指标时 , λ
1 =-1 。
四 、银行信贷风险预测模型构建的实证分析
(一)数据来源与说明
本文所用的企业财务数据 、以及对这些企业贷款的事后评级结果 , 均来自于某股份制银行浙江省分行 ,
54 商 业 经 济 与 管 理 2008 年
(三)各指标的统计分析与预测信息含量分析
表 2 给出对各指标的描述性统计 、以及对各指标的 T 检验结果 , 其中均值(0)、标准差(0)和均值(1)、标
1)分别表示非违约企业和违约企业的指标均值 、指标标准差 ;
准差( “ *” 和“ *”分别表示在取 α=0.
01 和 α
=0.05 时 , 贷款违约企业和非违约企业的对应的指标均值间存在显著差异 ;
而“ &” 则表示在取 α=0.05 时 ,
两类企业的指标均值间不存在显著差异 。从表 2 可以看到 , 有些指标的标准差很大 , 说明在这些指标中存在
较多的极端值 。
表 2 各备选预测指标的统计分析
指标名 均值(0) 标准差(0) 均值(1) 标准差(1) T 检验结 果
x1 0.6701 0.0607 0.5201 0.1383 **
x2 1.1184 0.4498 1.3671 1.2426 &
x3 7.4333 15.0045 11.9931 22.3488 &
x4 0.3844 0.4111 0.7089 0.4844 **
x5 0.6316 0.2543 0.9240 0.1443 **
x6 0.3684 0.2534 0.0759 0.1441 **
x7 0.8057 0.4653 1.1331 0.7907 **
x8 1.5924 1.8941 2.2680 3.9895 &
x9 714.2860 3380.1121 161.2127 187.5182 **
x10 36.1082 171.0550 6.5354 7.5977 **
x11 605.1802 3149.7214 226.0711 272.8841 **
第3期 彭寿康 :
会计信息的数据挖掘方法与银行信贷风险预测 55
(四)信贷风险预测模型与预测准确率检验
为客观评价所建立模型的预测准确率 , 本文通过计算机随机抽取方式 , 将 596 个样本点分为两组 , 一组
为训练样本 、一组为检验样本 , 每个组均包括了 250 家非违约公司和 48 个违约公司 , 利用训练样本构建预测
模型后 , 我们将分别检验模型对训练样本和检验样本的预测准确率 。
依据表 3 结果 , 我们选择信息量最大的 9 个指标作为预测变量 , 它们是 x1 、x4 、x5 、x6 、x12 、x13 、x15 、
x16 、x20 。考虑到各指标间可能存在相关性 , 而将相关性很强的指标同时作为预测变量 , 不仅会增加预测模
型的使用成本 , 而且会影响到模型的预测精度 , 因此对 9 个指标作进一步筛选 , 具体方法为 :
计算各指标间的
相关系数 , 当两个指标的相关系数较大时(取绝对值大于 0.
8 为标准), 剔除信息量较小的指标 。通过这样的
56 商 业 经 济 与 管 理 2008 年
参考文献 :
[ 1] Kirkos S , Spathis C , Manolopoulos Y.
Data Mining Techniques for the Detection of Fraudulent Financial Statements[ J] .Expert Systems with
995-1003 .
Applications, 2007(32):
[ 2] Kaminsky Graciela , Mohsin K .
Currency and Banking Crisis :
The Early Warning of Distress :
The Carly Warning of Distress [ D] .
IMF
Working Paper , 1999:
1-38.
[ 3] Michel Crouhy , Dan Galai , Robert Mark .
A Comparative Analysis of Current Credit Risk Models[ J] .Journal of Banking &Finance , 2000
(24):
59 -117 .
[ 4] Michael B Gordy .
A Comparative Anatomy of Credit Risk Models[ J] .Journal of Banking &Finance , 2000(24):
119-149.
Abstract :Based on information entropy theory and data mining technologies , this paper proposes an approach to mining valuable hidden
information in accounting data .
Creditors and investors can use this approach to mine out valuable knowledge buried in accounting data .To
demonstrate the effectiveness of this approach , an empirical example is given to show how we can use this approach to construct models of
predicting credit risks .
The results show that these models have achieved the prediction accuracy .
information entropy ;
Key words:credit risk; data mining ;
signal noise method
(责任编辑 傅凌燕)