A Data Mining Approach To Extract Valuable Information in Accounting Data and A Model of Credit Risk Prediction

DO I : 14134/j .
10. cnki .
cn33 - f.
1336/ 2008.
03.
012
　第 3 期总第 197 期商　业　经　济　与　管　理 No.3 Vol.197
　　 2008 年 3 月　　
JOURNAL OF BUSINESS ECONOMICS Mar.2008
　
会计信息的数据挖掘方法与银行信贷风险预测
彭　寿　康
(浙江工商大学金融学院 , 浙江杭州 310018)
　　摘　要 :基于信息熵理论和数据挖掘技术 , 文章提出一种会计信息的数据挖掘方法 , 投资者和

债权人可用这种方法从企业的会计数据中挖掘出决策有用信息。本文以银行信贷风险预测模型构
建为例 , 对这种方法的有效性进行了实证检验。
关键词 :信贷风险 ;
信息熵 ;
数据挖掘 ;
信号噪音差
中图分类号 :
F830.9 　　文献标识码 :
A 　　文章编号 :
1000 -2154(2008)
03 -0050 -07
一、引言
信用风险是指因借款人没有完全履约 , 致使银行资产遭受损失的风险。世界银行对全球银行业危机的
研究表明 , 信用风险管理不善进而引发流动性危机 , 是银行破产的最主要原因。在银行的风险管理实践中 ,
信贷风险评估是个重要环节 , 尽管要求贷款企业提供必要的财务数据早已成为银行工作的一种常态 , 但银
行的信贷风险评估却被一个问题所困惑 :
究竟哪些财务指标中含有预测企业贷款风险的信息、怎样利用这
些信息 ? 可以说 , 这个问题能否解决 , 在很大程度上影响到银行的信贷风险评估质量和信用风险管理水平。
数据挖掘是 20 世纪 80 年代末开始出现的 , 从大量的、有噪声的实际数据中 , 挖掘有用信息的一种技术。
[ 1]
经过 20 世纪 90 年代的迅猛发展 , 该技术已广泛应用于各个领域 , 并且新的应用领域还在不断开发出来。
本文从信息熵理论出发 , 以银行信贷风险评估为视角 , 提出一种会计信息的数据挖掘方法 , 这种方法可以计
量各个财务指标中所含有的预测企业贷款风险的信息量。借助于这种方法 , 本文还提出了信贷风险预测的
两种新的模型 , 实证结果显示 , 两种模型都有良好的预测准确性。
二、财务指标预测信息含量的计量方法
基于会计数据的信贷风险评估模型是近年来得到广泛应用的一种银行信用风险管理工具 , 对这种工具
1968)的企业破产预测研究。尽管几十年来许多学者在此领域不懈努力、
的探索始于 Beaver(1966)和 Altman(
也取得了很多成果 , 有个问题却始终困绕着该领域的研究者 :
究竟哪些指标可以作为企业信贷风险评估的
预测变量 ? 由于已有的经济理论无法回答这个问题 , 现有研究只能通过各种方法(如经验判断、T 检验、逐步
回归、因子分析等)进行探索 , 于是出现在不同文献中的指标就有几十个之多 , 这充分反映了信贷风险评估
中预测变量选择的无序。
收稿日期 :
2007 -08 -06
基金项目 :
教育部人文社会科学规划课题(06JA790105)
作者简介 :
彭寿康(1957-), 男 , 江苏苏州人 , 浙江工商大学金融学院教授 , 经济学博士 , 主要从事金融监管、风险管理研
究。
第3期彭寿康 :
会计信息的数据挖掘方法与银行信贷风险预测 51 　
　　
预测变量选择问题的关键是 :
怎样判断一个指标含有的预测某类事件发生的信息价值 ? 实际上 , 不仅
在银行信贷风险评估、货币危机预警等预测问题中需要解决这个问题 , 就是在金融机构偿付能力监管指标
的设计和有效性分析中 , 也会遇到同类问题。因此对它的研究就有很大的意义。基于信息熵理论和数据挖
掘技术 , 本文提出一种度量一个指标所含有的预测某类事件发生的信息价值的计量方法 , 具体分析如下。
用(x 1 , x 2 , … …x n , y)表示贷款申请企业 , 其中 x i 代表企业的各个财务指标(在申请贷款时由企业提
供)、y 代表企业是否违约(贷款发放一定时间后 , 如一年后 , 由银行参照某种标准界定)。信贷风险评估就是
通过 x i 来预测 y , 核心环节是要知道哪些 x i 对预测 y 有信息价值、怎样构建预测模型。借款企业是否违约
具有不确定性、是个随机事件 , 若知道某个财务指标 x i 的取值后 , 可降低 y 这个随机事件的不确定性 , x i 对
信贷风险预测就有信息价值。在信息论和统计学中 , 随机变量的不确定性可用信息熵来度量 , 其对离散型
和连续型变量的定义分别为 :
N +∞
I(y)=-∑
i =1
Pi log Pi , 　　　I(y)=-∫
-∞
f(x)log f (x)dx 。
其中 P i 为离散型变量取不同值的概率、f (x)为连续型变量的密度函数。信贷风险预测中 , 若以 P 1 表示企
业信贷的违约概率 , 企业违约的不确定性就可用
I(y)=-P 1 log P 1 -(
1 -P 1)log(
1 -P 1)
表示。
确定一个临界点 x 0 , 按条件 x i ≤x 0(x i <x 0 )
可将企业分为两组 , 若两组企业所占比例分别为 q1 , q2 , y 在
两个组中的信息熵为 I 1(y ), I 2(y), 则利用指标 xi 后 , y 的不确定性的减少就可用
Gain(x i)=I(y)-q1 I 1(y)-q2 I 2(y)
来度量。使 Gain (x i)达到最大时的临界点称为阈值 , 对应的 Gain(x i)称为用 x i 预测 y 时的信息增益。按照
信息论的观点 , 信息增益度量了指标 x i 在信贷风险预测中的价值 :
x i 的信息增益越大 , 用 x i 预测 y 的价值
就越大。计算一个指标的信息增益 , 需要不断探索临界点、反复计算信息熵 , 计算量是很大的。值得庆幸的
是 , 近年来数据挖掘技术的发展使这个问题得到解决。现在借助一些数据挖掘软件 , 如 IBM 公司开发的
Intelligent Miner 软件 , 可以较方便地求得各个指标的阈值。
信息增益的取值在[ 0 , I(y)
] 上 , 当指标的信息增益值为 I(y)时 , I 1 (y )=I 2(y)=0 , 这个指标对信贷风
险预测有最大价值 :
因为按照该指标的值是否大于阈值将企业分为两组后 , 各组中的 y 都不再具有不确定
性 , 一个组全部为违约企业 , 另一个组全部为非违约企业 , 于是只要使用该指标 , 就可建立起完美的预测规
则。确定各个指标的阈值后 , 如果参照 Beaver 方式建立单一财务指标的信贷风险预测模型 , 使用指标 x i 为
预测变量时 , 预测规则应该是 :
当 x i ≤阈值(x i 为正指标)或 x i ≥阈值(x i 为负指标)时 , 判断企业会违约。更
进一步 , 本文提出一种计量财务指标的预测信息含量的方法 , 具体分析如下 :
从单一财务指标的预测规则知 , 若 x i ≤阈值(xi 为正指标)或 x i ≥阈值(x i 为负指标), 应判断企业将会
违约 , 在信贷风险预测中 , 这可以看成是财务指标 x i 发出了警报。如果某一企业的指标 x i 发出警报后该企
业违约了 , 这个警报就是一个信号(正确的警报);
如果企业后来没有违约 , 这个警报就是一个噪音(错误的
警报)① 。在信贷风险预测中 , 财务指标 x i 的信号比、噪音比可定义为 :
指标 x i 的信号比 =x i 发出警报的违约企业数/ 违约企业总数 ,
指标 x i 的噪音比 =x i 发出警报的未违约企业数/ 未违约企业总数。
如果一个财务指标的信号比很大(接近于 1)、噪音比很小(接近于 0), 银行对该指标发出的警报就应该更加
① 国际货币基金组织的 Kaminsky 等 , 在研究货币危机预测方法时 , 于 1997 年首先采用信号、噪音的概念来描述某个宏观

经济指标发出的 , 有关货币危机将要发生的 , 真实的警报与虚假的警报。
　 52 商　业　经　济　与　管　理 2008 年
　　
关注 , 因为这个指标在信贷风险预测中可以提供更多的信息。按照这种思路 , 本文提出的财务指标的预测

信息含量的计量方法为 :
财务指标的预测信息含量 =指标的信号比 -指标的噪音比
这种方法可以称为指标信息量测量的信号噪音差方法。
一个财务指标的信号噪音差越大 , 其预测信贷风险的作用就越大。如果一个财务指标的信号噪音差为
1 , 则该指标发出的每个警报就都是信号、没有噪音 , 且该指标对所有的违约公司都能发出警报 , 这个指标就
是最好的信贷风险预测变量。若一个财务指标对预测信贷风险不能提供任何信息 , 该指标的信号比、噪音
5 , 信号噪音差接近于 0 。
比就会很接近于 0.
[ 2]
在研究货币危机预测模型时 , Kaminsky(1999)曾提出 , 采用
信号噪音比 =指标的信号比/指标的噪音比
来计量各个宏观经济指标对货币危机的预测信息含量 , 我们认为这种方法存在缺陷 :
第一 , 信号噪音比取值
在(0 , +∞)内 , 决策者很难判断一个信号噪音比取值(例如为 500)的指标所含有的信息量究竟是大还是小 ;
第二 , 用信号噪音比计量指标的预测信息含量容易造成判断失误 :
假设在全部贷款企业中 , 违约企业 100 家 ,
非违约企业 500 家 , 一个财务指标对这 600 家企业只发出了 3 次警报(三次警报都是信号), 则该指标的信号
噪音比为 ∞, 信号噪音差为 0.
03 。按照信号噪音比标准 , 这个指标有很大的价值 , 可以作为构建预测模型的
重要预测变量 , 而按照信号噪音差标准 , 这个指标不能用作预测变量 , 因为它对绝大多数的违约企业都没有
发出警报 ;
第三 ,Kaminsky 没有继续研究如何合理确定各个指标的阈值 , 本文则利用信息熵的观点和数据挖
掘技术较好地解决了这个问题。
三、信贷风险预测模型的构建方法
从国内外学者的研究现状看 , 信贷风险预测模型的构建方法主要有两类 :
基于 Morton 期权定价理论的
信贷风险预测模型(如 KMV 模型)和基于企业会计数据的信贷风险预测模型。由于前一类模型的基本假设
是公司的股票价格可以反映公司的内在价值 , 而我国许多上市公司的股票还不能全部流通 , 股票市场的投
机风气也较国外更甚 , 公司的股票价格还不能很好地反映公司的内在价值 , 因此基于 Morton 期权定价理论
的预测模型(KMV 模型)的基本假设在我国并不满足。
构建基于会计数据的信贷风险评估模型有多种方法 , 包括传统的线性判别分析、Logistic 回归、Probit 模
型 , 以及基于数据挖掘的决策树、朴素贝叶斯分类、人工神经网络等[ 3] [ 4] 。为进一步说明信号噪音差方法在
银行信贷风险预测中的作用 , 本文下面提出构建信贷风险预测模型的两种新的方法。
(一)信贷风险预测的线性模型
线性预测模型是银行信贷风险评估中使用很广的一类模型 , 如 Altman 的 Z 记分模型就属于这类模型。
预测变量确定后 , 建立线性模型的关键是确定各个指标的权重 , Z 记分模型采用判别分析法来确定指标权
重 , 然而由于这种方法的前提假设(等协方差矩阵、服从多元正态分布)通常不能得到满足 , Z 记分模型构建
方法的合理性受到一些研究者的质疑。
延续上节的分析思路 , 本文提出一种线性模型的构建方法。很显然 , 一个指标的预测信息含量越大 , 信
贷风险评估时对这个指标所提供的信息就应该越重视 , 预测模型中它的权重应该越大。由于信号噪音差计
量了一个指标所含有的预测信息量 , 因此可以构造信贷风险的线性预测函数 :
Z =(λ
1ρ1 x 1 +λ
2ρ2 x 2 +…λ
kρkx k)
/w,
其中 ρ
i 为第 i 个指标的信号噪音差 , w =∑ρ
i , 当 x i 为正指标时 , λ
1 =1 , 当 x i 为负指标时 , λ
1 =-1 。
很显然 , 这样定义的综合指标 Z 比任何单一指标都含有预测企业信贷风险的更多信息 , 于是可以建立

企业信贷风险的线性预测规则 :
选取临界值 Z 0(Z 0 需结合具体问题确定), 当企业 Z 值大于 Z 0 时 , 判断企业
第3期彭寿康 :
　　
贷款将不会违约 , 当企业 Z 值小于 Z0 时 , 判断企业贷款将会违约。

(二)信贷风险预测的非线性模型
朴素贝叶斯分类法是随数据挖掘技术发展起来的 , 构建非线性预测模型的一种方法。基于会计数据的
信贷风险评估 , 就是根据财务数据 X =(x 1 , x 2 , … , x n)对贷款申请企业是否会违约做出预测 , 这种预测可通
过比较企业的违约概率和非违约概率来进行 , 即通过比较条件概率 P(y =j X), j =0 , 1 来进行。根据贝叶
斯公式 , 条件概率可表示为
P(y =j)P(X y =j)
P(y =j X )= 。
P(X)
朴素贝叶斯分类法假设 , 给定 y 时各预测变量 x i 相互独立 , 这样就有
n
P(y =j)P(X y =j)=P(y =j)i ∏
=1
P(x i y =j),
当 x i 为连续型变量时 , 朴素贝叶斯分类法假设其服从正态分布 , 于是
2
P(xj y =j)= 1 exp[ -(xi -uji)] ,
2 πσji 2σji
其中 uji , σji为当 y =j 时指标 x i 的条件均值与条件标准差。

朴素贝叶斯分类法通过比较 P(y =0 X)、P(y =1 X)来判断企业是否将违约 , 由于这种比较等同于比
较 P(y =0)P(X y =0)、P(y =1)P(X y =1), 朴素贝叶斯分类法的预测规则为 :
若 P(y =0)P(X y =0)-P(y =1)P(X y =1)>临界值 , 判断企业将不会违约 ;
若 P(y =0)P(X y =0)-P(y =1)P(X y =1)≤临界值 , 判断企业将会违约。
在许多决策问题中 , 朴素贝叶斯分类法都是构建非线性预测模型的有效方法 , 但在信贷风险预测中这
种方法却遇到了困难 :
许多财务指标是连续型变量 , 但并不服从正态分布(如许多财务指标只能取正值), 此
时若用朴素贝叶斯分类法构建模型 , 就会造成构建模型的前提假设不成立、以及模型的预测准确率下降。
朴素贝叶斯分类法中 , 假设连续性变量服从正态分布 , 是为了简化 P(xi y )的计算 , 利用上一节的分析
方法 , 本文提出一种简化 P(x i y)计算的新方法 , 使朴素贝叶斯分类法能够运用于信贷风险预测模型的构
建。这种方法介绍如下。
＊
利用财务指标 x i 的阈值 , 将原始指标 x i 转换为信号指标 x i , 转换方法为
1 　如果指标 x i 发出警报
xi＊ =
0 　如果指标 x i 没有发出警报
由于阈值是用指标 xi 预测 y 时信息增益最大的临界点 , 这样的转换并不会造成指标 x i 的有效信息的损失 ,
且使转换后的信号指标 x ＊
i 不会受极端值的影响(而 x i 中可能存在极端值), 从而有助于提高模型的预测准
确率。指标转换后 , 信号指标 x i＊只取 0 、1 两个值 , P( 的计算就由下式给出 :
x i y)
x i＊ =1 y =1)=指标 x i 的信号比 ,P(
P( x i＊ =0 y =1)=1 -指标 x i 的信号比 ,
x i＊ =1 y =0)=指标 x i 的嗓音比 ,P(
P( x i＊ =0 y =0)=1 -指标 x i 的嗓音比。
再比较相应的条件概率 , 就可以建立信贷风险预测的非线性模型。
下面本文通过信贷风险预测模型构建的实证 , 来证实模型构建方法的可行性 , 并对模型的预测准确率
进行检验。
四、银行信贷风险预测模型构建的实证分析
(一)数据来源与说明
本文所用的企业财务数据、以及对这些企业贷款的事后评级结果 , 均来自于某股份制银行浙江省分行 ,
　 54 商　业　经　济　与　管　理 2008 年
　　
所涉及的贷款企业是资产总额在亿元以上的大型企业 , 共 596 个样本点(跨几个年度)。其中 , 财务数据是企

业在申请贷款时向银行所提交的当期数据 , 贷款的事后评级结果是贷款发放一定时间后(如一年后)银行按
照有关标准对企业贷款给出的评级。按照我国的贷款质量分类制度 , 贷款质量的事后评级分为正常、关注、
次级、可疑、损失五类 , 其中后面三类贷款属不良贷款。参照巴塞尔新资本协议给出的公司贷款违约的参考
定义 , 本文将前二类贷款界定为非违约贷款 , 后三类贷款界定为违约贷款 , 这样在 596 个样本点中 , 违约样本
点 96 个 , 非违约样本点 500 个。
(二)备选预测指标与定义
贷款申请企业向银行提交的财务数据包括 :
资产总额、负债总额、流动资产、流动负债、现金、销售收入、
销售利润、净利润、应收帐款、主营业务成本、存货、贷款额、利息费用、赊销额、资金周转天数、存货周转天
数、销售收入增长率等。由于很难事先判断哪些财务指标对企业信贷风险预测有较大信息含量 , 本文从贷
款申请企业的资产流动性、财务杠杆、赢利与回报能力、企业规模等特征考虑 , 初步选择了 20 个财务指标作
为备选预测指标 , 具体的指标与指标定义见表 1 。
表 1 　　信贷风险预测模型的备选预测指标
指标名指标定义指标名指标定义

x1 负债总额 / 资产总额 x11 销售收入 / 利息费用
x2 流动资产 / 流动负债 x12 净利润 / 净资产
x3 销售收入 / 现金 x13 资产总额的对数
x4 销售收入 / 总资产 x14 销售利润 / 总资产
x5 销售成本 / 销售收入 x15 (应收帐款 +存货)/ 净资产
x6 销售利润 / 销售收入 x16 销售收入 / 负债总额
x7 流动负债 / 净资产 x17 销售利润 / 利息费用
x8 销售收入 / 流动资金 x18 销售收入 / 净资产
x9 流动资金 / 利息费用 x19 主营业务成本 / 销售收入
x10 流动资金 / 贷款额 x20 存货 / 净资产
(三)各指标的统计分析与预测信息含量分析
表 2 给出对各指标的描述性统计、以及对各指标的 T 检验结果 , 其中均值(0)、标准差(0)和均值(1)、标
1)分别表示非违约企业和违约企业的指标均值、指标标准差 ;
准差( “ ＊” 和“ ＊”分别表示在取 α=0.
01 和 α
=0.05 时 , 贷款违约企业和非违约企业的对应的指标均值间存在显著差异 ;
而“ &” 则表示在取 α=0.05 时 ,
两类企业的指标均值间不存在显著差异。从表 2 可以看到 , 有些指标的标准差很大 , 说明在这些指标中存在
较多的极端值。
表 2　　各备选预测指标的统计分析
指标名均值(0) 标准差(0) 均值(1) 标准差(1) T 检验结果
x1 0.6701 0.0607 0.5201 0.1383 ＊＊
x2 1.1184 0.4498 1.3671 1.2426 &
x3 7.4333 15.0045 11.9931 22.3488 &
x4 0.3844 0.4111 0.7089 0.4844 ＊＊
x5 0.6316 0.2543 0.9240 0.1443 ＊＊
x6 0.3684 0.2534 0.0759 0.1441 ＊＊
x7 0.8057 0.4653 1.1331 0.7907 ＊＊
x8 1.5924 1.8941 2.2680 3.9895 &
x9 714.2860 3380.1121 161.2127 187.5182 ＊＊
x10 36.1082 171.0550 6.5354 7.5977 ＊＊
x11 605.1802 3149.7214 226.0711 272.8841 ＊＊
第3期彭寿康 :
　　
指标名均值(0) 标准差(0) 均值(1) 标准差(1) T 检验结果

x12 0.1322 0.1220 0.0153 0.1507 ＊＊
x13 23.1599 1.1743 21.5125 0.8374 ＊＊
x14 0.1011 0.1591 0.0569 0.0923 ＊＊
x15 0.2989 0.2726 0.5708 0.2370 ＊＊
x16 0.5831 0.6667 1.5860 1.2850 ＊＊
x17 273.1425 1871.2716 12.8044 16.8046 ＊＊
x18 1.2072 1.3218 1.4499 0.8841 ＊
x19 0.6314 0.2453 0.7601 0.2459 ＊＊
x20 0.1760 0.2334 0.3502 0.2169 ＊＊
　　利用数据挖掘软件 Intelligent Miner , 我们计算了各指标在信贷风险预测中的信息含量 , 结果由表 3 给出 ,

其中各指标阈值后面括号内的符号 , 表示数据挖掘结果显示该指标为正指标还是负指标。从计算结果看
到 , 在信贷风险预测中 , 各备选财务指标的信息含量相差很大 , 其中具有最大信息量的指标为 :
负债比率
(x1)、企业规模(x13)、销售利润率(x6)、销售成本与收入比率(x5)等。很显然 , 银行在构建信贷风险预测模
型时 , 应该选择信息量大的指标作为预测变量。
值得指出的是 , 利用信号噪音差方法选择变量 , 与使用统计方法(如 T 检验)选择变量有很大的不同 , 其
区别在于 :
统计方法是通过间接方式来判断指标 xi 是否可以作为预测变量 , 如 T 检验是通过比较违约与非
违约企业的 x i 的均值是否存在显著差异来判断。由于 T 检验不能直接测量各指标的信息量 , 当许多指标都
通过 T 检验时 , 就无法判断哪些指标有更多信息 , 就无法解决预测变量的选择问题 , 而信号噪音差方法则可
解决这个问题。如对表 2 中的 20 个变量 , T 检验结果显示 , 除 X2 、X 3 、X8 、X 18 这四个指标外 , 其余指标都
能在 0.01 的显著性水平下通过 T 检验 , 但 T 检验却无法判断十六个指标中哪些具有较大的信息量 , 如指标
X1 与 X7 都可以 T 检验 , 但是它们的预测信息含量却相差好几倍。另外 , T 检验结果很容易受到极端值的
影响 , 而信号噪音差的比较结果则不会受此影响。
表 3　　信贷风险评估中各财务指标的信息量
指标名阈值信号噪音差指标名阈值信号噪音差
x1 0.675(+) 0.661 x11 13.245(-) 0.256
x2 1.090(-) 0.268 x12 0.045(+) 0.548
x3 1.380(-) 0.308 x13 9.695(+) 0.690
x4 0.255(-) 0.456 x14 0.025(+) 0.386
x5 0.935(-) 0.636 x15 0.355(-) 0.544
x6 0.065(+) 0.636 x16 0.415(-) 0.491
x7 0.415(-) 0.212 x17 1.210(+) 0.274
x8 9.770(+) 0.172 x18 0.385(+) 0.298
x9 -6.380(+) 0.245 x19 0.725(-) 0.396
x10 0.435(-) 0.114 x20 0.085(-) 0.584
(四)信贷风险预测模型与预测准确率检验
为客观评价所建立模型的预测准确率 , 本文通过计算机随机抽取方式 , 将 596 个样本点分为两组 , 一组
为训练样本、一组为检验样本 , 每个组均包括了 250 家非违约公司和 48 个违约公司 , 利用训练样本构建预测
模型后 , 我们将分别检验模型对训练样本和检验样本的预测准确率。
依据表 3 结果 , 我们选择信息量最大的 9 个指标作为预测变量 , 它们是 x1 、x4 、x5 、x6 、x12 、x13 、x15 、
x16 、x20 。考虑到各指标间可能存在相关性 , 而将相关性很强的指标同时作为预测变量 , 不仅会增加预测模
型的使用成本 , 而且会影响到模型的预测精度 , 因此对 9 个指标作进一步筛选 , 具体方法为 :
计算各指标间的
相关系数 , 当两个指标的相关系数较大时(取绝对值大于 0.
8 为标准), 剔除信息量较小的指标。通过这样的
　 56 商　业　经　济　与　管　理 2008 年
　　
筛选 , 最后确定的 7 个预测变量为 x1 、x4 、x5 、x6 、x12 、x13 、x20 。

根据上节介绍的方法 , 建立的线性预测函数为 :
Z =0.
157x1 -0.108x 4 -0.151x 5 +0.151x 6 +0.
130x12 +0.
164x13 -0.
139x20 ,
预测规则为 :
若 Z ≤1.47 , 判断企业将会违约 ;
若 Z >1.47 , 判断企业将不会违约。
根据这个预测规则 , 对训练样本组中的 250 家非违约企业 , 预测准确 227 家 , 准确率 90.8 %;
对 48 家违
约企业 , 预测准确 42 家 , 准确率 87.
5 %。对检验样本组中的 250 家非违约企业 , 预测准确 231 家 , 准确率
92.4 %;
对 48 家违约企业 , 预测准确 41 家 , 准确率 85.4 %。这样可以看到 , 以各指标的信号噪音差为权重建
立的信贷风险预测模型 , 具有较高的预测准确率 , 模型对两个样本组的预测准确率十分接近 , 说明模型有对
训练样本组外的企业的实际应用价值。
再将 7 个指标 x1 、x4 、x5 、x6 、x12 、x13 、x 20 转化为信号指标后 , 利用朴素贝叶斯分类法构建信贷风险的
非线性预测模型 , 得到预测规则为 :
＊＊
y =0)
若 P( P(X y =0)-P(y =1)
P(X y =1)>0.003 , 判断企业将不会违约 ;
＊＊
y =0)
若 P( P(X y =0)-P(y =1)
P(X y =1)≤0.003 , 判断企业将会违约
其中 ,P(
y =0)、P(
y =1)表示在全体贷款企业中 , 未违约企业所占比率和违约企业所占比率 , 我们分别取
500/596 、96/ 596 。
非线性预测规则对训练样本组的 250 家非违约企业 , 预测准确 232 家 , 准确率 92.8 %;
对 48 家违约企
业 , 预测准确 46 家 , 准确率 95.8 %。对检验样本组的 250 家非违约企业 , 预测准确 235 家 , 准确率 94 %, 对 48
家违约企业 , 预测准确 46 家 , 准确 95.8 %。可以看到 , 非线性预测模型比线性预测模型有更高的预测准确
率 , 而且非线性模型同样具有对训练样本外的企业的实际应用价值。
参考文献 :
[ 1] Kirkos S , Spathis C , Manolopoulos Y.
Data Mining Techniques for the Detection of Fraudulent Financial Statements[ J] .Expert Systems with
995-1003 .
Applications, 2007(32):
[ 2] Kaminsky Graciela , Mohsin K .
Currency and Banking Crisis :
The Early Warning of Distress :
The Carly Warning of Distress [ D] .
IMF
Working Paper , 1999:
1-38.
[ 3] Michel Crouhy , Dan Galai , Robert Mark .
A Comparative Analysis of Current Credit Risk Models[ J] .Journal of Banking &Finance , 2000
(24):
59 -117 .
[ 4] Michael B Gordy .
A Comparative Anatomy of Credit Risk Models[ J] .Journal of Banking &Finance , 2000(24):
119-149.
A Data Mining Approach to Extract Valuable Information in Accounting Data

and a Model of Credit Risk Prediction
PENG Shou -kang
(School of Finance , Zhejiang Gongshang University , Hangzhou 310018, China)
　　Abstract :Based on information entropy theory and data mining technologies , this paper proposes an approach to mining valuable hidden
information in accounting data .
Creditors and investors can use this approach to mine out valuable knowledge buried in accounting data .To
demonstrate the effectiveness of this approach , an empirical example is given to show how we can use this approach to construct models of
predicting credit risks .
The results show that these models have achieved the prediction accuracy .
information entropy ;
Key words:credit risk; data mining ;
signal noise method
(责任编辑　傅凌燕)

A Data Mining Approach To Extract Valuable Information in Accounting Data and A Model of Credit Risk Prediction

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

A Data Mining Approach To Extract Valuable Information in Accounting Data and A Model of Credit Risk Prediction

Încărcat de

Drepturi de autor:

Formate disponibile

DO I : 14134/j .

摘　要 :基于信息熵理论和数据挖掘技术 , 文章提出一种会计信息的数据挖掘方法 , 投资者和

① 国际货币基金组织的 Kaminsky 等 , 在研究货币危机预测方法时 , 于 1997 年首先采用信号、噪音的概念来描述某个宏观

关注 , 因为这个指标在信贷风险预测中可以提供更多的信息。按照这种思路 , 本文提出的财务指标的预测

很显然 , 这样定义的综合指标 Z 比任何单一指标都含有预测企业信贷风险的更多信息 , 于是可以建立

贷款将不会违约 , 当企业 Z 值小于 Z0 时 , 判断企业贷款将会违约。

其中 uji , σji为当 y =j 时指标 x i 的条件均值与条件标准差。

所涉及的贷款企业是资产总额在亿元以上的大型企业 , 共 596 个样本点(跨几个年度)。其中 , 财务数据是企

指标名指标定义指标名指标定义

指标名均值(0) 标准差(0) 均值(1) 标准差(1) T 检验结果

利用数据挖掘软件 Intelligent Miner , 我们计算了各指标在信贷风险预测中的信息含量 , 结果由表 3 给出 ,

筛选 , 最后确定的 7 个预测变量为 x1 、x4 、x5 、x6 、x12 、x13 、x20 。