前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談個人信用風(fēng)險評估模型比較范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:信用卡自20世紀60年代,在歐美發(fā)達國家出現(xiàn)至今已經(jīng)成為主流支付手段之一。但由于信用卡持有人的極大的不確定性,可能出現(xiàn)違約或者壞賬。針對這些問題,本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ),采用線性判別分析、CART分類樹和AdaBoost算法建立個人信用風(fēng)險評估模型,并從預(yù)測準確率、第二錯誤率和誤判成本3個方面比較這3種模型違約概率的預(yù)測準確性。結(jié)果表明,AdaBoost算法預(yù)測效果最好,線性判別效果最差。
關(guān)鍵詞:信用評估模型;線性判別分析;CART分類樹;AdaBoost算法
在市場經(jīng)濟社會中,法律制度,信用,財產(chǎn)權(quán)和風(fēng)險是市場經(jīng)濟的四個關(guān)鍵。信用對個人,社會和國家特別重要,是現(xiàn)代社會的基石[1]。盡管隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等金融科技的發(fā)展,征信業(yè)將面臨新的發(fā)展機遇,但是信用卡市場仍然是中國個人金融服務(wù)市場成長最快的產(chǎn)品系列之一。因此,建立一個合理的個人信用評估模型對個人信用進行評估就十分必要。一個較好的信用評估模型能給銀行的決策提供合理的建議,從而能降低信用卡的不良率,減少由于違約對銀行造成的損失。個人信用評估主要分為兩類,第一種是統(tǒng)計學(xué)的方法,如logistic回歸方法、線性回歸方法、決策樹方法、最近鄰方法等。第二種是人工智能的方法,如神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、支持向量機(SVM)方法等[2]。除此之外,在信用評估的領(lǐng)域依然很多方法。建立信用風(fēng)險評估模型的過程,實質(zhì)上是評估方法對信用預(yù)測效果的對比過程。然而,在進行對個人信用違規(guī)的情況預(yù)測時,對于商業(yè)銀行而言,可以選擇很多種的模型,選擇的指標和建立模型的方法也大不相同?;谝陨显?,本文在征信的基本理論和實踐的基礎(chǔ)上,建立不同的信用評估模型,并進行對比,明確各種模型的優(yōu)劣情況,讓商業(yè)銀行在進行個人信用評估模型的構(gòu)建時能夠有所參考。
一、數(shù)據(jù)預(yù)處理
(一)數(shù)據(jù)來源與變量設(shè)置本文所用數(shù)據(jù)來自數(shù)據(jù)集來自Kaggle公開數(shù)據(jù)源平臺,數(shù)據(jù)包括30000名貸款者及其相關(guān)人口特征和信用記錄數(shù)據(jù),其中,人口信息的特征主要是年齡、受教育程度、婚姻狀況、性別,信用記錄數(shù)據(jù)包括信貸金額(包括個人和家庭/補充信貸)、還款情況、賬單金額和支付金額等相關(guān)信息(詳見表1)。
(二)數(shù)據(jù)處理本文將原始數(shù)據(jù)中連續(xù)性數(shù)值變量進行標準化處理,消除各變量取值水平不同帶來的量綱影響。并將樣本劃為測試集(25%)和訓(xùn)練集(75%)兩部分,利用訓(xùn)練集的數(shù)據(jù)制作個人信用評價模型,使用測試集合數(shù)據(jù)評價模型的預(yù)測效果。本文采取留出法分割法分割數(shù)據(jù),保證訓(xùn)練集和測試集中違約狀況的比例基本一致,從而提高預(yù)測的精度。
(三)研究方法選擇本文基于統(tǒng)計學(xué)和人工智能方法進行分析,選用線性判別方法,CART分類樹和集成模型adaboost方法分別建立模型,并從預(yù)測準確率、第二類錯誤率和誤判成本對建立的3個模型進行比較。本文使用R軟件對數(shù)據(jù)進行描述性的分析,建立模型并得出實證結(jié)果,所用程序為R軟件中自帶程序包或自己編寫的程序。
二、數(shù)據(jù)的描述性分析
通過數(shù)據(jù)分析發(fā)現(xiàn),在30000人中,違約率高達22.12%,相當(dāng)于每五個人中有一個人違約還款(一般而言大銀行信用卡的違約率為1%~3%),表明當(dāng)時臺灣爆發(fā)的信用卡債務(wù)危機十分嚴峻。從信貸額度看,信用卡客戶的信貸額度大多數(shù)集中在20萬以下,并且隨著信貸額度的提高,違約率降低。這是因為當(dāng)時各大銀行機構(gòu)之間的競爭十分激烈,為了營銷活動而放寬信貸標準,讓一些信用水平和償還能力低的人也能夠輕松地獲得貸款,從而增加了違約風(fēng)險。從年齡上看,信用卡客戶年輕的客戶群體占比最大,21~40歲的客戶比例超過了70%,但是隨著年齡的增加,違約率也在增加。從性別上看,男性客戶與女性客戶的比例約為2:3,但是女性客戶的違約率(20.78%)要比男性的違約率(24.17%)低。從受教育程度看,大學(xué)與研究生學(xué)歷的客戶群體占比最多,并且學(xué)歷越高,違約還款的可能性越小。從婚姻狀況看,單身人士多于已婚人士,并且單身客戶的違約率低于已婚客戶。
三、實證分析
(一)線性判別分析基于觀察事物的特定數(shù)據(jù)特征,判別分析是對它們進行分類確定事物的類型,對各個類型的各種樣本的分類規(guī)則進行總結(jié)并建立判別函數(shù),用在未來出現(xiàn)的新事物上判斷新事物所屬的類型。判別分析也是第一個適用于個人信用評價的統(tǒng)計學(xué)模式,被認為是分類模型領(lǐng)域最廣泛的統(tǒng)計技術(shù)之一[3]。其基本原理是根據(jù)特征變量的屬性值,找出特征變量的最佳線性組合,建立判別函數(shù)。而且,通過這些函數(shù)來區(qū)分觀察的樣本特征,可以準確的劃分為幾種不同的類型。本文的建模思想如下:總體客戶分為兩類,一類是“履約客戶”,另一類是“違約客戶”??蛻舻奶卣髯兞吭谟?xùn)練集中是知道的,并且每個客戶的類別(即是履約客戶還是違約客戶)也是知道的。訓(xùn)練樣本的作用是根據(jù)新申請人的特征變量,能夠從中建立判別函數(shù),并用其來判斷申請人的信用等級,即履約客戶還是違約客戶。建模完成后,我們將使用已經(jīng)建立好的模型對剩下的訓(xùn)練集進行驗證,并確認該判別函數(shù)是否可用。本文使用R軟件中MASS包中的Ida函數(shù),參數(shù)均保持默認的設(shè)置,通過分析得出的訓(xùn)練集總體的預(yù)測準確度為81.08%。
(二)CART分類樹分類樹是一種非參數(shù)統(tǒng)計方法。其基本思想是:根據(jù)特征變量的數(shù)值,將樣本分為兩個組,最大限度地使同組的樣本發(fā)生的概率一致,產(chǎn)生不同組的樣本的概率最大,在這個過程中,連續(xù)重復(fù)上述過程,劃分獲得的子組,直到達到設(shè)置的要求為止,最終獲得結(jié)果。最后,按照規(guī)則將所有的終端節(jié)點分為不同類型。在建立分類樹模型時,首先要考慮如何將整體分為不同的子類(怎么分),以及何時停止劃分(如何修剪),如何判斷最終產(chǎn)品類型,最后如何判斷最終節(jié)點類型。常用分支和剪枝的算法有:CART、ID3、C4.5等。本文使用CART算法,其判斷界定信息的有序無序的方法是Gini系數(shù)。則概率分布的Gini系數(shù)的表達式如下:其中,K表示一共有幾個類別,P_k表示第K個類別的概率。模型的不純度用基尼系數(shù)反應(yīng),不純度越低,基尼系數(shù)越小,特征也就越好。本文使用R軟件中rpart包中的rpart函數(shù),所得模型的訓(xùn)練集總體的預(yù)測準確度為81.83%。
(三)AdaBoost模型Boosting,也稱為強化學(xué)習(xí)或增強方法,是一種相對重要的集成學(xué)習(xí)方法,可以將預(yù)測準確性僅比隨機猜測稍強的弱學(xué)習(xí)者增強為具有較高預(yù)測準確性的強學(xué)習(xí)者。AdaBoost是英語中“AdaptiveBoosting”(自適應(yīng)增強)的縮寫。它的自適應(yīng)性體現(xiàn)在:被先前的基本分類器誤分類的樣本的權(quán)重值將增加,而正確分類的樣本的權(quán)重值將降低。并且將再次用于訓(xùn)練下一個基本分類器。在每輪迭代中添加新的弱分類器,直到達到預(yù)定且足夠小的錯誤率或達到預(yù)先指定的迭代次數(shù)為止,最后形成一個強分類器。本文使用R軟件中adabag包中的bosting函數(shù),設(shè)置權(quán)重更新系數(shù)為Freund,其計算公式為α=ln((1-err)/err)所得模型的訓(xùn)練集總體的預(yù)測準確度為81.85%。使用上文的三個模型,對測試集的數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果如下(詳見表2)。
四、模型比較
本文將從預(yù)測準確率,第二錯誤率和誤判成本三個方面對信用評估模型進行評價。
(一)預(yù)測準確率對于一個分類模型,本文將樣本數(shù)據(jù)分為訓(xùn)練集和測試集,而在訓(xùn)練集中,樣本的預(yù)測能力體現(xiàn)了一個模型的精度,而測試集的預(yù)測準確率則反映了該模型除了對生成模型以外的樣本進行預(yù)測的能力,即泛化能力[4]。并且從風(fēng)險管理的角度來看,預(yù)測的違約概率的準確性可以用來對可信的或不可信的客戶進行分類。三個模型的測試集的預(yù)測準確率均高于訓(xùn)練集的預(yù)測準確率,表明三個模型的穩(wěn)健性或泛化能力比較好。從訓(xùn)練集預(yù)測的準確度來看,三個模型的預(yù)測精度差別并不大,但是從測試集的準確性看,AdaBoost方法建立的信用評估模型的準確度明顯比其余兩種方法要高,達到了82.61%。并且三個模型在測試集和訓(xùn)練集中的預(yù)測能力都比較接近,表明它們是較為均衡的模型。
(二)第二錯誤率本文將履約用戶誤判為違約客戶定義為第一類錯誤,將違約客戶誤判為違約客戶定義為第二類錯誤。對于銀行機構(gòu)而言,犯第二類錯誤的損失將遠遠大于第一類錯誤,因而較好的預(yù)測模型應(yīng)該有較小的第二類錯誤率。從表2中可以看出AdaBoost建立的信用評估模型測試集對違約判定的準確率為36.48%,比其余兩種模型高,也即第二類錯誤率較低。
(三)誤判成本在信用貸款業(yè)務(wù)中,把違約客戶誤認為是履行合同的客戶對銀行造成的損失更大。因此,評價模型的預(yù)測效果時,應(yīng)該考慮錯誤分類的成本。誤判代價的計算公式如下:1表示客戶履約,2表示客戶違約;π1和π2分別表示客戶履約和違約的先驗概率;n1/N1表示第一類錯誤;n2/N2表示第二類錯誤的概率;c(2/1)和c(1/2)分別表示第一類錯誤和第二類錯誤對應(yīng)的錯誤分類的成本。本文將使用West[5]文章中使用方式,將c(1/2)設(shè)置為1,c(2/1)設(shè)置為5,即第二類錯誤成本為第一類錯誤成本的5倍,同時將客戶履約和違約的先驗概率均設(shè)為0.5。從表2中可以看出AdaBoost建立的信用評估模型的誤判成本最低為43.92%,明線由于線性判別(45.22%)和CART分類樹(44.03%)。
五、結(jié)語
本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ),使用相同的訓(xùn)練集與測試集,分別使用線性判別分析、CART分類樹和AdaBoost算法3種方法建立個人信用風(fēng)險評估模型,對同一測試集測試客戶違約率,并從預(yù)測準確性、第二錯誤率和誤判成本三個方面比較這三個模型的預(yù)測能力。分析結(jié)果表明,無論是從預(yù)測準確率、第二錯誤率還是誤判成本這三方面,AdaBoost算法的預(yù)測效果最好,線性判別預(yù)測效果最差。在我國,信用風(fēng)險的研究還并不成熟,各方面仍有許多值得討論的問題,但各方面條件的缺乏在一定程度上限制了這一領(lǐng)域的研究。由于缺乏條件,本文模型仍然存在一定的缺陷,有待于進一步完善和完善。首先,指標體系的建立有待進一步完善。由于沒有完全開放的數(shù)據(jù)庫,使得研究中樣本的選擇更加困難。其次,模型的算法還有進一步改進,雖然本文中AdaBoost算法的分類準確率比較高,但是可能存在由于數(shù)據(jù)不平衡導(dǎo)致分類精度下降,弱分類器的數(shù)目也不太好設(shè)定。最后,在實際中,由于我國是一個大國,各地的經(jīng)濟發(fā)展不均衡,區(qū)域特征有顯著的差異,因而在構(gòu)建個人風(fēng)險評估模型時,應(yīng)考慮到上述差異,針對不同地區(qū)的人群構(gòu)建不同的模型。
參考文獻:
[1]王富全.個人信用評估與聲譽機制研究[M].濟南:山東大學(xué)出版社,2010.
[2]謝霖銓,趙楠,徐浩.個人信用風(fēng)險評估模型發(fā)展研究[J].河南科技,2018(02):13-16.
作者:熊梁程 單位:上海對外經(jīng)貿(mào)大學(xué)