前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機器學習模型下企業(yè)信用風險淺析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文基于大數(shù)據(jù)和機器學習方法,探索構(gòu)建企業(yè)信用風險預警模型,并對公司信用類債券發(fā)行人的違約風險進行監(jiān)測。在1000余個指標中,通過信息值和隨機森林指標重要度計算等方法,篩選出14個對信用風險有顯著影響的指標,構(gòu)建機器學習模型,計算企業(yè)的違約概率,并利用ROC曲線確定預警閾值,將高于閾值的企業(yè)列入預警名單。經(jīng)實際違約企業(yè)情況檢驗,模型預警效果良好。
關鍵詞:機器學習;信用債券;風險監(jiān)測
引言
在經(jīng)濟增速放緩影響企業(yè)盈利、金融去杠桿加大再融資難度、前期債務快速增長加重當期還款壓力等多重因素影響下,我國貸款不良率和債券違約率有所攀升,企業(yè)債務風險已成為值得關注的金融風險之一。2014—2021年,我國債券市場違約金額逐年攀升,累計達6369.9億元,違約主體涉及中央國有企業(yè)、地方國有企業(yè)、民營企業(yè)等。近年來,國家高度重視金融風險防范工作,將防范化解金融風險列為“三大攻堅戰(zhàn)”之一,多次強調(diào)要夯實金融穩(wěn)定的基礎,深化信用體系改革。因此,對企業(yè)債務風險進行實時動態(tài)監(jiān)測預警,是當前形勢下貫徹落實防范化解重大金融風險工作部署的重要舉措。企業(yè)債務風險監(jiān)測預警可前置風險管控端口,是防控市場信用風險的重要抓手。相對于亡羊補牢式的風險處置而言,未雨綢繆式的風險監(jiān)測預警可實現(xiàn)風險的早預警、早發(fā)現(xiàn)、早防范、早處置,有利于減緩企業(yè)債務風險發(fā)生后對經(jīng)濟社會造成的沖擊,降低風險防范化解的成本。本文的主要創(chuàng)新點包括以下三方面。一是創(chuàng)新實證方法,充分挖掘大數(shù)據(jù)信息。傳統(tǒng)研究主要選擇企業(yè)財務數(shù)據(jù),且數(shù)據(jù)頻率以年度為主,難以準確、及時監(jiān)測信用風險。本文創(chuàng)新性地應用機器學習模型,發(fā)揮大數(shù)據(jù)優(yōu)勢,通過機器對大量財務和非財務數(shù)據(jù)進行自我學習,挖掘海量、多維、動態(tài)數(shù)據(jù)信息,提高監(jiān)測預警準確性、及時性和前瞻性。二是采用集成學習(Ensemble)算法,解決正負樣本不均問題。我國剛性兌付打破時間較晚,違約樣本出現(xiàn)的時間較短,時間序列數(shù)據(jù)較少,難以使用傳統(tǒng)的實證方法進行風險監(jiān)測。本文創(chuàng)新性地采用基于套袋法(Bagging,全稱為Bootstrapaggregating,意為自助聚合)的Ensemble算法,有效解決正負樣本嚴重不均衡問題。三是計算每家企業(yè)的預測違約概率,提升信用區(qū)分度。傳統(tǒng)信用評級方法是將企業(yè)信用風險分為若干檔,相同檔內(nèi)的企業(yè)信用風險缺乏區(qū)分度。本文采用機器學習模型,計算每家企業(yè)的預測違約概率,并轉(zhuǎn)換為信用評分,這樣可以直觀反映企業(yè)信用風險狀況,顯著區(qū)分不同企業(yè)之間的信用差異。
一、樣本選擇、指標篩選及模型擬合
(一)樣本選擇
筆者選取截至2021年6月末歷史上有公募信用債發(fā)行記錄的5521家企業(yè)作為建模樣本,其中,含有歷史違約記錄1的企業(yè)有133家。對于已違約企業(yè)、無違約無存續(xù)債企業(yè)、無違約有存續(xù)債企業(yè),觀測日分別為首次違約日、最后一筆信用債到期日、2021年6月30日。自變量為樣本截至觀測日可獲取的財務及非財務數(shù)據(jù)指標;因變量為樣本歷史上是否發(fā)生違約,違約記為1,未違約記為0。
(二)指標篩選
在指標方面,基于數(shù)據(jù)情況和業(yè)務理解,筆者加工1000余個指標,包括財務基礎指標132個、財務衍生指標171個,通過均值、方差、變異系數(shù)加工財務分析指標903個、非財務指標152個,均已刪除缺失率較高的指標。其中,財務指標基于樣本觀測日近三年的財報數(shù)據(jù)(含季報、半年報和年報共12個時點的財報數(shù)據(jù))進行加工;非財務指標包含工商信息、主體評級、審計意見、法律訴訟、成交價格、地方經(jīng)濟財政等。在進行指標篩選時,首先,區(qū)分定性指標和定量指標,將其進行變量分箱并計算信息值(IV),其中,定性指標依據(jù)變量取值進行分箱,定量指標基于分類決策樹進行最優(yōu)分箱。另外,利用隨機森林算法計算指標重要度,經(jīng)初步篩選,得到IV值較高或者重要度較高的指標共219個。其次,對初篩指標進行更細化的分箱調(diào)整和證據(jù)權(quán)重(WOE)轉(zhuǎn)換,進行分箱調(diào)整時關注各指標分箱個數(shù)、每個分箱中的樣本數(shù)、分箱中違約率單調(diào)性、可解釋性等因素,使得各個指標分箱更加合理。最后,計算WOE轉(zhuǎn)換后各指標的相關系數(shù),對于共線性較強的一組指標,僅保留IV值較高或更加符合業(yè)務邏輯的一個指標,得到65個候選指標。
(三)模型擬合
在模型擬合方面,違約樣本比例僅為2.41%,存在較嚴重的正負樣本不均衡情況。基于套袋法的Ensemble算法提供了一種簡單有效的改進方法,即利用套袋法在原始訓練集的隨機子集上構(gòu)建某一種分類器的多個實例,然后集成這些分類器,形成最終預測結(jié)果。實踐中,筆者采用套袋法先對未違約樣本進行欠采樣,即每次有放回地隨機選取1/5的未違約樣本,與違約樣本分別組成5組訓練樣本。再將每組訓練樣本的85%劃定為訓練集,其余15%劃定為測試集,采用逐步回歸方法對65個候選指標進行篩選并擬合邏輯回歸模型。擬合結(jié)果顯示,由5組訓練樣本得到的5個邏輯回歸子模型入模指標有較高的一致性。最后,選取5個子模型中顯著性檢驗p值均小于0.05的14個指標入模,重新擬合每個子模型的回歸系數(shù),取每個子模型中回歸系數(shù)的平均值,得到最終邏輯回歸模型:其中,p'為基于欠采樣訓練樣本計算的違約概率,x1至x14為各入模指標經(jīng)WOE轉(zhuǎn)換之后的指標,具體含義見表1。在模型結(jié)果方面,根據(jù)擬合的模型計算違約概率p',將其調(diào)整為與原始樣本分布相吻合的違約概率p。然后,按照以下設置對模型進行轉(zhuǎn)換:當違約幾率2(odds)即p/(1-p)為1時,對應的信用評分設為600分(此時違約概率p為50%)。同時,違約幾率每翻一番,設對應的信用評分降低20分;違約幾率每降低一半,設對應的信用評分提高20分。轉(zhuǎn)換后得到每個樣本的總體信用評分以及在每個入模指標上的得分,信用評分越低表示違約風險越高。將所有樣本的信用評分進行等頻分箱,共分為20檔,即每個信用評分區(qū)間中大約有5%的樣本,各檔的信用評分分布如表2所示??梢钥吹?,87.22%的違約樣本的信用評分位于信用評分最低一檔,說明模型對違約樣本和未違約樣本有較好的區(qū)隔能力。
二、閾值選取和訓練效果
閾值選取是影響二分類模型效果的重要因素。筆者根據(jù)模型預測違約概率,計算不同閾值下模型對應的假陽率和真陽率并繪制散點圖,形成ROC曲線3。在ROC曲線上找出使假陽率盡可能低、真陽率盡可能高的點。這里通過ROC曲線確定的最優(yōu)預警閾值為違約概率2.6%(對應的信用評分為705),即違約概率大于等于2.6%(信用評分小于等于705)的企業(yè)預測為高信用風險。通過比較樣本的預測違約概率與選取的閾值的大小,筆者對每個建模樣本進行“違約”“未違約”的分類預測。將每個建模樣本的模型預測情況與實際違約情況進行比較,統(tǒng)計模型在建模樣本上的訓練效果。結(jié)果顯示,模型整體靈敏度(召回率)4為94.74%,即94.74%的違約企業(yè)被正確識別;特異度5為93.75%,即93.75%的未違約企業(yè)被正確識別;準確率6為93.77%,即全部企業(yè)中93.77%被正確識別;精確率7為27.21%,即在模型識別的違約企業(yè)中27.21%是正確的(見表3)。模型精確率相對不高的原因是進行企業(yè)信用風險監(jiān)測的主要目的在于發(fā)現(xiàn)高風險企業(yè),因此更關注模型的靈敏度,即模型命中實際違約企業(yè)的比例越高就越好,而擴大命中比例相應會降低精確率。從通常用來檢驗二分類模型效果的指標來看,模型的F1分數(shù)8為0.42,AUC9為0.96,KS值10為0.87。以上各指標表明模型對違約樣本的預測能力較好,對違約樣本和非違約樣本有較強的區(qū)隔能力,模型效果良好。
三、模型實證效果檢驗
依據(jù)模型,筆者對截至2021年6月末有存續(xù)且未違約公募信用類債券的3504家企業(yè)進行預測,并將企業(yè)按信用評分由低到高排序,將預測違約概率大于等于2.6%定義為高風險企業(yè),共得到165家企業(yè)。跟蹤其后續(xù)違約情況,實際預測效果如表4矩陣所示。數(shù)據(jù)顯示,模型預警到2021年7月1日至12月31日違約的28家企業(yè)中的26家,命中率11為92.86%,且命中的26家違約企業(yè)均在高風險前100名內(nèi),說明模型對違約企業(yè)具有良好的監(jiān)測預警效果。從目前來看,使用本文模型可起到提前預警企業(yè)信用風險的作用。未來,一方面,隨著實際違約企業(yè)的不斷積累,應持續(xù)跟蹤和評估模型效果,不斷對模型進行優(yōu)化迭代。另一方面,企業(yè)處于動態(tài)發(fā)展中,應以一定的頻率獲取企業(yè)最新的數(shù)據(jù)并代入模型,更新計算結(jié)果,實現(xiàn)對企業(yè)債務風險的動態(tài)監(jiān)測預警。
作者:周雙雙 張子鵬 單位:中央結(jié)算公司深圳分公司