前言:想要寫出一篇引人入勝的文章?我們特意為您整理了小議汽車保險中關聯(lián)規(guī)則挖掘的運用范文,希望能給你帶來靈感和參考,敬請閱讀。
關聯(lián)規(guī)則挖掘的步驟:(1)找出所有的頻繁項集。這些項集出現(xiàn)的頻率至少和預定義的最小支持數(shù)一樣,即所有滿足最小支持度的項集的集合。(2)由頻繁項集中產(chǎn)生相應的強關聯(lián)規(guī)則。根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。即確定規(guī)則A=>B是否有效,可以令:r=sup(A∪B)/sup(A),當且僅當r>min_conf時,規(guī)則有意義(其中min_conf為最小置信度)。(3)解釋并輸出規(guī)則步驟一是關聯(lián)規(guī)則發(fā)現(xiàn)算法設計的核心問題,因為它的效率高低是算法的關鍵.由于Apriori關聯(lián)規(guī)則算法[3]需要產(chǎn)生大量候選項集,資源消耗巨大,效率低。而FP-Growth關聯(lián)規(guī)則算法只需掃描一次數(shù)據(jù)庫,對系統(tǒng)資源的消耗較小,效率相對較高。因此,對于海量數(shù)據(jù)的保險信息系統(tǒng),本文選用FP-Growth算法進行關聯(lián)規(guī)則挖掘.
關聯(lián)規(guī)則挖掘在車輛保險中的應用
1.數(shù)據(jù)準備
數(shù)據(jù)準備是數(shù)據(jù)挖掘過程的先決條件,數(shù)據(jù)質(zhì)量將直接影響數(shù)據(jù)挖掘的效率和準確度以及最終規(guī)則的合理有效性。本文選取某大型保險公司省級公司近8年車險數(shù)據(jù)庫數(shù)據(jù)進行挖掘。影響車輛保險的風險主要有駕駛?cè)藛T、車輛狀況、地理環(huán)境、氣候條件、社會環(huán)境、經(jīng)營管理等因素,為此研究這些因素與風險的關系,并結(jié)合實際情況和對風險的影響程度,從中選取的目標數(shù)據(jù)每條記錄中包括年齡、性別、婚姻狀況、駕齡、職業(yè)、車重與載貨重、車型、車齡、汽車顏色、使用性質(zhì)、投保險種、保費保額、汽車貸款標志、購買價格、多車所有情況、是否連續(xù)投保、投保地點、銷售渠道、投保日期、出險日期、賠付率等21個屬性進行關聯(lián)規(guī)則的挖掘整理歸納。
2.數(shù)據(jù)離散化和去冗余
利用計算機對數(shù)據(jù)庫的海量數(shù)據(jù)進行分析挖掘,需要對連續(xù)的數(shù)據(jù)作離散化工作。年齡、保額、投保出險日期、賠付率都是連續(xù)的數(shù)據(jù)。為了離散量化,根據(jù)情況和計算機編程計算的需要可將這些數(shù)據(jù)分為幾類。例如,年齡分為a1(<20歲),a2(20-25歲),a3(25-34歲),a4(35-45歲),a5(>=46歲),將日期按提取數(shù)據(jù)年份年分為8年,每年具體日期按月分為12個值。將賠付率劃分為[00,]、(0,10%]、(10%,30%]、(30%,50%]、(50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+∞]九類。去除由于誤操作輸入產(chǎn)生的明顯不合邏輯和業(yè)務要求的垃圾數(shù)據(jù)。
3.確定關聯(lián)規(guī)則的支持度至少為35%,置信度至少為80%。進行關聯(lián)規(guī)則挖掘過程如下:1)利于FP-Growth算法找出頻繁項集。2)找出滿足支持度和置信度的強關聯(lián)規(guī)則。由于本文選取的樣本屬性值有21個,為了算法的簡約和計算的省時,我們在實際挖掘中采用了分區(qū)挖掘產(chǎn)生關聯(lián)規(guī)則的做法.具體做法如下:將樣本屬性值按駕駛員,車,環(huán)境分為A,B,C大區(qū),每區(qū)與賠付率相關。先按A,B,C區(qū)分別進行關聯(lián)規(guī)則與賠付率的挖掘,得出滿足條件的強關聯(lián)規(guī)則15條,然后對A,B,C三大區(qū)進行區(qū)級關聯(lián),找出區(qū)間可能有關聯(lián)關系的屬性,對重點屬性與賠付率進行關聯(lián)規(guī)則的挖掘。以上挖掘過程中,產(chǎn)生了許多滿足條件的強關聯(lián)規(guī)則:如在每年9-11月投保的家庭自用新車,在當年冬天發(fā)生車損險的概率比一般車低,這可能是由于車主對自身新車的愛護而在風雪天少開車導致的原因;已婚駕齡5年以上的司機開公務車出險的概率大大低于一般司機,顯然這是由于車主經(jīng)驗和責任心更強的緣故。在進一步的挖掘中,我們還發(fā)現(xiàn)了很多意想不到的關聯(lián)規(guī)則,經(jīng)過分析也可以得到合理解釋:貸款購買的車輛其盜搶險的發(fā)生率很低,出于車主對愛車的存放更費心和穩(wěn)妥;某些車型在4S店中賣出后的賠付率比其他渠道要高,這估計是因為車主在4S店買車險后,4S店的承諾和車主自身心里更傾向于在修理價格更高的4S店維修導致賠付率升高等等。
4.規(guī)則的解釋和價值衡量
得到這些關聯(lián)規(guī)則后,可以從系統(tǒng)客觀和公司主觀兩個層面來衡量這些規(guī)則的價值和有用性,使得到合理解釋的規(guī)則可以在公司決策中發(fā)揮作用。1)系統(tǒng)客觀層面從系統(tǒng)客觀層面評價一條規(guī)則是否合理有價值,主要是依據(jù)支持度、置信度兩個指標來衡量。我們認為支持度大于50%且置信度大于85%的關聯(lián)規(guī)則是有特別價值,值得分析和關注的。對于支持度和置信度的選取我們按年份遠近采取了加權計算的方法,即越接近現(xiàn)在的年份給的加權值越高,越有價值,分析研究的意義越大。2)公司主觀層面運用數(shù)學的方法可以對一規(guī)則進行分析評價缺乏實踐的證明和公司操作員工及決策層的認同,所以規(guī)則評價必須考慮到公司的主觀因素。在得到一系列的風險規(guī)則后,需要在公司尤其一線操作人員中征求廣泛意見和建議,在得到實踐人員的合理評價后對相應的關聯(lián)規(guī)則作出科學分析,這樣才能最終形成有價值的公司市場決策依據(jù)。
數(shù)據(jù)挖掘技術的充分應用,不僅可以幫助保險公司對業(yè)務風險進行各種因素分析,尋求業(yè)務規(guī)律,為保險公司應對市場提供決策支持;也可以使保險公司更好的實現(xiàn)差異化經(jīng)營,保持具有競爭力的保費和覆蓋風險及提供服務之間的平衡,規(guī)避風險,挖掘更多的市場商機。(本文作者:武治國 單位:人保財險山西省分公司信息技術部)