公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

1常見(jiàn)數(shù)據(jù)挖掘算法及其在醫(yī)院內(nèi)感染中的應(yīng)用

1.1神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)傳遞的智能算法,一般由輸入、隱含和輸出三部分構(gòu)成,包括前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)3種模型。BP神經(jīng)網(wǎng)絡(luò)為多層前饋式人工神經(jīng)網(wǎng)絡(luò),是醫(yī)學(xué)領(lǐng)域最常用的一種,基于誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練而成。神經(jīng)網(wǎng)絡(luò)對(duì)資料類型沒(méi)有任何要求,非線性數(shù)據(jù)處理能力強(qiáng),容錯(cuò)性能良好,分類精確度高。但構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時(shí)缺乏相應(yīng)的理論指導(dǎo),主要靠專業(yè)經(jīng)驗(yàn)設(shè)置網(wǎng)絡(luò)隱藏層的層數(shù)和單元數(shù),且無(wú)法明確輸入變量是保護(hù)因素還是危險(xiǎn)因素,對(duì)結(jié)果的解釋性能較低。重癥監(jiān)護(hù)病房(ICU)住院患者自身基礎(chǔ)疾病多,侵襲性治療操作多,是醫(yī)院內(nèi)感染的高危人群。謝多雙等[6]將ICU患者作為研究對(duì)象,構(gòu)建ICU患者醫(yī)院內(nèi)感染的多層感知器神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,模型結(jié)構(gòu)為25-4-1,結(jié)果顯示,ICU患者醫(yī)院內(nèi)感染的影響因素依次為ICU入住時(shí)間、抗菌藥物使用情況、基礎(chǔ)疾病診斷、年齡、使用插管等,模型訓(xùn)練集與測(cè)試集的準(zhǔn)確率分別達(dá)81.60%、84.20%,受試者工作特征曲線下面積為0.861,模型預(yù)測(cè)效果良好。許林勇等[7]使用SAS/EnterpriseMiner軟件對(duì)患者醫(yī)院內(nèi)感染數(shù)據(jù)進(jìn)行清洗和編碼后使用16-6-1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行醫(yī)院內(nèi)感染的危險(xiǎn)度評(píng)估,建立了針對(duì)患者個(gè)體的預(yù)測(cè)模型,正確率達(dá)98.91%,受試者工作特征曲線下面積為0.986。但該研究納入研究因素較少,且未對(duì)各科室情況進(jìn)行分析。牛淼[8]根據(jù)住院患者種類將醫(yī)院分為內(nèi)科病區(qū)、外科病區(qū)、干部病區(qū)和其他病區(qū),運(yùn)用多層感知器神經(jīng)網(wǎng)絡(luò)模型對(duì)各病區(qū)醫(yī)院內(nèi)感染情況進(jìn)行分析,結(jié)果顯示,各病區(qū)中最重要的影響因素均為住院時(shí)間,無(wú)論在哪個(gè)病區(qū),隨著住院時(shí)間增加,醫(yī)院內(nèi)感染的風(fēng)險(xiǎn)顯著升高。

1.2決策樹(shù)

決策樹(shù)的經(jīng)典算法是由Quinlan提出的ID3算法,C4.5算法在此基礎(chǔ)上增加了連續(xù)變量的處理方法,隨著boosting技術(shù)的應(yīng)用,C5.0算法應(yīng)運(yùn)而生。決策樹(shù)的傳遞方式為自上而下,通過(guò)邏輯分支關(guān)系,形成一種具有分類規(guī)則的樹(shù)狀結(jié)構(gòu)。決策樹(shù)根據(jù)信息增益、GINI系數(shù)等模型參數(shù)選擇對(duì)測(cè)試數(shù)據(jù)區(qū)分度最大的屬性變量作為決策樹(shù)的根節(jié)點(diǎn),然后根據(jù)根節(jié)點(diǎn)變量的屬性向下進(jìn)行分割,形成分支;每個(gè)分支節(jié)點(diǎn)重新測(cè)試變量屬性,繼續(xù)向下分支,直到該分支節(jié)點(diǎn)的類別同質(zhì)化或達(dá)到預(yù)先設(shè)定的閾值[9]。決策樹(shù)生成過(guò)程若不加以限制,將會(huì)發(fā)生過(guò)擬合的現(xiàn)象,需對(duì)樹(shù)進(jìn)行剪枝。剪枝方式有2種,前剪枝和后剪枝,前剪枝是限制決策樹(shù)的生長(zhǎng),減少?zèng)Q策分支;后剪枝是在決策樹(shù)分割完成后對(duì)樹(shù)進(jìn)行修剪,防止過(guò)度擬合的發(fā)生。決策樹(shù)模型生成的樹(shù)狀圖簡(jiǎn)單、直觀,易于理解,建模過(guò)程省時(shí)、高效、速度快,對(duì)多種類型屬性等復(fù)雜數(shù)據(jù)處理能力強(qiáng),具有高度精準(zhǔn)的預(yù)測(cè)和分類的能力。王力紅等[10]研究了1897例入住ICU的患者,分析其發(fā)生醫(yī)院內(nèi)感染的危險(xiǎn)因素,通過(guò)建立評(píng)價(jià)指標(biāo)體系將危險(xiǎn)因素進(jìn)行分類,并建立了決策樹(shù)預(yù)測(cè)模型,對(duì)ICU患者住院期間發(fā)生醫(yī)院內(nèi)感染的風(fēng)險(xiǎn)進(jìn)行早期預(yù)測(cè)。LOPES等[11]對(duì)巴西兒科醫(yī)院的急診患者進(jìn)行前瞻性隊(duì)列研究,監(jiān)測(cè)患者醫(yī)院內(nèi)感染情況,并將決策樹(shù)算法用于醫(yī)院內(nèi)感染相關(guān)病死率的預(yù)測(cè),并找出高病死率相關(guān)的預(yù)測(cè)因素,結(jié)果顯示,醫(yī)院內(nèi)感染相關(guān)高病死率與侵入性操作、多種抗生素聯(lián)合應(yīng)用有關(guān),通過(guò)改變決策路徑里的這些因素可降低醫(yī)院內(nèi)感染相關(guān)病死率。鄧小紅等[12]將CART決策樹(shù)算法用于ICU住院患者醫(yī)院獲得性壓瘡的風(fēng)險(xiǎn)預(yù)測(cè),最終生成4層11個(gè)節(jié)點(diǎn)的決策樹(shù)模型,共提取6條分類規(guī)則,篩選出3類高危人群,且決策樹(shù)模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評(píng)分。

1.3支持向量機(jī)(SVM)

SVM由Vapnik提出,在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展而來(lái)[13]。SVM融合了結(jié)構(gòu)風(fēng)險(xiǎn)最小原理和VC維理論等統(tǒng)計(jì)學(xué)習(xí)理論,成為其最大的技術(shù)特色,具有更良好的執(zhí)行推廣能力[14]。SVM旨在小樣本數(shù)據(jù)的有限空間內(nèi)尋找具有最大間隔的決策面,使決策風(fēng)險(xiǎn)達(dá)到最小,模型泛化能力達(dá)到最優(yōu)[15]。SVM可很好地解決數(shù)據(jù)非線性問(wèn)題及高維問(wèn)題,解決了神經(jīng)網(wǎng)絡(luò)模型的局部極小點(diǎn)問(wèn)題,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度樹(shù)增強(qiáng)構(gòu)建醫(yī)院內(nèi)感染監(jiān)測(cè)模型。梯度樹(shù)增強(qiáng)具有良好的分類能力,且能測(cè)量每個(gè)功能的重要程度,評(píng)估分類器所使用的特征是否為醫(yī)院內(nèi)感染的合理指標(biāo)。該研究將重點(diǎn)研究有關(guān)預(yù)處理方法或參數(shù)調(diào)整是否有助于提高模型性能的問(wèn)題,盡可能高地使回憶精度接近于100%,而具有高召回率的算法尤其適用于對(duì)感染的篩查。SILVA等[18]采用跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程方法將SVM和樸素貝葉斯分類技術(shù)用于波爾圖市中心醫(yī)院的醫(yī)院內(nèi)感染數(shù)據(jù)分析,根據(jù)不同場(chǎng)景創(chuàng)建預(yù)測(cè)模型,以發(fā)現(xiàn)新知識(shí)并獲得解決問(wèn)題的最佳模型(靈敏度高于91.90%)。該研究通過(guò)對(duì)現(xiàn)有臨床數(shù)據(jù)進(jìn)行分析,提供了以臨床問(wèn)題為導(dǎo)向的科研思路,旨在減少患者發(fā)生并發(fā)癥的風(fēng)險(xiǎn),改善其安全和健康,從而預(yù)防和減少醫(yī)療機(jī)構(gòu)的醫(yī)院內(nèi)感染的發(fā)生。醫(yī)院內(nèi)感染數(shù)據(jù)存在嚴(yán)重的不均衡性,陽(yáng)性患者所占比重較小,針對(duì)這一現(xiàn)象,COHEN等[19]提出了非對(duì)稱SVM,提高了SVM模型對(duì)罕見(jiàn)陽(yáng)性病例的識(shí)別能力,以極低的成本實(shí)現(xiàn)了92.00%的召回率,且與之前研究通過(guò)新穎的重采樣策略獲得的最高靈敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理論是由PWLAK[20]教授于1982年提出的一種研究不完整、不確定知識(shí)和數(shù)據(jù)的學(xué)習(xí)歸納法,在處理大數(shù)據(jù)庫(kù)和消除冗雜信息方面具有明顯優(yōu)勢(shì),現(xiàn)在已成為數(shù)據(jù)挖掘/知識(shí)發(fā)現(xiàn)研究中強(qiáng)有力的工具。粗糙集的基本思想是對(duì)決策表(數(shù)據(jù)集)進(jìn)行屬性約簡(jiǎn)和值約簡(jiǎn)后得出決策規(guī)則,然后采用判別規(guī)則進(jìn)行分類。粗糙集理論的特點(diǎn)是不用預(yù)先給定特征或?qū)傩缘臄?shù)量描述,而直接從給定問(wèn)題出發(fā),通過(guò)不可分辨關(guān)系(類)找出問(wèn)題的近似域,從而發(fā)現(xiàn)其內(nèi)在規(guī)律[21-22]。王向陽(yáng)等[23]首次將粗糙集算法用于醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究,通過(guò)對(duì)患者信息數(shù)據(jù)進(jìn)行預(yù)處理,將病情信息看作條件屬性,將是否發(fā)生醫(yī)院內(nèi)感染看作決策屬性,對(duì)數(shù)據(jù)集進(jìn)行屬性約簡(jiǎn)和值約簡(jiǎn),通過(guò)約簡(jiǎn)后的數(shù)據(jù)集得出決策規(guī)則,再使用得到的決策規(guī)則進(jìn)行判別分類,得到的決策規(guī)則少而精,非常直觀。洪晶等[24]將粗糙集與經(jīng)典ID3決策樹(shù)算法結(jié)合起來(lái),建立了基于粗糙集的決策樹(shù)算法,通過(guò)粗糙集屬性約簡(jiǎn)后數(shù)據(jù)再使用決策樹(shù)進(jìn)行分類,2種算法優(yōu)勢(shì)互補(bǔ),為診斷醫(yī)院內(nèi)感染提供了新的思路與方法。

1.5時(shí)間序列

時(shí)間序列數(shù)據(jù)具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時(shí)間軸上的伸縮性、線性漂移和不連續(xù)點(diǎn)等特征。傳統(tǒng)的數(shù)據(jù)挖掘算法無(wú)法對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行有效的處理分析,因此,時(shí)間序列數(shù)據(jù)挖掘應(yīng)運(yùn)而生[25]。典型的時(shí)間序列模型包括自回歸滑動(dòng)平均模型、Markov模型和人工神經(jīng)網(wǎng)絡(luò)模型等[26]。耐甲氧西林金黃色葡萄球菌(MRSA)造成的醫(yī)院內(nèi)感染或社區(qū)感染不斷攀升,對(duì)環(huán)境物表清潔消毒的要求也不斷提高。單歡等[27]考慮到MRSA流行的時(shí)間趨勢(shì)及周期變化,使用求和自回歸滑動(dòng)平均模型(ARIMA)對(duì)2010-2014年浙江醫(yī)院MRSA監(jiān)測(cè)數(shù)據(jù)進(jìn)行擬合分析,建立了MRSA的ARIMA預(yù)測(cè)模型,對(duì)MRSA的流行趨勢(shì)進(jìn)行預(yù)測(cè),得出模型的平均相對(duì)誤差為20.19%,預(yù)測(cè)出的MR-SA動(dòng)態(tài)趨勢(shì)與實(shí)際檢出情況基本符合,可為MRSA的防控提供參考依據(jù)。NGO等[28]將指數(shù)平滑法用于加利福尼亞州舊金山退伍軍人醫(yī)學(xué)中心在1991-1992年銅綠假單胞菌細(xì)菌感染疑似慶大霉素耐藥情況分析,研究了慶大霉素抗性銅綠假單胞菌年累計(jì)發(fā)病率與流行發(fā)生的關(guān)系。由于兒童各器官系統(tǒng)發(fā)育尚未成熟,免疫機(jī)制尚不健全,對(duì)病原體尤其是呼吸道病原體抵抗力較弱,是醫(yī)院內(nèi)感染的易感人群。劉海鵬等[29]收集匯總了2011-2015年安徽省兒童醫(yī)院住院患兒醫(yī)院內(nèi)感染數(shù)據(jù),使用ARIMA時(shí)間序列分析方法進(jìn)行模型的構(gòu)建,并對(duì)數(shù)據(jù)進(jìn)行一階差分來(lái)平穩(wěn)序列的方差,根據(jù)信息量準(zhǔn)則選擇最優(yōu)模型,預(yù)測(cè)效果良好,對(duì)住院患兒醫(yī)院內(nèi)感染的發(fā)生率具有一定的預(yù)測(cè)價(jià)值。監(jiān)測(cè)抗生素耐藥性導(dǎo)致的醫(yī)院內(nèi)感染暴發(fā)是醫(yī)院內(nèi)感染控制不可或缺的重要部分。

1.6關(guān)聯(lián)規(guī)則

對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,就是通過(guò)用戶指定的最小支持度(Support)和最小置信度(Confidence)尋找強(qiáng)關(guān)聯(lián)規(guī)則的過(guò)程[30]。關(guān)聯(lián)規(guī)則挖掘問(wèn)題包括尋找所有頻繁項(xiàng)目集和在頻繁項(xiàng)目集中尋找關(guān)聯(lián)規(guī)則兩部分。關(guān)聯(lián)模式中最著名的就是AGRAWAL等提出來(lái)的Apriori算法[31],其算法思想是首先找出頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。通過(guò)減少對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù)和不必要的頻繁項(xiàng)目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項(xiàng)目集時(shí)產(chǎn)生大量的候選項(xiàng),占用了大量的內(nèi)存,不適用于大規(guī)模數(shù)據(jù)集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法對(duì)原始數(shù)據(jù)庫(kù)進(jìn)行2次掃描,將原始庫(kù)映射成一棵頻繁模式樹(shù),并保留關(guān)聯(lián)信息,然后再將頻繁模式樹(shù)分化成條件庫(kù),再對(duì)條件庫(kù)進(jìn)行挖掘,在內(nèi)存中即可完成頻繁項(xiàng)目集的發(fā)現(xiàn)工作。對(duì)醫(yī)院內(nèi)感染數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析可發(fā)現(xiàn)數(shù)據(jù)屬性間的關(guān)系,為醫(yī)院內(nèi)感染的防治提供參考依據(jù)。BROSSETTE等[33]利用阿拉巴馬大學(xué)伯明翰分校醫(yī)院的銅綠假單胞菌感染控制數(shù)據(jù)探索了一個(gè)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘流程,期望用于醫(yī)院內(nèi)感染事件的自動(dòng)識(shí)別與監(jiān)測(cè),模型實(shí)現(xiàn)結(jié)果良好。目前,醫(yī)療數(shù)據(jù)分析主要采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析,但Apriori算法候選頻繁集較多,生成許多無(wú)趣的規(guī)則。有研究采用FP-GROWTH算法對(duì)解放軍總醫(yī)院第一附屬醫(yī)院的400例患者進(jìn)行了關(guān)聯(lián)分析,提取患者性別、年齡、抗生素使用情況等7個(gè)屬性建立了13條關(guān)聯(lián)規(guī)則,揭示了年齡、介入性操作、抗生素使用、住院時(shí)間等因素與醫(yī)院內(nèi)感染間的關(guān)聯(lián)性[34]。醫(yī)院內(nèi)感染的影響因素多且彼此間及與醫(yī)院內(nèi)感染發(fā)生的聯(lián)系尚未明確,具有灰色特性。劉姣英[35]運(yùn)用灰色關(guān)聯(lián)分析理論將醫(yī)院內(nèi)感染的數(shù)據(jù)資料進(jìn)行量化分析,研究各因素間的關(guān)聯(lián)程度及優(yōu)勢(shì)程度,結(jié)果顯示,外科是醫(yī)院內(nèi)感染控制的重點(diǎn)科室,外科感染以泌尿系統(tǒng)感染最為突出,下呼吸道感染是醫(yī)院內(nèi)感染監(jiān)控的重要部位,是造成其他部位感染的重要潛在因素。

2小結(jié)與展望

醫(yī)院內(nèi)感染因素復(fù)雜,種類龐多,對(duì)不同類型、不同部位的醫(yī)院內(nèi)感染進(jìn)行預(yù)測(cè),沒(méi)有哪一種模型是絕對(duì)最優(yōu)的,因此,需進(jìn)一步進(jìn)行大量的針對(duì)不同類型、途徑、人群等具體屬性的醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究。隨著醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究的越來(lái)越深入,單一模型已無(wú)法滿足研究需求,組合模型研究成為新的研究方向。模型的優(yōu)劣取決于現(xiàn)有數(shù)據(jù)的擬合程度及對(duì)新數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確程度及實(shí)用性。模型預(yù)測(cè)的結(jié)果可集成到智能平臺(tái)中,用于醫(yī)院內(nèi)感染發(fā)生的監(jiān)測(cè)及預(yù)警,為醫(yī)療衛(wèi)生決策提供重要參考依據(jù)。

作者:楊文偉 蔣良芝 李春燕 汪可可 單位:上海市楊浦區(qū)中心醫(yī)院 同濟(jì)大學(xué)附屬楊浦醫(yī)院醫(yī)院感染管理科