前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的人工智能在醫(yī)療方面的挑戰(zhàn)主題范文,僅供參考,歡迎閱讀并收藏。
其一是信息不流通的問題,患者在不同的醫(yī)院,需要那辦理不同的就診卡;任何一家醫(yī)院的醫(yī)生看不到患者多次就診的完整臨床診療過程,無法準確掌握患者完整診療過程和健康狀況。騰訊先后通過微信公眾號等產(chǎn)品,建立信息共享的醫(yī)療電子檔案,以解決“信息孤島”的問題。
其二是“看病難”的問題,名醫(yī)的需求量很大,但是能診斷的病人有限。馬化騰認為根源在于“醫(yī)生怎么樣才能夠釋放自己的能力”,希望通過信息化的手段,打造一個醫(yī)療團隊,實行科學化的分層、分級,將一些簡單的診斷交由助理、護士來處理,最后由名醫(yī)診斷。這樣可以成倍擴大醫(yī)療產(chǎn)能。
騰訊的“醫(yī)療能力超市”
這幾年,在投資的同時,騰訊嘗試做微信智慧醫(yī)院、糖大夫、騰愛醫(yī)生、覓影等,涉及了支付模式創(chuàng)新、慢病管理、人工智能等多個領(lǐng)域。
1. 智慧醫(yī)院
早在2013、2014年,騰訊便提出微信智慧醫(yī)院的概念,做的事情也很簡單,依托于微信公眾號的線上能力,幫助醫(yī)院做掛號、信息流轉(zhuǎn)等基礎(chǔ)醫(yī)療服務;2015年——2016年,微信智慧醫(yī)院的2.0版本提出以醫(yī)院作為核心體系,挖掘醫(yī)院流程里線上信息化、數(shù)字化以及互聯(lián)網(wǎng)化能力;從2017年開始,以小程序、公眾號作為整體服務入口,醫(yī)保、商保、區(qū)塊鏈技術(shù)、AI、人工智能在醫(yī)院落地,這是智慧醫(yī)院3.0版本。
2. 慢病管理
2015年,騰訊推出了一款檢測血糖的智能硬件產(chǎn)品“糖大夫”,這算是騰訊第一次直接出手,那一年也是騰訊投資的高峰期。2016年3月25日,在“互聯(lián)網(wǎng)+慢病管理”貴州模式會上,騰訊正式公布騰愛醫(yī)療戰(zhàn)略布局,計劃用智能終端、醫(yī)生平臺、“健康基金+醫(yī)?!钡幕ヂ?lián)網(wǎng)金融、大數(shù)據(jù)這“四駕馬車”連接醫(yī)療。但鈦媒體注意到,近兩年騰愛醫(yī)生的相關(guān)動態(tài)逐漸變少。
3. 人工智能
2017年8月,推出AI產(chǎn)品“覓影”,同年11月科技部公布了“首批國家人工智能開放創(chuàng)新平臺名單”,在AI+醫(yī)療方向上,將依靠騰訊公司建設醫(yī)療影像國家新一代人工智能開放創(chuàng)新平臺。
“我們沒辦法改變供需矛盾、沒辦理控制需求,我們只能用科技的手段,用互聯(lián)網(wǎng)的能力來緩解供求之間的矛盾,提升醫(yī)院的效率。怎樣幫醫(yī)院做到這樣的事情?這一定是醫(yī)院主導,騰訊助力?!彬v訊副總裁陳廣域坦言,騰訊不應該做的是包辦、代辦,“我們希望合作方把我們當做一個超市,可以選擇需要的能力,我們不能強迫你們選擇不喜歡的東西?!?/p>
目前,騰訊醫(yī)療布局分為投資和自建兩種方式。在自建中,騰訊分為兩個團隊,一個是騰訊醫(yī)療團隊,負責的業(yè)務包括糖大夫、騰愛醫(yī)生、企鵝醫(yī)典、醫(yī)療云等,主要聚焦于醫(yī)療業(yè)務本身。另一個團隊是“互聯(lián)網(wǎng)+醫(yī)療”業(yè)務,該業(yè)務又分為兩大板塊:一個是微信智慧醫(yī)院,包括掛號、處方流轉(zhuǎn)、醫(yī)療咨詢,利用互聯(lián)網(wǎng)工具提升醫(yī)院、醫(yī)生效率;另一個方向是騰訊覓影,包括AI醫(yī)療影像、AI輔助診斷,探索AI如何進入到醫(yī)療比較核心的領(lǐng)域。
AI醫(yī)療的決心——騰訊覓影
精英團隊打造精品應用
目前,國內(nèi)醫(yī)療AI創(chuàng)業(yè)公司也多以影像識別為主,據(jù)統(tǒng)計,AI醫(yī)學影像的創(chuàng)業(yè)公司多達幾十家,醫(yī)學影像識別成為醫(yī)療AI領(lǐng)域里較為成熟的垂直細分領(lǐng)域。醫(yī)學影像成為“一枝獨秀”的原因在于,影像數(shù)據(jù)獲取相對容易,三甲醫(yī)院設備都是GPS設備、全球頂尖設備。原始數(shù)據(jù)是電子化的,對于初創(chuàng)公司來說,一個是圖像的質(zhì)量,一個是電子化獲取程度,都相對容易?!?/p>
2017年8月,騰訊了AI醫(yī)學影像產(chǎn)品“騰訊覓影”,利用人工智能醫(yī)學影像技術(shù)輔助醫(yī)生實現(xiàn)早期食管癌篩查,憑借“覓影”騰訊正式進軍醫(yī)療人工智能,加上早前的“百度醫(yī)療大腦”、阿里“ET醫(yī)療大腦”,BAT已經(jīng)全部入局醫(yī)療人工智能。
騰訊在醫(yī)療領(lǐng)域有三個方面的積累:用戶服務、數(shù)據(jù)能力、資源整合。而醫(yī)療AI以及影像識別是在學術(shù)科研上的應用;此外,在用戶服務上,騰訊也涉及了預約掛號、在線問診等業(yè)務。
騰訊覓影整合了騰訊內(nèi)部幾個頂尖的AI的團隊,包括我們的互聯(lián)網(wǎng)+部門,包括騰訊的AILab、騰訊優(yōu)圖實驗室和架構(gòu)平臺部,可以說是匯集了騰訊最精英的人工智能技術(shù)團隊。
從覓影產(chǎn)品的后端來看,是有一個AI醫(yī)學實驗室,除了頂級的人工智能算法專家之外,醫(yī)學實驗室也聘請了全國頂級的一些醫(yī)療影像科的醫(yī)生和很多的全科醫(yī)生,同時也會跟很多的醫(yī)療機構(gòu)和醫(yī)學院校以及各個地方政府共同去合作。
產(chǎn)品技術(shù)的應用
當前,覓影可以去輔助于這幾項癌癥:食道癌、肺癌、宮頸癌、乳腺癌和糖尿病引起的視網(wǎng)膜病變。
騰訊覓影可以把醫(yī)生或PET系統(tǒng)(正電子發(fā)射計算機斷層顯像技術(shù))里面的影像傳到騰訊搭建的系統(tǒng)當中,再利用人工智能技術(shù)和算法判斷這個片子是不是高風險的早期病癥,診斷準確率達到90%以上。
騰訊覓影是怎么做到呢?在訓練數(shù)據(jù)的采集方面,騰訊團隊集中采集了幾十萬張中國人的同一病癥片子。雖然全球有很多公司在做AI醫(yī)療影像,甚至有一些片子可能都有一些開源的,從網(wǎng)上可以下載到,但很多片子都是外國病人的,外國的數(shù)據(jù)去訓練中國人的模型,準確率還是比較低的。
因為每種病灶只有一小塊,大多數(shù)的區(qū)域是一個正常的,騰訊團隊會把這個醫(yī)療原始的圖片切成很小很多小的塊,分別去估計每一個小塊患病的概率,最后得出一個診斷結(jié)論。
從覓影的實際應用場景來看,一方面,騰訊在與三甲醫(yī)院合作,提高三甲醫(yī)院醫(yī)生看病的效果;另一方面,團隊希望更多地與基層醫(yī)院進行合作,提高基層醫(yī)院整個的診療水平。同時,覓影產(chǎn)品也會跟騰訊基金會合作,通過一些公益基金的項目,利用技術(shù)給國家和人民造福。
騰訊智慧醫(yī)院3.0的創(chuàng)新解決方案
微信智慧醫(yī)院3.0亮點頗多:不僅實現(xiàn)了連接、支付、安全保障和生態(tài)合作的四大升級,同時還加入了AI、區(qū)塊鏈等全新技術(shù),全面開放騰訊核心能力。
1. 連接升級
通過整合人社、醫(yī)院、藥企、保險等資源共同聯(lián)動,提供在線咨詢、處方流轉(zhuǎn)、商保直賠等服務。以處方流轉(zhuǎn)為例,在藥品零加成政策背景下,基于騰訊支付、AI人臉識別、區(qū)塊鏈等核心技術(shù)能力,連接醫(yī)院、流通藥企及用戶,實現(xiàn)電子處方安全流轉(zhuǎn)、全流程可追溯,助力醫(yī)藥分離。用戶可選擇藥店取藥、藥店配送到家等多種購藥方式。
2. 支付升級
支付場景升級,包括醫(yī)院、藥店、社康、保險更多場景均支持微信支付。比如,在醫(yī)院可以使用微信公眾號實現(xiàn)在線支付、處方單掃碼付、終端機快捷支付等;在保險場景,可在線使用社保個賬購買健康保險;在藥店、社康場景下,可實現(xiàn)在線刷碼支付,免帶卡便捷購藥等。同時,支付方式將醫(yī)保、商保、自費等全部納入,讓消費者實現(xiàn)無縫支付。
3. 安全升級
微信智慧醫(yī)院3.0能夠全面保障實名安全、支付安全、數(shù)據(jù)安全和風控安全。比如,一直以來,醫(yī)療數(shù)據(jù)安全和患者隱私保障是醫(yī)療行業(yè)的核心問題。而區(qū)塊鏈所擁有的多方共識、不可篡改、多方存證、隨時可查等優(yōu)勢,使其成為醫(yī)療數(shù)據(jù)保管的最佳方案。智慧醫(yī)院3.0就將運用區(qū)塊鏈技術(shù),為監(jiān)管方、醫(yī)院、流通藥企搭建了一條聯(lián)盟鏈,保障數(shù)據(jù)、隱私安全的同時,實現(xiàn)鏈上數(shù)據(jù)防篡改。
4. 生態(tài)合作升級
除了在自身能力方面,微信智慧醫(yī)院3.0更加注重整個生態(tài)的合作共贏。從資金、資源、技術(shù)、產(chǎn)品四大維度,與合作伙伴聯(lián)手,實現(xiàn)合作升級,推動業(yè)務有效落地,合力打造互聯(lián)網(wǎng)+智慧醫(yī)院的建設。
尾聲與展望
騰訊的高管們曾多次公開強調(diào):“互聯(lián)網(wǎng)+醫(yī)療”是為醫(yī)者賦能,需要發(fā)揮“連接、信任、融合”三大核心要素的作用,提升醫(yī)療服務效率,建立“醫(yī)患”信任感,真正解決醫(yī)療行業(yè)的“痛點”,共建融合的醫(yī)療生態(tài)體系。
關(guān)鍵詞:數(shù)據(jù)挖掘;醫(yī)學數(shù)據(jù);神經(jīng)網(wǎng)絡;關(guān)聯(lián)規(guī)則
中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2011)15-3495-03
Summary of Medical Data Mining
WANG Ju-qin
(Department of Computer Technology, Wuxi Institute of Technology, Wuxi 214121, China)
Abstract: Medical data mining is necessary for improving the management level of medical information, providing scientific decision-making for the diagnosis and treatment of disease, and promoting the development of medicine. This paper mainly introduces the characters of mining medical data, the application and methods used in medicine, and also the application prospect medical field is outlined.
Key words: data mining; medical data; neural network; association rules
1 數(shù)據(jù)挖掘的產(chǎn)生
1.1 產(chǎn)生背景
在當今信息化和網(wǎng)絡化的社會條件下,隨著計算機、數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,各行各業(yè)都開始采用計算機以及相應的信息技術(shù)進行管理和運營,由此積累了大量的數(shù)據(jù)資料;另外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。但是,這些存儲在各種數(shù)據(jù)媒介中的數(shù)據(jù)在缺乏強有力的工具的情況下,已經(jīng)超出了人的理解和概括能力,導致收集在大型數(shù)據(jù)庫中的數(shù)據(jù)變成了“數(shù)據(jù)墳墓”,并帶來了一大堆問題:比如信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理,等等[1]。而激增的數(shù)據(jù)背后隱藏著許多重要的信息,決策者的決定往往不是基于數(shù)據(jù)庫中的有用信息,而是憑直覺,因為決策者缺乏從海量數(shù)據(jù)中提取有價值知識的工具。數(shù)據(jù)和所需信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳墓轉(zhuǎn)化成知識的“金塊”,人們迫切需要新一代的計算技術(shù)和工具來挖掘數(shù)據(jù)堆中的有用信息。
1.2 可行性
近十余年來,計算機和信息技術(shù)有了長足發(fā)展,產(chǎn)生了許多新概念和新技術(shù),如更高性能的計算機和操作系統(tǒng),因特網(wǎng),數(shù)據(jù)倉庫,神經(jīng)網(wǎng)絡等等。這使得數(shù)據(jù)挖掘技術(shù)在具備了市場需求的條件下,同時也具備了技術(shù)基礎(chǔ)。在這樣的背景下,數(shù)據(jù)挖掘技術(shù)就應運而生了。
2 醫(yī)學數(shù)據(jù)概述
2.1 醫(yī)學數(shù)據(jù)的內(nèi)容
計算機信息管理系統(tǒng)在醫(yī)療機構(gòu)的廣泛應用促進了醫(yī)學信息的數(shù)字化, 同時電子病歷和病案的大量應用、醫(yī)療設備和儀器的數(shù)字化,使得醫(yī)學領(lǐng)域數(shù)據(jù)的內(nèi)容不斷擴大,涵蓋了醫(yī)療過程和醫(yī)學活動的全部數(shù)據(jù)資源。醫(yī)學數(shù)據(jù)資料主要來源于統(tǒng)計報表、醫(yī)療衛(wèi)生工作記錄、專題實驗或者調(diào)查記錄、專題性的資料等三個方面[2],其中主要包括完整的人類遺傳密碼信息,大量關(guān)于病人的病史、診斷、檢驗和治療的臨床信息,藥品管理信息、醫(yī)院管理信息等。
2.2 醫(yī)學數(shù)據(jù)的特點
1)模式的多態(tài)性。首先表現(xiàn)為表達格式的多樣性。醫(yī)學信息包括純數(shù)據(jù)(體征參數(shù),化驗結(jié)果),信號(腦電信號,機電信號),圖像(B超,CT等醫(yī)學成像設備的檢驗結(jié)果),文字(病人的身份記錄,癥狀描述),以及動畫、語音和視頻信息。其次,數(shù)據(jù)表達很難標準化,對各種病例狀態(tài)的描述也比較模糊,沒有統(tǒng)一的標準和要求,不使用完全相同的專有名詞,甚至對臨床數(shù)據(jù)的解釋都是用非結(jié)構(gòu)化的語言,等等[3]。模式多態(tài)性是醫(yī)學數(shù)據(jù)區(qū)別于其他領(lǐng)域數(shù)據(jù)的最根本和最顯著的特性,同時這種特性也在一定程度上加大了數(shù)據(jù)挖掘的難度和速度。
2)不完整性。醫(yī)學數(shù)據(jù)不可能全面地反映任何一種疾病的全部信息,因此也不可能通過挖掘,針對某一種疾病獲取完整可靠的治療和解決方案。這首先是因為醫(yī)學數(shù)據(jù)相關(guān)信息(例如病例等)的記錄存儲還不是很完備和充分,還不能夠達到完全總結(jié)出待挖掘規(guī)律的數(shù)量[3]。同時,即使記錄在案的信息,其本身的表達方式就比較模糊,不可能通過精確值等方法來呈現(xiàn),因此這些原因形成了醫(yī)學數(shù)據(jù)的不完整性。
3)時間性[3]。一般情況下針對病人醫(yī)療活動的記錄信息都具有一定的時間特性,并且會隨著時序環(huán)境的變化而產(chǎn)生不同的表達效果;另外諸如醫(yī)學檢測的波形圖像等信息也都是以時間函數(shù)為基礎(chǔ)進行表達的。
4)冗余性。醫(yī)學數(shù)據(jù)信息中有大量的相同部分被重復記錄下來,比說一些常見疾病,病人的癥狀表現(xiàn)一般都比較相似,檢查和化驗的結(jié)果以及最后的治療措施等絕大部分也因此而相同。因此即使病人的個人信息等存在較小差異,其記錄的大部分醫(yī)學數(shù)據(jù)都表現(xiàn)為完全相同或者大部分相同,這就體現(xiàn)為冗余性[3]。這種數(shù)據(jù)特點不但迅速增加了此類數(shù)據(jù)本身的數(shù)量,同時也給挖掘操作帶來了更大的困難,應該在此之前就對這些冗余信息進行清理和過濾,去除不必要的重復部分,以簡化挖掘操作的實現(xiàn)過程。
5)隱私性[8]。顯然,記錄的醫(yī)學信息中,許多有關(guān)病人個體的信息涉及到社會倫理,法律以及個人所有權(quán)等,具有一定的隱私性,從社會,醫(yī)學以及病人本身等方面來說都必須進行保護,不能外泄。但是當數(shù)據(jù)存儲系統(tǒng)受到一些不可預料的侵入時,或者當其隱私保護的要求和挖掘操作的開放共享要求等產(chǎn)生矛盾時,勢必會帶來隱私性、安全性和機密性方面的問題。這就要求在進行醫(yī)學數(shù)據(jù)挖掘時,必須嚴格以保護數(shù)據(jù)隱私為基礎(chǔ),
2.3 醫(yī)學數(shù)據(jù)挖掘的可行性和必要性
2.3.1 必要性
眾所周知,龐大的醫(yī)學數(shù)據(jù)中蘊含著許多非常有價值的信息資源,這些資源對于相關(guān)病例的診斷治療以及醫(yī)學方面的研究發(fā)展都具有非常重要的意義。但是從目前的狀況來看,大多數(shù)醫(yī)學機構(gòu)和人員對這些存儲數(shù)據(jù)的利用還遠遠沒有達到預期的目標和效果,僅局限于一些低端的操作和使用,比如簡單的數(shù)據(jù)錄入,數(shù)據(jù)的查詢、修改、刪除等,而并沒有對收集的數(shù)據(jù)進行系統(tǒng)的分析研究,以從中得出適用于一般的規(guī)律特點,所以無法對相關(guān)病例的后繼診斷提供科學的決策輔助,對醫(yī)學學科的研究工作也沒有起到相應的促進作用[4]。針對這些情況,在數(shù)據(jù)挖掘技術(shù)已經(jīng)日漸成熟的背景下,將數(shù)據(jù)挖掘理論應用于醫(yī)學,通過對海量的醫(yī)學數(shù)據(jù)進行分析,總結(jié)各種醫(yī)治方案的療效,提取隱含在其中的有價值有意義的信息,更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學服務,對于醫(yī)生明確診斷、治療病人及促進疾病和健康的研究都具有極其重要的意義。
另一方面, 隨著人們生活水平的提高,保健意識的增強以及我國醫(yī)療體制改革的深入,基于計算機技術(shù)、通信技術(shù)的遠程醫(yī)療和社區(qū)醫(yī)療,已經(jīng)逐漸成為各大醫(yī)院的另一個潛在市場。如何對醫(yī)學數(shù)據(jù)庫進行自動提升和處理, 使其更好地為遠程醫(yī)療和社區(qū)醫(yī)療提供全面的、準確的診斷決策和保健措施,已成為促進醫(yī)院發(fā)展、提高服務質(zhì)量而必須解決的新問題。而這顯然也是和數(shù)據(jù)挖掘技術(shù)有著密不可分的聯(lián)系。
2.3.2 可行性
數(shù)據(jù)挖掘技術(shù)在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對成熟的技術(shù)體系,比如在數(shù)據(jù)挖掘設計、數(shù)據(jù)抽取以及聯(lián)機分析處理技術(shù)等方面都有一定的進展[4]。同時,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各個國家的電信、制造、零售、金融等各個領(lǐng)域得到了較為深入的應用。這些成功的應用也提供了可借鑒的寶貴經(jīng)驗。
同時國家對醫(yī)院信息化發(fā)展也給予了高度重視,提供政策、經(jīng)濟和技術(shù)上的大力支持,為醫(yī)學數(shù)據(jù)挖掘技術(shù)的發(fā)展應用奠定了物質(zhì)基礎(chǔ)和技術(shù)保障。
3 醫(yī)學數(shù)據(jù)挖掘的發(fā)展狀況
3.1 發(fā)展現(xiàn)狀
自20世紀80年代開始至今,數(shù)據(jù)挖掘技術(shù)產(chǎn)生至今有十幾年的時間,在商業(yè)以及工業(yè)生產(chǎn)中已經(jīng)得到了較為廣泛的應用,也取得了比較顯著的經(jīng)濟效益和社會效益,但是數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域的應用還處在起步階段[5]。同時,醫(yī)學數(shù)據(jù)挖掘也是一門涉及面廣、技術(shù)難度大的新興交叉學科,不但需要具有相關(guān)信息處理能力的技術(shù)科研人員,還需要相關(guān)的醫(yī)務工作者和醫(yī)療機構(gòu)提供醫(yī)學數(shù)據(jù)信息和專業(yè)醫(yī)療活動支持,并且要在此基礎(chǔ)之上實現(xiàn)醫(yī)學信息資源和挖掘技術(shù)的整合,實現(xiàn)技術(shù)上的突破。
3.2 應用領(lǐng)域
1)醫(yī)療活動輔助診斷。通過對歷史數(shù)據(jù)的處理和挖掘,能夠發(fā)現(xiàn)出針對特定病例的典型規(guī)律。一方面數(shù)據(jù)量內(nèi)容龐大,范圍廣泛,所以這些規(guī)律具有較好的普遍性;另一方面,根據(jù)患者全面的指標記錄和數(shù)據(jù)信息可以得到比較客觀的診斷結(jié)論,排除了人為因素的干擾,能夠更加有利于提高醫(yī)學治療活動的有效性。比如將粗糙集理論和算法應用于中醫(yī)類風濕和實體性肺病的診斷,基于人工神經(jīng)網(wǎng)絡理論以及模糊邏輯開發(fā)的心血管疾病診斷工具[6],都大大提高了診斷的正確率。
2)醫(yī)學信息處理。醫(yī)院信息主要包括醫(yī)院等醫(yī)療機構(gòu)的內(nèi)部管理信息(設備,藥械,財務)以及以患者為中心的信息(臨床病例、診斷、治療過程)。在初級操作階段的基礎(chǔ)上,通過對信息的數(shù)據(jù)關(guān)聯(lián)性分析,能夠預測未來發(fā)生發(fā)展趨勢和輔助診斷信息,比如藥品的使用頻率,某種疾病的發(fā)生和治療規(guī)律等。例如應用粗糙集理論預測早產(chǎn),可以將準確率從人工預測的17~38%提高到68~90%[6]。
3)醫(yī)療質(zhì)量管理。醫(yī)療機構(gòu)的服務要求在不斷提高,質(zhì)量效率問題也越來越被重視。醫(yī)療質(zhì)量的核心是數(shù)據(jù)、標準、計劃,這些都可以用不同的數(shù)據(jù)指標來衡量。通過數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)新的指數(shù)規(guī)律,檢驗其有效性,并提煉調(diào)整質(zhì)量方案。例如年齡因素和治療方法的關(guān)系延長了標準住院時間,可以考慮修改治療方案等??梢院苊黠@地發(fā)現(xiàn),數(shù)據(jù)挖掘技術(shù)可以幫助發(fā)現(xiàn)有關(guān)提高臨床服務效率以及質(zhì)量潛力的證據(jù)。
4)醫(yī)藥研發(fā)技術(shù)支持。在新藥的研究開發(fā)過程中,關(guān)鍵環(huán)節(jié)是先導化合物的發(fā)掘,其中一種基本途徑就是隨機篩選與意外發(fā)現(xiàn)。但是很顯然這種技術(shù)實現(xiàn)的周期比較漫長,肯定提高時間成本和經(jīng)濟成本。而在數(shù)據(jù)挖掘技術(shù)的支持下,可以通過數(shù)據(jù)信息的歸納總結(jié),確定藥效信息,大大縮短新藥的研發(fā)周期[6]。
5)生物醫(yī)學(DNA)。人類24對染色體的基因測序已經(jīng)全部完成,標志著人類基因研究已經(jīng)進入新的發(fā)展階段。接下來要完成的重要任務就是對分析DNA序列模式。比如,遺傳疾病的發(fā)生和人體基因密不可分,要掌握基因代碼的微觀結(jié)構(gòu),就需要對DN段進行細致的了解和測序,也就是要從大量的DNA數(shù)據(jù)中找到具有一般規(guī)律的組合序列。目前,使用數(shù)據(jù)挖掘技術(shù)已經(jīng)在很多方面對DNA的分析作出了很多貢獻,例如,DNA序列間相似搜索和頻度統(tǒng)計,可以識別帶病樣本和健康樣本中基因序列的差異[6];關(guān)聯(lián)分析可以幫助確定在樣本中同時出現(xiàn)的基因種類,有利于更全面地發(fā)現(xiàn)基因間的交叉聯(lián)系和致病規(guī)律;路徑分析能夠發(fā)現(xiàn)不同階段致病基因的作用規(guī)律,從而提高藥物治療的效率。
6)醫(yī)學圖像應用。主要應用于目組織的特征表達,即圖像特征自動提取和模式識別。例如,CT,PET,SPECT等診斷工具在醫(yī)學領(lǐng)域應用越來越廣泛,而在數(shù)據(jù)挖掘技術(shù)的幫助下,醫(yī)學圖像分析的功能也越來越強大[6]。運用基于貝葉斯分類的數(shù)據(jù)挖掘模式對心肌SPECT圖像能夠進行高質(zhì)量的分析和分類診斷。
7)其他方面的應用。數(shù)據(jù)挖掘還應用于毒理學方面以及藥物副作用研究方面。
4 醫(yī)學數(shù)據(jù)挖掘的方法技術(shù)
4.1 關(guān)鍵問題
1)數(shù)據(jù)預處理。如前所述,海量的醫(yī)學原始數(shù)據(jù)中包含大量的冗余、模糊以及不完整信息,必須首先進習慣清理和過濾,以確保數(shù)據(jù)的一致性和完整性。
2)信息融合技術(shù)。因為醫(yī)學信息的格式繁多,包括文字,數(shù)據(jù),圖像,語音,視頻等等,因此需要針對不同類型的信息采用不用的處理技術(shù),并且在需要的時候可以對結(jié)果進行綜合和分析。
3)快速的、魯棒的挖掘算法[7]。醫(yī)學數(shù)據(jù)的挖掘面向海量的存儲信息,處理的時間和技術(shù)要求都比較高,因此如何提高效率非常重要。同時基于數(shù)據(jù)類型動態(tài)變化,要求挖掘算法具有一定的容錯性和魯棒性。
4)提供知識的準確性和可靠性。在保證挖掘算法的處理結(jié)果具有較高準確率和可靠性的前提下,所得到的信息才能夠為醫(yī)療活動和管理提供科學客觀的決策幫助,在實際中得到很好的應用。
4.2 主要技術(shù)實現(xiàn)
1)自動疾病預測趨勢和行為。通過數(shù)據(jù)挖掘技術(shù),對有關(guān)人體病例的體征數(shù)據(jù)進行分析對比,并從中分析出相應的關(guān)系和規(guī)律,從而對疾病的預防、發(fā)生等進行預測。采用的主要技術(shù)有線性、非線性和廣義的回歸模型,以及神經(jīng)網(wǎng)絡和模糊控制技術(shù)[8]。其中,人工神經(jīng)網(wǎng)絡技術(shù)是一種模仿生物神經(jīng)網(wǎng)絡的、以人工神經(jīng)元為基本運算單位的互聯(lián)分布式存儲信息的智能信息處理系統(tǒng),具有很強的自組織性、魯棒性和容錯性。利用相關(guān)理論技術(shù),能夠找出服用抗精神藥物與心肌炎發(fā)作的關(guān)系,對危及生命的心律失常進行歸類,動態(tài)檢測病人的麻醉深度和控制劑用量等;而模糊系統(tǒng)是建立在模糊數(shù)學基礎(chǔ)上的一種推理方式,經(jīng)常與神經(jīng)網(wǎng)絡或最近鄰技術(shù)聯(lián)合起來應用,可以實現(xiàn)從心跳中鑒別心室過早收縮,分析肝臟超聲圖像等功能。
2)關(guān)聯(lián)分析。簡單地說,關(guān)鍵就是兩個或者多個變量的取值之間存在的某種規(guī)律性。關(guān)聯(lián)技術(shù)的目的是通過多維數(shù)據(jù)分析技術(shù)找出其中隱藏的關(guān)聯(lián)規(guī)則。有時并不知道或者不確定數(shù)據(jù)中的關(guān)聯(lián)函數(shù),因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度[8]。最著名的APRIORI關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法中,首先就是識別所有的頻繁項目集,也就是不低于用戶最低支持度的項目集,然后再從頻繁集中構(gòu)造不低于用戶最低信任度的規(guī)則。在此基礎(chǔ)之上,又出現(xiàn)了動態(tài)項目集技術(shù)DIC算法,發(fā)現(xiàn)頻繁項目集的劃分算法―分治法等。在實際情況下,關(guān)聯(lián)規(guī)則還需要進一步泛化,以發(fā)現(xiàn)更有用的價值。目前在醫(yī)學上,關(guān)聯(lián)分析是糖尿病數(shù)據(jù)庫分析課題中應用最廣泛和有效的工具。
3)聚類分析。把數(shù)據(jù)庫中中的記錄劃分為一系列有意義的子集成為聚類,包括統(tǒng)計方法,機器學習方法,神經(jīng)網(wǎng)絡方法,面向數(shù)據(jù)庫的方法,對于采集到的醫(yī)學信息進行處理的一個重要步驟就是聚類分析。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學,例如決策樹歸納,貝葉斯分類,神經(jīng)網(wǎng)絡技術(shù),基于知識的案例推理,遺傳算法,粗糙集等[8]。其中,粗糙集理論的出發(fā)點是根據(jù)目前已有的對給定問題的知識將問題的論域進行劃分,然后對劃分的每一組成部分確定其對某一概念的支持程度,用“肯定支持此概念”,“肯定不支持此概念”,“可能支持此概念”進行描述,并表示為正域、負域和邊界三個近似集合,同時用二維的決策表來描述論域中的對象。目前在中醫(yī)類風濕證候的診斷、肺部良性和惡性腫瘤診斷等領(lǐng)域發(fā)揮了重大作用,被認為可能是最理想的動態(tài)工具。
4)偏差檢錯與控制。數(shù)據(jù)庫中的數(shù)據(jù)存在一些異常記錄,需要我們將其檢測出來。偏差包括很多潛在的知識,例如分類中的反常實例,不滿足規(guī)則的特例,觀測結(jié)果與模型預測值的偏差,量值歲時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別[8]。目前在人工輔助儀器研究和藥物療效的生理實驗研究方面都有相關(guān)研究報道。
5)進化計算。進化計算法是由生物進化規(guī)律而演化出的一種搜索和優(yōu)化的計算方法,包括遺傳算法,進化規(guī)劃,計劃策略和遺傳編程[8]。可以通過從任意一個 出示的群體出發(fā),通過隨機選擇、交叉和變異等過程,使群體進化到搜索空間中越來越好的區(qū)域。
4.3 醫(yī)學數(shù)據(jù)挖掘過程
因為醫(yī)學數(shù)據(jù)挖掘和普通的數(shù)據(jù)挖掘之間差異較大,所以其過程是很難定義的。一些研究者定義了一系列的步驟,從而為此提供了一個框架,目的在于為各種數(shù)據(jù)挖掘方法在不同領(lǐng)域的應用提供指導,這些框架可能在步驟上略有不同,但同樣適用于醫(yī)學數(shù)據(jù)挖掘。一般都涉及下列6個應用領(lǐng)域[9]:
1)理解數(shù)據(jù)。初步理解需要挖掘的數(shù)據(jù)屬性,從原始數(shù)據(jù)庫中小規(guī)模采樣,進行初步挖掘?qū)嶒?,將結(jié)果與挖掘目標進行對照,必要時更新數(shù)據(jù)屬性。
2)準備數(shù)據(jù)。由于醫(yī)學數(shù)據(jù)的冗余性和多樣性,使得我們需要對數(shù)據(jù)進行采樣以消減數(shù)據(jù)量,同時要針對各種類型的數(shù)據(jù)采取相應的數(shù)據(jù)預處理方法。通過數(shù)據(jù)的準備,可以將原始數(shù)據(jù)轉(zhuǎn)換為特定數(shù)據(jù)挖掘方法所需要的數(shù)據(jù)形式。
3)數(shù)據(jù)挖掘。這一步包括建模技術(shù)的選擇,訓練與檢測程序的確定,模型的建立與評估。實現(xiàn)的方法包括前面講到過的粗糙集理論,神經(jīng)網(wǎng)絡,進化計算,決策樹等。挖掘方法與研究目標的匹配程度很大程度上決定了挖掘結(jié)果的精確度。
4)評估知識。對挖掘結(jié)論進行醫(yī)學解釋,并再次同最初目標進行比對。如果需要,尋找挖掘過程中存在的錯誤和不合理步驟并加以解決,或者對挖掘算法進行優(yōu)化,提高運行效率。
5)應用知識。在應用的過程中要注意有計劃地實施和控制,及時發(fā)現(xiàn)應用過程中的問題,并對實際情況進行階段性的總結(jié)分析,使得挖掘成果能夠更加完善。
5 醫(yī)學數(shù)據(jù)挖掘的發(fā)展展望
醫(yī)學數(shù)據(jù)挖掘是計算機技術(shù)、人工智能、統(tǒng)計學等和現(xiàn)代醫(yī)學信息資源相結(jié)合的一門交叉學科,涉及面廣,技術(shù)難度大。隨著數(shù)據(jù)庫、人工智能等數(shù)據(jù)挖掘工具的不斷進步,關(guān)聯(lián)規(guī)則等理論研究德不斷發(fā)展,以及大型數(shù)據(jù)庫和網(wǎng)絡技術(shù)的普及應用,必然還會有更加多的各種格式的醫(yī)學數(shù)據(jù)出現(xiàn)。同時,醫(yī)學數(shù)據(jù)庫包括電子病歷、醫(yī)學影像、病理參數(shù)、化驗結(jié)果等,而目前數(shù)據(jù)挖掘技術(shù)主要應用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫、事務數(shù)據(jù)庫和數(shù)據(jù)倉庫,對復雜類型數(shù)據(jù)的挖掘尚處在起步階段[9]。這些情況說明了醫(yī)學數(shù)據(jù)挖掘技術(shù)的發(fā)展,充滿著機遇和挑戰(zhàn),需要廣大計算機、信息技術(shù)人員和醫(yī)務工作者通力合作,結(jié)合醫(yī)學信息自身具有的特殊性和復雜性,選擇適合醫(yī)學數(shù)據(jù)類型的數(shù)據(jù)挖掘工具,并解決好數(shù)據(jù)挖掘過程中的關(guān)鍵技術(shù),盡可能大的發(fā)揮數(shù)據(jù)挖掘技術(shù)在醫(yī)學信息獲取中的價值。更好的服務于醫(yī)學、受惠于患者。隨著理論研究的深入和今年亦不的實踐摸索,數(shù)據(jù)挖掘技術(shù)在疾病的診斷和治療、醫(yī)學科研與教學以及醫(yī)院的管理等方面必將會發(fā)揮越來越大的作用。
參考文獻:
[1] Krzysztof J Cios,William Moore.Uniqueness of medical data mining[J].Artifical Intelligence in Medicine,2002,26(1-2):1-24.
[2] Ganzert S,Gytmann J,Kersting K,et al.Analysis of respiratory pressure-volume curves in intensive care medicine using inductive machine learning[J].Artif Intell Med,2002,26(1-2):69-86.
[3] Tourassi G D,Floyd C E,Sostman H D,et al.Acute Pulmonary Embolism:Artificial Neural Network Approach for Diagnosis[J].Radiology,1993,189(2):555-558.
[4] Kusiak A,Kernstine K H,Kern J A,et al.Data Mining:Medical and Engineering Case Studies[A].Proceedings of the IIE Research 2000 Conference,Cleveland,OH,2000(5):1-7.
[5] Wolf Stugliger.Intelligent Data Mining for Medical Quality Management[EB/OL].ifs.tywien.at/~silvia/idamap-2000.
[6] Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutjionary algorithms[J].IEEE Eng Med Biol Mag,2000,19(4):45.
[7] Ohrn A,Rowland T.Rough sets:a knowledge discobery technique for multifactorial medical outcomes[J].Am J Phys Med Tehabil,2000,79(1):100.