公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘總結(jié)范文

數(shù)據(jù)挖掘總結(jié)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘總結(jié)主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘總結(jié)

第1篇:數(shù)據(jù)挖掘總結(jié)范文

數(shù)據(jù)挖掘技術(shù)在商品銷售領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。商品銷售者不僅明白搜集顧客數(shù)據(jù)的重要性,而且意識(shí)到真正的目的在于能夠針對(duì)顧客提出科學(xué)的、前瞻性的商品銷售方案。數(shù)據(jù)挖掘技術(shù)能有效地幫助商品銷售工作者透過(guò)表面上無(wú)關(guān)聯(lián)的顧客層數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)在有意義的聯(lián)系,從而不僅能對(duì)顧客需求做出及時(shí)反應(yīng),還能對(duì)顧客需求進(jìn)行有效的預(yù)測(cè)。

一、數(shù)據(jù)挖掘的基本原理

數(shù)據(jù)挖掘就是利用數(shù)學(xué)模型、統(tǒng)計(jì)和人工智能技術(shù)等方法,把一些高深、復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,因而可專注于自己所要解決的問(wèn)題。數(shù)據(jù)挖掘按其功能可分為:描述性數(shù)據(jù)挖掘方法和預(yù)測(cè)性數(shù)據(jù)挖掘方法。

1描述性數(shù)據(jù)挖掘

在取得大量的數(shù)據(jù)之后,首先要對(duì)數(shù)據(jù)進(jìn)行總結(jié),也即數(shù)據(jù)的泛化;在泛化的基礎(chǔ)上再對(duì)數(shù)據(jù)進(jìn)行高層次的處理,包括數(shù)據(jù)的聚集、關(guān)聯(lián)分析等。

(1)數(shù)據(jù)總結(jié):數(shù)據(jù)總結(jié)的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它們的緊湊描述。數(shù)據(jù)泛化是一種將數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從低層次抽象到高層次的過(guò)程。

(2)聚集:聚集的目的是要盡量縮小屬于同一類別的個(gè)體之間的距離,而盡可能擴(kuò)大不同類別個(gè)體間的距離。層次法、密度法、網(wǎng)格法、神經(jīng)元網(wǎng)絡(luò)和K-均值是比較常用的聚集算法。

(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是尋找數(shù)據(jù)的相關(guān)性。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,其核心是使用Apriori算法,找出事物的相應(yīng)支持度和置信度,最后找到相應(yīng)的關(guān)聯(lián)規(guī)則。

2預(yù)測(cè)型數(shù)據(jù)挖掘

在預(yù)言模型中,把我們要預(yù)測(cè)的值或所屬類別稱為響應(yīng)變量、依賴變量或目標(biāo)變量;用于預(yù)測(cè)的輸入變量是預(yù)測(cè)變量或獨(dú)立變量。主要通過(guò)分類、回歸分析、時(shí)間序列來(lái)建立預(yù)測(cè)模型。

二、商品銷售領(lǐng)域數(shù)據(jù)挖掘的依據(jù)

在商品銷售領(lǐng)域采用數(shù)據(jù)挖掘是商品銷售發(fā)展到一定階段的必然要求,它有助于提高商品銷售效率,降低商品銷售成本。其理論依據(jù)有消費(fèi)者消費(fèi)行為、細(xì)分市場(chǎng)理論、顧客關(guān)系、顧客數(shù)據(jù)庫(kù)和直接商品銷售。

在制定商品銷售計(jì)劃之前,商品銷售者需要研究消費(fèi)者市場(chǎng)和消費(fèi)者行為。在分析消費(fèi)者市場(chǎng)時(shí),公司需要了解市場(chǎng)情況,購(gòu)買對(duì)象,購(gòu)買目的等因素。通過(guò)搜集顧客消費(fèi)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),可以簡(jiǎn)潔、明了地得到這些信息。

三、商品銷售中的數(shù)據(jù)挖掘過(guò)程

1商品銷售目標(biāo)理解

在進(jìn)行數(shù)據(jù)挖掘之前,必須從商品銷售角度去分析要達(dá)到的目標(biāo)和需求,也即要分析什么商品銷售問(wèn)題,達(dá)到什么商品銷售目標(biāo)。首先對(duì)商品銷售現(xiàn)狀進(jìn)行分析,找出存在的問(wèn)題,并確定需要實(shí)現(xiàn)的營(yíng)銷目標(biāo),再將商品銷售目標(biāo)轉(zhuǎn)換成數(shù)據(jù)挖掘目標(biāo),然后將這種知識(shí)轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,并設(shè)計(jì)一個(gè)達(dá)到目標(biāo)的初步計(jì)劃。

2數(shù)據(jù)理解

先搜集初步的數(shù)據(jù),然后進(jìn)行熟悉數(shù)據(jù)的各種活動(dòng),包括識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,找到對(duì)數(shù)據(jù)的基本觀察,或假設(shè)隱含的信息來(lái)檢測(cè)感興趣的數(shù)據(jù)子集。

3數(shù)據(jù)準(zhǔn)備

首先進(jìn)行數(shù)據(jù)抽樣,從大量數(shù)據(jù)中篩選出一些相關(guān)的樣板數(shù)據(jù)子集。通過(guò)對(duì)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,使數(shù)據(jù)更加具有規(guī)律性。然后,進(jìn)行數(shù)據(jù)探索,通常是所進(jìn)行的對(duì)數(shù)據(jù)深入調(diào)查的過(guò)程,從樣本數(shù)據(jù)集中找出規(guī)律和趨勢(shì),用聚類分析法區(qū)分類別,最終要達(dá)到的目的就是搞清多因素相互影響的復(fù)雜關(guān)系,發(fā)現(xiàn)因素之間的相關(guān)性。最后,需要對(duì)數(shù)據(jù)進(jìn)行調(diào)整,通過(guò)上述兩個(gè)步驟的操作,對(duì)數(shù)據(jù)的狀態(tài)和趨勢(shì)有了進(jìn)一步的了解,這時(shí)要盡可能對(duì)解決問(wèn)題的要求進(jìn)行明確化和進(jìn)一步的量化。

4建模

這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。在建模階段,可以選擇和應(yīng)用各種建模技術(shù),并將其參數(shù)校正到優(yōu)化值。通常,對(duì)同一個(gè)數(shù)據(jù)挖掘問(wèn)題類型有幾種可選用的技術(shù)。

第2篇:數(shù)據(jù)挖掘總結(jié)范文

本課的教學(xué)對(duì)象為七年級(jí)學(xué)生,這個(gè)年齡段的學(xué)生自主和獨(dú)立意識(shí)較強(qiáng),具備一定的信息搜集、處理、表達(dá)能力,喜歡在學(xué)習(xí)的過(guò)程中體驗(yàn)和理解事物,但分析思考問(wèn)題缺乏深度。在日常學(xué)習(xí)、生活中,學(xué)生經(jīng)常要對(duì)數(shù)據(jù)做搜集、整理、運(yùn)算、統(tǒng)計(jì)和分析工作,但他們的認(rèn)知大多只停留在表層,僅學(xué)會(huì)了數(shù)據(jù)加工的一些基本操作,缺乏從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識(shí),更不會(huì)運(yùn)用統(tǒng)計(jì)學(xué)方法尋找蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律,借助它解決學(xué)習(xí)和生活中的實(shí)際問(wèn)題。

學(xué)習(xí)內(nèi)容分析

本課是蘇科版七年級(jí)初中信息技術(shù)第三章第3節(jié)的內(nèi)容,主要包括“數(shù)據(jù)挖掘的作用”和“數(shù)據(jù)挖掘的過(guò)程”兩個(gè)部分,可深入細(xì)分為“什么是數(shù)據(jù)挖掘”“數(shù)據(jù)準(zhǔn)備”“數(shù)據(jù)挖掘”“規(guī)律表示”四個(gè)內(nèi)容。教學(xué)中,為了讓學(xué)生深刻體會(huì)數(shù)據(jù)挖掘的意義和價(jià)值,教師應(yīng)鼓勵(lì)他們對(duì)數(shù)據(jù)進(jìn)行多角度加工與分析,找到規(guī)律或有用的信息,用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來(lái),學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話,讓數(shù)據(jù)挖掘更好地服務(wù)于生活與學(xué)習(xí)。

教學(xué)目標(biāo)

知識(shí)與技能目標(biāo):理解數(shù)據(jù)挖掘的概念,體會(huì)數(shù)據(jù)挖掘的作用。

過(guò)程與方法目標(biāo):嘗試進(jìn)行數(shù)據(jù)挖掘,經(jīng)歷數(shù)據(jù)挖掘的一般過(guò)程。

情感態(tài)度與價(jià)值觀目標(biāo):樹(shù)立用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)指導(dǎo)生活的思想意識(shí)。

教學(xué)重難點(diǎn)

重點(diǎn):數(shù)據(jù)挖掘的概念及數(shù)據(jù)挖掘的一般過(guò)程。

難點(diǎn):數(shù)據(jù)準(zhǔn)備及挖掘的過(guò)程。

教學(xué)策略

數(shù)據(jù)挖掘是一種強(qiáng)大的分析數(shù)據(jù)的方法,因涉及到專業(yè)軟件和統(tǒng)計(jì)學(xué)術(shù)語(yǔ)、數(shù)學(xué)模型等,會(huì)讓學(xué)生難以理解。而日常使用的WPS表格,作為數(shù)據(jù)挖掘的有效工具,可以讓學(xué)生在分析具體數(shù)據(jù)的過(guò)程中,掌握數(shù)據(jù)挖掘的方法。因此,本節(jié)課教學(xué)應(yīng)讓學(xué)生從已有經(jīng)驗(yàn)出發(fā),運(yùn)用WPS表格中的簡(jiǎn)單工具,學(xué)習(xí)數(shù)據(jù)挖掘的一般方法。

“數(shù)據(jù)挖掘”對(duì)學(xué)生而言,是一個(gè)全新的概念,概念的建構(gòu)需要一步步地不斷累積,從表層到內(nèi)涵,逐步深化。學(xué)生只有在了解了“數(shù)據(jù)挖掘”的基本含義,并嘗試挖掘的基礎(chǔ)上,才能體會(huì)其作用和意義。所以,筆者設(shè)計(jì)了層層遞進(jìn)的學(xué)習(xí)活動(dòng)(情境再現(xiàn),感受數(shù)據(jù)挖掘―案例研習(xí),認(rèn)識(shí)數(shù)據(jù)挖掘―比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘―同比空氣質(zhì)量,再探數(shù)據(jù)挖掘―暢想未來(lái),展望數(shù)據(jù)挖掘),并且在活動(dòng)中適時(shí)搭建學(xué)習(xí)所需的“支架”,來(lái)幫助學(xué)生完成知識(shí)的建構(gòu)。筆者通過(guò)一系列的活動(dòng),讓學(xué)生在做中學(xué),在學(xué)中思,在思中用,在情境化的技術(shù)活動(dòng)中,歸納出數(shù)據(jù)挖掘的方法,從而樹(shù)立用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)指導(dǎo)生活的思想意識(shí)。

教學(xué)過(guò)程

1.情境再現(xiàn),感受數(shù)據(jù)挖掘

活動(dòng)1:情境再現(xiàn),感受數(shù)據(jù)挖掘。

①猜一猜:不同的人群瀏覽同一個(gè)網(wǎng)頁(yè)時(shí),所看到的內(nèi)容是否一致。

②觀察鳳凰網(wǎng)的廣告區(qū)域截圖,在組內(nèi)交流(如下頁(yè)圖1,不同人群瀏覽的同一網(wǎng)頁(yè),推送的廣告不同)。

③京東為什么能夠根據(jù)個(gè)人喜好推送商品?

小結(jié):京東在挖掘和分析用戶瀏覽行為的基礎(chǔ)上,進(jìn)行定向產(chǎn)品推廣。

設(shè)計(jì)意圖:思維總是由問(wèn)題開(kāi)始的,激發(fā)問(wèn)題,能讓學(xué)生積極主動(dòng)地參與到學(xué)習(xí)活動(dòng)中。以京東廣告推送功能來(lái)設(shè)置情境,把兩種不同的瀏覽行為對(duì)照比較,設(shè)置懸念,第一時(shí)間抓住學(xué)生,激發(fā)學(xué)生學(xué)習(xí)新知識(shí)、新技術(shù)的渴望。

2.案例研習(xí),認(rèn)識(shí)數(shù)據(jù)挖掘

活動(dòng)2:學(xué)生觀看視頻,并思考、總結(jié)。

①安保為什么使用熱力圖(如圖2)?(對(duì)百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,把握人群密集點(diǎn)動(dòng)態(tài)趨勢(shì),幫助警方提前疏導(dǎo)、化解安全風(fēng)險(xiǎn))

②百度大數(shù)據(jù)對(duì)旅游有什么作用(如圖3)?(對(duì)用戶搜索數(shù)據(jù)深入挖掘,預(yù)測(cè)熱門旅游景點(diǎn))

③導(dǎo)航是如何規(guī)劃路徑的(如圖4)?(對(duì)道路環(huán)境、天氣情況、特征日等數(shù)據(jù)進(jìn)行挖掘和分析,得出每條道路在不同環(huán)境或不同時(shí)間的路況規(guī)律,確定最優(yōu)的交通路線)

師生對(duì)數(shù)據(jù)進(jìn)行分析、總結(jié)(如表1)。

小結(jié):數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。數(shù)據(jù)挖掘的目的主要有三個(gè):把握趨勢(shì)、預(yù)測(cè)和求最優(yōu)解。

設(shè)計(jì)意圖:選取日常生活中運(yùn)用數(shù)據(jù)挖掘的三個(gè)典型事例視頻――熱力圖、旅游預(yù)測(cè)、導(dǎo)航,借助半成品表格作為輸出支架,歸納出數(shù)據(jù)挖掘的概念和數(shù)據(jù)挖掘的三個(gè)目的。體會(huì)挖掘數(shù)據(jù)價(jià)值性的同時(shí),認(rèn)識(shí)數(shù)據(jù)加工的重要性,為數(shù)據(jù)挖掘的學(xué)習(xí)做好鋪墊。

3.比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘

師:圖5中空氣質(zhì)量預(yù)報(bào)實(shí)現(xiàn)了數(shù)據(jù)挖掘的哪一種目標(biāo)?(把握趨勢(shì))鹽城市空氣質(zhì)量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質(zhì)量狀況。

活動(dòng)3:比較鹽城、秦州、淮安等周邊城市空氣質(zhì)量狀況。

①登錄中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)(http:///historydata/),建立鹽城周邊三市空氣質(zhì)量狀況工作表(如圖6)。

影響空氣質(zhì)量的因素很多,AQI指數(shù)是衡量空氣質(zhì)量的重要指標(biāo)。

教師演示:瀏覽數(shù)據(jù),提取數(shù)據(jù),組成工作表(如圖7)。

②計(jì)算各市4月份空氣質(zhì)量指數(shù)AQI的平均數(shù)。(提示:AVERAGE公式使用方法以及自動(dòng)填充柄的使用)

③比較4月份空氣質(zhì)量狀況。(結(jié)論:質(zhì)量指數(shù)平均值大小依次是鹽城、秦州、淮安)

師:根據(jù)質(zhì)量指數(shù),利用函數(shù)工具計(jì)算平均數(shù),得出空氣質(zhì)量狀況,其實(shí)就是數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘的一般過(guò)程如圖8所示。

設(shè)計(jì)意圖:從全國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)搜集數(shù)據(jù),選擇WPS函數(shù)工具挖掘數(shù)據(jù),并對(duì)挖掘結(jié)果加以解釋,來(lái)建構(gòu)數(shù)據(jù)挖掘的一般過(guò)程。在嘗試數(shù)據(jù)挖掘的過(guò)程中,學(xué)會(huì)運(yùn)用計(jì)算思維解決問(wèn)題,借助流程圖總結(jié)挖掘過(guò)程,有助于學(xué)生從整體上把握知識(shí),進(jìn)一步促進(jìn)認(rèn)知體系的構(gòu)建。

4.同比空氣質(zhì)量,再探數(shù)據(jù)挖掘

師:通過(guò)挖掘比較,我們得出鹽城市4月份空氣質(zhì)量在周邊城市當(dāng)中最好,各市以前的空氣質(zhì)量狀況如何?

活動(dòng)4:比較各市2014年、2015年空氣質(zhì)量數(shù)據(jù),說(shuō)明哪一年空氣質(zhì)量更好(如圖9)。

①在選定城市后,思考如何同比質(zhì)量。

②選取函數(shù)或圖表工具,完成挖掘。

③規(guī)律表示。

④從“我的數(shù)據(jù)分析報(bào)告”中的各組中任選城市,從“2014年數(shù)據(jù)、2015年數(shù)據(jù)”工作表中,選取數(shù)據(jù)到“同比空氣質(zhì)量”進(jìn)行分析(如下頁(yè)表2)。

小組匯報(bào)挖掘過(guò)程和得出的結(jié)論,形成對(duì)數(shù)據(jù)挖掘的新認(rèn)識(shí)。

小結(jié):用平均數(shù)比較,各市兩年的數(shù)據(jù)基本相同,但是合格月份數(shù)不一定相同,同比AQI低的月份數(shù)也不相同。學(xué)生同比之后發(fā)現(xiàn),2015年空氣質(zhì)量好于2014年。

設(shè)計(jì)意圖:學(xué)生借助分析報(bào)告,以分組合作的形式,再次經(jīng)歷挖掘數(shù)據(jù)的過(guò)程,找到規(guī)律或有用的信息,加深對(duì)挖掘過(guò)程的理解。鼓勵(lì)學(xué)生對(duì)數(shù)據(jù)進(jìn)行多角度的加工與分析,選擇合適的工具進(jìn)行挖掘,體現(xiàn)了多元化的思想。

5.暢想未來(lái),展望數(shù)據(jù)挖掘

觀看視頻(如上頁(yè)圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測(cè)序的視頻截圖),想象:數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,對(duì)生活會(huì)產(chǎn)生怎樣的影響?

如今,數(shù)據(jù)挖掘改變了傳統(tǒng)的生活模式,未來(lái)將會(huì)產(chǎn)生更加深遠(yuǎn)的影響。因此,我們應(yīng)學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話,挖掘數(shù)據(jù)創(chuàng)造出更智慧的生活方式。

設(shè)計(jì)意圖:通過(guò)視頻播放,讓學(xué)生深度感受“數(shù)據(jù)挖掘”與生活息息相關(guān),挖掘數(shù)據(jù)將給人們生活帶來(lái)的改變,培養(yǎng)學(xué)生搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話的意識(shí)。

點(diǎn) 評(píng)

如今,數(shù)據(jù)挖掘已被廣泛應(yīng)用在各個(gè)領(lǐng)域。什么是數(shù)據(jù)挖掘?顧名思義就是從龐大的數(shù)據(jù)中挖掘?qū)毑兀ㄐ畔?、知識(shí)、見(jiàn)解等)的方法和過(guò)程。顯然,對(duì)于初學(xué)者而言,這是一個(gè)全新的概念,僅靠上述說(shuō)明難以理解它的含義。在傳統(tǒng)教學(xué)中,教師往往讓學(xué)生背誦記憶這些內(nèi)容,學(xué)生并沒(méi)有形成概念的深層理解。為此,董老師從理解數(shù)據(jù)挖掘出發(fā),選取數(shù)據(jù)挖掘的三個(gè)典型事例――熱力圖、旅游預(yù)測(cè)、導(dǎo)航,精心組織學(xué)習(xí)活動(dòng),在半成品表格的引導(dǎo)下,歸納出數(shù)據(jù)挖掘的三個(gè)目的――把握趨勢(shì)、預(yù)測(cè)和求最優(yōu)解,體會(huì)挖掘數(shù)據(jù)的價(jià)值,進(jìn)而概括出數(shù)據(jù)挖掘的概念。

第3篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞:云計(jì)算概述;數(shù)據(jù)挖掘;平臺(tái)架構(gòu)

中圖分類號(hào):TP311.13

隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,手機(jī)、電腦在中國(guó)隨處可見(jiàn),互聯(lián)網(wǎng)甚至是移動(dòng)互聯(lián)網(wǎng)融入了人們的日常生活,互聯(lián)網(wǎng)中無(wú)法估量的大量數(shù)據(jù)不斷增長(zhǎng),愈演愈烈,面對(duì)著海一般的數(shù)據(jù)信息,人們不能準(zhǔn)確的找到自己想要的數(shù)據(jù),像手機(jī)APP,手游等移動(dòng)互聯(lián)網(wǎng)產(chǎn)品,每天都承載著非常多的數(shù)據(jù),對(duì)運(yùn)營(yíng)商而言,如何進(jìn)行數(shù)據(jù)分析以及數(shù)據(jù)挖掘成為一個(gè)亟待解決的難題。

較于傳統(tǒng)數(shù)據(jù)處理系統(tǒng),云計(jì)算系統(tǒng)的出現(xiàn)讓人眼前一亮,基于云的數(shù)據(jù)挖掘平臺(tái)的建構(gòu)為數(shù)據(jù)挖掘開(kāi)辟了一條新路,云計(jì)算提供一個(gè)虛擬的平臺(tái),用戶可以在任何地區(qū)運(yùn)用任何終端選擇自己想要的數(shù)據(jù),而大規(guī)模的數(shù)據(jù)本身就存在一些問(wèn)題,數(shù)據(jù)挖掘存在難度,本文就云計(jì)算的數(shù)據(jù)挖掘進(jìn)行具體的分析如下:

1 云計(jì)算概述

一直以來(lái)云計(jì)算都沒(méi)有一個(gè)統(tǒng)一明確的定義,根據(jù)多數(shù)人對(duì)云計(jì)算的定義,總結(jié)出以下兩方面:(1)云計(jì)算通俗一點(diǎn)說(shuō)就是一個(gè)資源盤,其擁有數(shù)以萬(wàn)計(jì)的可用虛擬資源,有些虛擬資源擁有不同的負(fù)載量,云計(jì)算的優(yōu)勢(shì)就是可用將這些負(fù)載量不同的資源進(jìn)行新的合理分配;(2)就用戶而言云計(jì)算的服務(wù)是方便簡(jiǎn)單的,且透明化,用戶的最終目的是在云計(jì)算中獲取想要的數(shù)據(jù)和服務(wù),用戶不用在意云計(jì)算本身的運(yùn)行機(jī)制,然而云計(jì)算的系統(tǒng)也是存在隱患的,如果一個(gè)規(guī)模龐大的計(jì)算機(jī)群在運(yùn)作的過(guò)程中仍然不間斷的增加計(jì)算機(jī)的數(shù)量,那么云計(jì)算系統(tǒng)可能會(huì)出錯(cuò)甚至系統(tǒng)崩潰,可見(jiàn)單純依靠硬件設(shè)施是不可取的,此時(shí)需要可靠的軟件發(fā)揮作用,需使用冗余和分布式存儲(chǔ)的方式,云計(jì)算系統(tǒng)另一個(gè)優(yōu)勢(shì)就是擁有自我檢測(cè)系統(tǒng)模式,該模式在不影響正常運(yùn)行的情況下,可以檢測(cè)出無(wú)效節(jié)點(diǎn)并進(jìn)行刪除,總之,云計(jì)算系統(tǒng)數(shù)據(jù)多、存儲(chǔ)能力強(qiáng)、計(jì)算能力快且準(zhǔn)確率高,給用戶帶來(lái)高效、優(yōu)質(zhì)的服務(wù)。

經(jīng)過(guò)一直以來(lái)對(duì)云計(jì)算的研究總結(jié)其特點(diǎn)有五個(gè)方面,分別是虛擬化、通用性、擴(kuò)展性強(qiáng)且規(guī)模大、可靠性高、經(jīng)濟(jì)性好等特點(diǎn),具體來(lái)說(shuō)就是云計(jì)算不是個(gè)實(shí)物,是個(gè)虛擬的擁有海量數(shù)據(jù)的平臺(tái),用戶可以在世界的任何位置通過(guò)任何終端獲取想要的數(shù)據(jù)信息和服務(wù);云計(jì)算沒(méi)有局限性,在云計(jì)算下可以構(gòu)建出不同的應(yīng)用,而且這些應(yīng)用可同時(shí)運(yùn)行;在不影響用戶正常使用的情況下,云計(jì)算是可以擴(kuò)展的,而且是動(dòng)態(tài)擴(kuò)展,現(xiàn)今最多可擴(kuò)展幾十萬(wàn)臺(tái)電腦,整個(gè)擴(kuò)展過(guò)程用戶是可以看到的,是對(duì)外的;為了保證服務(wù)的質(zhì)量和可靠性,云計(jì)算運(yùn)用了多種方法如多副本容錯(cuò)和多計(jì)算節(jié)點(diǎn)同構(gòu)可互換等;云計(jì)算由于自身的優(yōu)勢(shì)運(yùn)用大量廉價(jià)節(jié)點(diǎn)構(gòu)成云,采用自動(dòng)化集中式管理機(jī)制,解決企業(yè)高昂的數(shù)據(jù)中心成本,較于傳統(tǒng)系統(tǒng)云計(jì)算系統(tǒng)成本較低。

2 數(shù)據(jù)挖掘的方式

數(shù)據(jù)挖掘是一個(gè)循環(huán)反復(fù)、不斷調(diào)整和修改的過(guò)程,這個(gè)過(guò)程漫長(zhǎng)且復(fù)雜。從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘再到評(píng)估和表示這是數(shù)據(jù)挖掘的整個(gè)過(guò)程,數(shù)據(jù)挖掘的過(guò)程中方法很多,歸納如下:(1)廣義知識(shí)挖掘,廣義知識(shí)被挖掘出來(lái)后,與可視化技術(shù)相結(jié)合,用戶可以直觀的通過(guò)圖表形式來(lái)了解;(2)關(guān)聯(lián)知識(shí)挖掘;(3)類知識(shí)挖掘,分分類和聚類兩種。決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、支持向量機(jī)、遺傳算法與進(jìn)化理論、粗糙集、關(guān)聯(lián)分類、類比學(xué)習(xí)、模糊集等為分類法。聚類法包括五種,分別是基于劃分、密度、層次、模型及網(wǎng)格的不同方法;(4)預(yù)測(cè)型知識(shí)挖掘,包括一些方法和技術(shù),方法有經(jīng)典的統(tǒng)計(jì)方法,技術(shù)包括神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù);(5)特異型知識(shí)挖掘,所謂特異型指特殊的背離常規(guī)的異常規(guī)律。包括三個(gè)類別,分別是孤立點(diǎn)分析、序列異常分析和特異規(guī)則發(fā)現(xiàn);(6)自定義數(shù)據(jù)挖掘算法。

數(shù)據(jù)挖掘的過(guò)程以及方法可以通過(guò)圖1直觀的了解。

3 基于云的數(shù)據(jù)挖掘平臺(tái)架構(gòu)

針對(duì)傳統(tǒng)數(shù)據(jù)挖掘平臺(tái)而言,云計(jì)算的產(chǎn)生對(duì)其影響很大,云計(jì)算的分布式存儲(chǔ)和計(jì)算使數(shù)據(jù)挖掘開(kāi)始變革,數(shù)據(jù)挖掘云服務(wù)只有基于云計(jì)算平臺(tái)才能得以實(shí)現(xiàn),其設(shè)計(jì)思想是分層設(shè)計(jì),思路是面向組件設(shè)計(jì),整個(gè)平臺(tái)自下向上分為三層,最下面一層也是最基礎(chǔ)的一層是云計(jì)算支撐平臺(tái)層,再往上一層是數(shù)據(jù)挖掘能力層,最頂層是數(shù)據(jù)挖掘云服務(wù)層。

云計(jì)算支撐平臺(tái)層的功能主要是提供數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算,最底層構(gòu)建可以以企業(yè)自主研發(fā)的云計(jì)算平臺(tái)為基礎(chǔ) ,也可以以第三方提供的云計(jì)算平臺(tái)為基礎(chǔ)。

數(shù)據(jù)挖掘能力層的能力有算法服務(wù)管理、調(diào)度引起、數(shù)據(jù)并行處理框架等,這些都是基礎(chǔ)能力,數(shù)據(jù)挖掘能力層支撐著它的上一層(數(shù)據(jù)挖掘云服務(wù)層)。這層不但支持內(nèi)部數(shù)據(jù)挖掘算法和推薦算法庫(kù),對(duì)于外在的第三方數(shù)據(jù)挖掘算數(shù)法也可以接入。

最頂層數(shù)據(jù)挖掘云服務(wù)層的主要功能是為外在企業(yè)和個(gè)人提供數(shù)據(jù)挖掘云服務(wù),其涵蓋多種多樣的服務(wù)能力封裝的接口形式,例如針對(duì)于簡(jiǎn)單對(duì)象的訪問(wèn)協(xié)議簡(jiǎn)稱SOAP的XML等,本地應(yīng)用程序編程接口也是其形式之一,基于結(jié)構(gòu)化查詢語(yǔ)言語(yǔ)句的訪問(wèn)在數(shù)據(jù)挖掘云服務(wù)層也是支持的,同時(shí)此層還提供解析引擎和自動(dòng)調(diào)用云服務(wù)。

總之,基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)從很多方面是優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘平臺(tái)的,如大規(guī)模數(shù)據(jù)處理能力、數(shù)據(jù)動(dòng)態(tài)擴(kuò)展能力以及低廉的云服務(wù)和成本等。

4 云計(jì)算關(guān)鍵技術(shù)

如今大量數(shù)據(jù)挖掘最直接有效的方法是分布式計(jì)算方法,這個(gè)方法包括兩部分一部分是分布式數(shù)據(jù)存儲(chǔ),一部分是分布式并行計(jì)算,現(xiàn)在的云計(jì)算平臺(tái)已經(jīng)涵蓋了這兩部分的能力,這兩部分是云計(jì)算數(shù)據(jù)挖掘平臺(tái)的核心支撐能力,GFS、KFS、HDFS等三種分布式文件系統(tǒng)是目前比較受歡迎的分布式文件系統(tǒng),Google公司的分布式文件系統(tǒng)理論是三者的理論基礎(chǔ),KFS、HDFS兩種分布式文件系統(tǒng)多被用于商業(yè)和學(xué)術(shù)領(lǐng)域。

分布式并行計(jì)算框架在分布式計(jì)算方法中非常重要,其在計(jì)算過(guò)程中封裝了一些技術(shù)細(xì)節(jié),如任務(wù)調(diào)度、任務(wù)容錯(cuò)等,這樣便捷了用戶,用戶只要把握好任務(wù)間的邏輯關(guān)系,不必注意這些技術(shù)細(xì)節(jié),目前較為廣泛應(yīng)用的分布式計(jì)算框架有并行計(jì)算框架Mapreduce和迭代處理計(jì)算框架Pregel這兩者都由谷歌公司提出,還有微軟公司研發(fā)的Dryad。

5 結(jié)束語(yǔ)

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),海量復(fù)雜的數(shù)據(jù)處理與數(shù)據(jù)挖掘困擾著各大運(yùn)營(yíng)商,與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,云計(jì)算優(yōu)勢(shì)明顯,強(qiáng)大動(dòng)態(tài)擴(kuò)展能力、獨(dú)特的分布式存儲(chǔ)和計(jì)算方法、以及低廉的成本優(yōu)勢(shì)吸引了越來(lái)越多企業(yè)和個(gè)人,基于云的數(shù)據(jù)挖掘平臺(tái),企業(yè)和運(yùn)行商都因此減少了數(shù)據(jù)挖掘方面的資金投入,對(duì)這些企業(yè)來(lái)說(shuō)無(wú)疑是減小了生產(chǎn)成本。

參考文獻(xiàn):

[1]丁巖,楊慶平,錢煜明.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013(01).

第4篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞:煙草行業(yè);質(zhì)量管理;數(shù)據(jù)挖掘

煙草行業(yè)在我國(guó)市場(chǎng)經(jīng)濟(jì)發(fā)展中迅速壯大起來(lái),同時(shí)行業(yè)間的競(jìng)爭(zhēng)也越來(lái)越激烈,如何在激烈的競(jìng)爭(zhēng)中占據(jù)主動(dòng)是廣大煙草企業(yè)領(lǐng)導(dǎo)者關(guān)心的問(wèn)題。加強(qiáng)質(zhì)量管理,提高煙草產(chǎn)品質(zhì)量,在很大程度上能夠提升企業(yè)競(jìng)爭(zhēng)力。采用數(shù)據(jù)挖掘技術(shù),利用大數(shù)據(jù)對(duì)行業(yè)發(fā)展規(guī)律進(jìn)行分析,對(duì)質(zhì)量管理過(guò)程進(jìn)行有效地監(jiān)測(cè),提高企業(yè)質(zhì)量管理的水平,促進(jìn)煙草企業(yè)持續(xù)發(fā)展。

一、數(shù)據(jù)挖掘技術(shù)概述

所謂的數(shù)據(jù)挖掘技術(shù),就是從大量模糊的數(shù)據(jù)中,將其隱含的具有價(jià)值的信息提煉出來(lái),在一定程度上與數(shù)據(jù)庫(kù)、數(shù)據(jù)融合等概念具有相似性?;谕诰蛉蝿?wù)的視角出發(fā),數(shù)據(jù)挖掘技術(shù)更加強(qiáng)調(diào)對(duì)相關(guān)數(shù)據(jù)的聚類以及關(guān)聯(lián)性分析,同時(shí)對(duì)大量數(shù)據(jù)進(jìn)行整理、歸納,以便做出準(zhǔn)確的預(yù)測(cè)任務(wù)。現(xiàn)階段,常用的數(shù)據(jù)挖掘技術(shù)包括遺傳算法、統(tǒng)計(jì)分析法、神經(jīng)網(wǎng)絡(luò)法、模糊算法等等。在具體的使用過(guò)程中,首先應(yīng)該根據(jù)業(yè)務(wù)的性質(zhì)進(jìn)行重新定義,明確任務(wù)目標(biāo),然后做好相關(guān)的準(zhǔn)備工作,確保數(shù)據(jù)的完整性;隨后進(jìn)行數(shù)據(jù)挖掘以及數(shù)據(jù)分析,將收集的數(shù)據(jù)進(jìn)行整理、分析,得到目標(biāo)數(shù)據(jù)信息;最后,在業(yè)務(wù)處理工作中對(duì)這些數(shù)據(jù)信息進(jìn)行妥善的應(yīng)用。

二、煙草行業(yè)質(zhì)量管理現(xiàn)狀

現(xiàn)階段,消費(fèi)者對(duì)煙草行業(yè)質(zhì)量的要求越來(lái)越嚴(yán)格,外部環(huán)境控?zé)熞笠苍絹?lái)越緊迫,盡管在市場(chǎng)經(jīng)濟(jì)的良好環(huán)境下,煙草行業(yè)無(wú)論從規(guī)模、數(shù)量還是設(shè)備上都得到了顯著的提升,但是在此過(guò)程中也形成了大量的數(shù)據(jù)信息。在企業(yè)質(zhì)量管理過(guò)程中,主要缺陷體現(xiàn)在以下幾個(gè)方面:第一,在質(zhì)量管理過(guò)程中,采用傳統(tǒng)的數(shù)據(jù)處理方式,導(dǎo)致質(zhì)量管理部門工作量龐大,數(shù)據(jù)處理結(jié)果的準(zhǔn)確性也不高;第二,煙草行業(yè)質(zhì)量管理方式相對(duì)滯后,對(duì)數(shù)據(jù)的分析不夠科學(xué),導(dǎo)致采用不科學(xué)的數(shù)據(jù)結(jié)果對(duì)煙草質(zhì)量進(jìn)行評(píng)價(jià),導(dǎo)致煙草企業(yè)質(zhì)量管理整體質(zhì)量受到影響。第三,質(zhì)量管理中缺少反饋內(nèi)容,使煙草行業(yè)無(wú)法及時(shí)發(fā)現(xiàn)其中存在的問(wèn)題并做好相應(yīng)對(duì)策以及改進(jìn)與預(yù)防工作。第四,傳統(tǒng)質(zhì)量管理更側(cè)重于某個(gè)生產(chǎn)環(huán)節(jié),忽視全局管理,而煙草行業(yè)本身規(guī)模較大且在不同地域中都涉及較多的質(zhì)量管理部門,很多質(zhì)量信息需在較長(zhǎng)時(shí)間內(nèi)完成流通。對(duì)此,便需引入數(shù)據(jù)挖掘中的關(guān)聯(lián)與聚類分析,其中的關(guān)聯(lián)規(guī)則可將數(shù)據(jù)項(xiàng)關(guān)聯(lián)關(guān)系充分挖掘出來(lái),在質(zhì)量管理中更集中體現(xiàn)在產(chǎn)品質(zhì)量預(yù)期特性值的關(guān)系。

三、數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)質(zhì)量管理中的應(yīng)用

加強(qiáng)對(duì)數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)質(zhì)量管理工作中應(yīng)用的研究,對(duì)煙草企業(yè)質(zhì)量管理工作具有重要意義,對(duì)煙草行業(yè)的發(fā)展也具有促進(jìn)作用。在具體分析研究過(guò)程中,一般從供應(yīng)商、適量反饋以及生產(chǎn)過(guò)程三個(gè)角度出發(fā):

1.基于對(duì)供應(yīng)商評(píng)價(jià)的角度

煙草產(chǎn)品生產(chǎn)過(guò)程中需要大量的原材料,并且原材料的種類相對(duì)較多,包括煙葉原材料以及一些輔助的材料。這些材料的質(zhì)量在很大程度上決定了煙草產(chǎn)品的整體質(zhì)量。供應(yīng)商在某種意義上對(duì)原材料質(zhì)量起著重要作用,煙草企業(yè)還需要與供應(yīng)商建立良好的關(guān)系。煙草企業(yè)的相關(guān)部門需要將供應(yīng)商提供的原材料信息進(jìn)行有效地統(tǒng)計(jì)、儲(chǔ)存,同時(shí)將原材料的合格率作為主要的評(píng)價(jià)依據(jù)。根據(jù)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則,將一種原材料對(duì)應(yīng)所有的原材料供應(yīng)商,收集并分析所有供應(yīng)商提供的數(shù)據(jù)信息中該原材料的合格率,從而選擇最佳的原材料供應(yīng)商,為煙草質(zhì)量提供保障。

2.基于質(zhì)量反饋的角度

質(zhì)量反饋就是客戶對(duì)一件產(chǎn)品質(zhì)量使用后的總結(jié)性評(píng)價(jià),通過(guò)有效地質(zhì)量反饋,煙草企業(yè)能夠?qū)煵萆a(chǎn)過(guò)程、生產(chǎn)工藝、服務(wù)水平等進(jìn)行整改。根據(jù)相關(guān)研究資料顯示:在能夠創(chuàng)造同樣價(jià)值的基礎(chǔ)上,新客戶發(fā)展涉及的成本往往是維持與老客戶關(guān)系涉及的成本的五倍,但若由老客戶將企業(yè)口碑向新客戶傳遞將獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì),所以企業(yè)發(fā)展中維持老客戶的關(guān)鍵在于使顧客滿意度得以提高。利用數(shù)據(jù)挖掘技術(shù),對(duì)顧客反饋的信息進(jìn)行科學(xué)化的分析與管理,總結(jié)客戶對(duì)產(chǎn)品質(zhì)量的意見(jiàn),同時(shí)分析出造成這個(gè)質(zhì)量問(wèn)題產(chǎn)生的原因,以便企業(yè)能夠提出針對(duì)性的措施,幫助企業(yè)質(zhì)量管理水平的提升,也能夠?yàn)闊煵萜髽I(yè)迎來(lái)更大的經(jīng)濟(jì)利潤(rùn),讓煙草企業(yè)在激烈競(jìng)爭(zhēng)中立于不敗之地。

3.煙草生產(chǎn)過(guò)程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

在卷煙生產(chǎn)過(guò)程中,煙絲質(zhì)量是備受關(guān)注的問(wèn)題,煙絲質(zhì)量不僅會(huì)受到化學(xué)成分的影響,在生產(chǎn)過(guò)程中的一些工藝、操作也會(huì)對(duì)其質(zhì)量造成影響。在煙絲制作過(guò)程中需要經(jīng)過(guò)多重工序,同時(shí)涉及配方、含雜量等諸多因素,這一過(guò)程就會(huì)產(chǎn)生大量的數(shù)據(jù)。因此,需要利用數(shù)據(jù)挖掘技術(shù),對(duì)煙草生產(chǎn)過(guò)程產(chǎn)生的數(shù)據(jù)進(jìn)行存儲(chǔ)、分析,利用神經(jīng)網(wǎng)絡(luò)技術(shù)分析導(dǎo)致煙絲質(zhì)量問(wèn)題的原因,不斷地優(yōu)化生產(chǎn)工藝參數(shù),同時(shí)利用聚類分析手段,對(duì)加工過(guò)程與煙絲質(zhì)量的關(guān)系進(jìn)行分析,促進(jìn)煙草產(chǎn)品質(zhì)量的提升。

四、總結(jié)

通過(guò)上述分析可知,煙草行業(yè)在市場(chǎng)經(jīng)濟(jì)發(fā)展中迅速發(fā)展起來(lái),已經(jīng)逐漸成為我國(guó)支柱型產(chǎn)業(yè)。然而在煙草行業(yè)質(zhì)量管理過(guò)程中,由于對(duì)海量數(shù)據(jù)處理技術(shù)滯后,給煙草企業(yè)重大決策以及煙草產(chǎn)品質(zhì)量都造成重大影響。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不僅能夠幫助企業(yè)選擇最佳合適的原材料供應(yīng)商,還能夠及時(shí)地發(fā)現(xiàn)產(chǎn)品質(zhì)量問(wèn)題,以便對(duì)產(chǎn)品生產(chǎn)工藝進(jìn)行優(yōu)化,提高煙草產(chǎn)品質(zhì)量,促進(jìn)煙草行業(yè)健康發(fā)展。

作者:焦麗靜 單位:河北中煙工業(yè)有限責(zé)任公司

參考文獻(xiàn)

[1]張麗榮.數(shù)據(jù)挖掘在煙草行業(yè)質(zhì)量管理中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2012,25(8):124-125.

[2]李卓.試析數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應(yīng)用[J].旅游總覽,2014,26(2):99-100.

第5篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞:檔案信息管理系統(tǒng) 計(jì)算機(jī) 數(shù)據(jù)挖掘技術(shù) 應(yīng)用

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)11-0000-00

為了探知計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用情況,本文從三個(gè)方面進(jìn)行了分析,首先是對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了初步概述,然后介紹了在實(shí)際運(yùn)用當(dāng)中所取得的成效。

1 數(shù)據(jù)挖掘技術(shù)的含義與實(shí)際應(yīng)用

(1)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的含義。數(shù)據(jù)挖掘技術(shù)是一種全新的數(shù)據(jù)處理技術(shù),是從數(shù)據(jù)庫(kù)中大量模糊記憶的隨機(jī)數(shù)據(jù)中選取其中所包含的符合人們需求的過(guò)程。數(shù)據(jù)挖掘過(guò)程是一個(gè)不斷循環(huán)的過(guò)程,當(dāng)一個(gè)目標(biāo)節(jié)點(diǎn)沒(méi)有達(dá)到其預(yù)期效果,信息處理系統(tǒng)自動(dòng)返回上一個(gè)目標(biāo)節(jié)點(diǎn)重新設(shè)置選取條件并執(zhí)行。通過(guò)不斷細(xì)化的目標(biāo)將達(dá)到人們工作、學(xué)習(xí)需求的信息不斷選取、再集中,并最終完成任務(wù)。(2)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)運(yùn)用的技術(shù)。在人們進(jìn)行計(jì)算機(jī)數(shù)據(jù)挖掘的過(guò)程中,大多數(shù)情況下都是運(yùn)用數(shù)學(xué)方法,在一些特定條件下也會(huì)采用非數(shù)學(xué)方法。數(shù)學(xué)方法就是運(yùn)用數(shù)學(xué)專業(yè)語(yǔ)言表達(dá)事物的狀態(tài)、關(guān)系和過(guò)程,是一種具有高度概括性和抽象性的方法,它具有嚴(yán)密的邏輯性和可操作性。同時(shí),在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過(guò)程中,還會(huì)使用到演繹法和歸納法進(jìn)行數(shù)據(jù)收集。在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過(guò)程中,通過(guò)對(duì)數(shù)據(jù)庫(kù)挖掘,收集符合要求的數(shù)據(jù)信息,并進(jìn)行整合分析得出一定的結(jié)果。而得出的結(jié)果在一定的條件下,是能夠運(yùn)用于信息管理等領(lǐng)域的。

2 數(shù)據(jù)挖掘技術(shù)的形式

數(shù)據(jù)挖掘通常分為兩種形式,一種是通過(guò)對(duì)數(shù)據(jù)中的包含的規(guī)則進(jìn)行描述,找出其中具有很強(qiáng)的普遍性的知識(shí),并對(duì)其進(jìn)行初步的總結(jié)描述出這一類別事物的共同特征,我們把它稱之為描述型。另一種是通過(guò)分析已有的數(shù)據(jù)信息,并推測(cè)某一類別事物的某項(xiàng)特征或是其形成的規(guī)律,我們把它稱之為預(yù)測(cè)型。在進(jìn)行數(shù)據(jù)挖掘技術(shù)的過(guò)程中,通常會(huì)采用分類、關(guān)聯(lián)和粗糙集三種方法。

(1)分類。在進(jìn)行計(jì)算機(jī)數(shù)據(jù)挖掘時(shí),分類是最常見(jiàn)的形式。分類通過(guò)對(duì)數(shù)據(jù)庫(kù)中龐大的信息量進(jìn)行屬性的辨別和分析,并劃分為不同的種類,分類直接決定著所收集到的數(shù)據(jù)的優(yōu)劣。在進(jìn)行種類劃分的實(shí)際操作過(guò)程當(dāng)中,依據(jù)所選數(shù)據(jù)形成的訓(xùn)練集,對(duì)一部分?jǐn)?shù)據(jù)進(jìn)行集中處理和劃分。再對(duì)剩下的數(shù)據(jù)部分進(jìn)行測(cè)試,當(dāng)測(cè)試達(dá)到預(yù)定指標(biāo)以后,再根據(jù)相應(yīng)的規(guī)則對(duì)剩下的數(shù)據(jù)部分進(jìn)行分類。在分類的進(jìn)行過(guò)程中,比較重要的幾個(gè)環(huán)節(jié)是明確其所涵蓋的范圍,辨別和分析目標(biāo)具有的屬性特征,選取相應(yīng)的算法進(jìn)行計(jì)算并將計(jì)算結(jié)果明示,設(shè)定測(cè)試集,驗(yàn)證并得出分類規(guī)則。(2)相關(guān)規(guī)則。在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過(guò)程中,關(guān)聯(lián)分析法里最簡(jiǎn)便、最具實(shí)用性的規(guī)則就是相關(guān)規(guī)則。相關(guān)規(guī)則能夠?qū)?shù)據(jù)進(jìn)行科學(xué)嚴(yán)謹(jǐn)?shù)姆治觯?shù)據(jù)的信息精準(zhǔn)地正確地描述出來(lái)。在相關(guān)規(guī)則的具體實(shí)踐方面,主要是對(duì)實(shí)際存在的事物進(jìn)行描寫,將其中具有相同屬性的進(jìn)行集中,分析總結(jié)出其模式。(3)粗糙集。在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過(guò)程中,粗糙集是用來(lái)專門研究不具有穩(wěn)定性的知識(shí)的一種數(shù)學(xué)工具。其優(yōu)勢(shì)在于無(wú)需知曉額外信息,運(yùn)用的算法簡(jiǎn)潔有效、可操作性強(qiáng)。

3 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用意義

(1)數(shù)據(jù)挖掘技術(shù)為檔案實(shí)體與內(nèi)容的安全性提供了保障。檔案信息是對(duì)過(guò)去的信息進(jìn)行記錄所形成的,檔案信息一般都是很珍貴的,許多檔案信息其實(shí)體更是寶貴的。一方面,這類信息由于其珍貴性,人們總是希望能將這些檔案信息盡可能的保存長(zhǎng)久,然而在事實(shí)上,人們對(duì)這些檔案的重復(fù)使用度往往很高的,這也必定會(huì)造成檔案信息的使用壽命大大降低。另一方面,檔案信息的實(shí)際內(nèi)容經(jīng)常帶有密級(jí),如果對(duì)檔案信息的使用監(jiān)督不到位也會(huì)造成泄密,產(chǎn)生不良后果。而如果在檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)檔案信息的借閱行為進(jìn)行統(tǒng)計(jì)和分析,找出不恰當(dāng)?shù)慕栝喰袨?,就可以防止惡性利用檔案和泄密等情況的出現(xiàn),也就對(duì)檔案實(shí)體和檔案信息的安全性提供了保障。(2)數(shù)據(jù)挖掘技術(shù)可以提升檔案信息的使用效率。檔案信息大都是帶有一定的密級(jí)的,其借閱范圍都有相對(duì)明確的規(guī)定。隨著時(shí)代的進(jìn)步,雖然國(guó)家放寬了借閱檔案的限制,但由于人們對(duì)于檔案的認(rèn)知水平存在滯后性,許多檔案管理部門對(duì)于檔案的借閱還是被動(dòng)式的,有人提出借閱申請(qǐng),工作人員就根據(jù)規(guī)章制度適當(dāng)?shù)靥峁n案信息,主動(dòng)性很低。但是,如果在檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),通過(guò)與檔案借閱者的溝通,發(fā)現(xiàn)相關(guān)的有需求用戶以及利用方向,建立專門的檔案提供渠道。這樣有針對(duì)性地提供檔案信息,既提高了檔案的使用效率,提升了檔案管理部門的服務(wù)水平,又能幫助借閱者解決難題,促成其研究成果的產(chǎn)生。(3)數(shù)據(jù)挖掘技術(shù)為檔案鑒定工作提供了便利。檔案的鑒定工作一直以來(lái)都是檔案工作整體流程中難度系數(shù)最高、重要性最高的一個(gè)部分。在過(guò)去,這一工作進(jìn)展的良好與否完全憑借的是檔案管理從業(yè)人員的個(gè)人的能力強(qiáng)弱,隨人員的主觀因素變動(dòng)幅度大,這就可能造成存在價(jià)值的檔案未被保存下來(lái)而無(wú)價(jià)值的檔案卻被大量保存下來(lái)諸如此類情況的發(fā)生,不僅損失了有用的檔案信息而且還浪費(fèi)了資源。但是,如果在檔案信息管理系統(tǒng)引入數(shù)據(jù)挖掘技術(shù),對(duì)檔案的使用情況和保存情況進(jìn)行系統(tǒng)分析,發(fā)現(xiàn)各個(gè)檔案管理管理部門其檔案形成的規(guī)律和使用范圍,判定出信息的重要性,為檔案鑒定工作的進(jìn)行提供鑒定依據(jù)。

4結(jié)語(yǔ)

隨著社會(huì)的進(jìn)步和科技的發(fā)展,計(jì)算機(jī)技術(shù)應(yīng)用面越來(lái)越廣泛。在檔案信息管理系統(tǒng)的應(yīng)用方面,數(shù)據(jù)挖掘技術(shù)為檔案信息的實(shí)體和內(nèi)容提供了安全保障,為檔案鑒定工作提供了便利,并提升了檔案信息的使用效率。

參考文獻(xiàn)

[1]黃世矗吳震.論數(shù)據(jù)挖掘技術(shù)在電子文件管理中應(yīng)用的必要性與可行性[J].檔案與建設(shè),2011,11:8-10.

第6篇:數(shù)據(jù)挖掘總結(jié)范文

數(shù)據(jù)挖掘 聚類分析 K均值

一、引言數(shù)據(jù)挖掘是計(jì)算機(jī)行業(yè)發(fā)展最快的領(lǐng)域之一。以前數(shù)據(jù)挖掘只是結(jié)合了計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)而產(chǎn)生的一個(gè)讓人感興趣的小領(lǐng)域,如今,它已經(jīng)迅速擴(kuò)大成為一個(gè)獨(dú)立的領(lǐng)域。數(shù)據(jù)挖掘的結(jié)果對(duì)于醫(yī)生臨床診斷有很重要的意義。實(shí)驗(yàn)表明患心臟病病人的某些屬性特征和患心臟病風(fēng)險(xiǎn)的大小有較大關(guān)系。數(shù)據(jù)挖掘有兩種策略:有指導(dǎo)和無(wú)指導(dǎo)學(xué)習(xí)。本文用心臟病數(shù)據(jù)集范例來(lái)解釋有指導(dǎo)學(xué)習(xí)的過(guò)程。1.有指導(dǎo)學(xué)習(xí)和無(wú)指導(dǎo)聚類對(duì)于使用無(wú)指導(dǎo)聚類來(lái)說(shuō),不存在預(yù)定義的類。取而代之的是,數(shù)據(jù)實(shí)例根據(jù)聚類模型定義的相似度機(jī)制來(lái)分組。而大部分?jǐn)?shù)據(jù)挖掘是有指導(dǎo)的,在使用有指導(dǎo)學(xué)習(xí)時(shí),數(shù)據(jù)挖掘工具可使用類別已知的實(shí)例來(lái)建立表示數(shù)據(jù)的普遍的模型。然后利用所創(chuàng)建的模型確定新的、以前未分類實(shí)例的類別。2.用于有指導(dǎo)學(xué)習(xí)的方法在一個(gè)裝有iData分析器的Excel中,用一種數(shù)據(jù)挖掘工具ESX建立有指導(dǎo)的學(xué)習(xí)模型,其方法如下:首先,將要挖掘的數(shù)據(jù)輸入一個(gè)Excel電子表格并選擇一個(gè)輸出屬性。然后執(zhí)行一個(gè)數(shù)據(jù)挖掘會(huì)話,再閱讀并解釋匯總結(jié)果、檢驗(yàn)集結(jié)果和各個(gè)類的結(jié)果,最后生成可視化并解釋類規(guī)則。

二、聚類分析數(shù)據(jù)挖掘技術(shù)從傳統(tǒng)意義上說(shuō)是指數(shù)據(jù)的統(tǒng)計(jì)分析技術(shù),采用的傳統(tǒng)數(shù)據(jù)分析技術(shù)主要包含線性分析和非線性分析、回歸分析、邏輯回歸分析、時(shí)間序列分析、最近鄰算法和聚類分析等。K-Means算法是劃分聚類中較流行的一種算法,它是一種迭代的聚類算法,迭代過(guò)程中不斷移動(dòng)簇集中的對(duì)象,直至得到理想的簇集為止,每個(gè)簇用該簇中對(duì)象的平均值來(lái)表示。算法的主要步驟為:(1)從n個(gè)數(shù)據(jù)對(duì)象隨機(jī)選取k個(gè)對(duì)象作為初始簇中心;(2)計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的簇;(3)根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離,分配給最近的簇;(4)轉(zhuǎn)第二步,重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)不再明顯變化或者聚類的對(duì)象不再變化才停止。K-Means算法對(duì)于大型數(shù)據(jù)庫(kù)是相對(duì)可伸縮的和高效的,算法的時(shí)間復(fù)雜度為O(n*k*t),其中t為迭代次數(shù)。一般情況下結(jié)束于局部最優(yōu)解。

三、具體實(shí)例說(shuō)明1. 心臟病風(fēng)險(xiǎn)評(píng)價(jià)中的數(shù)據(jù)挖掘問(wèn)題在世界衛(wèi)生組織與世界心臟病協(xié)會(huì)等權(quán)威機(jī)構(gòu)的另一項(xiàng)關(guān)于預(yù)防心臟病的指南中指出,引起心臟病的危險(xiǎn)因素有兩種,即“行為因素”和“生理問(wèn)題”。最主要的四種行為因素是:吸煙、飲酒、不健康的飲食、缺乏體力活動(dòng)。這些不良的行為日益累積會(huì)使機(jī)體發(fā)生生理改變。醫(yī)學(xué)數(shù)據(jù)庫(kù)的信息量非常龐大,其數(shù)據(jù)又具有自身的獨(dú)特性。要想充分利用豐富而寶貴的醫(yī)學(xué)資源,必須選擇適合醫(yī)學(xué)數(shù)據(jù)類型的數(shù)據(jù)挖掘工具及挖掘技術(shù),盡可能大地發(fā)揮數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)信息獲取中的價(jià)值。2. 數(shù)據(jù)準(zhǔn)備(1)數(shù)據(jù)選擇及預(yù)處理。運(yùn)用有指導(dǎo)學(xué)習(xí)的方法對(duì)心臟病人數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,此數(shù)據(jù)集是由位于加州Long Beach的VA醫(yī)療中心的Detrano博士搜集的。該數(shù)據(jù)集包含分類和數(shù)值數(shù)據(jù)的混合表,數(shù)據(jù)包含了303個(gè)實(shí)例組成,其中165個(gè)包含了未患心臟病的患者,剩余的138個(gè)實(shí)例包含了患過(guò)心臟病的患者。(2)建立數(shù)據(jù)挖掘庫(kù)。我們將試圖發(fā)現(xiàn)年齡等因素與是否患過(guò)心臟病之間的關(guān)聯(lián),從而證實(shí)患過(guò)心臟疾病與它產(chǎn)生的可能因素之間的規(guī)則。具體實(shí)施步驟如下:將文件加載到一個(gè)新的Excel電子表格中,其中我們將下列屬性設(shè)置為輸入屬性:age(年齡)、sex (性別)、chest pain type(胸痛類型)、blood pressure(血壓)、cholesterol(膽固醇)、fasting blood sugar

4.總結(jié)研究表明心臟病的高發(fā)人群為:年齡大于45歲的男性、大于55歲的女性;吸煙者;高血壓患者;糖尿病患者;高膽固醇血癥患者;肥胖者。雖然年齡、性別、家族遺傳病史等危險(xiǎn)因素難以改變,但是如果有效控制其余危險(xiǎn)因素,就能有效預(yù)防某些心臟病。在日常生活中學(xué)會(huì)自我管理,建立良好的健康的生活方式,對(duì)心臟病患者而言,至關(guān)重要。

參考文獻(xiàn):

[1]崔園.有指導(dǎo)的數(shù)據(jù)挖掘在風(fēng)險(xiǎn)評(píng)價(jià)中的應(yīng)用

[J].四川師范大學(xué)出版社,2006.1.

[2]孫微微,劉才興.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2005,(1).

[3]鄭新奇,劉曉麗.基于Clenmentine決策樹(shù)的空間數(shù)據(jù)挖掘方法探討

[J].中國(guó)科協(xié)年會(huì)論文集.2006.

[4]Richard J.Roiger,and Mchael W.Geatz Data mining:a tutorial based primer

[M].Pearson Education,Inc.2003.

[5]湯效琴,戴汝源.數(shù)據(jù)挖掘中聚類分析的技術(shù)方法

[J].微計(jì)算機(jī)信息,2003,(1).

第7篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞:數(shù)字圖書館;計(jì)算機(jī)技術(shù);應(yīng)用模塊;數(shù)據(jù)挖掘;網(wǎng)格技術(shù)

1數(shù)字圖書館概述

“數(shù)字化”的生活模式伴隨著科技的發(fā)展應(yīng)運(yùn)而生,人們也越來(lái)越適應(yīng)并習(xí)慣了這種生活模式,數(shù)字圖書館的出現(xiàn)使得人們對(duì)它的需求越來(lái)越高,同時(shí)它也直接關(guān)系著當(dāng)代圖書館的生存與發(fā)展。而數(shù)字圖書館的概念是由美國(guó)的一位學(xué)者在研究圖書館的時(shí)效性時(shí)提出來(lái)的,它就是一個(gè)信息化的平臺(tái),擁有著全球性的知識(shí)資源和媒體內(nèi)容,一方面能夠使用戶及時(shí)的了解到全球的訊息,另一方面用戶使用搜索功能可以搜索到一些多樣化的信息。而其中關(guān)鍵性技術(shù)的應(yīng)用與研究成為了當(dāng)今國(guó)內(nèi)外IT界和圖書館界研究的熱門技術(shù)。而評(píng)價(jià)一個(gè)國(guó)家信息基礎(chǔ)設(shè)施好壞的標(biāo)志之一就是數(shù)字圖書館的建設(shè)。數(shù)字圖書館作為一種高新技術(shù)的產(chǎn)物,涉及到了以下技術(shù):數(shù)字化處理技術(shù)、超大規(guī)模數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體信息處理技術(shù)、信息壓縮與傳送技術(shù)、安全保密技術(shù)、自然語(yǔ)言理解技術(shù)等。本文主要介紹了網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘技術(shù)、Agent技術(shù)。

2數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究

2.1數(shù)據(jù)挖掘的基本概念

數(shù)據(jù)挖掘也可以叫作數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),它是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。其一般與計(jì)算機(jī)科學(xué)有關(guān),可以通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)及模式識(shí)別等多種方法來(lái)實(shí)現(xiàn)所要達(dá)到的目標(biāo)。數(shù)字圖書館的數(shù)據(jù)挖掘?qū)ο笫峭诰虺銎渲械拇笮蛿?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及大量的網(wǎng)絡(luò)信息空間,通過(guò)對(duì)這些數(shù)據(jù)的統(tǒng)計(jì)分析和總結(jié),可以找到數(shù)據(jù)間內(nèi)在的關(guān)系,進(jìn)而可以預(yù)測(cè)到未來(lái)發(fā)展的趨勢(shì)。數(shù)據(jù)挖掘涉及到了很多前沿的學(xué)科,比如數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、人工智能、神經(jīng)網(wǎng)絡(luò)等,這是當(dāng)今國(guó)際上最高端的技術(shù)研究之一了。

2.2數(shù)據(jù)挖掘技術(shù)的方法

2.2.1數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一種面向數(shù)值數(shù)據(jù)的方法,它是用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)的交叉方法在一個(gè)較大的數(shù)據(jù)集中發(fā)現(xiàn)模式的計(jì)算過(guò)程,是一門跨學(xué)科的計(jì)算機(jī)科學(xué)分支。它的目標(biāo)是從一個(gè)數(shù)據(jù)集中提取信息,然后將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以此進(jìn)一步使用。數(shù)字圖書館的建設(shè)基礎(chǔ)就是數(shù)據(jù)挖掘,利用多種數(shù)據(jù)挖掘算法,通過(guò)數(shù)字處理和研究數(shù)字模型的變化,以此來(lái)進(jìn)行總結(jié)得到數(shù)據(jù)的變化情況。

2.2.2基于Web的數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它是利用數(shù)據(jù)挖掘技術(shù)抽取出與Web有關(guān)的一些感興趣的、有用的資源信息、行為及模式,涉及到了多個(gè)研究領(lǐng)域的技術(shù),在挖掘內(nèi)容的過(guò)程中,我們一般從以下兩個(gè)角度進(jìn)行著手分析:一是對(duì)文本文檔進(jìn)行挖掘,二是挖掘多媒體文檔。在調(diào)整數(shù)字圖書館的網(wǎng)頁(yè)時(shí)一般都用追蹤和個(gè)性化使用記錄的全面追蹤這兩種模式來(lái)保證給用戶提供個(gè)性化的服務(wù)。

2.2.3文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘是指從文本中挖掘出有一定價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù),挖掘的對(duì)象的數(shù)據(jù)類型全是由文本類型組成的,在對(duì)巨量文本信息進(jìn)行自動(dòng)化信息分析與處理所使用的方法是利用數(shù)據(jù)挖掘算法和信息檢索算法來(lái)實(shí)現(xiàn)的。文本挖掘方法主要包含以下幾種:文本分類、文本聚類、信息抽取、摘要、壓縮。為了能夠更加更好的豐富圖書館的信息量,處理好文本的摘要和數(shù)據(jù),提高數(shù)據(jù)挖掘的精確度,可以利用文本數(shù)據(jù)的挖掘和傳輸來(lái)實(shí)現(xiàn)。

2.3利用數(shù)據(jù)挖掘?qū)崿F(xiàn)數(shù)字圖書館的個(gè)性化服務(wù)

實(shí)現(xiàn)數(shù)字圖書館的個(gè)性化服務(wù)是通過(guò)把挖掘技術(shù)應(yīng)用到數(shù)字圖書館建設(shè)中,一方面可以通過(guò)提高數(shù)字圖書館的建設(shè)標(biāo)準(zhǔn)來(lái)增強(qiáng)各方面的服務(wù)質(zhì)量,另一方面還可以有效的鞏固信息資源的建設(shè)力度。在信息用戶掌握信息使用的行為、習(xí)慣、偏好等時(shí),個(gè)性化的服務(wù)可以為用戶提供滿足其所需要的一些相關(guān)服務(wù),主要是兩個(gè)方面:一是個(gè)性化,二是主動(dòng)服務(wù)。其原理是根據(jù)不同的用戶不同的需求使用不同的服務(wù)辦法來(lái)進(jìn)行針對(duì)性的服務(wù),系統(tǒng)不需要用戶去做什么就可以給用戶提供相對(duì)應(yīng)的服務(wù),通過(guò)簡(jiǎn)化用戶的操作來(lái)達(dá)到個(gè)性化服務(wù)。個(gè)性化服務(wù)主要表現(xiàn)在以下幾個(gè)方面:數(shù)據(jù)挖掘服務(wù)、個(gè)人書架、個(gè)性化檢索、信息分類定制及推送、虛擬咨詢服務(wù)等。

3網(wǎng)格技術(shù)的應(yīng)用

3.1網(wǎng)格技術(shù)在數(shù)字圖書館中的應(yīng)用

在數(shù)字圖書館的建設(shè)中,網(wǎng)格技術(shù)是一種不可或缺的技術(shù),為了確保數(shù)字圖書館的完整性和較好的服務(wù)性,就要利用網(wǎng)絡(luò)來(lái)調(diào)節(jié)因數(shù)字的變化而造成的改變,而數(shù)字圖書館建設(shè)擁有良好基礎(chǔ)的前提就是在網(wǎng)格技術(shù)應(yīng)用過(guò)程中要結(jié)合信息資源建設(shè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,并在后期結(jié)合相關(guān)的Web技術(shù)方法,以圖書館的基礎(chǔ)架構(gòu)作為基礎(chǔ),搭建一個(gè)良好的可以實(shí)現(xiàn)資源信息共享的信息技術(shù)平臺(tái),整合網(wǎng)絡(luò)各方面的資源,在統(tǒng)一管理的基礎(chǔ)上實(shí)現(xiàn)良好的信息服務(wù)。

第8篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞 ;數(shù)據(jù)挖掘; web;挖掘;網(wǎng)絡(luò)技術(shù)

中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-2851(2009)12-0174-01

近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),通過(guò)對(duì)大型的數(shù)據(jù)集進(jìn)行探查。可以發(fā)現(xiàn)有用的知識(shí),從而為決策支持提供有力的依據(jù)。

一、 Web數(shù)據(jù)挖掘定義及分類

Web數(shù)據(jù)挖掘(Web Date Mining),簡(jiǎn)稱Web挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從數(shù)據(jù)挖掘、計(jì)算機(jī)技術(shù)、信息科學(xué)等多個(gè)領(lǐng)域進(jìn)行的一項(xiàng)技術(shù)。

Web 數(shù)據(jù)挖掘的分類根據(jù)數(shù)據(jù)挖掘?qū)ο蟮牟煌梢詫eb數(shù)據(jù)挖掘分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 訪問(wèn)信息挖掘三類(見(jiàn)圖1)。Web 內(nèi)容挖掘就是指從Web 的文檔中發(fā)現(xiàn)提取有用信息; Web 結(jié)構(gòu)挖掘是指對(duì)html 頁(yè)面間的鏈接結(jié)構(gòu)進(jìn)行挖掘; Web 訪問(wèn)信息挖掘是從網(wǎng)絡(luò)訪問(wèn)者的交談或活動(dòng)中提取信息。

二、 Web數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)挖掘的過(guò)程可以分為6個(gè)步驟:

(一)理解業(yè)務(wù):從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,將其轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。

(二)理解數(shù)據(jù):收集初步的數(shù)據(jù),進(jìn)行各種熟悉數(shù)據(jù)的活動(dòng)。包括數(shù)據(jù)描述,數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量驗(yàn)證等。

(三)準(zhǔn)備數(shù)據(jù):將最初的原始數(shù)據(jù)構(gòu)造成最終適合建模工具處理的數(shù)據(jù)集。包括表、記錄和屬性的選擇,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清理等。

(四)建模:選擇和應(yīng)用各種建模技術(shù),并對(duì)其參數(shù)進(jìn)行優(yōu)化。

(五)模型評(píng)估:對(duì)模型進(jìn)行較為徹底的評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)其是否真正實(shí)現(xiàn)了預(yù)定的商業(yè)目的。

三、Web 數(shù)據(jù)挖掘的常用工具

Web 數(shù)據(jù)挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問(wèn)模式挖掘工具或用戶導(dǎo)航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對(duì)文本的分析。IBM 公司的產(chǎn)品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實(shí)現(xiàn)的方法是對(duì)Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問(wèn)行為、頻度和內(nèi)容等信息, 從而找出一定的模式和規(guī)則。由Sstphen Tumer 博士編制的免費(fèi)個(gè)人軟件Analog 是一個(gè)用來(lái)分析Server Logs 的工具。

四、數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀

數(shù)據(jù)挖掘是一個(gè)新興的邊緣學(xué)科,它匯集了來(lái)自機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能以及管理信息系統(tǒng)等各學(xué)科的成果。多學(xué)科的相互交融和相互促進(jìn),使得這一新學(xué)科得以蓬勃發(fā)展,而且已初具規(guī)模。在美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)的數(shù)據(jù)庫(kù)研究項(xiàng)目中,KDD被列為90年代最有價(jià)值的研究項(xiàng)目。人工智能研究領(lǐng)域的科學(xué)家也普遍認(rèn)為,下一個(gè)人工智能應(yīng)用的重要課題之一,將是以機(jī)器學(xué)習(xí)算法為主要工具的大規(guī)模的數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)。盡管數(shù)據(jù)挖掘還是一個(gè)很新的研究課題,但它所固有的為企業(yè)創(chuàng)造巨大經(jīng)濟(jì)效益的潛力,已使其很快有了許多成功的應(yīng)用,具有代表性的應(yīng)用領(lǐng)域有市場(chǎng)預(yù)測(cè)、投資、制造業(yè)、銀行、通訊等。

美國(guó)鋼鐵公司和神戶鋼鐵公司利用基于數(shù)據(jù)挖掘技術(shù)的ISPA系統(tǒng),研究分析產(chǎn)品性能規(guī)律和進(jìn)行質(zhì)量控制,取得了顯著效果。通用電器公司(GE)與法國(guó)飛機(jī)發(fā)動(dòng)機(jī)制造公司(sNEcMA),利用數(shù)據(jù)挖掘技術(shù)研制了CASSIOP.EE質(zhì)量控制系統(tǒng),被三家歐洲航空公司用于診斷和預(yù)測(cè)渡音737的故障,帶來(lái)了可觀的經(jīng)濟(jì)效益。該系統(tǒng)于1996年獲歐洲一等創(chuàng)造性應(yīng)用獎(jiǎng)。

中國(guó)的公安部門也在研究利用KDD技術(shù)總結(jié)各類案件的共性和發(fā)生規(guī)律,從而在宏觀上制定最有效的社會(huì)治安綜合治理的方案和措施;在微觀上指出犯罪人的特點(diǎn),劃定罪犯的范圍,為偵破工作提供方向。

第9篇:數(shù)據(jù)挖掘總結(jié)范文

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);web挖掘;web的應(yīng)用;個(gè)性化服務(wù)

中圖分類號(hào):TP399-C1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 15-0000-02

1 數(shù)據(jù)挖掘技術(shù)

1.1 數(shù)據(jù)挖掘技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)主要是指尋找隱藏在數(shù)據(jù)庫(kù)中有價(jià)值的信息,從而為決策支持 提供有力的依據(jù)的過(guò)程。數(shù)據(jù)挖掘的目標(biāo)主要包括特征、趨勢(shì)以及相關(guān)性等多個(gè)方面的信息。隨著計(jì)算機(jī)的普及,信息時(shí)代的到來(lái),網(wǎng)絡(luò)中信息量迅速增加,傳統(tǒng)的知識(shí)發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)技術(shù)和方法已經(jīng)不能滿足人們從Web中獲取信息的需要,并且現(xiàn)實(shí)也要求對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行深層次實(shí)時(shí)的分析[1]。所以Web的數(shù)據(jù)挖掘技術(shù)油然而生,這種技術(shù)將傳統(tǒng)的數(shù)據(jù)挖掘和web相互結(jié)合起來(lái),能夠從大量的信息數(shù)據(jù)選取有價(jià)值的隱含信息。下圖1為Web數(shù)據(jù)挖掘原理流程:

1.2 Web數(shù)據(jù)挖掘的分類

根據(jù)數(shù)據(jù)挖掘的對(duì)象不同,Web數(shù)據(jù)挖掘技術(shù)可以分為Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘、Web 使用挖掘三類,Web數(shù)據(jù)挖掘分類如下圖2所示:

1.3 Web數(shù)據(jù)挖掘的特點(diǎn)

傳統(tǒng)的數(shù)據(jù)挖掘主要是以數(shù)據(jù)庫(kù)為基礎(chǔ),對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行信息分析、加工以及模式挖掘,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)能夠直接或者間接的應(yīng)用到Web數(shù)據(jù)挖掘中,但是因?yàn)閃eb技術(shù)自身的特點(diǎn),從而使Web中的數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)的數(shù)據(jù)挖掘具有很大的不同。

(1)數(shù)據(jù)量巨大。網(wǎng)絡(luò)能夠?qū)⒎植荚谑澜绮煌恢玫碾娔X連接在一起,并且每一個(gè)電腦都存在豐富的數(shù)據(jù),又因?yàn)檫B接在網(wǎng)絡(luò)上電腦的數(shù)量非常巨大,所以Web數(shù)據(jù)挖掘技術(shù)能夠處理的數(shù)據(jù)也非常大。

(2)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)具有一定的模型,可以根據(jù)數(shù)據(jù)模型進(jìn)行對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行描述,與傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)相比,在Web站點(diǎn)中的數(shù)據(jù)沒(méi)有統(tǒng)一的模型,并且各個(gè)站點(diǎn)之間都是獨(dú)自設(shè)計(jì)的,所以Web站點(diǎn)中對(duì)數(shù)據(jù)的處理是不斷變化的[2]。

(3)異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。在數(shù)據(jù)庫(kù)環(huán)境中每一個(gè)Web站點(diǎn)都可以看作是一個(gè)數(shù)據(jù)源, 由于Web站點(diǎn)是相互獨(dú)立的,因此站點(diǎn)之間除了能夠相互訪問(wèn)之外沒(méi)有其他的關(guān)系,所以Web站點(diǎn)之間的信息都是不同的,從而構(gòu)成一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。

2 數(shù)據(jù)挖掘技術(shù)在Web中應(yīng)用

隨著信息時(shí)代的到來(lái),網(wǎng)絡(luò)技術(shù)的發(fā)展,目前數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用到遠(yuǎn)程通信業(yè)、制造業(yè)、金融業(yè)、零售業(yè)、政府管理機(jī)構(gòu)以及體育等各個(gè)行業(yè)中,而數(shù)據(jù)挖掘技術(shù)在Web中應(yīng)用目前已經(jīng)成為全球?qū)W術(shù)界研究的熱點(diǎn),并應(yīng)用到各個(gè)行業(yè)中。

2.1 Web中數(shù)據(jù)挖掘技術(shù)在搜索引擎中的應(yīng)用

在Web數(shù)據(jù)挖掘技術(shù)中,搜索引擎是最為典型的應(yīng)用,采用Web數(shù)據(jù)挖掘技術(shù)不僅能夠提高搜索引擎的查詢速度、網(wǎng)頁(yè)的權(quán)重、關(guān)鍵詞匹配的相關(guān)度以及改善搜索結(jié)果等,并且Web數(shù)據(jù)挖掘技術(shù)也應(yīng)用在文本的自動(dòng)分類、自動(dòng)摘要的形成、個(gè)性化的搜索引擎以及檢搜結(jié)果的聚類等具有重要的作用。

2.2 在電子商務(wù)中的應(yīng)用

Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中應(yīng)用也是比較典型的應(yīng)用,Web數(shù)據(jù)挖掘技術(shù)能夠通過(guò)對(duì)客戶訪問(wèn)日志數(shù)據(jù)采用模型化算法、神經(jīng)元網(wǎng)絡(luò)以及其他的信息處理技術(shù)進(jìn)行分析,從而商家能夠?qū)€(gè)體或者特定消費(fèi)群體進(jìn)行定向營(yíng)銷的決策。并且采用Web數(shù)據(jù)挖掘技術(shù)還可以對(duì)日志進(jìn)行定量分析,從而能夠揭示出頻繁訪問(wèn)的頁(yè)面、訪問(wèn)途徑以及客戶的類屬關(guān)系、網(wǎng)頁(yè)的類屬關(guān)系等,從而能夠?yàn)閃eb站點(diǎn)的優(yōu)化提供有力的參考是數(shù)據(jù)。Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中應(yīng)用主要體現(xiàn)在客戶的駐留、客戶獲取以及客戶的聚類和分類三個(gè)重要的方面。下圖3為Web數(shù)據(jù)挖掘的簡(jiǎn)單商務(wù)網(wǎng)站模型:

2.3 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于股票系統(tǒng)

Web數(shù)據(jù)技術(shù)采用Web-Dms系統(tǒng)可以構(gòu)建一個(gè)基于Web 的挖掘的股票教育和交易環(huán)境,并且還能夠充分利用站點(diǎn)上積累的信息,從而更好地服務(wù)于企業(yè)和客戶。在股票系統(tǒng)中采用Web 數(shù)據(jù)挖掘技術(shù)不僅能夠通過(guò)了解查找者的動(dòng)態(tài)行為 選擇最佳的電子商務(wù)精英方式,而且還能夠得知查找者的愛(ài)好[3]。應(yīng)用Web數(shù)據(jù)技術(shù)Web設(shè)計(jì)人員不在依靠專家的定性的指導(dǎo)進(jìn)行設(shè)計(jì)網(wǎng)站,而是可以根據(jù)查找者的信息進(jìn)行設(shè)計(jì)網(wǎng)站的機(jī)構(gòu)和外觀,從而能夠?yàn)榭蛻籼峁﹤€(gè)性化的服務(wù)。

3 總結(jié)

Web中的數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),由于Web自身的特點(diǎn),從而使Web數(shù)據(jù)挖掘技術(shù)具有很多特點(diǎn),并且其應(yīng)用也是非常廣泛,不僅能夠提取頁(yè)面的信息,進(jìn)行分析設(shè)計(jì)站點(diǎn),而且在電子商務(wù)方面也具有非常廣闊的應(yīng)用前景。

參考文獻(xiàn):

[1]DiPasquo D,Using HTML forlnation to aid in natural languageprocessing on the World Wide Web[M].Canegie-Mellon University.Sehool of Computer Science,1998.