公務(wù)員期刊網(wǎng) 精選范文 數(shù)學(xué)建模聚類分析范文

數(shù)學(xué)建模聚類分析精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)學(xué)建模聚類分析主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)學(xué)建模聚類分析

第1篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞 模糊聚類分析;DNA分類;數(shù)學(xué)建模

中圖分類號(hào) O242 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1673-9671-(2012)052-0202-02

1 概述

2000年6月,人類基因組計(jì)劃中DNA全序列草圖完成。DNA序列由A、T、C、G4種堿基按一定規(guī)律排列而成。當(dāng)前生物信息學(xué)最重要的課題之一是研究由這4種堿基排列成的序列中蘊(yùn)藏的規(guī)律。目前在這項(xiàng)研究中最普通的思想是省略序列的某些細(xì)節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對(duì)象。這種被稱為粗?;湍P突姆椒ㄍ兄谘芯科湟?guī)律性和結(jié)構(gòu)。現(xiàn)已知20個(gè)人工序列1~10屬于A類,11~20屬于B類,要求運(yùn)用數(shù)學(xué)建模方法發(fā)掘已知類別DNA序列的特征,從而據(jù)此對(duì)未知類別的20個(gè)DNA序列進(jìn)行分類。本文對(duì)T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價(jià)矩陣,λ截矩陣方法對(duì)DNA序列進(jìn)行分類。

2 模糊聚類分析模型

2.1 主要研究步驟

通過(guò)觀察發(fā)現(xiàn),A類DNA序列中G堿基含量較多,T堿基含量較少,而B(niǎo)類DNA序列則剛好相反。所以可用這20條DNA序列中T和G堿基在自身序列中所占的頻率作為基本研究對(duì)象,并對(duì)T、G堿基所占的比例的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,放大差異。再建立相應(yīng)的模糊相似矩陣,模糊等價(jià)矩陣和λ截矩陣,找出一個(gè)最優(yōu)的λ值進(jìn)行DNA序列分類并使分類準(zhǔn)確度達(dá)到最高。最后用上述方法以及λ值對(duì)另外20個(gè)未明類別的序列進(jìn)行分類。

2.2 原始數(shù)據(jù)標(biāo)準(zhǔn)化

先對(duì)T和G堿基頻率作標(biāo)準(zhǔn)化處理。平移—標(biāo)準(zhǔn)差變換

(i=1,2…,20;j=2,4)

其中xi是第i個(gè)DNA序列,x'ij是指堿基A,G,C,T在第i個(gè)DNA序列中出現(xiàn)的頻率,x"ij是對(duì)x'ij進(jìn)行標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)頻率值,

,,(j=2,4)。

進(jìn)行平移—極差變換,(j=2,4),

可得到關(guān)于堿基頻率的模糊矩陣

2.3 模糊聚分析法

相關(guān)系數(shù)刻畫隨機(jī)變量之間的線性相關(guān)性:相關(guān)系數(shù)絕對(duì)值越大,隨機(jī)變量之間的線性關(guān)系越密切;相關(guān)系數(shù)為0,稱隨機(jī)變量線性無(wú)關(guān)。所以利用相關(guān)系數(shù)法對(duì)堿基頻率模糊矩陣的元素進(jìn)行處理,利用公式:

得到一個(gè)關(guān)于xi與xj相似程度的模糊相似矩陣rij。

如果xi與xj的相似程度為rij,那么模糊矩陣R=(rij)20×20,顯然R是模糊相似矩陣,為

為了從模糊相似矩陣R得到模糊等價(jià)矩陣R=(rij)n×n,從n階模糊相似矩陣R出發(fā),依次求平方RR2R4…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R傳遞閉包t(R),則t(R)=R。對(duì)于已知分類的20條DNA序列,由大到小取一組λ∈[0,1],確定相應(yīng)的λ截矩陣Rλ=(λij)20×20,且λ截矩陣為一個(gè)對(duì)角線為1的對(duì)稱0-1矩陣。即可將其分類:若λij=1,說(shuō)明第i條DNA序列與第j條DNA序列屬于同一類。若λij=0,說(shuō)明第i條DNA序列與第j條DNA序列不屬于同一類。對(duì)于未分類的DNA序列,利用已求出的λ值,得到相應(yīng)λ截矩陣,再利用已知λ值便可對(duì)未分類的DNA序列進(jìn)行分類。

2.4 分類結(jié)果及其分析

應(yīng)用Matlab軟件對(duì)第1-20個(gè)DNA序列數(shù)據(jù)進(jìn)行處理,經(jīng)平移-極差變得到類別A、B中A、T、C、G堿基的標(biāo)準(zhǔn)化頻率(表1)。

可得到標(biāo)準(zhǔn)化矩陣:

那么得到表示這1-20個(gè)DNA序列之間的相關(guān)程度的模糊相似矩陣:

進(jìn)而求得傳遞閉包t(R)及模糊相似矩陣RR=t(R)。對(duì)模糊等價(jià)矩陣R進(jìn)行分析,發(fā)現(xiàn)選取λ∈(0.8714,0.9834)會(huì)得到最高的準(zhǔn)確

率,高達(dá)100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。計(jì)算時(shí)可取平均值λ=0.9764,得到λ截矩陣Rλ=(λij)20×20。對(duì)于λ截矩陣Rλ=(λij)20×20,若λij=1,說(shuō)明第i條DNA序列與第j條DNA序列屬于同一類;若λij=0,則說(shuō)明第i條DNA序列與第j條DNA序列不屬于同一類。最后得到分類結(jié)果:

A{1,2,3,5,6,7,8,9,10}

B{11,12,13,14,15,16,18,19,20}

C類(無(wú)法識(shí)別){4,17}。

采用以上方法對(duì)第1-20個(gè)DNA序列分類的準(zhǔn)確率為100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。把標(biāo)號(hào)為21-40的DNA序列添加到原來(lái)的數(shù)據(jù)中,采用同樣的模型與已求出的λ值對(duì)其進(jìn)行分類,結(jié)

果為:

A類{22,23,25,27,29,33,34,35,36,37,39}

B類{21,24,26,28,30,31,38,40}

C類{32}。

3 結(jié)論

本文運(yùn)用數(shù)學(xué)建模模糊聚類分析法方法,對(duì)T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價(jià)矩陣,λ截矩陣方法對(duì)DNA序列進(jìn)行分類,方法簡(jiǎn)單、實(shí)用,且分類結(jié)果準(zhǔn)確率高達(dá)100%,識(shí)別率為90%,沒(méi)有出現(xiàn)誤判。

參考文獻(xiàn)

[1]csiam.省略/mcm.2000網(wǎng)易杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽題.

[2]顧俊華,盛春楠,韓正忠.模糊聚類分析方法在DNA序列分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2005,10(22):108-129.

[3]劉煥彬,庫(kù)在強(qiáng),廖小勇,陳文略,張忠誠(chéng).數(shù)學(xué)模型與實(shí)驗(yàn)[M].北京:科學(xué)出版社,2008.

[4]徐曉秋,初立元,左銘杰,譚欣欣.DNA分類方法的探討[J].大連大學(xué)學(xué)報(bào),2001,8.

[5]岳曉寧,徐寶樹(shù),王競(jìng)波.基于聚類分析的DNA序列分類研究[J].沈陽(yáng)大學(xué)學(xué)報(bào),2008,20(6):104-106.

第2篇:數(shù)學(xué)建模聚類分析范文

【關(guān)鍵詞】商業(yè)銀行 收入結(jié)構(gòu) 多元統(tǒng)計(jì)法 MATLAB SPSS

隨著我國(guó)金融業(yè)的不斷開(kāi)放和利率市場(chǎng)化的改革,商業(yè)銀行間的競(jìng)爭(zhēng)日益激烈,再加上國(guó)家對(duì)商業(yè)銀行的監(jiān)管不斷加強(qiáng),其盈利能力受到挑戰(zhàn)。商業(yè)銀行傳統(tǒng)的存貸息差的經(jīng)營(yíng)模式收入逐漸減少,而國(guó)外的銀行已經(jīng)開(kāi)始大力開(kāi)拓中間業(yè)務(wù)等非利息收入。目前我國(guó)商業(yè)銀行利息收入所占的平均比重已由2010年的80%下降到2015年的70%,而國(guó)外發(fā)達(dá)國(guó)家的商業(yè)銀行利息收入所占平均比重已經(jīng)達(dá)到了40%。由此可見(jiàn),加快經(jīng)營(yíng)模式和和收入結(jié)構(gòu)的改變,已成為我國(guó)商業(yè)銀行改革的方向之一。

一、數(shù)據(jù)來(lái)源及模型假設(shè)

本文選取16家上市銀行為研究對(duì)象,對(duì)其2010到2015年年報(bào)進(jìn)行整理分析,獲得所需數(shù)據(jù)。為了便于解決和研究問(wèn)題,提出以下幾條假設(shè):⑴假設(shè)16家上市銀行的年報(bào)真實(shí)可信;⑵假設(shè)上市銀行在編制年報(bào)時(shí)使用會(huì)計(jì)記賬方式等一致;⑶假設(shè)設(shè)置的變量取值都有實(shí)際意義且數(shù)據(jù)記錄準(zhǔn)確規(guī)范。

二、根據(jù)收入結(jié)構(gòu)對(duì)商業(yè)銀行的分類

(一)研究思路

首先運(yùn)用主成分分析將多個(gè)指標(biāo)濃縮為少量幾個(gè)指標(biāo),消除各個(gè)指標(biāo)間的多重共線性,然后根據(jù)主成分得分對(duì)其用二階聚類法進(jìn)行聚類分析,最后根據(jù)實(shí)際情況確定最終聚類結(jié)果。

(二)數(shù)據(jù)處理

1.主成分分析。將我們整理的2015年16家上市銀行收入結(jié)構(gòu)的各項(xiàng)指標(biāo)用SPSS對(duì)其進(jìn)行主成分分析,在方差累計(jì)貢獻(xiàn)率大于85%的情況下,得出F1、F2、F3、F4主成分得分函數(shù):

F1=-0.379X1+0.316X2+0.023X3-0.28X4+0.3X5+0.075X6

F2=-0.163X1+0.325X2+0.439X3+0.156X4-0.354X5-0.332X6

F3=-0.244X1-0.143X2+0.431X3+0.322X4-0.09X5+0.796X6

F4=-0.293X1+0.416X2-0.684X3+0.851X4+0.032X5+0.013X6

將各指標(biāo)值分別代入4個(gè)得分函數(shù)中,就可以得出每個(gè)商業(yè)銀行的主成分得分,得分結(jié)果如表1所示。

2.聚類分析。根據(jù)表1,對(duì)其用二階聚類法進(jìn)行聚類分析,先分別聚成四類、五類和六類。

下圖為三種聚類的“模型概要”和“聚類質(zhì)量”圖。

“聚類質(zhì)量”通過(guò)不同的顏色來(lái)表示聚類質(zhì)量的“差”、“良”、“好”和“較佳”三個(gè)等級(jí)。藍(lán)色條帶表聚類質(zhì)量達(dá)到的等級(jí)。由上圖可以觀察到,三種聚類結(jié)果的聚類質(zhì)量良好,說(shuō)明聚類成三種方式都是合理的。

下表是將16家商業(yè)銀行分別聚成四類、五類和六類的情況。

表2 不同聚類結(jié)果表

由表2可以看出,不論將這16家銀行分為四類、五類還是六類,我們都可以發(fā)現(xiàn):工商銀行、建設(shè)銀行、中國(guó)銀行被分為一類,農(nóng)業(yè)銀行、交通銀行、華夏銀行、北京銀行被分為一類,浦發(fā)銀行和民生銀行被分為一類。最終我們結(jié)合實(shí)際,將四類的結(jié)果作為本文的最終聚類結(jié)果。

(三)結(jié)果分析

第一類銀行的利息收入平均為72.58%,低于其余13家銀行2.3%。并且其他營(yíng)業(yè)收入平均占總收入的4.93%,遠(yuǎn)遠(yuǎn)高于其余13家商業(yè)銀行4.03%。這說(shuō)明國(guó)有的三大商業(yè)銀行比其他商業(yè)銀行具有較優(yōu)的收入結(jié)構(gòu),這也為工商、建設(shè)和中國(guó)銀行成為全球頂尖銀行提供了依據(jù)。

第二類商業(yè)銀行是利息收入占比降低最快或營(yíng)業(yè)額相對(duì)龐大的商業(yè)銀行,這四家銀行的收入結(jié)構(gòu)雖然沒(méi)有第一類好,但在優(yōu)化收入結(jié)構(gòu)的能力上存在比較大的潛力,相信其收入結(jié)構(gòu)在以后幾年會(huì)快速得到改善。

第三類商業(yè)銀行是唯一在匯兌收益中虧損的一類商業(yè)銀行,這類商業(yè)銀行都是股份制銀行,資產(chǎn)規(guī)模較小,但是最富創(chuàng)新力的銀行。但就目前來(lái)說(shuō),其收入結(jié)構(gòu)是16家商業(yè)銀行中最差的一類銀行,應(yīng)該得到管理層的重視。

第四類商業(yè)銀行處于四類銀行收入結(jié)構(gòu)的中間水平。其中,招商銀行零售業(yè)務(wù)備受認(rèn)可,平安銀行依靠其母公司平安集團(tuán)快速擴(kuò)張,意圖成為全能型模式銀行。此類銀行的利息占比收入是四類銀行中最低的一類銀行,甚至低于第一類國(guó)有控股銀行2.5%。但資產(chǎn)規(guī)模較低,其他業(yè)務(wù)收入占比僅為0.15%,遠(yuǎn)遠(yuǎn)低于第一類商業(yè)銀行其他營(yíng)業(yè)收入平均占總收入的4.93%。

三、收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營(yíng)業(yè)收入之間的聯(lián)系

(一)研究思路

本文假設(shè)收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營(yíng)養(yǎng)結(jié)構(gòu)之間是確定的函數(shù)關(guān)系,進(jìn)行回歸分析,得出收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營(yíng)業(yè)收入之間的函數(shù)表達(dá)式,通過(guò)對(duì)各參數(shù)的分析,可分別得到資產(chǎn)規(guī)模和營(yíng)業(yè)收入之間對(duì)收入結(jié)構(gòu)的影響。

(二)數(shù)據(jù)處理

1.回歸分析。用資產(chǎn)規(guī)模和營(yíng)業(yè)收入作為自變量,用利息凈收入、手續(xù)費(fèi)及傭金凈收入、投資收益、公允價(jià)值變動(dòng)收 、匯兌收益、其他業(yè)務(wù)收入作為因變量。由于6個(gè)自變量具有不同的重要性,假定收入結(jié)構(gòu)可分為利息收入和非利息收入,因此先對(duì)這6個(gè)變量分別賦予權(quán)重0.5、0.1、0.1、0.1、0.1、0.1,然后再進(jìn)行回歸分析。此數(shù)據(jù)是截面數(shù)據(jù),有可能存在異方差,所以直接采用加權(quán)最小二乘法進(jìn)行回歸,回歸權(quán)數(shù)設(shè)置為殘差平方和。用EVIEWS進(jìn)行WLS回歸。

①資產(chǎn)規(guī)模回歸方程

回歸結(jié)果如下:

Y1=-21.8235+43.817X1+195.5811X2+189.2389X3+363.1467X4 +394.9035X5+335.5921X6

T=(-1.7214)(1.6997)(1.6064)(1.6930)(1.8888)(2.8589)(1.7292)

R2=0.9999,DW=0.8,F(xiàn)=1094270

由回歸結(jié)果可以看出R2=0.9999,這說(shuō)明模型對(duì)樣本擬合度很高;F=1094270,給定顯著性水平α=0.05通過(guò)查F分布表可知,此回歸程顯著。

②業(yè)收入回歸方程

回歸結(jié)果如下:

Y2=-16.844+33.147X1+152.972X2+166.822X3+350.225X4 +334.845X5+265.7024X6

T=(-1.1819)(1.1438)(1.1177)(1.3276)(1.6204)(2.1563)(1.2179)

R2=0.9999,DW=0.7513,F(xiàn)=957327

由回歸結(jié)果可以看出R2=0.9999,這說(shuō)明模型對(duì)樣本擬合度很高;F=957327,給定顯著性水平α=0.05通過(guò)查F分布表可知,此回歸程顯著。

(三)結(jié)果分析

由資產(chǎn)規(guī)?;貧w方程中可以看出,6個(gè)自變量的系數(shù)都為正,說(shuō)明6個(gè)變量與銀行的資產(chǎn)規(guī)模呈正相關(guān)。又發(fā)現(xiàn)利息收入的系數(shù)最小,說(shuō)明利息對(duì)銀行資產(chǎn)規(guī)模的邊際彈性低,無(wú)法通過(guò)增加利息收入而增加資產(chǎn)規(guī)模。

由營(yíng)業(yè)收入回歸中可以看出,6個(gè)自變量的系數(shù)都為正,說(shuō)明6個(gè)變量與銀行的資產(chǎn)規(guī)模亦呈正相關(guān)。和資產(chǎn)規(guī)模回歸方程一樣,利息收入的系數(shù)最小。因此建議商業(yè)銀行應(yīng)該增大非利息收入,這樣可以優(yōu)化自己的收入結(jié)構(gòu),更快的提高營(yíng)業(yè)收入。

四、收入結(jié)構(gòu)的預(yù)測(cè)

(一)研究思路

在前文分類的基礎(chǔ)上,為了代表所有的上市銀行和計(jì)算的方便性,我們挑選4類中一家銀行的收入結(jié)構(gòu)進(jìn)行灰色預(yù)測(cè)。因?yàn)橛绊懯杖虢Y(jié)構(gòu)最主要的因素是利息占總收入的比重,我們選取這一項(xiàng)作為預(yù)測(cè)對(duì)象。

(二)數(shù)據(jù)處理

灰色預(yù)測(cè)

商業(yè)銀行利息占總收入的比重近年來(lái)都呈現(xiàn)下降的趨勢(shì),因此我們選取GM(1,1)灰色預(yù)測(cè)模型。

1.工商銀行。利用MATLAB軟件求出模型參數(shù)a、b,即發(fā)展灰度和內(nèi)生灰度的估計(jì)值:a=0.0132,b=0.7897。由此可求得一次累加原始數(shù)列擬合序列表達(dá)式:y=59.9381-59.1405E-0.0132t,以此計(jì)算而得的數(shù)列再進(jìn)行累減還原即可得灰色預(yù)測(cè)后的擬合序列,最后進(jìn)行模型誤差的檢驗(yàn)。

由表3可以看出,2016~2020年擬合數(shù)據(jù)與原始數(shù)據(jù)的殘差均小于0.02,相對(duì)誤差均小于2%,說(shuō)明此模型可以用來(lái)預(yù)測(cè)工商銀行利息收入占總收入的比重。

利用上述建立的模型,用MATLAB直接預(yù)測(cè)2016~2020年工商銀行利息占總收入的比重?cái)?shù)據(jù),如下表4所示:

2.交通銀行、浦發(fā)銀行、平安銀行。采用與工商銀行相同的建模方式,對(duì)交通銀行、浦發(fā)銀行、平安銀行的利息占總收入的比重進(jìn)行灰色GM(1,1)預(yù)測(cè),預(yù)測(cè)誤差直接用圖2展示。

圖2 交通銀行、浦發(fā)銀行、平安銀行誤差與相對(duì)誤差分布圖.

由圖2可以直觀的觀察到,2016~2020年擬合數(shù)據(jù)與原始數(shù)據(jù)的殘差均小于0.02,相對(duì)誤差均小于2%,說(shuō)明此模型對(duì)交通銀行、浦發(fā)銀行和平安銀行的利息收入占總收入的比重可以進(jìn)行預(yù)測(cè)。

由此,我們用MATLAB求出其余三家商業(yè)銀行利息占總收入的比重?cái)?shù)據(jù),如表5所示:

(三)結(jié)果分析

由表4和表5可以觀察到,平安銀行的利息收入在2020年占比最低為52%,遠(yuǎn)高于工商銀行的68.75%,說(shuō)明第四類銀行,即最富有創(chuàng)新的商業(yè)銀行未來(lái)的發(fā)展前景樂(lè)觀。而第一類銀行即目前具有相對(duì)最優(yōu)收入結(jié)構(gòu)的國(guó)有大型商業(yè)銀行,其利息收入所占比重雖然在逐年降低,但其速度遠(yuǎn)遠(yuǎn)小于第四類股份制商業(yè)銀行。

五、總結(jié)

本文首先聚類分析了國(guó)內(nèi)16家上市銀行收入結(jié)構(gòu)的現(xiàn)狀,我們發(fā)現(xiàn)國(guó)有大型商業(yè)銀行現(xiàn)階段憑借其強(qiáng)大的資產(chǎn)規(guī)模,構(gòu)建了比其它商業(yè)銀行更優(yōu)的收入結(jié)構(gòu),以此成為全球頂尖銀行。而第四類股份制商業(yè)銀行雖然具有較強(qiáng)的創(chuàng)新能力,但其收入結(jié)構(gòu)現(xiàn)狀仍不及國(guó)有大型商業(yè)銀行。然后回歸分析了商業(yè)銀行收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營(yíng)業(yè)收入之間的關(guān)系,得到利息收入對(duì)銀行資產(chǎn)規(guī)模和營(yíng)業(yè)收入的邊際彈性低,因此商業(yè)銀行欲通過(guò)增加利息收入從而增加資產(chǎn)規(guī)模和營(yíng)業(yè)收入已是不明智的選擇。最后對(duì)4類銀行中典型的4家銀行的利息收入所占比重進(jìn)行灰色預(yù)測(cè),發(fā)現(xiàn)5年后富有創(chuàng)新的股份制商業(yè)銀行的利息收入占比已經(jīng)低于國(guó)有大型商業(yè)銀行。

因此國(guó)有大型商業(yè)銀行應(yīng)該加強(qiáng)創(chuàng)新,重新定位經(jīng)營(yíng)業(yè)務(wù)結(jié)構(gòu),向股份制商業(yè)銀行學(xué)習(xí),與國(guó)際金融大環(huán)境接軌,效仿國(guó)際先進(jìn)理念,把中間業(yè)務(wù)作為商業(yè)銀行新效益增長(zhǎng)點(diǎn)。股份制商業(yè)應(yīng)該保持其創(chuàng)新能力,繼續(xù)開(kāi)展收入結(jié)構(gòu)改革,擴(kuò)大資產(chǎn)規(guī)模。國(guó)家應(yīng)該逐步放松對(duì)金融的管制,讓商業(yè)銀行的業(yè)務(wù)范圍不斷擴(kuò)大,逐漸形成混業(yè)經(jīng)營(yíng)模式,成為多功能、綜合性的“金融百貨公司”,以此達(dá)到優(yōu)化收入結(jié)構(gòu)的目的。

參考文獻(xiàn)

[1]邢學(xué)艷.我國(guó)商業(yè)銀行收入結(jié)構(gòu)的實(shí)證分析[J].經(jīng)濟(jì)師,2011(9):181-183.

[2]黃國(guó)妍.商業(yè)銀行收入結(jié)構(gòu)與銀行風(fēng)險(xiǎn)研究[D].華東師范大學(xué),2014.

[3]黃宏運(yùn),呂石山,朱家明.空氣污染的計(jì)量評(píng)估方法[J].陰山學(xué)刊(自然科學(xué)版),2016,04:1-5.

[4]楊桂元,朱家明.數(shù)學(xué)建模競(jìng)賽優(yōu)秀論文評(píng)析[M].中國(guó)學(xué)技術(shù)大學(xué)出版社,2013.9.第一版.

[5]馮巖松.SPSS 22.統(tǒng)計(jì)分析應(yīng)用[M].北京:清華大學(xué)出版社,2015.

[6]楊桂元.數(shù)學(xué)建模[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2015.

[7]孫亞靜,辛雪嬌,張彥紅.中國(guó)上市商業(yè)銀行經(jīng)營(yíng)績(jī)效分析[J].產(chǎn)業(yè)與科技論壇,2013,13:26+226.

[8]張暢.我國(guó)股份制商業(yè)銀行競(jìng)爭(zhēng)力比較分析[J].現(xiàn)代商貿(mào)工業(yè),2016,07:54-56.

第3篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞 葡萄酒評(píng)價(jià) 符號(hào)秩檢驗(yàn) 灰色聚類分析

中圖分類號(hào):TS262.6 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/ki.kjdkz.2015.12.066

Abstract This paper established a signed rank test and gray clustering model wine evaluation. In order to get each group wine-tasting each wine sample an objective evaluation score for each group of wine-tasting wine samples for the evaluation scores do mean to give the wine sample overall score, and then the evaluation results of the two groups for wine-tasting poor, made the difference to get the data signed rank test, and finally the use of SAS software to calculate the signed-rank test = 0.0085, and less than the significance level = 0.05, it does not accept the original hypothesis that the evaluation results of two wine-tasting are significant differences; For the question of confidence, and we each wine-tasting wine samples ratings for variance analysis, were calculated first and second set of score results of variance and were 1409.3,821.1, easy to know and much larger than the first group variance The second group, so the evaluation results of the second group is more stable and more reliable. The second group of wine-tasting red wine for the evaluation of the results will be classification, then using gray cluster analysis of the samples were graded red grapes, combined with its wine is quality, both in the grape samples wines level, to determine the level of the wine.

Key words wine evaluation; signed rank test; grey cluster analysis

1 問(wèn)題重述

1.1 研究課題背景

針對(duì)主觀性評(píng)價(jià)問(wèn)題和多目標(biāo)問(wèn)題,由于其繁瑣性和主觀性,對(duì)我們來(lái)說(shuō),很難透過(guò)現(xiàn)象看本質(zhì),雖然層次分析法在PHP中可以通過(guò)得分函數(shù)構(gòu)成。但就其缺點(diǎn)而言,我們認(rèn)為對(duì)這類模糊性問(wèn)題采取多目標(biāo)分層次的解決方式,而利用統(tǒng)計(jì)分析里的方差分析和灰色關(guān)聯(lián)度分析能夠合理處理此類問(wèn)題。對(duì)于未來(lái)預(yù)測(cè)性和多目標(biāo)問(wèn)題可以得到很好的預(yù)見(jiàn)性效果。同時(shí)也為多領(lǐng)域多目標(biāo)問(wèn)題中提供一個(gè)較好的模型。

本文的模型也可適當(dāng)?shù)貙?duì)研究人事、招聘及高校評(píng)選的處理方法有所幫助和提高。

2 問(wèn)題分析

因?yàn)閮山M品酒員對(duì)酒樣的評(píng)分是成對(duì)比較,且對(duì)評(píng)分并不要求成對(duì)數(shù)據(jù)之差服從正態(tài)分布,只要求對(duì)稱分布,故我們采用統(tǒng)計(jì)學(xué)中Wilcoxon符號(hào)秩檢驗(yàn)來(lái)解釋兩組品酒員對(duì)葡萄酒的評(píng)價(jià)有無(wú)顯著性差異。

假設(shè)兩組品酒員對(duì)葡萄酒的評(píng)價(jià)有顯著性差異,就需要確定哪組品酒員的評(píng)價(jià)更可信,為此對(duì)品酒員評(píng)價(jià)數(shù)據(jù)做置信度分析――方差分析,由于葡萄酒評(píng)價(jià)數(shù)據(jù)無(wú)法進(jìn)行復(fù)測(cè),就要利用matlab軟件的信度分析功能,分別對(duì)第一組和第二.組的評(píng)分進(jìn)行可信度分析,最后通過(guò)圖形直觀的反映結(jié)果。

3 模型建立

3.1 符號(hào)秩檢驗(yàn)?zāi)P偷慕?/p>

將兩組評(píng)酒員分別看作兩個(gè)整體、,對(duì)每個(gè)紅葡萄酒樣品進(jìn)行評(píng)價(jià),對(duì)每個(gè)紅葡萄酒樣品的評(píng)價(jià)結(jié)果通過(guò)組內(nèi)每一位品酒員的評(píng)分的均值 = 來(lái)刻畫,同樣對(duì)每個(gè)紅葡萄酒樣品的評(píng)價(jià)結(jié)果用均值 = 來(lái)刻畫,從而得到兩組評(píng)酒員對(duì)每種樣品酒的評(píng)價(jià)結(jié)果,建立兩組評(píng)酒員對(duì)紅葡萄酒的評(píng)價(jià)。

對(duì)同一酒樣品得到一對(duì)數(shù)據(jù)。可知兩對(duì)數(shù)據(jù)之間差異是由各種因素,如葡萄酒的外觀、香氣、口感、材料成分等因素引起的。由于各酒樣品的特性有廣泛的差異,就不能將第一組評(píng)酒員對(duì)27 種紅葡萄酒的評(píng)價(jià)結(jié)果看成是同分布隨機(jī)變量的觀測(cè)值。因而表1中第一行不能看成是一個(gè)樣本的樣本值,同樣第二組的數(shù)據(jù)也不能看成是同一個(gè)樣本的樣本值,而同一對(duì)中兩個(gè)數(shù)據(jù)是同分布隨機(jī)變量的觀測(cè)值,他們的差異是由于兩組品酒員的水平引起的。為鑒定他們的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,可使用基于成對(duì)數(shù)據(jù)的逐對(duì)比較法。以紅葡萄酒樣品為例,有27對(duì)相互獨(dú)立的評(píng)價(jià)結(jié)果:(,),(,),…,(,),令 = , = ,…, = ,則,,…,相互獨(dú)立,所以我們對(duì),,…,進(jìn)行單因素的符號(hào)秩檢驗(yàn)。

再對(duì)和中的元素分別求和得到方差和,用方差和對(duì)比得到對(duì)于同一批紅葡萄酒兩組的不同評(píng)價(jià)水平。方差和小的穩(wěn)定性好,相對(duì)來(lái)說(shuō)比另一組的評(píng)價(jià)結(jié)果更可信。

3.3 灰色聚類分析模型的建立

在附件2中我們可以得到,對(duì)于紅葡萄酒,有對(duì)應(yīng)的30個(gè)一級(jí)指標(biāo),為了使結(jié)果更具有客觀性,我們將葡萄酒的質(zhì)量也作為一級(jí)指標(biāo)。對(duì)于這31個(gè)一級(jí)指標(biāo),其中多酚氧化酶活力、褐變度、總酚、固酸比、出汁率這5個(gè)指標(biāo)與葡萄酒質(zhì)量呈負(fù)相關(guān),其余26個(gè)指標(biāo)都與葡萄酒質(zhì)量呈正相關(guān)。

4 模型求解

4.1 符號(hào)秩檢驗(yàn)?zāi)P偷那蠼?/p>

對(duì)于該模型,我們首先作出同一酒樣品分別由兩組品酒員,得到的評(píng)價(jià)結(jié)果之差,列于表1的第三行。根據(jù)建立模型的需要假設(shè)

: = 0,:≠0

我們?nèi)?= 0.05,并采用SAS軟件編程處理,具體程序見(jiàn)附錄程序1。

在SAS中運(yùn)行的結(jié)果如圖1:

結(jié)果顯示符號(hào)秩檢驗(yàn)對(duì)應(yīng)的P為0.0085,小于顯著性水平0.05,故不接受原假設(shè),即認(rèn)為這兩組品酒員分別對(duì)紅葡萄酒的評(píng)分有顯著性差異。

4.2 方差分析模型的求解

運(yùn)用MATLAB軟件編程求解,得到,。

對(duì)于紅葡萄酒而言:元素的和為1409.3,元素的和為821.1。由此可以得出,第一組的方差和遠(yuǎn)遠(yuǎn)大于第二組。

4.3 灰色聚類分析模型的求

我們先對(duì)紅葡萄酒質(zhì)量的評(píng)價(jià)結(jié)果按評(píng)分從小到大排列得到表1:

根據(jù)等級(jí)分級(jí)標(biāo)準(zhǔn):高級(jí)葡萄酒:9、23、20;上等葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22;中等葡萄酒:16、10、13、1、12、25、6、15、7、8;下等葡萄酒:18、11。

對(duì)于每類葡萄中的元素,結(jié)合該葡萄樣本所釀造的葡萄酒的級(jí)別,來(lái)確定該葡萄的級(jí)別。然后再根據(jù)每類葡萄中葡萄樣本級(jí)別的比例來(lái)確定該類葡萄的級(jí)別。對(duì)應(yīng)葡萄酒的等級(jí)分類,我們根據(jù)葡萄的聚類分析也將葡萄分成高級(jí)、上級(jí)、中級(jí)、下級(jí)。

紅葡萄的分類結(jié)果:高級(jí)紅葡萄:9、23、4、20;上級(jí)紅葡萄:3、17、12、15、18、24、5、19、13、21、2、26;中級(jí)紅葡萄:10、16、27、1、14、25、6、7、22、8;下級(jí)紅葡萄:11。

參考文獻(xiàn)

第4篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞數(shù)據(jù)挖掘 教學(xué)模式 合作式教學(xué)

中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A

數(shù)據(jù)是無(wú)處不在的。當(dāng)飛速增長(zhǎng)的數(shù)據(jù)給我們帶來(lái)方便和便捷的同時(shí),也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學(xué)領(lǐng)域中的自動(dòng)數(shù)據(jù)收集設(shè)備每小時(shí)能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問(wèn)題已經(jīng)不再是沒(méi)有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊(yùn)含于這些信息之中的有價(jià)值的知識(shí)。由于數(shù)據(jù)分析師的匱乏,導(dǎo)致了很多領(lǐng)域出現(xiàn)了“數(shù)據(jù)豐富而知識(shí)匱乏”的現(xiàn)象,因而在信息計(jì)算科學(xué)、統(tǒng)計(jì)學(xué)等本科專業(yè)中開(kāi)設(shè)數(shù)據(jù)分析課程是非常有必要的。

數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點(diǎn)就是“讓數(shù)據(jù)說(shuō)話”。該課程設(shè)計(jì)的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計(jì)、多元統(tǒng)計(jì)分析、判別聚類分析、時(shí)間序列分析等。由于計(jì)算機(jī)編程的復(fù)雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學(xué),使得本科階段的學(xué)生很難接受。隨著計(jì)算機(jī)及統(tǒng)計(jì)軟件(如SAS,SPSS)的普及,大大的減少了對(duì)程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開(kāi)放(如金融數(shù)據(jù)庫(kù)),使學(xué)生有可研究的對(duì)象,從而使得我們?cè)诖髮W(xué)本科階段開(kāi)設(shè)數(shù)據(jù)分析課程成為可能,但需要合適的教學(xué)模式以適應(yīng)本科階段的教學(xué)。

由于數(shù)據(jù)分析的方法眾多,對(duì)不同學(xué)科的數(shù)據(jù)又會(huì)有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的?;趯W(xué)生的數(shù)學(xué)和計(jì)算機(jī)基礎(chǔ),從實(shí)際問(wèn)題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應(yīng)用為主,理論為輔,運(yùn)用SAS軟件來(lái)實(shí)現(xiàn)。在教學(xué)過(guò)程中采用了以下幾個(gè)模式,并達(dá)到了較好的教學(xué)效果。

1 選用SAS軟件為課程配套工具軟件

在數(shù)據(jù)分析課程的教學(xué)中,算法實(shí)現(xiàn)對(duì)于本科生來(lái)說(shuō)難度太大,該階段的學(xué)生只學(xué)過(guò)C語(yǔ)言,很多分析方法如果用C語(yǔ)言來(lái)編程完成,難度將無(wú)法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級(jí)程序員。隨著統(tǒng)計(jì)軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學(xué)。通過(guò)簡(jiǎn)單的編程即可實(shí)現(xiàn)所有數(shù)據(jù)分析方法,并且應(yīng)用多樣化,功能強(qiáng)大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學(xué)時(shí)間,我們?yōu)樵搶I(yè)學(xué)生準(zhǔn)備了兩周實(shí)踐課程,專門進(jìn)行SAS的教學(xué),取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡(jiǎn)單原理,計(jì)算步驟及SAS系統(tǒng)中對(duì)應(yīng)的模塊和程序說(shuō)明。例如在介紹方差分析時(shí),同時(shí)介紹SAS系統(tǒng)中ANOVA和GLM過(guò)程,利用SAS軟件可迅速得到各種統(tǒng)計(jì)量,學(xué)生只需通過(guò)結(jié)果做相關(guān)的分析結(jié)論,簡(jiǎn)化繁瑣計(jì)算,節(jié)省課時(shí),提高了學(xué)生的學(xué)習(xí)興趣。

2 引入合作式教學(xué),加入討論課模式

數(shù)據(jù)分析課程當(dāng)中,理論知識(shí)的傳授和應(yīng)用能力的培養(yǎng)歸根結(jié)底是為了解決實(shí)際問(wèn)題。各種分析算法,軟件都是幫助解決問(wèn)題的一個(gè)工具。如何讓學(xué)生去面臨實(shí)際問(wèn)題,并通過(guò)收集數(shù)據(jù),建立模型,求解模型從而解決問(wèn)題,這才是我們希望學(xué)生真正得到的能力。所以,我們引入的合作式教學(xué)模式。每次討論課給定特定的專題,學(xué)生以組為單位收集相關(guān)資料數(shù)據(jù),并進(jìn)行問(wèn)題分析,選定數(shù)據(jù)分析方法并建模求解,對(duì)得到的結(jié)果進(jìn)行相關(guān)的解釋,最后進(jìn)行合理性分析。如對(duì)某產(chǎn)品在各個(gè)超市的銷售量的分析,判斷地區(qū)是否對(duì)銷售量有影響。整個(gè)過(guò)程從灌輸式的教學(xué)模式轉(zhuǎn)變?yōu)橐龑?dǎo)式的教學(xué)模式,學(xué)生在討論課當(dāng)中占據(jù)主導(dǎo)地位。在分析問(wèn)題得到結(jié)論后,以小組為單位進(jìn)行總結(jié)匯報(bào),由組外同學(xué)進(jìn)行點(diǎn)評(píng)討論,教師只做啟發(fā),指導(dǎo)工作。這種教學(xué)模式,不僅大大提高了學(xué)生的主動(dòng)性,調(diào)動(dòng)的學(xué)生思維,提高解決問(wèn)題的實(shí)際能力,表達(dá)、溝通及團(tuán)隊(duì)合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問(wèn)題,糾正錯(cuò)誤。

3 適當(dāng)介紹方法產(chǎn)生的背景、原理、重點(diǎn)介紹方法的綜合應(yīng)用

適當(dāng)介紹方法產(chǎn)生背景和原理,可加深學(xué)生對(duì)分析方法的理解,深入了解方法的適用領(lǐng)域,所能解決的問(wèn)題,與實(shí)際相結(jié)合,從而提高學(xué)生的學(xué)習(xí)興趣。但我們更應(yīng)該把分析方法綜合應(yīng)用作為首要教授的方面,即如何讓學(xué)生把所學(xué)的數(shù)據(jù)方法正確的應(yīng)用到實(shí)際問(wèn)題當(dāng)中。我們應(yīng)該從以下幾個(gè)方面入手:

(1)介紹分析方法的基本背景和原理,講清應(yīng)用范圍。教學(xué)中,我們可簡(jiǎn)單介紹分析方法的基本思想和計(jì)算方法,但其具體能解決何種問(wèn)題必須講清。如:聚類分析和判別分析兩類問(wèn)題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過(guò)一組已經(jīng)分類的樣本),根據(jù)已知的知識(shí)對(duì)現(xiàn)有未知的樣本進(jìn)行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強(qiáng)的樣本歸為一類,其中類別的特點(diǎn),數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問(wèn)題,而對(duì)新的疫情進(jìn)行類別區(qū)別則是屬于聚類問(wèn)題。利用實(shí)例使學(xué)生區(qū)分兩種方法所能解決的問(wèn)題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。

(2)融入數(shù)學(xué)建模思想,加強(qiáng)分析方法的應(yīng)用。每個(gè)分析方法從理論到實(shí)際應(yīng)用都需要一個(gè)過(guò)程。如果將一個(gè)實(shí)際問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)數(shù)學(xué)能解決的問(wèn)題,就需要運(yùn)用數(shù)學(xué)建模的思想,建立數(shù)學(xué)模型解決實(shí)際的問(wèn)題。如:一個(gè)城市的安全程度往往可以通過(guò)這個(gè)城市的犯罪率來(lái)體現(xiàn),但是犯罪種類之多使得我們無(wú)法通過(guò)某種犯罪次數(shù)來(lái)得出結(jié)論。這就使得我們要建立主成分分析模型,運(yùn)用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進(jìn)行線性組合,得到幾個(gè)主要的犯罪指標(biāo)――總體犯罪率,重度犯罪比例等等。利用少量的指標(biāo)去體現(xiàn)原來(lái)多個(gè)指標(biāo)所體現(xiàn)的大部分信息,達(dá)到反應(yīng)總體狀況的效果。通過(guò)簡(jiǎn)單的、學(xué)生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過(guò)各個(gè)主成分依次求出,其反應(yīng)出的總體信息不斷加大,還可引入貢獻(xiàn)率和累計(jì)貢獻(xiàn)率得概念,使學(xué)生明確如何合理選擇主成分。比如當(dāng)前m個(gè)主成份的累計(jì)貢獻(xiàn)率達(dá)到85%的時(shí)候,就可認(rèn)為這m個(gè)主成份能夠反應(yīng)總體的絕大部分信息。重點(diǎn)介紹各個(gè)統(tǒng)計(jì)量在當(dāng)前模型中的含義,作用及對(duì)應(yīng)關(guān)系,使得學(xué)生能夠使用分析方法在實(shí)際中加以應(yīng)用。

(3)加強(qiáng)介紹方法的步驟、軟件實(shí)現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學(xué)生必須掌握的技術(shù)。任何數(shù)據(jù)分析算法,都不太可能利用人工計(jì)算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學(xué)模型后,都會(huì)給出相關(guān)實(shí)現(xiàn)的步驟。SAS編程相對(duì)簡(jiǎn)單,分析過(guò)程大多是PROC步完成,其針對(duì)每種分析方法都會(huì)有相關(guān)的過(guò)程函數(shù),并且會(huì)有與算法對(duì)應(yīng)的輸入?yún)?shù)。學(xué)生只要模仿調(diào)用相關(guān)過(guò)程,并對(duì)結(jié)果進(jìn)行相關(guān)解釋即可實(shí)現(xiàn)相應(yīng)分析方法的應(yīng)用。比如利用SAS程序進(jìn)行回歸分析簡(jiǎn)單例子:

proc regdata= study.bclass;

modelweight = height /r clm cli dw;

run;

其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計(jì)模型來(lái)計(jì)算的預(yù)測(cè)值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計(jì)量等。通過(guò)計(jì)算可得到各個(gè)相關(guān)統(tǒng)計(jì)量的值,學(xué)生無(wú)需涉及計(jì)算過(guò)程,只需知道計(jì)算得到的各個(gè)統(tǒng)計(jì)量所代表的含義,并會(huì)對(duì)結(jié)果進(jìn)行解釋。只有學(xué)會(huì)對(duì)結(jié)果的解釋分析,才能解決真正的實(shí)際問(wèn)題。

通過(guò)教學(xué)實(shí)踐,我認(rèn)為將統(tǒng)計(jì)軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學(xué),可以起到相輔相成的作用,加入合作式教學(xué)模式,開(kāi)展討論課不僅學(xué)生綜合能力得到了提高,而且學(xué)生團(tuán)隊(duì)合作意識(shí)得到了加強(qiáng)。同時(shí),教師必須擔(dān)任好自己的角色,要精心設(shè)計(jì)教學(xué)中的每個(gè)細(xì)節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學(xué)效果。

注釋

紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M]. 機(jī)械工業(yè)出版社,2009.

第5篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞:聚類分析;資產(chǎn)管理;獨(dú)立學(xué)院

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)03-0443-03

固定資產(chǎn)管理是高校管理系統(tǒng)中的重要組成部分。高校資產(chǎn)管理部門參與了固定資產(chǎn)申報(bào)、采購(gòu)、驗(yàn)收、維修、報(bào)廢等整個(gè)生命周期。高校資產(chǎn)管理部門既能影響學(xué)院層面的決策,又直接參與系部層面的管理。在全面貫徹落實(shí)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》精神和充分發(fā)揮教育統(tǒng)計(jì)對(duì)宏觀決策的服務(wù)作用的大形勢(shì)下,在高校學(xué)院等一級(jí)組織機(jī)構(gòu)層面的管理,有國(guó)家的各項(xiàng)指標(biāo)參數(shù)作為辦學(xué)管理依據(jù),如《普通高等學(xué)?;巨k學(xué)條件指標(biāo)》、《中國(guó)教育評(píng)價(jià)與監(jiān)測(cè)統(tǒng)計(jì)指標(biāo)體系》等。但資產(chǎn)管理部門在對(duì)教學(xué)系部等院校內(nèi)部二級(jí)組織機(jī)構(gòu)進(jìn)行管理決策時(shí),卻缺少較為成熟的輔助決策模型或指標(biāo)體系。我們資產(chǎn)管理部門在管理決策的過(guò)程中多以經(jīng)驗(yàn)為主導(dǎo)。在高校多年的改革探索運(yùn)行的進(jìn)程里,資產(chǎn)管理部門積累了大量的數(shù)據(jù),如果能從已有的相關(guān)統(tǒng)計(jì)數(shù)據(jù)里挖掘出更多有用的知識(shí),我們管理決策工作就多了一層科學(xué)性的保障,甚至能發(fā)現(xiàn)工作里部分潛在的異常,防范資產(chǎn)管理工作中的一些常見(jiàn)問(wèn)題。比如實(shí)驗(yàn)室維修經(jīng)費(fèi)的管理、設(shè)備申購(gòu)的審批,從局部來(lái)看,每次報(bào)告申請(qǐng)都有其內(nèi)在原因和必要性。但如果縱橫對(duì)比來(lái)看,申購(gòu)物品是否和普遍的投資規(guī)律相符,是否和同類型部門的運(yùn)行規(guī)律相符?本文嘗試通過(guò)對(duì)某學(xué)院2012-2013學(xué)年度各系部資產(chǎn)管理的相關(guān)指標(biāo)參數(shù)進(jìn)行聚類分析挖掘出一些有用的知識(shí),實(shí)現(xiàn)同類系部間管理經(jīng)驗(yàn)的借鑒。

1 管理對(duì)象指標(biāo)的選取

我們的指標(biāo)選取參考了教學(xué)狀態(tài)評(píng)估、獨(dú)立學(xué)院評(píng)估的參數(shù)和實(shí)際工作經(jīng)驗(yàn)。針對(duì)一個(gè)部門,我們選擇六個(gè)參數(shù)包括設(shè)備數(shù)量、學(xué)生數(shù)、教職員工數(shù)、耗材費(fèi)維修費(fèi)、大型精密儀器設(shè)備總額、實(shí)驗(yàn)人時(shí)數(shù)。

該分類問(wèn)題原始數(shù)據(jù)矩陣為:

2 數(shù)據(jù)標(biāo)準(zhǔn)化處理

當(dāng)[m]個(gè)特征變量(指標(biāo))觀測(cè)值具有不同的數(shù)量級(jí)和不同的測(cè)量單位時(shí),常需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。標(biāo)準(zhǔn)化后的數(shù)據(jù)為[x′ik=xik-xkSk],[i=1,2…n,k=1,2…m],其中[xk=1ni=1nxik]([xk]表示變量[xk]的樣本均值),[Sk=1n-1i=1n(xik-xk)212]([Sk]表示變量[xk]的樣本標(biāo)準(zhǔn)差)。

3 基于Ward法的系統(tǒng)聚類

用[G]表示類,設(shè)[G]中有[k]個(gè)樣本元素,這些元素用[i,j]表示。

定義 [T]為一給定的閾值,如果對(duì)任意的[i,j∈G,]有[dij≤T]([dij]為[i,j]的距離),則稱[G]為一個(gè)類。

本文系統(tǒng)聚類法(hierarchical clustering method)的實(shí)施包含下列步驟:

①對(duì)系部相關(guān)數(shù)據(jù)進(jìn)行變換處理;

②構(gòu)造9個(gè)類,每個(gè)類[Gt]只包含一個(gè)樣本[i];

③計(jì)算9個(gè)樣本[dij]兩兩間的距離 ;

④合并距離最近的兩類為一新類[Gp];

⑤計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)等于1,轉(zhuǎn)到⑥;否則回④;

⑥生成樹(shù)狀聚類圖;

⑦根據(jù)設(shè)定的閾值[T]判斷類的個(gè)數(shù),得出分類結(jié)果。

在算法第⑤步需要計(jì)算類與類之間的距離,常用的有最短距離法、類平均距離法、重心距離法等。我們采用的是起源于方差分析的Ward法(也稱離差平方和)。較好的分類可以達(dá)到樣品間離差平方和較小,類與類之間的離差平方和較大。設(shè)將[n]個(gè)樣品分成[k]類;

[G1,G2,…,Gk]用[xit]表示類[Gt]中第i個(gè)樣品,[nt]表示類[Gt]中樣品個(gè)數(shù),[xt]是類[Gt]的重心,則整個(gè)類[Gt]中的離差平方和是[L=t=1ki=1nt(xit-xt)′(xit-xt)]。

我們用統(tǒng)計(jì)分析軟件SPSS 19.0,平方歐氏距離作為相似性測(cè)度,類間距用Ward法定義。生成的聚類圖表如表3,圖2。

由以圖2分類結(jié)果可以看出,分為4~5類較為合適,同類系部之間如計(jì)算機(jī)系與金融貿(mào)易系的資產(chǎn)管理策略可以相互借鑒,同類系部的資產(chǎn)管理問(wèn)題,也應(yīng)該引起共同的關(guān)注并引以為戒。我們的工作實(shí)踐表明,該分類模型可以幫助我們防范同類系部可能遇到的部分相似問(wèn)題,減少了資產(chǎn)管理工作中的盲目性,為管理決策提供了科學(xué)性的參考。

4 結(jié)束語(yǔ)

聚類分析作為無(wú)監(jiān)督學(xué)習(xí)的一種重要形式,具有廣泛的應(yīng)用前景。高校系部等二級(jí)機(jī)構(gòu)的資產(chǎn)管理決策目前較多依賴以往經(jīng)驗(yàn),基于系統(tǒng)聚類法的資產(chǎn)管理決策,讓我們獨(dú)立學(xué)院“摸著石頭過(guò)河”的探索多一些科學(xué)的依據(jù)。但我們的模型還有很多不足和待解決問(wèn)題,比如樣本指標(biāo)的合理性,模型能否推廣到行政機(jī)構(gòu)、后勤部門等非教學(xué)二級(jí)機(jī)構(gòu)。另外針對(duì)同一高校探討還可以從同一時(shí)間段不同學(xué)院系部的情況聚類,和同一學(xué)院系部不同時(shí)間段聚類分析,需要我們進(jìn)一步深度收集整理相關(guān)數(shù)據(jù)。

參考文獻(xiàn):

[1] 何曉群.多元統(tǒng)計(jì)分析[M].3版.北京:中國(guó)人民大學(xué)出版社,2012.

[2] 王宏洲,李學(xué)文.數(shù)學(xué)建模方法進(jìn)階[M].北京:清華大學(xué),2013.

第6篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞:化學(xué)計(jì)量學(xué);中藥學(xué);選修課程

中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2012)12-0193-02

中藥學(xué)專業(yè)主要開(kāi)設(shè)中藥學(xué)、中藥鑒定學(xué)、中藥資源學(xué)、中藥藥理學(xué)、中藥藥劑學(xué)、中藥化學(xué)、中藥制劑分析等必修課程,培養(yǎng)具備中藥學(xué)基礎(chǔ)理論、基本知識(shí)、基本技能以及與其相關(guān)的中醫(yī)學(xué)、藥學(xué)等方面的知識(shí)和能力,能在中藥生產(chǎn)、檢驗(yàn)、流通、使用和研究與開(kāi)發(fā)領(lǐng)域從事中藥鑒定、設(shè)計(jì)、制劑及臨床合理用藥等方面工作的高級(jí)科學(xué)技術(shù)人才[1]。然而,中藥在現(xiàn)代化研究過(guò)程中,具有藥效物質(zhì)不明、作用機(jī)理不請(qǐng)、質(zhì)量可控性差等問(wèn)題,隨著先進(jìn)儀器和技術(shù)的引入和發(fā)展,給中藥研究帶來(lái)了有利的手段,但同時(shí)也造就了復(fù)雜的數(shù)據(jù)信息需要處理的問(wèn)題。化學(xué)計(jì)量學(xué)方法非常適合于中藥復(fù)雜體系研究中大量數(shù)據(jù)有效信息的提取,將化學(xué)計(jì)量學(xué)引入中藥復(fù)雜體系研究可以發(fā)揮重要作用,也為中藥的進(jìn)一步研究提供了新的思路、方法和手段。筆者認(rèn)為,既然現(xiàn)時(shí)化學(xué)計(jì)量學(xué)方法在中藥研究中已得到了廣泛應(yīng)用,那么中藥學(xué)專業(yè)的人才培養(yǎng)就應(yīng)該切合實(shí)際需要,適時(shí)地為本科生特別是研究生開(kāi)設(shè)《化學(xué)計(jì)量學(xué)》選修課程。

一、化學(xué)計(jì)量學(xué)的學(xué)科內(nèi)涵

國(guó)際化學(xué)計(jì)量學(xué)學(xué)會(huì)(ICS)定義了化學(xué)計(jì)量學(xué)(Chemometrics)的學(xué)科內(nèi)涵:“化學(xué)計(jì)量學(xué)是一門通過(guò)統(tǒng)計(jì)學(xué)或數(shù)學(xué)方法將對(duì)化學(xué)體系的測(cè)量值與體系的狀態(tài)之間建立聯(lián)系的學(xué)科”。它應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和其他方法及手段(包括計(jì)算機(jī)技術(shù)),選擇最優(yōu)試驗(yàn)設(shè)計(jì)和測(cè)量方法,并通過(guò)對(duì)測(cè)量數(shù)據(jù)的處理和解析,最大限度地獲取有關(guān)物質(zhì)系統(tǒng)的成分、結(jié)構(gòu)與其他相關(guān)信息[2]?;瘜W(xué)計(jì)量學(xué)在上世紀(jì)80年代開(kāi)始有了較大的發(fā)展,各種新的算法層出不窮,基礎(chǔ)及應(yīng)用研究取得了長(zhǎng)足進(jìn)展,迅速成為化學(xué)與分析化學(xué)發(fā)展的重要前沿領(lǐng)域。

二、化學(xué)計(jì)量學(xué)在中藥研究中的應(yīng)用

中藥是十分復(fù)雜的化學(xué)量測(cè)體系,具有化學(xué)成分眾多、藥效物質(zhì)不明等特點(diǎn),隨著先進(jìn)量測(cè)儀器與技術(shù)的應(yīng)用,中藥復(fù)雜化學(xué)體系得以逐漸闡明,但隨之而來(lái)的是獲得的海量量測(cè)數(shù)據(jù)亟需整理挖掘。此時(shí),要從錯(cuò)綜復(fù)雜的海量數(shù)據(jù)中更加有效地提取出有用信息,必須借助于化學(xué)計(jì)量學(xué)的方法與技術(shù),將化學(xué)計(jì)量學(xué)引入中藥復(fù)雜體系研究,必然可以發(fā)揮重要作用,也為中藥的進(jìn)一步研究提供了新的思路、方法和手段。下文簡(jiǎn)述了幾種化學(xué)計(jì)量學(xué)方法在中藥研究領(lǐng)域中的一些典型應(yīng)用。

1.主成分分析法(PCA)。PCA旨在運(yùn)用降維思想,把給定的一組相關(guān)變量通過(guò)線性變換,轉(zhuǎn)化成另一組彼此正交的低維變量。PCA被廣泛用于光譜、色譜及其聯(lián)用指紋圖譜的模式識(shí)別,如徐永群等[3]測(cè)量了黃芩的紅外光譜數(shù)據(jù),在此基礎(chǔ)上應(yīng)用PCA法進(jìn)行聚類分析,將來(lái)自15個(gè)產(chǎn)地的黃芩樣品分為6個(gè)產(chǎn)區(qū),相同產(chǎn)區(qū)內(nèi)樣品的化學(xué)成分相似,以此提出了黃芩藥材質(zhì)量評(píng)價(jià)的方法。

2.聚類分析法(CA)。CA是對(duì)一組尚無(wú)明確分類的樣本按相似程度的大小加以歸類,屬于無(wú)監(jiān)督學(xué)習(xí)方法,其目標(biāo)是在模式空間中找到客觀存在的類別。張銘光等[4]通過(guò)測(cè)定廣藿香裂解色譜指紋圖譜,應(yīng)用算術(shù)平均最小法對(duì)13張指紋圖譜進(jìn)行了聚類分析,總結(jié)出樣品間相關(guān)系數(shù)與產(chǎn)地的關(guān)系,此方法不以廣藿香醇、廣藿香酮等有限成分的含量作為主要指標(biāo),可作為中藥廣藿香的質(zhì)量控制方法。

3.判別分析法(DA)。DA則屬于一種有監(jiān)督學(xué)習(xí)方法,它利用一組已知樣本為訓(xùn)練集,經(jīng)訓(xùn)練后得到一個(gè)判別模型,從而對(duì)未知樣本進(jìn)行分類。DA法可分為參數(shù)法和非參數(shù)法。張亮等[5]采用RP-HPLC法測(cè)定了六味地黃丸缺味藥模擬方的浸出物,借助Bayes判別建模,取得了滿意的識(shí)別效果。蘇薇薇等[6]分析了不同產(chǎn)地、不同部位的化橘紅樣品的HPLC量測(cè)數(shù)據(jù),借助DA法可快速、準(zhǔn)確地對(duì)樣品進(jìn)行分類。

4.人工神經(jīng)網(wǎng)絡(luò)(ANN)。ANN是一種通過(guò)模仿人中樞神經(jīng)系統(tǒng)神經(jīng)元之間相互聯(lián)系的方式來(lái)進(jìn)行計(jì)算的信息處理技術(shù)。它借鑒人腦神經(jīng)系統(tǒng)處理信息的過(guò)程,以數(shù)學(xué)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為理論基礎(chǔ)。其結(jié)構(gòu)和算法已有多種,包括BP(反向誤差傳播)、ART(自適應(yīng)神經(jīng)網(wǎng)絡(luò))、MDL(自適應(yīng)線性機(jī))、FANN(模糊神經(jīng)網(wǎng)絡(luò))等,其中以BP網(wǎng)絡(luò)在中藥質(zhì)量評(píng)價(jià)中應(yīng)用得最為廣泛,如喬延江等[7]借助ANN法建立了中藥蟾蜍的質(zhì)量評(píng)價(jià)方法。

5.支持向量機(jī)(SVM)。SVM是建立在統(tǒng)計(jì)學(xué)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的一種新型機(jī)器學(xué)習(xí)算法,具有小樣本學(xué)習(xí)和泛化能力強(qiáng)的優(yōu)點(diǎn)。其基本原理是把訓(xùn)練集數(shù)據(jù)從輸入空間非線性地映射到一個(gè)高維特征空間,然后在此高維空間中求解凸優(yōu)化問(wèn)題,得到唯一的全局最優(yōu)解。張錄達(dá)等[8]測(cè)定了中藥大黃樣品的近紅外光譜數(shù)據(jù),結(jié)合SVM法建立了大黃樣品真?zhèn)巫R(shí)別模型,對(duì)訓(xùn)練集與測(cè)試集的檢驗(yàn)精度分別達(dá)到了100%和96.77%。

本文簡(jiǎn)要綜述了化學(xué)計(jì)量學(xué)方法在中藥研究中的一些典型應(yīng)用,而且隨著化學(xué)計(jì)量學(xué)理論和方法的不斷深入發(fā)展,其在中藥研究中的應(yīng)用必將越來(lái)越廣泛。因此筆者相信,在中藥學(xué)專業(yè)本科生尤其是研究生的教學(xué)中,開(kāi)設(shè)《化學(xué)計(jì)量學(xué)》選修課程,拓寬學(xué)生的知識(shí)面,加強(qiáng)培養(yǎng)他們的數(shù)據(jù)解析能力,具有重要的實(shí)踐意義和教學(xué)價(jià)值。

參考文獻(xiàn):

[1]梁生旺.中藥制劑分析(第二版)[M].北京:中國(guó)中醫(yī)藥出版社,2007.

[2]梁逸曾,俞汝勤.化學(xué)計(jì)量學(xué)[M].北京:高等教育出版社,2003.

[3]徐永群,孫素琴,馮學(xué)峰,等.黃芩產(chǎn)區(qū)紅外指紋圖譜和聚類分析法的快速鑒別研究[J].光譜學(xué)與光譜分析,2003,23(3):505-505.

[4]張銘光,袁敏,袁鵬,等.廣藿香裂解色譜指紋圖譜及其聚類分析[J].中草藥,2003,34(8):749-752.

[5]張亮,劉展鵬.六味地黃丸缺味藥的Bayes法和PRIMA法定性識(shí)別研究[J].中國(guó)中藥雜志,2000,(1):29-32.

[6]蘇薇薇,林海丹,方鐵錚,等.中藥化橘紅的模式識(shí)別——計(jì)算機(jī)辨識(shí)研究J].中藥材,2002,25(8):554-561.

[7]喬延江,吳剛,王璽,等.中藥蟾蜍質(zhì)量的人工神經(jīng)網(wǎng)絡(luò)化學(xué)模式識(shí)別研究[J].分析化學(xué),1995,23(6):630-634.

第7篇:數(shù)學(xué)建模聚類分析范文

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。

三、結(jié)束語(yǔ)

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

參考文獻(xiàn):

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

第8篇:數(shù)學(xué)建模聚類分析范文

DM是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程(圖1),包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國(guó)人工智能協(xié)會(huì)(americanassociationforartificialintelli-gence,AAAI)學(xué)術(shù)會(huì)議上提出的,是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)[4],其開(kāi)發(fā)與研究應(yīng)用是建立在先進(jìn)的計(jì)算機(jī)技術(shù)、超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)、對(duì)巨大量數(shù)據(jù)的快速訪問(wèn)、對(duì)這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計(jì)方法計(jì)算的能力這4個(gè)必要條件基礎(chǔ)上的,以數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)三大技術(shù)為支柱[5]。

2DM的基本模式及在臨床醫(yī)學(xué)中的應(yīng)用

DM的任務(wù)通常有兩大類:預(yù)測(cè)任務(wù)和描述任務(wù)。預(yù)測(cè)任務(wù)主要是根據(jù)其他屬性的值,預(yù)測(cè)特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢(shì)、聚類、軌跡和異常),主要有關(guān)聯(lián)分析、聚類分析、異常檢測(cè)3種模式[1]。

2.1預(yù)測(cè)建模(predictivemodeling)

涉及以說(shuō)明變量函數(shù)的方式為目標(biāo)變量建立模型。有2種模式:分類和回歸。分類是用于預(yù)測(cè)離散的目標(biāo)變量。在臨床醫(yī)學(xué)中,疾病的診斷和鑒別診斷就是典型的分類過(guò)程。Melgani和Bazi[6]以美國(guó)麻省理工學(xué)院的心律失常數(shù)據(jù)庫(kù)的心電圖為原始數(shù)據(jù),采用不同分類模型,對(duì)心電圖的5種異常波形和正常波形進(jìn)行分類?;貧w是用于預(yù)測(cè)連續(xù)的目標(biāo)變量?;貧w可廣泛應(yīng)用于醫(yī)學(xué)研究中如醫(yī)療診斷與預(yù)后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對(duì)影響乳腺癌患者預(yù)后的因素進(jìn)行回歸分析。

2.2關(guān)聯(lián)分析(associationanalysis)

用來(lái)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊(yùn)函規(guī)則或特征子集的形式表示。關(guān)聯(lián)分析主要應(yīng)用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等[5]。有學(xué)者對(duì)37000例腎病患者進(jìn)行了追蹤觀察,監(jiān)測(cè)腎小球過(guò)濾率、尿蛋白水平和貧血狀況,結(jié)果發(fā)現(xiàn)以上3種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升,這種腎病與心臟病“關(guān)聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段[8]。

2.3聚類分析(clusteranalysis)

旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能類似。聚類分析在醫(yī)學(xué)領(lǐng)域中主要用于DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析以及多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險(xiǎn)因素等方面[5]。羅禮溥和郭憲國(guó)[9]利用聚類分析對(duì)云南省25縣(市)現(xiàn)有的112種醫(yī)學(xué)革螨的動(dòng)物地理區(qū)劃進(jìn)行分析,發(fā)現(xiàn)云南省醫(yī)學(xué)革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。

2.4異常檢測(cè)(anomalydetection)

用來(lái)識(shí)別其特征明顯不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測(cè)的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn),避免錯(cuò)誤地將正常對(duì)象標(biāo)注為異常點(diǎn)。換言之,一個(gè)好的異常檢測(cè)器必須具有高檢測(cè)率和低誤報(bào)率,其主要應(yīng)用于檢測(cè)欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等[2]。

3DM的方法及研究趨勢(shì)

在DM算法的理論基礎(chǔ)上,DM常用方法:(1)生物學(xué)方法包括人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等;(2)信息論方法包括決策樹(shù)等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統(tǒng)計(jì)學(xué)方法;(5)可視化技術(shù)等方法。DM經(jīng)過(guò)十幾年的蓬勃發(fā)展,很多基本算法已較為成熟,在其基礎(chǔ)上進(jìn)行更加高效的改進(jìn)和算法提高顯得比較困難,如傳統(tǒng)的頻繁模式和關(guān)聯(lián)規(guī)則挖掘在近幾年的國(guó)際著名會(huì)議和期刊上已不再作為重要的研究主題[10]。近年來(lái)眾多國(guó)內(nèi)外知名學(xué)者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領(lǐng)域十大挑戰(zhàn)性問(wèn)題報(bào)告;Agrawa等[12]探討了DM的現(xiàn)狀并展望了未來(lái)的發(fā)展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰(zhàn)性問(wèn)題,并主要探討在生物信息學(xué)(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網(wǎng)絡(luò)挖掘(webmining)等領(lǐng)域所遇到的挑戰(zhàn)。與國(guó)外相比,DM在國(guó)內(nèi)的研究和應(yīng)用始于20世紀(jì)90年代初,主要是對(duì)DM方法的介紹和推廣,20世紀(jì)90年代后期和21世紀(jì)初進(jìn)入蓬勃發(fā)展階段,當(dāng)前DM已成為大型企業(yè)進(jìn)行經(jīng)營(yíng)決策時(shí)所必須采用的方法,證券和金融部門已將DM作為今后重點(diǎn)應(yīng)用的技術(shù)之一。有學(xué)者以HIS和LIS數(shù)據(jù)庫(kù)信息為數(shù)據(jù)源,人工神經(jīng)網(wǎng)絡(luò)為工具,概率論為依據(jù),對(duì)常規(guī)檢驗(yàn)結(jié)果和質(zhì)譜指紋圖數(shù)據(jù)進(jìn)行DM并應(yīng)用于臨床實(shí)踐[14-16]。

4臨床醫(yī)學(xué)DM的特點(diǎn)

DM作用于醫(yī)學(xué)數(shù)據(jù)庫(kù)跟挖掘其他類型的數(shù)據(jù)庫(kù)相比較,具有其自己的特點(diǎn)。以電子病歷、醫(yī)學(xué)影像、病歷參數(shù)、化驗(yàn)結(jié)果等臨床數(shù)據(jù)為基礎(chǔ)建立的醫(yī)學(xué)數(shù)據(jù)庫(kù)是一個(gè)復(fù)雜類型數(shù)據(jù)庫(kù),這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身的特殊性和復(fù)雜性,使得醫(yī)學(xué)DM與常規(guī)DM之間存在較大差異。醫(yī)學(xué)DM方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法等。將這些不同的挖掘方法應(yīng)用到疾病的診斷、治療和預(yù)后分析以及醫(yī)療管理等各個(gè)領(lǐng)域,從疾病的診治、醫(yī)療質(zhì)量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評(píng)價(jià)等方面去獲取諸如概念、規(guī)律、模式等相關(guān)知識(shí);用于對(duì)疾病進(jìn)行分類、分級(jí)、篩選危險(xiǎn)因素、決定治療方案和開(kāi)藥數(shù)量等[5]。

第9篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵字:電力系統(tǒng);人工神經(jīng)網(wǎng)絡(luò);信號(hào)處理

1 引言

基于電力變壓器故障診斷方法對(duì)提高電力系統(tǒng)運(yùn)行的安全性和可靠性具有重要意義,同時(shí)也具有重要的理論價(jià)值和廣闊的工程應(yīng)用.基于智能信息處理方法的關(guān)鍵技術(shù)研究在研究分析智能信息處理理論關(guān)鍵技術(shù)的基礎(chǔ)上,提出了以智能信息技術(shù)處理理論為主線的電力變壓器故障智能診斷技術(shù)方案來(lái)實(shí)現(xiàn)基于云模型白化權(quán)函數(shù)的灰聚類分析和改進(jìn)的加權(quán)灰靶理論相結(jié)合的電力變壓器狀態(tài)評(píng)估模型,通過(guò)先驗(yàn)知識(shí)和實(shí)驗(yàn)分析共同優(yōu)化云模型參數(shù)結(jié)構(gòu),提高電力變壓器故障評(píng)估的實(shí)用性與科學(xué)性.

2 基于云模型綜合應(yīng)用研究

基于云模型是指一種描述非確定性不確定性數(shù)學(xué)方法應(yīng)用在模糊數(shù)學(xué)和統(tǒng)計(jì)學(xué)的基礎(chǔ)與模糊性和隨機(jī)性相結(jié)合共同構(gòu)成定性描述和定量描述的相互映射關(guān)系,其中,模糊隸屬函數(shù)是模糊理論的基石,是一個(gè)重要的概念,但是在工程實(shí)踐中如何確定模糊隸屬度函數(shù)卻沒(méi)有公認(rèn)的方法與不確定性問(wèn)題的隨機(jī)性和模糊性來(lái)彌補(bǔ)模糊理論的不徹底性缺陷,因此提出了隸屬云平臺(tái)、云技術(shù)與云模型等概念和理論體系結(jié)構(gòu).

2.1 基于電力變壓器故障云模型研究

基于電力變壓器故障云模型數(shù)字運(yùn)算期望值、熵和超熵表示.期望值Ex是所有云滴電力故障所在數(shù)域的重心位置,反映了這個(gè)定性概念的量在數(shù)域上的坐標(biāo).熵En是表示定性概念亦此亦彼性的變量,反映了數(shù)域中可被語(yǔ)言值接受的數(shù)據(jù)范圍,同時(shí)還反映了在數(shù)域中的云滴電力故障能夠代表這個(gè)語(yǔ)言值的概率.超熵He反映每個(gè)數(shù)值代表這個(gè)語(yǔ)言值確定性的凝聚性和云滴的凝聚程度.

對(duì)于電力變壓器控制系統(tǒng)故障存在雙邊約束的指標(biāo),電力變壓器故障云模型的期望值根據(jù)公式⑴計(jì)算=⑴

根據(jù)正態(tài)分布的原則, 電力變壓器故障云模型的熵En按公式(2)計(jì)算:

超熵He是一個(gè)常數(shù),可根據(jù)具體指標(biāo)的不確定性和隨機(jī)性進(jìn)行調(diào)整.

3 基于灰色系統(tǒng)理論應(yīng)用在智能信息電力變壓器故障研究

3.1 灰色系統(tǒng)理論介紹

基于灰色系統(tǒng)理論是指以GM(1,1)模型為基礎(chǔ)的預(yù)測(cè),灰色系統(tǒng)模型是一階微分方程動(dòng)態(tài)模型.而智能信息電力變壓器故障不確定性因素與不確定性全因素多傳感器數(shù)據(jù)信息融合處理關(guān)鍵技術(shù)方法,應(yīng)用于時(shí)間序列預(yù)測(cè)數(shù)據(jù).

3.2 基于灰色智能信息電力變壓器故障模型建模算法研究

3.2.1 設(shè)所要智能信息電力變壓器故障預(yù)測(cè)系統(tǒng)的某項(xiàng)指標(biāo)的原始數(shù)據(jù)列為

3.2.2對(duì)原始數(shù)據(jù)列做一次累加,先生成(1-AGO),再生成(3.2.1)新數(shù)據(jù)列,即

3.2.3 對(duì)生成的數(shù)據(jù)列’建立相應(yīng)的微分方程式中.為發(fā)展系數(shù),為內(nèi)生控制系數(shù).

3.2.4解步驟3.2.3)中方程式,可得其相應(yīng)的時(shí)間響應(yīng)模型為:

3.2.5 設(shè)方程的參數(shù)的向量:式中B為累加生成矩陣,為向量,二者的構(gòu)造分別為:

,

式中為第年的原始數(shù)據(jù);為第年的一次累加.

3.2.6 令t=1,2,…,n-1,由4)中式可得的值.其中是一次累加量,還需求出還原值,即

3.2.7 求出原始智能信息電力變壓器故障數(shù)據(jù)的還原預(yù)測(cè)值與實(shí)際數(shù)據(jù)值之間的殘差值和相對(duì)誤差q(t),進(jìn)行殘差檢驗(yàn)

3.2.8 進(jìn)行關(guān)聯(lián)度R檢驗(yàn);后驗(yàn)差C檢驗(yàn)和小誤差概率P檢驗(yàn).

3.2.9 如果殘差檢驗(yàn)、關(guān)聯(lián)度檢驗(yàn)和后驗(yàn)差都能通過(guò),則可以用所建立的智能信息電力變壓器故障模型進(jìn)行預(yù)測(cè).

3.4 基于灰色神經(jīng)網(wǎng)絡(luò)智能信息電力變壓器故障模型研究

⑴ 灰色理論模型.灰色系統(tǒng)建模使用最多的是GM(1,1)模型,它是對(duì)經(jīng)過(guò)一次累加生成的數(shù)列建立的模型,其灰微分方程為(,為待定參數(shù)).⑶

⑵ 白化GNNM(1,1)灰色神經(jīng)網(wǎng)絡(luò)模型.設(shè)參數(shù)已經(jīng)確定,對(duì)式⑶求解可得到其時(shí)間響應(yīng)函數(shù):⑷

白化微分方程⑶的參數(shù)的思路是:將方程⑶的時(shí)間響應(yīng)函數(shù)⑷映射到一個(gè)智能信息電力變壓器故障BP網(wǎng)絡(luò)中,對(duì)這個(gè)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從訓(xùn)練后的BP網(wǎng)絡(luò)中提取出相應(yīng)的方程系數(shù),從而得到一個(gè)白化的微分方程,進(jìn)而利用此白化的微分方程,對(duì)系統(tǒng)進(jìn)行深層次的研究,或?qū)Υ宋⒎址匠糖蠼?要將⑷式映射到BP網(wǎng)絡(luò)中,對(duì)其做如下變換,對(duì)等式兩邊同除以1+exp(-ak),可得

=

= ⑸

經(jīng)過(guò)變換后可將⑸映射到BP網(wǎng)絡(luò)中,其結(jié)構(gòu)如圖1所示.

相應(yīng)的BP網(wǎng)絡(luò)權(quán)值可進(jìn)行如下賦值(令

(6)

的閾值設(shè)為,由⑸得,多層神經(jīng)元激活函數(shù)為Sigmoid型函數(shù): ⑺

該函數(shù)是S型函數(shù),存在一個(gè)高增益區(qū),能確保網(wǎng)絡(luò)達(dá)到穩(wěn)定態(tài),其它層激活函數(shù)取線性的.經(jīng)過(guò)⑹式賦值及BP網(wǎng)絡(luò)激活函數(shù)確定為⑺式后,可對(duì)網(wǎng)絡(luò)中各個(gè)結(jié)點(diǎn)計(jì)算為:

LD層僅1個(gè)節(jié)點(diǎn),其作用只是對(duì)進(jìn)行y1放大,使之與式⑶相符.考慮到灰色BP網(wǎng)絡(luò)與式①的對(duì)應(yīng)關(guān)系,因此在設(shè)計(jì)灰色BP網(wǎng)絡(luò)學(xué)習(xí)算法時(shí)要注意以下幾點(diǎn):1)學(xué)習(xí)算法采用標(biāo)準(zhǔn)BP算法,由于有一些神經(jīng)元所用的激活函數(shù)為線性的,因此計(jì)算誤差時(shí)要利用線性函數(shù)的求導(dǎo).2)由,故在BP網(wǎng)絡(luò)訓(xùn)練過(guò)程中,權(quán)值始終保持不變.3)直接由輸入與、得到,并且連接只是將誤差前向傳遞到第3層,其本身不修改.精度比較可知,用神經(jīng)網(wǎng)絡(luò)輔助的灰色建模要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的灰色模型方法.

4 基于人工神經(jīng)免疫系統(tǒng)應(yīng)用研究

在人工免疫系統(tǒng)應(yīng)用是生物必須防御機(jī)制與免疫功能的器官、組織、細(xì)胞和免疫效應(yīng)分子及其基因組成通過(guò)分布在全身的各類淋巴細(xì)胞識(shí)別和清除侵入生物體的抗原性異物,可以保護(hù)機(jī)體抵御病原體、有害的異物以及癌細(xì)胞等致病因子的侵害.基于生物的免疫系統(tǒng)是一種高級(jí)的智能信息處理控制系統(tǒng)數(shù)據(jù)[2].而人工免疫系統(tǒng)是模仿免疫系統(tǒng)的一種智能方法,提供噪聲忍耐、自組織神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)、自組織與記憶神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)系統(tǒng),結(jié)合分類器、神經(jīng)網(wǎng)絡(luò)和機(jī)器推理等系統(tǒng)的優(yōu)點(diǎn),具有分布式并行處理、自學(xué)習(xí)、自適應(yīng)和強(qiáng)魯棒性和集中式分散處理與分析電力變壓器智能診斷故障等優(yōu)點(diǎn)服務(wù).

5 結(jié)束語(yǔ)

基于智能信息與處理電力變壓器故障診斷方法來(lái)應(yīng)用電力變壓器故障云模型處理、灰色系統(tǒng)理論模型、人工免疫系統(tǒng)等內(nèi)容的理念和方法.以提高智能信息電力變壓器故障診斷方法與灰色神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的應(yīng)用體系結(jié)構(gòu),實(shí)踐證明,基于智能信息處理關(guān)鍵技術(shù)在電力變壓器故障診斷方法能夠有效的排除故障.

參考文獻(xiàn):