前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)分析設(shè)計(jì)主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:類;DataLine;Translator;DataDrawer
航空設(shè)備數(shù)據(jù)分析一直是一個(gè)難題,因?yàn)閿?shù)據(jù)按ICD協(xié)議上傳,需要轉(zhuǎn)化為可讀數(shù)據(jù)才能分析設(shè)備的運(yùn)行狀態(tài)。但是設(shè)備的上傳速率一般在毫秒級(jí),所以設(shè)備運(yùn)行一個(gè)小時(shí)可以輸出上百兆的數(shù)據(jù),人工分析這些數(shù)據(jù)費(fèi)時(shí)費(fèi)力且錯(cuò)誤率高,容易錯(cuò)過關(guān)鍵數(shù)據(jù)。
針對這種情況,作者設(shè)計(jì)了一種專門分析設(shè)備上傳數(shù)據(jù)的軟件(簡稱數(shù)據(jù)分析軟件)。使用數(shù)據(jù)分析軟件處理百萬行的數(shù)據(jù)只需要不到一分鐘的時(shí)間,而且該軟件可以將數(shù)據(jù)制成曲線,可以更容易地捕捉到關(guān)鍵數(shù)據(jù)。
1 數(shù)據(jù)分析軟件
數(shù)據(jù)分析軟件包含兩個(gè)模塊:數(shù)據(jù)轉(zhuǎn)換模塊和數(shù)據(jù)繪制模塊。
1.1 數(shù)據(jù)轉(zhuǎn)換模塊
1.1.1 時(shí)間類
航空設(shè)備上傳的數(shù)據(jù)一般以時(shí)間為基準(zhǔn),因此數(shù)據(jù)轉(zhuǎn)換時(shí)需要保留原始數(shù)據(jù)的時(shí)間信息,這樣才能將數(shù)據(jù)繪制成以時(shí)間為X軸的曲線。時(shí)間類的定義如圖1:
基類Time繼承了IComparable接口,所以Time類重載了 “!=”,” ”,”==”四個(gè)操作符,這樣Time類的對象之間可以比較大小,所以轉(zhuǎn)換后的數(shù)據(jù)可以按時(shí)間前后排序。
1.1.2 數(shù)據(jù)類
在數(shù)據(jù)分析軟件中,數(shù)據(jù)是以行為單位的,每一行數(shù)據(jù)有多個(gè)域,不同行數(shù)據(jù)的域名相同,域內(nèi)的數(shù)據(jù)不同。數(shù)據(jù)行類定義如圖2。
DataLine的對象代表一行轉(zhuǎn)換后的數(shù)據(jù),ToString接口可以將DataLine里存儲(chǔ)的數(shù)據(jù)以文本的形式輸出。DataLine是一個(gè)抽象類,需要用他的子類實(shí)例化對象。由圖可見,MLSData集成了DataLine類,在成員變量中加入了一個(gè)MLSTime的對象_time用以表示該行數(shù)據(jù)的上傳時(shí)間,并且可以用CompareTo接口比較兩個(gè)MLSData對象的時(shí)間先后。其實(shí)MLSData的CompareTo接口只是調(diào)用了成員變量_time的CompareTo,如圖3。
1.1.3 翻譯器類
翻譯器實(shí)現(xiàn)的功能是將一行原始數(shù)據(jù)轉(zhuǎn)換為可讀數(shù)據(jù),翻譯器定義如圖4。
Translator是一個(gè)抽象類,其中定義了一個(gè)抽象函數(shù)Translate,這個(gè)函數(shù)有一個(gè)類型為String的形式參數(shù)data,并返回一個(gè)DataLine類(或其子類)的對象。其中data表示一行文本格式的原始數(shù)據(jù),返回值DataLine表示轉(zhuǎn)換后的數(shù)據(jù)。當(dāng)需要分析按新版本ICD協(xié)議上傳的數(shù)據(jù)時(shí),只需創(chuàng)建一個(gè)新的Translator子類,并按ICD協(xié)議重寫Translate函數(shù)即可。
1.2 數(shù)據(jù)繪制模塊
數(shù)據(jù)繪制模塊類關(guān)系圖如圖5:
父類DataDrawer是一個(gè)抽象函數(shù),他實(shí)現(xiàn)了繪制曲線的一些基本功能。子類MLSDrawer集成了DataDrawer的基本功能,并添加了數(shù)據(jù)段放大功能。MD_WarningLine添加了告警線的顯示功能,分析人員可以清晰地看到數(shù)據(jù)告警的位置,并針對該段數(shù)據(jù)進(jìn)行分析。MultiLineDawer添加了多曲線繪制弄能,可以將多組數(shù)據(jù)的曲線繪制在同一坐標(biāo)系內(nèi),讓分析人員可以進(jìn)行多組數(shù)據(jù)間的交叉比對。
2 實(shí)際應(yīng)用
如圖6,設(shè)備上傳數(shù)據(jù)經(jīng)數(shù)據(jù)轉(zhuǎn)換模塊處理后輸出可讀數(shù)據(jù)。
數(shù)據(jù)繪制模塊讀取分析結(jié)果數(shù)據(jù)后,可以將結(jié)果中的一組或多組數(shù)據(jù)繪制成曲線。
在曲線繪制區(qū)域內(nèi)拖動(dòng)鼠標(biāo)可已放大局部數(shù)據(jù),如圖9。
3 結(jié)語
關(guān)鍵詞: 體育統(tǒng)計(jì);SPSS;多因素;方差分析;正交試驗(yàn)設(shè)計(jì);數(shù)據(jù)分析
中圖分類號(hào): G 8032文章編號(hào):1009783X(2013)03028306文獻(xiàn)標(biāo)志碼: A
在用三因素有交互作用的方差分析來研究運(yùn)動(dòng)強(qiáng)度、運(yùn)動(dòng)量和運(yùn)動(dòng)持續(xù)的時(shí)間對運(yùn)動(dòng)成績的影響時(shí),對影響運(yùn)動(dòng)成績的3個(gè)因素各按3個(gè)水平進(jìn)行試驗(yàn),見表1。如果進(jìn)行全面搭配法方案安排試驗(yàn),此方案數(shù)據(jù)點(diǎn)分布的均勻性極好,因素和水平的搭配十分全面,唯一的缺點(diǎn)是試驗(yàn)次數(shù)較多,為33×2=54次(指數(shù)3代表3個(gè)因素,底數(shù)3代表每因素有3個(gè)水平,×后面的2,表示重復(fù)一次試驗(yàn)),如圖1所示。因素、水平數(shù)愈多,則試驗(yàn)次數(shù)就愈多[1]。例如,作一個(gè)5因素3水平的不重復(fù)試驗(yàn),就需要35=243次試驗(yàn)。試驗(yàn)次數(shù)越多,就需要更多的人力、物力和財(cái)力作保證,而且需要占用更多的時(shí)間,這顯然是十分困難的。有時(shí)由于所需的時(shí)間太長,使試驗(yàn)的條件發(fā)生改變,還會(huì)導(dǎo)致試驗(yàn)失敗,即使試驗(yàn)有了結(jié)果,但對運(yùn)動(dòng)訓(xùn)練的實(shí)際指導(dǎo)意義也可能已經(jīng)不太大了;因此,需要尋找一種合適的試驗(yàn)設(shè)計(jì)方法。
對于如何去做試驗(yàn),怎樣才能做好試驗(yàn)的問題是統(tǒng)計(jì)學(xué)很關(guān)注的一個(gè)問題。這就需要我們在做具體的試驗(yàn)前,首先要做好試驗(yàn)設(shè)計(jì)。
試驗(yàn)設(shè)計(jì)的一個(gè)最重要的原則:在做試驗(yàn)前,通過必要的事前考慮,作出合理周密的事先安排,從而在實(shí)際的試驗(yàn)中,通過動(dòng)用最少的人力、物力、財(cái)力及盡可能短的時(shí)間,以便用最少的試驗(yàn)次數(shù)達(dá)到同做大量全面試驗(yàn)等效的結(jié)果。
1.1.3因素和交互作用
選擇的正交表要能容納所考慮的因素和交互作用。為了對試驗(yàn)結(jié)果進(jìn)行方差分析或回歸分析,還必須至少留一個(gè)空白列,作為“誤差”列,在極差分析中要作為“其他因素”列處理。
1.1.4試驗(yàn)精度
在同水平中取何種試驗(yàn)次數(shù)的L表,取決于試驗(yàn)精度的要求。如果試驗(yàn)精度要求高,則宜取試驗(yàn)次數(shù)多的L表。
1.1.5研究的成本
要根據(jù)研究的成本來決定適合的L表的選擇。若試驗(yàn)費(fèi)用很昂貴,或試驗(yàn)的經(jīng)費(fèi)很有限,或人力和時(shí)間都比較緊張,則應(yīng)選試驗(yàn)次數(shù)少一些的L表。
1.1.6修正水平數(shù)
在按原來考慮的因素、水平和交互作用去選擇正交表時(shí),如無正好適用的正交表可選,則簡便且可行的辦法是適當(dāng)修改原定的水平數(shù)。
1.1.7適當(dāng)選用大表
在對某些因素間的交互作用的影響是否確實(shí)存在沒有把握的情況下,如果條件許可,則應(yīng)盡量選用大表,讓影響存在的可能性較大的因素和交互作用各占適當(dāng)?shù)牧?,在用方差分析進(jìn)行顯著性檢驗(yàn)時(shí),就可得出結(jié)論。這樣既不增加太多試驗(yàn)的工作量,又不致于漏掉重要的信息。
1.2正交試驗(yàn)設(shè)計(jì)的基本步驟
1.2.1根據(jù)研究目的設(shè)計(jì)試驗(yàn)因素和試驗(yàn)指標(biāo)
先根據(jù)研究課題來確定研究目的,再從專業(yè)的角度在眾多影響研究目的的因素中找出幾個(gè)主要影響因素,根據(jù)研究精度的要求和課題經(jīng)費(fèi)的情況確定因素的水平,一般在條件允許的前提下,主要影響因素的水平可以分得多一些,同時(shí)還將確定最能反映試驗(yàn)?zāi)康牡臏y試指標(biāo),以便通過對試驗(yàn)結(jié)果的分析找出主、次影響因素。
3結(jié)論
1)正交試驗(yàn)設(shè)計(jì)可有效地減少試驗(yàn)次數(shù),同時(shí)還可得到與做大量試驗(yàn)等效的結(jié)論,可以節(jié)省大量的人力、物力,提高研究經(jīng)費(fèi)的使用效率。
2) 在SPSS17.0中,可以利用數(shù)據(jù)菜單中正交設(shè)計(jì)過程中的生成程序產(chǎn)生正交表,用顯示程序打印正交設(shè)計(jì)方案。由SPSS17.0產(chǎn)生的正交表同正交試驗(yàn)設(shè)計(jì)書中的正交設(shè)計(jì)表不一定相同。在需要作極差分析的同時(shí),還要考慮交互作用,應(yīng)根據(jù)交互作用表作表頭設(shè)計(jì)。
3) 在不需要極差分析或極差分析中不需要考慮交互作用時(shí),可直接采用SPSS17.0產(chǎn)生的正交表來安排試驗(yàn)(但生成正交表時(shí)要考慮求交互作用時(shí)的試驗(yàn)次數(shù),即要根據(jù)因素?cái)?shù)、水平數(shù)、交互作用安排在哪些列,來決定需要多大的正交表),也可直接用SPSS中多因素方差分析的方法來完成正交試驗(yàn)設(shè)計(jì)的方差分析,同時(shí)可考慮交互作用。
4)在用SPSS17.0進(jìn)行正交試驗(yàn)設(shè)計(jì)分析可以代替手工計(jì)算。
由于篇幅有限,只討論了各因素等水平的情形,其他不等水平的混合設(shè)計(jì),在SPSS中的實(shí)現(xiàn)方法是相同的。
參考文獻(xiàn):
[1]劉達(dá)民,程巖.應(yīng)用統(tǒng)計(jì)[M].北京:化學(xué)工業(yè)出版社,2004:153156.
[2]劉漢生,張寶玉.應(yīng)用數(shù)理統(tǒng)計(jì)基礎(chǔ)[M].山西:山西科學(xué)教學(xué)出版社,1987:237266.
供電服務(wù)是供電企業(yè)的一項(xiàng)重要綜合管理指標(biāo)。在供電服務(wù)管理實(shí)踐活動(dòng)中,可以發(fā)現(xiàn)供電服務(wù)與營銷業(yè)務(wù)管控、電網(wǎng)運(yùn)行、設(shè)備運(yùn)維、供電能力、電建施工、員工素質(zhì)、工作標(biāo)準(zhǔn)、管理者思維等諸多因素有關(guān),如何將供電服務(wù)管理中存在著的諸多變化和離散因素,運(yùn)用系統(tǒng)的科學(xué)的方法進(jìn)行分析,尋求管理上的精細(xì)化和實(shí)現(xiàn)風(fēng)險(xiǎn)最小化,是各級(jí)供電企業(yè)所面臨的最迫切最現(xiàn)實(shí)的亟待解決的問題,最終實(shí)現(xiàn)客戶服務(wù)智能化、優(yōu)質(zhì)高效。
【關(guān)鍵詞】互聯(lián)網(wǎng)+ 大數(shù)據(jù)分析 供電服務(wù) 管控系統(tǒng) 設(shè)計(jì)與應(yīng)用
目前,供電公司系統(tǒng)中存在著龐大的數(shù)據(jù)分析工作,利用數(shù)據(jù)分析結(jié)果進(jìn)行有效的診斷分析,以更好地指導(dǎo)營銷服務(wù),提升客戶服務(wù)功能,是供電公司必選的最佳途徑和手段,開發(fā)《基于互聯(lián)網(wǎng)+大數(shù)據(jù)分析模式創(chuàng)建供電服務(wù)管控系統(tǒng)》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托設(shè)計(jì)是創(chuàng)建大數(shù)據(jù)分析模式的供電服務(wù)管控應(yīng)用系統(tǒng),融合拓展開發(fā)《開放式用電信息服務(wù)平臺(tái)的應(yīng)用系統(tǒng)》{《開放式用電信息服務(wù)平臺(tái)》(The Opening Electricity Service Platform――簡稱:OEEP系統(tǒng))}是基于互聯(lián)網(wǎng)模式、計(jì)算機(jī)通信技術(shù)、GIS地理信息系統(tǒng)、用電信息服務(wù)的開放式面向客戶端的信息平臺(tái),通過開發(fā)利用計(jì)算機(jī)、手機(jī)智能式服務(wù)系統(tǒng),在確保電網(wǎng)和營銷管理系統(tǒng)的安全前提下,鏈接供電生產(chǎn)系統(tǒng)、營銷服務(wù)系統(tǒng)與客戶端服務(wù)大數(shù)據(jù)系統(tǒng)信息共享,實(shí)現(xiàn)互聯(lián)網(wǎng)+多媒體的一體化開放式管控系統(tǒng)和公共服務(wù)平臺(tái)。
1 供電服務(wù)管控系統(tǒng)設(shè)計(jì)思路
1.1 供電服務(wù)管控應(yīng)用系統(tǒng)設(shè)計(jì)
(1)建立與營銷系統(tǒng)完整鏈接的營銷服務(wù)主系統(tǒng),基礎(chǔ)數(shù)據(jù)來源和依賴于營銷系統(tǒng)數(shù)據(jù),分類建立不同功能模塊,設(shè)定客觀的量化指標(biāo),加入賽馬博弈競賽評分功能,客觀真實(shí)的反映出各層級(jí)供電單位供電服務(wù)業(yè)績,通過營銷服務(wù)在線管控系統(tǒng)實(shí)現(xiàn)綜合評價(jià)。
(2)搭建供電服務(wù)應(yīng)用系統(tǒng),實(shí)時(shí)實(shí)現(xiàn)首端與末端、縱向與橫向、分級(jí)管控的全方位管控和應(yīng)用,開發(fā)手機(jī)客戶端APP下載到每個(gè)員工手機(jī)上,達(dá)到供電服務(wù)全天候、全過程的在線操作。
(3)主要實(shí)現(xiàn)功能:供電服務(wù)法規(guī)及政策、信息公開及、工單受理與流轉(zhuǎn)、服務(wù)指標(biāo)體系、競賽積分系統(tǒng)、工作動(dòng)態(tài)與經(jīng)驗(yàn)推介、綜合評價(jià)與獎(jiǎng)懲。
(4)供電服務(wù)管控系統(tǒng)設(shè)計(jì)上,重點(diǎn)突出系統(tǒng)工程管理思維,力求規(guī)范化、標(biāo)準(zhǔn)化和可操作化,建立相應(yīng)人性化管理的信息保障機(jī)制,對供電服務(wù)提升將會(huì)起到很好促進(jìn)作用。
1.2 開放式用電信息服務(wù)平臺(tái)
(1)依托互聯(lián)網(wǎng)和計(jì)算機(jī)軟件技術(shù),建立GIS地理和供電設(shè)備集成系統(tǒng),實(shí)現(xiàn)模糊查詢實(shí)時(shí)鏈接。
(2)采用互聯(lián)網(wǎng)+模式,將95598客戶服務(wù)系統(tǒng)和營銷服務(wù)系統(tǒng)嵌入,經(jīng)過數(shù)據(jù)研判分析,建立開放式的客戶端即時(shí)使用和交換界面。
(3)建設(shè)依托計(jì)算機(jī)通信系統(tǒng)拓展的電力多樣化、智能化的服務(wù),通過多媒體系統(tǒng)、掌上APP、微信等客戶端系統(tǒng),實(shí)時(shí)與金融、氣象、交通等其他資訊系統(tǒng)融合的通訊交換功效。
(4)借助電力系統(tǒng)的調(diào)度D5000系統(tǒng)、生產(chǎn)PMS系統(tǒng)、營銷MIS系統(tǒng)、用電信息采集系統(tǒng)等以及拓展的營配調(diào)貫通系統(tǒng),實(shí)現(xiàn)全方位全天候的停電信息實(shí)時(shí)、設(shè)備故障查詢、客戶報(bào)修服務(wù)系統(tǒng)合一功能。
2 系統(tǒng)功能性設(shè)計(jì)界面
2.1 大數(shù)據(jù)系統(tǒng)性分析
(1)應(yīng)用數(shù)理統(tǒng)計(jì)學(xué)原理和解析法開展供電服務(wù)大數(shù)據(jù)分析、篩選、研判操作,通過數(shù)據(jù)分析結(jié)論,以系統(tǒng)的管理理念、科學(xué)的管理方法揭示業(yè)務(wù)管控、運(yùn)行過程、管理現(xiàn)象內(nèi)在規(guī)律性問題,拓展供電服務(wù)領(lǐng)域措施和更大的提升空間。
(2)對供電服務(wù)管理的歸類統(tǒng)計(jì)和分析,可以達(dá)到過程清晰,由整體、局部到個(gè)性離散元素之間邏輯關(guān)系和關(guān)聯(lián)鏈接實(shí)現(xiàn)了閉環(huán),便于發(fā)現(xiàn)問題,從而改進(jìn)供電服務(wù)管理的統(tǒng)計(jì)方法和分析思路。
(3)在供電服務(wù)管理中,能把影響供電服務(wù)指標(biāo)變化的因素,以及諸多因素影響的程度,進(jìn)行量化和篩選出來,有效的解決了投訴事件分析的盲目性和無序性,增強(qiáng)了投訴事件分析和管理流程的針對性、目的性和規(guī)律性,提高了精細(xì)化管理水平和工作效率。
(4)把營銷服務(wù)活動(dòng)過程中,具有規(guī)律性和關(guān)聯(lián)性的諸多離散因素及物理現(xiàn)象,以及過程化的實(shí)踐控制流程,建立數(shù)據(jù)分析的邏輯鏈接,進(jìn)行分類歸納和運(yùn)算分析,展現(xiàn)不同的管控對象所需要的應(yīng)用界面、過程管控以及個(gè)性需求。
2.2 客戶信息服務(wù)平臺(tái)
(1)基于互聯(lián)網(wǎng)+模式與計(jì)算機(jī)網(wǎng)絡(luò)通信規(guī)約,將GIS地理系統(tǒng)為基本內(nèi)核,實(shí)時(shí)進(jìn)行導(dǎo)航鏈接,運(yùn)用多媒體功能界面,在計(jì)算機(jī)終端和手機(jī)端加載運(yùn)行。
(2)建立一個(gè)個(gè)不同數(shù)據(jù)結(jié)構(gòu)的模型,設(shè)計(jì)若干程序模塊和接口,實(shí)現(xiàn)內(nèi)置固化和跟蹤嵌入的方式,實(shí)時(shí)數(shù)據(jù)鏈接相關(guān)功能模塊,在不同的支撐界面進(jìn)行靈活交互。
(3)鑒于信息安全管控要求,在確保電力網(wǎng)物理隔離和邏輯隔離滿足安全運(yùn)行的情況下,在設(shè)計(jì)入口時(shí)設(shè)置唯一身份驗(yàn)證和電子鑰匙,有條件的開放調(diào)度、生產(chǎn)和營銷系統(tǒng)數(shù)據(jù)接口,防止發(fā)生數(shù)據(jù)破壞和病毒侵害。
2.3 系統(tǒng)設(shè)計(jì)構(gòu)架圖
如圖1、2、3所示。
3 系統(tǒng)功能及性價(jià)比
3.1 實(shí)現(xiàn)功能
(1)該系統(tǒng)實(shí)現(xiàn)跨專業(yè)海量的信息資源共享,系統(tǒng)公共管理和專業(yè)個(gè)性的管理,實(shí)現(xiàn)專業(yè)融合、互動(dòng)和協(xié)同,可滿足各級(jí)供電公司和不同管理層級(jí)的人員管理需求。
(2)該系統(tǒng)可實(shí)現(xiàn)實(shí)時(shí)的在線研判、指揮和分析,實(shí)現(xiàn)各層級(jí)供電服務(wù)在線實(shí)時(shí)跟蹤管控,提升了工作時(shí)效性、針對性和真實(shí)性。
(3)開放式的用電信息服務(wù)突破傳統(tǒng)服務(wù)技術(shù)瓶頸,建立了客戶與供公司自由、方便、快捷的服務(wù)通道,對客戶訴求和業(yè)務(wù)辦理實(shí)現(xiàn)在時(shí)間和空間上的即時(shí)響應(yīng)和一對一服務(wù)。
(4)該系統(tǒng)開發(fā)使用可實(shí)現(xiàn)供電公司各種系統(tǒng)資源的縱橫協(xié)同和拓展延伸,實(shí)現(xiàn)內(nèi)部資源有效應(yīng)用,最大限度的發(fā)揮各系統(tǒng)管理效益和經(jīng)濟(jì)效益,資源高效利用提升了企業(yè)資產(chǎn)良性運(yùn)行成效。
(5)該系統(tǒng)應(yīng)用可提高工作效率,減輕和降低了人員繁重和重復(fù)的工作量,解放了一線人員勞動(dòng)資源。
3.2 性價(jià)比分析
3.2.1 軟硬件投資
一次性投資該系統(tǒng)的開發(fā)費(fèi)用較低,基本上是用于已有的各類系統(tǒng)的接口技術(shù)處理,實(shí)現(xiàn)諸多系統(tǒng)和平臺(tái)之間的鏈接,該系統(tǒng)軟件運(yùn)維成本較低,除了已有的各類系統(tǒng)自身的運(yùn)維費(fèi)用外,該系統(tǒng)只需解決接口費(fèi)用即可。
主系統(tǒng)需配置較高標(biāo)準(zhǔn)的新設(shè)備,各級(jí)工作站現(xiàn)按照統(tǒng)一標(biāo)準(zhǔn)配置計(jì)算機(jī)和交換機(jī)等設(shè)備,即可滿足使用。建議各級(jí)供電服務(wù)指揮中心建設(shè)不同規(guī)格的大屏幕監(jiān)控工作室。
3.2.2 應(yīng)用效益分析
(1)該系統(tǒng)開發(fā)后,實(shí)現(xiàn)了全省供電系統(tǒng)技術(shù)服務(wù)資源的整合高效利用,精細(xì)了管控過程和環(huán)節(jié),評價(jià)客觀真實(shí),公司的管理效益十分顯著。
很多設(shè)計(jì)師從來不看數(shù)據(jù),要么是因?yàn)闆]有數(shù)據(jù)可看,要么是根本不想看,但是也一樣把設(shè)計(jì)做的很好?。≡O(shè)計(jì)本來就是有感性的一面,為什么非得要和數(shù)據(jù)扯上關(guān)系呢?
我們不妨先看看設(shè)計(jì)的本質(zhì)是什么。設(shè)計(jì)不同于純粹的藝術(shù),藝術(shù)源于藝術(shù)家對現(xiàn)實(shí)的觀察和思考,以及對這種觀察和思考的自我表達(dá);設(shè)計(jì)天生就是為別人在做事情,縱然同樣需要觀察和思考,但是這種觀察和思考不是為了表現(xiàn)設(shè)計(jì)師的自我,而是為了更好地服務(wù)于某個(gè)用戶群,因而設(shè)計(jì)師了解用戶就變得非常重要。尤其是要了解用戶的目標(biāo)、行為、態(tài)度等相關(guān)的情況,我們這里說的數(shù)據(jù)其實(shí)也就是對用戶的目標(biāo)、行為、態(tài)度等情況的量化,因此,通過對這些數(shù)據(jù)的分析,我們可以更好地挖掘用戶的需求,進(jìn)而為用戶提供更好地體驗(yàn)。
簡單點(diǎn)說,設(shè)計(jì)是服務(wù)于用戶的,了解用戶才能更好地做設(shè)計(jì),數(shù)據(jù)是了解用戶的一種途徑。
2、數(shù)據(jù)在項(xiàng)目中的作用有哪些?
要了解這個(gè)作用,我們先回到設(shè)計(jì)師看數(shù)據(jù)的主要場景,總結(jié)起來無外乎兩類:
一個(gè)是因?yàn)轫?xiàng)目的需求,通過數(shù)據(jù)的論證,讓設(shè)計(jì)走得更從容,有理有據(jù),而不是設(shè)計(jì)師自己的YY;
另外一個(gè)是日常監(jiān)測的需求,自己做的產(chǎn)品,總要知道大概有多少人在用,使用的情況如何,用戶的行為和預(yù)期是否一致。也就是說要了解你的設(shè)計(jì)被使用的情況,否則你怎么知道設(shè)計(jì)的好不好,是不是達(dá)到了設(shè)計(jì)目標(biāo),是不是真的幫助用戶解決了問題。
先來分析下項(xiàng)目中看數(shù)據(jù)的場景。幾乎整個(gè)設(shè)計(jì)的過程都可能會(huì)用到數(shù)據(jù),概括起來可以把這個(gè)過程切分成三部分:
第一部分:設(shè)計(jì)前數(shù)據(jù)幫你發(fā)現(xiàn)問題
所有設(shè)計(jì)開始之前的研究和分析,都是為了更明確用戶的需求,明確為什么要做這個(gè)設(shè)計(jì)?從業(yè)務(wù)的角度來看,這個(gè)產(chǎn)品對公司有何價(jià)值,此次設(shè)計(jì)要達(dá)到什么目的;從用戶的角度來看,這個(gè)產(chǎn)品對用戶有何價(jià)值,此次設(shè)計(jì)要為用戶解決什么問題;在了解業(yè)務(wù)訴求和用戶訴求的過程中,我們難免要用到數(shù)據(jù),這個(gè)階段,數(shù)據(jù)的作用就是為了“發(fā)現(xiàn)問題”,看看設(shè)計(jì)可以解決什么問題,從而更佳明確設(shè)計(jì)的目標(biāo)。
當(dāng)然具體的工作中,多數(shù)設(shè)計(jì)師都比較糾結(jié),既要考慮業(yè)務(wù)訴求,又要考慮用戶訴求,如果這兩者不能完全匹配的時(shí)候,我們該咋辦,是兩者的相加嗎?還是我們就只考慮用戶訴求,對業(yè)務(wù)訴求看看就行了。我個(gè)人的理解是,現(xiàn)實(shí)工作中我們都不是在追求最完美的設(shè)計(jì),更多的是在做平衡,如果是一個(gè)用戶型的產(chǎn)品,比如偏向于為用戶提供某個(gè)功能的平臺(tái),本身就是完全從用戶的角度出發(fā),通過為用戶提供功能幫助用戶解決問題的,應(yīng)該向用戶訴求靠攏多一些;如果是一個(gè)商業(yè)型的產(chǎn)品,比如偏向于為用戶提供某些內(nèi)容的平臺(tái),那么在為用戶提供主動(dòng)查找的入口的同時(shí),可以適度的向著業(yè)務(wù)發(fā)展需求傾斜,做適度的業(yè)務(wù)層面的引導(dǎo);當(dāng)然這個(gè)也不是絕對的,往往同一個(gè)平臺(tái),同一個(gè)產(chǎn)品,在不同的發(fā)展階段也有不同的需求,如果是一個(gè)全新的產(chǎn)品,業(yè)務(wù)的生存就變得格外重要,這個(gè)時(shí)候設(shè)計(jì)應(yīng)該多一些考慮業(yè)務(wù)訴求,先幫助業(yè)務(wù)生存,否則,這個(gè)產(chǎn)品都要掛了,還怎么為用戶提供服務(wù)呢?
當(dāng)然,好的設(shè)計(jì)師總是能在業(yè)務(wù)和用戶之間找到巧妙的平衡,找到二者的交集,舉個(gè)例子,假如這個(gè)產(chǎn)品這個(gè)階段就是要做用戶規(guī)模,而用戶訴求是享受個(gè)性化的服務(wù),看似完全不關(guān)的兩個(gè)訴求,實(shí)際上我們完全可以通過更好的個(gè)性化服務(wù)提升用戶滿意度,獲得好的用戶口碑,再間接地借助用戶口碑提升產(chǎn)品的用戶規(guī)模,這二者之間并不是完全的不相干,更多的時(shí)候看能否找到他們的關(guān)聯(lián)性,抓住階段性的設(shè)計(jì)目標(biāo)。
通過一個(gè)具體的例子看看如何利用數(shù)據(jù)來發(fā)現(xiàn)問題?數(shù)據(jù)代表的是用戶的目標(biāo)、行為和態(tài)度,但是單獨(dú)看一個(gè)數(shù)字是沒辦法發(fā)現(xiàn)問題的,數(shù)據(jù)的對比是最簡單有效地手段。我們知道交易關(guān)系買家所產(chǎn)生的交易對1688網(wǎng)站有著非常重要的意義,我們想提升交易關(guān)系型買家的交易體驗(yàn),但是不知道從何入手,因此做了大量的數(shù)據(jù)分析。交易關(guān)系買家是通過什么方式找到老賣家?不同路徑的轉(zhuǎn)化率如何?不同用戶查找方式與轉(zhuǎn)化率有什么差異?
首先,通過用戶群的細(xì)分,我們發(fā)現(xiàn),交易關(guān)系買家通過搜索支付訂單轉(zhuǎn)化率是搜索整體支付訂單轉(zhuǎn)化率的2倍。因此,在搜索結(jié)果中增加老買家標(biāo)簽,方便找到老賣家。
此外,我們還發(fā)現(xiàn),普通會(huì)員、1-2星會(huì)員等級(jí),是提升交易關(guān)系交易的關(guān)鍵用戶。通過以上的數(shù)據(jù)分析,我們找到了目前主要的一些問題,圍繞著這些問題,后續(xù)做了優(yōu)化方案。
第二部分:設(shè)計(jì)中數(shù)據(jù)幫你判斷思路
因?yàn)樵O(shè)計(jì)師的個(gè)人經(jīng)驗(yàn)不同,創(chuàng)造性思維不同,因此不同的設(shè)計(jì)師面對同一個(gè)問題,解決方案也很可能差別較大,即便是同一個(gè)設(shè)計(jì)師也會(huì)想到不同的解決方案,到底哪個(gè)方案更合適,有些情況下數(shù)據(jù)可以給你參考意見,為你提供“判斷思路”,協(xié)助你做決策;條條大路通羅馬,但是哪一條路才是當(dāng)前最合適的呢?
通過一個(gè)具體的例子看看如何利用數(shù)據(jù)來判斷思路?有一個(gè)批發(fā)類的電商網(wǎng)站(1688.com)的頻道首頁(ye.1688.com),我們發(fā)現(xiàn)用戶的轉(zhuǎn)化率很低,就去研究了數(shù)據(jù),然后結(jié)合了對典型用戶做的用戶訪談的結(jié)論,最后發(fā)現(xiàn)轉(zhuǎn)化率底的原因其實(shí)很簡單,這個(gè)頻道的首頁入口主要是來源于整個(gè)網(wǎng)站的首頁,而整個(gè)網(wǎng)站的首頁是一個(gè)全行業(yè)品類的頁面,用戶如果是女裝行業(yè)的買家,她從一個(gè)全品類的首頁點(diǎn)擊一個(gè)鏈接進(jìn)入另一個(gè)全品類的頁面,再艱難的找到女裝這個(gè)類目,再點(diǎn)擊進(jìn)入List頁面查看商品,這個(gè)路徑是非常深的,那么怎么解決這個(gè)問題呢?那就是要避免做女裝的用戶從網(wǎng)站首頁進(jìn)入這個(gè)頻道之后還要再次選擇女裝類目,才能看到女裝的商品!
解決這個(gè)問題的思路有哪些?可以在網(wǎng)站首頁增加入口,讓用戶直接點(diǎn)擊女裝類目進(jìn)入頻道首頁,給用戶展示女裝商品;可以在用戶進(jìn)入頻道首頁之后,根據(jù)行業(yè)偏好的個(gè)性化數(shù)據(jù)來推薦商品,推薦的不準(zhǔn)確,用戶也可以去定制;到底哪個(gè)更靠譜?兩個(gè)思路各有利弊,鑒于前一個(gè)思路需要有外部依賴,要改動(dòng)網(wǎng)站首頁,所以我們內(nèi)心都很期望后一個(gè)思路能跑通,但是怎么知道這個(gè)思路行不行?首先我們需要知道行業(yè)的個(gè)性化推薦能覆蓋多大的人群,又有多少的人愿意去定制行業(yè)偏好?
對于普通的網(wǎng)站來說這個(gè)可能是一個(gè)不夠明確的問題,但是1688.com是一個(gè)會(huì)員用戶早就過億的B類電商網(wǎng)站,有著如此龐大的用戶規(guī)模,較高的用戶覆蓋率,這就意味著對用戶行為數(shù)據(jù)的積累,再者B類的用戶有一個(gè)顯著地特征就是在一個(gè)較長的時(shí)間里,行業(yè)的偏好相對比較穩(wěn)定,如果是一個(gè)主營女裝的買家,那么她的偏好一般會(huì)以女裝為主,不會(huì)超出服裝的范圍,最多會(huì)有少量的服裝周邊配套的采購。
如上圖,通過行業(yè)偏好的個(gè)性化算法,我們追蹤了一段時(shí)間來訪這個(gè)頻道首頁(ye.1688.com)的用戶數(shù)據(jù),我們發(fā)現(xiàn)大約2/3的用戶是有著非常明確的行業(yè)偏好的,那么這基本可以斷定做行業(yè)偏好的個(gè)性化推薦是靠譜的!但是剩下的1/3用戶愿意去定制行業(yè)偏好嗎?我們當(dāng)時(shí)因?yàn)闀r(shí)間原因,無法直接從這1/3無明確偏好的用戶中去判斷他們是否愿意定制偏好,但是通過整個(gè)用戶群的問卷抽樣調(diào)查發(fā)現(xiàn),大約3成的用戶表示定制行業(yè)偏好是很好的服務(wù),基于這些情況,我們判定基于行業(yè)偏好的個(gè)性化推薦能夠解決絕大部分用戶的行業(yè)偏好問題,提升了內(nèi)容的相關(guān)性。這個(gè)方案最終上線后,實(shí)際上有大約10%的人真正找到定制入口并且產(chǎn)生了定制行為,70%的人不用定制,實(shí)現(xiàn)了默認(rèn)的精準(zhǔn)推薦。
第三部分:設(shè)計(jì)后數(shù)據(jù)幫你驗(yàn)證方案
我們的設(shè)計(jì)方案到底做的好不好呢?衡量標(biāo)準(zhǔn)就是看設(shè)計(jì)方案是否能夠達(dá)成設(shè)計(jì)目標(biāo)?這也需要數(shù)據(jù)來量化,通常會(huì)用GSM的模型來支撐設(shè)計(jì)的驗(yàn)證。G(Goal)設(shè)計(jì)目標(biāo)、S(Signal)現(xiàn)象信號(hào)、M(Metric)衡量指標(biāo),所謂的設(shè)計(jì)目標(biāo),就是要確定設(shè)計(jì)要達(dá)成什么結(jié)果,要解決什么問題;衡量指標(biāo),我們不能憑空猜想,必須建立在設(shè)計(jì)目標(biāo)的基礎(chǔ)上,先假設(shè)設(shè)計(jì)目標(biāo)會(huì)實(shí)現(xiàn),那么會(huì)出現(xiàn)什么現(xiàn)象或信號(hào)呢?列舉出所有的現(xiàn)象或信號(hào),選擇我們可以監(jiān)控的到的,然后對這個(gè)現(xiàn)象或信號(hào)產(chǎn)品進(jìn)行量化,自然就得到了衡量指標(biāo),但是指標(biāo)的波動(dòng)幅度往往要依賴經(jīng)驗(yàn)來定。
比如說,某個(gè)產(chǎn)品的設(shè)計(jì)目標(biāo)是通過設(shè)計(jì)的引導(dǎo),讓更多的買家產(chǎn)生購買,想象一下,如果設(shè)計(jì)目標(biāo)實(shí)現(xiàn)了,會(huì)有什么現(xiàn)象呢?可能會(huì)有更多的人有購買意愿,看了商品詳情頁,點(diǎn)擊了購買按鈕等等,最終也產(chǎn)生了購買,那么,衡量指標(biāo)是哪個(gè)?設(shè)計(jì)只是改變了商品信息的呈現(xiàn)方式,并不能改變商品本身的質(zhì)量或背后的服務(wù),所以我們應(yīng)該重點(diǎn)考察設(shè)計(jì)是否強(qiáng)化了引導(dǎo),提升了購買意愿,是否激發(fā)了用戶進(jìn)一步了解的行為,主要是指瀏覽行為,最典型的就是到達(dá)了商品列表頁或者商品詳情頁等,量化的結(jié)果就是看又進(jìn)一步行為的用戶的比例;
通過一個(gè)具體的例子看看如何利用數(shù)據(jù)來驗(yàn)證你的設(shè)計(jì)方案是否達(dá)成設(shè)計(jì)目標(biāo)。曾經(jīng)有一個(gè)找產(chǎn)地的功能模塊,我們在設(shè)計(jì)前進(jìn)行了調(diào)研,用戶告訴我們他們需要找產(chǎn)地,而且比較習(xí)慣于用地圖來找產(chǎn)地,我們欣喜若狂,照著這個(gè)方向做了個(gè)產(chǎn)地直達(dá)的樓層,我們堅(jiān)信用戶告訴我們的肯定是對的!但是這樣的設(shè)計(jì)真的能達(dá)到幫助用戶高效找產(chǎn)地的需求嗎?來看下面的數(shù)據(jù)分析。
用戶的目標(biāo)不是要找產(chǎn)地嗎?還告訴我們用地圖找產(chǎn)地很符合他們的習(xí)慣呢?為什么上線后,用戶卻不怎么使用這個(gè)版塊???我看到這個(gè)數(shù)據(jù)非常的意外,一時(shí)之間根本摸不著頭腦,后來再去看了看這個(gè)板塊的熱力圖,一下子恍然大悟。通過數(shù)據(jù)分析得出,地圖縱然符合用戶習(xí)慣,但是才這么狹小的地圖上進(jìn)行如此復(fù)雜的操作,其效率是非常底下的,因此將地圖找產(chǎn)地的功能保留下來,只是不作為默認(rèn)的方式,采用了按照熱門的、區(qū)域的、附近的、可搜索的、地圖的方式綜合承載,最后取得了較好的效果!
3、如何利用數(shù)據(jù)做日常監(jiān)控?
作為一個(gè)設(shè)計(jì)師,你的作品上線后,有多少人用?這些用戶是誰?有什么特征?用戶具體是怎么在使用你的產(chǎn)品的?你的設(shè)計(jì)是否還有優(yōu)化的空間?如何才能為用戶打造更好的使用體驗(yàn)?怎么才能知道這些數(shù)據(jù)好不好,有沒有問題呢?主要是靠比較、靠經(jīng)驗(yàn),靠對這個(gè)產(chǎn)品長期跟進(jìn)產(chǎn)生的直覺,只有在對這個(gè)產(chǎn)品非常熟悉的前提下,你才有可能對數(shù)據(jù)的變化給予比較靠譜的解讀。
日常監(jiān)控中用于發(fā)現(xiàn)問題的主要手段就是做數(shù)據(jù)的對比,但是如何具體的作對比呢?主要有三種最常用的最簡單的對比方式:a、橫向比較,和類似的產(chǎn)品去比較,看相對的狀況,進(jìn)而推測出自身是否存在問題;b、縱向比較,和自己的過去比較,看看從歷史的發(fā)展規(guī)律中是否能得到某些啟發(fā),主要是看自身的變化趨勢;c、用戶細(xì)分,這個(gè)就是把用戶按照不同的分析需要,拆分來之后來看數(shù)據(jù),看看各個(gè)群體之間的差異在哪里,有沒有一部分用戶和其他用戶表現(xiàn)出不同的行為,進(jìn)而找到問題所在。當(dāng)然除了這三種常用的對比之外,我們還可以做一些配套的定性研究,進(jìn)而把問題搞得更透徹。一些統(tǒng)計(jì)學(xué)的工具有時(shí)候也能起到作用,比如說用SPSS做數(shù)據(jù)的因子分析、聚類分析等等,也可以有一些意想不到的收獲。
關(guān)鍵詞:系統(tǒng)設(shè)計(jì);信息分析;Oracle數(shù)據(jù)庫;數(shù)據(jù)結(jié)構(gòu);GIS
中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2010)08-1800-04
The System Design of Information Analysis Database for Changqing Oilfield
LI Juan, GUO Kang-liang, HE Zhen-ming, TANG Jun, YAN Ke-wei
(Department of Geosciences, Yangtze University, Jingzhou 434023, China)
Abstract: Changqing Oilfield information analysis database system using ORACLE database, GIS (geographic information system) technology on the original field information storage, graphical management, and through mathematical analysis to accomplish the production information analysis, obtained laws to assist in the future the work of decision making. Development through information analysis system will make that field information management more scientific and convenient.
Key words: system design; information analysis; Oracle databases; data structures; GIS
隨著當(dāng)今計(jì)算機(jī)數(shù)據(jù)庫和數(shù)據(jù)倉庫,GIS等技術(shù)的發(fā)展,利用大量的、全面的生產(chǎn)歷史數(shù)據(jù),將其存儲(chǔ)在數(shù)據(jù)(倉)庫中,進(jìn)行新數(shù)據(jù)的錄入、歷史數(shù)據(jù)的分類提取。然后借助相關(guān)數(shù)學(xué)方法對生產(chǎn)信息進(jìn)行科學(xué)的數(shù)據(jù)分析,進(jìn)而總結(jié)規(guī)律。GIS圖形化管理工具的運(yùn)用也能幫助直觀、便捷的處理各類信息。這些先進(jìn)的技術(shù)必將給油田的發(fā)展帶來二次的飛越。油田信息化將大大提升油田生產(chǎn)、管理水平,為油田生產(chǎn)發(fā)揮巨大的效益,成為公認(rèn)的增強(qiáng)企業(yè)競爭力的有效途徑。
1 系統(tǒng)需求分析
1.1 數(shù)據(jù)管理需求
油田信息化建設(shè)是改變傳統(tǒng)的油田生產(chǎn)經(jīng)營模式,以一種全新的數(shù)字化作業(yè)方式代替?zhèn)鹘y(tǒng)的手工或半手工的工作方式。油田的管理首先要對油田的各類海量信息數(shù)據(jù)進(jìn)行管理。數(shù)據(jù)是油田的資產(chǎn)和寶貴的財(cái)富,但由于以前是人工管理,現(xiàn)在存在了資料的保存介質(zhì)多樣、數(shù)據(jù)格式多樣、數(shù)據(jù)冗余、數(shù)據(jù)管理繁瑣、數(shù)據(jù)應(yīng)用不便、不能共享等各種問題。系統(tǒng)將以數(shù)據(jù)庫技術(shù),地理空間信息為基礎(chǔ),直觀合理、科學(xué)便捷的實(shí)現(xiàn)油田地質(zhì)研究、數(shù)據(jù)管理、自動(dòng)化監(jiān)控、經(jīng)營管理、部門管理等。
1.2 生產(chǎn)需求
長慶油田屬于低滲透砂巖氣藏,這類氣藏具有孔隙度低、滲透率低,含水飽和度高,氣水關(guān)系負(fù)雜、非均質(zhì)性強(qiáng)、氣體流動(dòng)啟動(dòng)壓力高、單井產(chǎn)量低等特點(diǎn),壓裂是這類低滲透砂巖氣藏開發(fā)的主要手段。只有搞好氣井的壓裂,使其發(fā)揮最大的經(jīng)濟(jì)效益,才能真正提高油氣田的產(chǎn)量。因此做好壓裂前各項(xiàng)技術(shù)的準(zhǔn)備,如選井選層及綜合地質(zhì)研究,為優(yōu)化施工設(shè)計(jì)提供地質(zhì)依據(jù)。壓裂以后做好壓裂效果評價(jià),正確科學(xué)的對壓裂效果的各項(xiàng)數(shù)據(jù)進(jìn)行分析,從而選擇最佳的壓裂施工方案[1]。系統(tǒng)可以將油井的復(fù)雜性整體客觀地展示給管理者,用戶可以把復(fù)雜的壓裂數(shù)據(jù)和地質(zhì)情況轉(zhuǎn)換成直觀的分析曲線,可簡單便捷的確定分析油藏,直接設(shè)計(jì)井位和壓裂開發(fā)方案,可以實(shí)現(xiàn)桌面化的油田研究、管理、指揮和決策,能夠獲得不同思路的建模和模擬結(jié)果,從而達(dá)到降低風(fēng)險(xiǎn),優(yōu)化決策的效果[2]。
2 系統(tǒng)體系結(jié)構(gòu)
計(jì)算機(jī)應(yīng)用結(jié)構(gòu)分為:Client/ Server(客戶機(jī)/服務(wù)器)結(jié)構(gòu)、Browser/Server(瀏覽器/服務(wù)器)結(jié)構(gòu)。
2.1 Client/Server模式
C/S模式是基于網(wǎng)絡(luò)技術(shù)發(fā)展起來的一種新型體系結(jié)構(gòu)的信息處理模式,具有較強(qiáng)的信息共享能力。這種結(jié)構(gòu)的配置較為靈活,每個(gè)用戶具有較強(qiáng)的獨(dú)立性。但需要在每一個(gè)Client端安裝特定的應(yīng)用程序,限制了Client端的靈活性,而且存在Client端跨多平臺(tái)時(shí)不靈活的問題,因此這種結(jié)構(gòu)具有一定的局限性。C/S網(wǎng)絡(luò)運(yùn)行模式操作復(fù)雜,對系統(tǒng)維護(hù)人員要求高。這樣對于一般的部門往往會(huì)出現(xiàn)因?yàn)楣芾砣藛T的維護(hù)不當(dāng)而使系統(tǒng)出錯(cuò)甚至使系統(tǒng)崩潰。另外C/S方式對網(wǎng)絡(luò)要求比較高,一般適用于局域網(wǎng)內(nèi)部使用。
2.2 Browser/Server模式
B/S結(jié)構(gòu)擴(kuò)展了客戶機(jī)/服務(wù)器的概念,使開發(fā)者只需將注意力集中到Web服務(wù)器端后臺(tái)應(yīng)用的開發(fā),省去了客戶端前臺(tái)交互界面軟件的開發(fā),上網(wǎng)用戶使用通用的多媒體瀏覽器(如IE)就可進(jìn)行信息訪問和交流,數(shù)據(jù)操作和程序運(yùn)行都在服務(wù)器中完成,實(shí)現(xiàn)客戶端的零安裝和零維護(hù)。這不僅可節(jié)省開發(fā)費(fèi)用和加快開發(fā)進(jìn)度,更重要的是實(shí)現(xiàn)了跨越多平臺(tái)的開發(fā)。由于數(shù)據(jù)訪問是實(shí)時(shí)的,當(dāng)多用戶并發(fā)訪問、傳輸數(shù)據(jù)量較大時(shí),易造成網(wǎng)絡(luò)堵塞,降低訪問速度。
鑒于B/S方式和C/S方式各具優(yōu)缺點(diǎn),系統(tǒng)采用以B/S為主,C/S為輔的網(wǎng)絡(luò)結(jié)構(gòu)模式進(jìn)行系統(tǒng)結(jié)構(gòu)管理(見圖1),為各部門業(yè)務(wù)的開展提供可行的解決方案。對于信息室,由于要負(fù)責(zé)數(shù)據(jù)更新和系統(tǒng)的維護(hù)等工作,涉及大量數(shù)據(jù)的處理,提供C/S模式,以充分利用其具有良好的人/機(jī)交互能力,對圖形數(shù)據(jù)具有很強(qiáng)的處理和編輯能力,對于空間數(shù)據(jù)的存取效率高的特點(diǎn),方便用戶開展管理工作[3]。對于各處室業(yè)務(wù)人員日常辦公,由于辦公地點(diǎn)分布地域廣、工作人員的素質(zhì)差異較大,為其提供B/S模式,通過局域網(wǎng)訪問信息中心。所有日常辦公操作可通過瀏覽器完成,可大大降低對基層人員的計(jì)算機(jī)技術(shù)要求。
3 系統(tǒng)功能設(shè)計(jì)
數(shù)據(jù)庫系統(tǒng)在功能結(jié)構(gòu)上由服務(wù)器、管理平臺(tái)和客戶端三部分組成,管理平臺(tái)和客戶端通過TCP/IP協(xié)議與服務(wù)器相連。服務(wù)器主要用于數(shù)據(jù)庫的存儲(chǔ)、數(shù)據(jù)庫信息調(diào)用的服務(wù)。并選用國際通用的、能提供對大塊數(shù)據(jù)體支持的Oracle數(shù)據(jù)庫產(chǎn)品,能夠很好地滿足分布式網(wǎng)絡(luò)數(shù)據(jù)庫要求。管理平臺(tái)與客戶端是兩個(gè)相對獨(dú)立的部分,都通過內(nèi)部網(wǎng)絡(luò)與服務(wù)器相連,通過軟件平臺(tái)調(diào)用服務(wù)器上數(shù)據(jù)庫的信息。功能模塊的設(shè)計(jì)上,按照功能的不同主要分成了三個(gè)部分:基礎(chǔ)資料的管理部分,圖件數(shù)字化部分,分析決策部分;其中各個(gè)部分又依照具體功能分成了不同的子系統(tǒng)來實(shí)現(xiàn)具體功能。子系統(tǒng)包括數(shù)據(jù)庫管理與顯示子系統(tǒng)、基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)查詢子系統(tǒng)、數(shù)理統(tǒng)計(jì)方法庫管理子系統(tǒng)、壓裂措施選取輔助決策子系統(tǒng)、數(shù)據(jù)接口子系統(tǒng)、生產(chǎn)分析結(jié)果管理子系統(tǒng)、圖件數(shù)字化子系統(tǒng)、專題地質(zhì)圖件繪制子系統(tǒng)等等。
3.1 基礎(chǔ)資料管理部分
主要包括用戶管理、日志管理、系統(tǒng)維護(hù)、基礎(chǔ)應(yīng)用管理、數(shù)據(jù)顯示等功能模塊來負(fù)責(zé)對以往的油田各項(xiàng)信息資料數(shù)據(jù)進(jìn)行存取、錄入、更新以及維護(hù)。這部分主要是借助ORACLE數(shù)據(jù)庫各種功能的來管理和實(shí)現(xiàn),類似一般的數(shù)據(jù)庫管理。
3.2 圖件數(shù)字化部分
主要是采用C/S結(jié)構(gòu),基于地理信息系統(tǒng)(GIS)組件二次開發(fā),圖件數(shù)字化子系統(tǒng)實(shí)現(xiàn)了地圖顯示與瀏覽、圖像導(dǎo)入、圖像校正、空間參照系的設(shè)置、圖形輸入與編輯、常用數(shù)據(jù)接口、圖件排版與輸出等功能。并且聯(lián)同ORACLE查詢功能來實(shí)現(xiàn)圖形與屬性互操作的管理、查詢、修改功能。
3.3 分析決策部分
這部分是整個(gè)系統(tǒng)的關(guān)鍵,建立服務(wù)于壓裂效果評價(jià)與措施選擇的方法庫,為基礎(chǔ)資料的綜合分析和挖掘提供技術(shù)支撐。借助了相關(guān)的數(shù)學(xué)分析方法能夠?qū)Ω黝惿a(chǎn)數(shù)據(jù)進(jìn)行多元回歸分析(線性、非線性)、主成份分析、因子分析等方法綜合研究。其中運(yùn)用了神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等技術(shù)對于分析油層參數(shù)、措施參數(shù)與措施效果之間的協(xié)同復(fù)雜關(guān)系,為措施效果評價(jià)、措施參數(shù)優(yōu)化提供技術(shù)支撐。
由于壓裂效果與其影響參數(shù)之間大多呈復(fù)雜的非線性關(guān)系,這種關(guān)系難以用傳統(tǒng)的數(shù)學(xué)表達(dá)式來描繪;又由于各因素對壓裂效果的影響程度不同,而且某些因素之間存在交叉影響現(xiàn)象。因而可以用人工神經(jīng)網(wǎng)絡(luò)方法來解決這類高度復(fù)雜的非線性問題。在處理參數(shù)間的復(fù)雜非線性關(guān)系時(shí),利用網(wǎng)絡(luò)上各神經(jīng)元的參數(shù)(即復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu))來表達(dá)知識(shí),而不是用傳統(tǒng)數(shù)學(xué)中的簡單表達(dá)式;通過調(diào)節(jié)網(wǎng)絡(luò)中各節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接系數(shù)(即參數(shù)的權(quán)值大小)來解決參數(shù)存在的重復(fù)和主次現(xiàn)象[4]。
4 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)
4.1 數(shù)據(jù)庫需求分析
數(shù)據(jù)庫是本系統(tǒng)的基礎(chǔ),將實(shí)現(xiàn)系統(tǒng)中各種空間、屬性數(shù)據(jù)的統(tǒng)一管理與維護(hù),支持系統(tǒng)中各項(xiàng)業(yè)務(wù)的正常運(yùn)行??傮w上,本系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)包括基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、分析成果數(shù)據(jù)三大部分?;A(chǔ)數(shù)據(jù)由地理空間數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)、組織機(jī)構(gòu)數(shù)據(jù)、工程基礎(chǔ)數(shù)據(jù)組成;業(yè)務(wù)數(shù)據(jù)主要由長慶石油勘探局井下技術(shù)作業(yè)處生產(chǎn)信息系統(tǒng)中的壓裂、試井、分析生產(chǎn)數(shù)據(jù)構(gòu)成,另外還包括收集整理測井成果數(shù)據(jù)。分析成果數(shù)據(jù)是該系統(tǒng)的核心數(shù)據(jù),通過運(yùn)用本系統(tǒng)提供的分析方法與工具對現(xiàn)有油層數(shù)據(jù)、測井?dāng)?shù)據(jù)、試井?dāng)?shù)據(jù)等評價(jià)分析獲得,是系統(tǒng)進(jìn)行壓裂效果評價(jià)和壓裂方案設(shè)計(jì)的數(shù)據(jù)基礎(chǔ)。
4.2 數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)
系統(tǒng)選用結(jié)構(gòu)化系統(tǒng)開發(fā)方法。這種方法的突出優(yōu)點(diǎn)就是它強(qiáng)調(diào)系統(tǒng)開發(fā)過程的整體性和全局性,強(qiáng)調(diào)在整體優(yōu)化的前提下來考慮具體的分析設(shè)計(jì)問題,即自頂向下的觀點(diǎn),是一種目前廣泛被采用的系統(tǒng)開發(fā)方法[5]。數(shù)據(jù)庫是本系統(tǒng)的基礎(chǔ),將實(shí)現(xiàn)系統(tǒng)中各種空間、屬性數(shù)據(jù)的統(tǒng)一管理與維護(hù),支持系統(tǒng)中各項(xiàng)業(yè)務(wù)的正常運(yùn)行。
從數(shù)據(jù)的形式來說,本系統(tǒng)數(shù)據(jù)庫中既包含傳統(tǒng)一維表格數(shù)據(jù)又包括新采集的二維圖形數(shù)據(jù)。為了便于二者的管理和維護(hù),需要設(shè)計(jì)統(tǒng)一的數(shù)據(jù)模型將二者有機(jī)的組織在一起統(tǒng)一管理、統(tǒng)一維護(hù)[4]。利用國產(chǎn)GIS軟件MapGIS空間數(shù)據(jù)引擎SDE提供的強(qiáng)大功能,可實(shí)現(xiàn)圖形和屬性數(shù)據(jù)在商業(yè)數(shù)據(jù)庫軟件ORACLE中的統(tǒng)一存儲(chǔ)和管理,同時(shí)也保證了本系統(tǒng)數(shù)據(jù)庫與井下處生產(chǎn)信息系統(tǒng)數(shù)據(jù)庫的兼容性。從數(shù)據(jù)的來源與用途來看,本系統(tǒng)數(shù)據(jù)可分為基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、分析成果數(shù)據(jù)三大部分,因此,邏輯上劃分為基礎(chǔ)數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫、分析成果數(shù)據(jù)庫三個(gè)子庫。
1)基礎(chǔ)數(shù)據(jù)
基礎(chǔ)數(shù)據(jù)包括維護(hù)系統(tǒng)和系統(tǒng)業(yè)務(wù)運(yùn)行的各項(xiàng)基礎(chǔ)數(shù)據(jù),包括工程基礎(chǔ)數(shù)據(jù)、地理空間數(shù)據(jù)、組織機(jī)構(gòu)基礎(chǔ)數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)等。
2)業(yè)務(wù)數(shù)據(jù)
業(yè)務(wù)數(shù)據(jù)是井下處生產(chǎn)過程中所涉及的生產(chǎn)設(shè)計(jì)、生產(chǎn)記錄和生產(chǎn)成果數(shù)據(jù),主要包括壓酸擠數(shù)據(jù)、測試試井?dāng)?shù)據(jù)、生產(chǎn)分析結(jié)果數(shù)據(jù)、測井綜合數(shù)據(jù)等。
3)分析成果數(shù)據(jù)
分析成果數(shù)據(jù)是本系統(tǒng)中用于支持壓裂效果評價(jià)與方案優(yōu)選的數(shù)據(jù)基礎(chǔ),包括評價(jià)分析樣本數(shù)據(jù)、評價(jià)分析因素相關(guān)系數(shù)數(shù)據(jù)、評價(jià)分析方法數(shù)據(jù)、評價(jià)分析成果數(shù)據(jù)。
4.3 數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì)
每一口井的信息種類不盡相同,同時(shí),每一口井的單個(gè)信息可能有多次測量。并且測井信息在不斷的更新中。這就要求數(shù)據(jù)庫有良好的可擴(kuò)充性,在統(tǒng)一了測井信息數(shù)據(jù)格式的基礎(chǔ)上,在ORACLE數(shù)據(jù)庫系統(tǒng)的支持下,采用嵌套表的方法可較好地解決這一問題[6]。另一方面由于數(shù)據(jù)庫中井的數(shù)量龐大。這就要求測井信息數(shù)據(jù)庫有良好的結(jié),達(dá)到盡量提高效率的原則。基于此,設(shè)計(jì)了如圖3所示的數(shù)據(jù)庫表結(jié)構(gòu)形式[7]。
4.4 數(shù)據(jù)信息關(guān)系設(shè)計(jì)
系統(tǒng)采用當(dāng)前應(yīng)用最為廣泛的基于關(guān)系表的存儲(chǔ)方式,并采用星型存儲(chǔ)模式,這種模式可為數(shù)據(jù)倉庫提供優(yōu)越的數(shù)據(jù)檢索和分析功能。在創(chuàng)建數(shù)據(jù)倉庫的過程中,選定的主題為壓裂效果無阻流量,在數(shù)據(jù)倉庫中存在維表和事實(shí)表,兩種表間利用維的ID連接[8]。
5 系統(tǒng)的關(guān)鍵技術(shù)路線
5.1 面向?qū)ο蟮南到y(tǒng)分析和設(shè)計(jì)(OOA&D)方法
系統(tǒng)分析與設(shè)計(jì)將采用面向?qū)ο蟮南到y(tǒng)分析與設(shè)計(jì)(OOA&D)方法,確保系統(tǒng)設(shè)計(jì)與開發(fā)符合軟件工程的規(guī)范,開發(fā)出規(guī)范化的、具有較高可移植性、可靠性的軟件,提高系統(tǒng)開發(fā)的效率。
5.2 采用關(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù)
當(dāng)前地理信息系統(tǒng)(GIS)技術(shù)發(fā)展的最新趨勢是采用關(guān)系數(shù)據(jù)庫或?qū)ο箨P(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù),可以充分利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的數(shù)據(jù)管理功能,利用結(jié)構(gòu)化查詢語言(SQL)對空間與非空間數(shù)據(jù)進(jìn)行操作,同時(shí)可以利用關(guān)系數(shù)據(jù)庫的海量數(shù)據(jù)管理、事務(wù)處理(Transaction)、記錄鎖定、并發(fā)控制、數(shù)據(jù)倉庫等功能,使空間數(shù)據(jù)與非空間數(shù)據(jù)一體化集成。系統(tǒng)將采用關(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù),確??臻g和非空間數(shù)據(jù)的一體化集成。
5.3 全組件式GIS技術(shù)應(yīng)用
GIS融入IT除了將空間數(shù)據(jù)交到關(guān)系數(shù)據(jù)庫中進(jìn)行管理以外,開發(fā)客戶端時(shí),還要考慮使用全組件式的GIS。全組件式GIS軟件將GIS的功能從數(shù)據(jù)輸入、編輯、處理(建立拓?fù)潢P(guān)系)、查詢顯示、分析和制圖輸出全部封裝成組件,可以根據(jù)用戶需要,自由定制操作方式和界面。用戶可以將GIS組件和其他組件放在一起,采用通用的開發(fā)平臺(tái),如Visual Basic、Delphi、Power Builder、C#等,而不再受GIS二次開發(fā)語言限制。從而極大地方便了二次開發(fā),同時(shí)增強(qiáng)了二次開發(fā)的擴(kuò)展能力,使得后續(xù)應(yīng)用系統(tǒng)的開發(fā)與基礎(chǔ)數(shù)據(jù)的銜接變得方便簡單[7]。
5.4 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘能自動(dòng)在大型數(shù)據(jù)庫里面找尋潛在的預(yù)測信息。傳統(tǒng)上需要很多專家來進(jìn)行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。數(shù)據(jù)挖掘工具可以根據(jù)過去大量的數(shù)據(jù)找出其中最有可能對將來的發(fā)展最有價(jià)值的信息,并辨認(rèn)出那些隱藏著的模式。數(shù)據(jù)挖掘技術(shù)可以讓現(xiàn)有的軟件和硬件更加自動(dòng)化,并且可以在升級(jí)的或者新開發(fā)的平臺(tái)上執(zhí)行[9]。
5.5 神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用
人工神經(jīng)網(wǎng)絡(luò)就是模擬人思維的直觀性思維:1)信息是通過神經(jīng)元上的興奮模式分布儲(chǔ)在網(wǎng)絡(luò)上;2)信息處理是通過神經(jīng)元之間同時(shí)相互作用的動(dòng)態(tài)過程來完成的。這是一個(gè)非線性動(dòng)力學(xué)系統(tǒng),其特色在于信息的分布式存儲(chǔ)和并行協(xié)同處理。雖然單個(gè)神經(jīng)元的結(jié)構(gòu)極其簡單,功能有限,但大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)所能實(shí)現(xiàn)的行為卻是極其豐富多彩的。神經(jīng)網(wǎng)絡(luò)方法能很好地解決多因素的非線性問題[8]。
6 結(jié)束語
在系統(tǒng)的開發(fā)過程中要具體的考慮到數(shù)據(jù)庫表的各項(xiàng)數(shù)據(jù)內(nèi)容的結(jié)構(gòu),設(shè)置方便開放的數(shù)據(jù)接口,方便系統(tǒng)的二次開發(fā)與維護(hù)。各類數(shù)據(jù)平臺(tái)和軟硬件要更加通用和開放。
參考文獻(xiàn):
[1] 肖昆.低滲透氣藏壓裂效果評價(jià)方法研究[D].成都:西南石油學(xué)院,2003.
[2] 劉擁軍,楊永發(fā),朱春紅.長慶油田測井信息數(shù)據(jù)庫的系統(tǒng)設(shè)計(jì)[J].測井技術(shù),2005,26(3).
[3] 張曉林,侯寶穩(wěn),吳寶江.數(shù)據(jù)庫系統(tǒng)管理與應(yīng)用[M].北京:清華大學(xué)出版社,2007.
[4] 吳亞紅,李秀生.人工神經(jīng)網(wǎng)在壓裂選井及選層中的應(yīng)用[J].石油大學(xué)學(xué)報(bào),2001(25).
[5] 王曉蓮,顧娟,王穎,等.大慶油田測井?dāng)?shù)據(jù)庫系統(tǒng)設(shè)計(jì)[J].油氣田地面工程,2007,26(2).
[6] 袁鵬飛.ORACLE8i數(shù)據(jù)庫高級(jí)應(yīng)用開發(fā)技術(shù)[M].北京:人民郵電出版社,2000.
[7] 張帆.基于.Net 平臺(tái)WebGIS系統(tǒng)的研究與實(shí)現(xiàn)[D].長沙:中南大學(xué),2008.
關(guān)鍵詞:Hadoop 市政設(shè)施監(jiān)控 大數(shù)據(jù)
中圖分類號(hào):TP31 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2016)10(b)-0076-02
Hadoop作為一種有效的大數(shù)據(jù)技術(shù),在數(shù)據(jù)處理和網(wǎng)絡(luò)系統(tǒng)中得到了有效的應(yīng)用,對提高大數(shù)據(jù)分析處理效果具有重要作用。根據(jù)Hadoop技術(shù)的概念及內(nèi)容實(shí)際,掌握Hadoop的體系架構(gòu)特點(diǎn),對于構(gòu)建大數(shù)據(jù)處理系統(tǒng)是十分重要的。結(jié)合市政設(shè)施監(jiān)控系統(tǒng)的數(shù)據(jù)處理需求,應(yīng)用Hadoop構(gòu)建市政設(shè)施監(jiān)控系統(tǒng),對于提高市政設(shè)施監(jiān)控系統(tǒng)的運(yùn)行效果和滿足市政設(shè)施監(jiān)控系統(tǒng)的數(shù)據(jù)處理需要具有重要意義。為此,應(yīng)開展Hadoop大數(shù)據(jù)系統(tǒng)的研究。
1 Hadoop的概念及內(nèi)容
Hadoop是一個(gè)用java語言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。
Hadoop作為一種有效的大數(shù)據(jù)處理技術(shù),其主要優(yōu)點(diǎn)分為4個(gè)方面。
1.1 可擴(kuò)展
Hadoop技術(shù)在實(shí)際應(yīng)用過程中,可以根據(jù)所構(gòu)建系統(tǒng)的需求進(jìn)行必要的擴(kuò)展。具體功能可以在原有大數(shù)據(jù)處理的基礎(chǔ)上進(jìn)行增減,以滿足所構(gòu)建系統(tǒng)的實(shí)際需求為準(zhǔn)。這一功能是Hadoop的主要優(yōu)勢,擴(kuò)大了Hadoop技術(shù)的應(yīng)用范圍。
1.2 經(jīng)濟(jì)
Hadoop技術(shù)在應(yīng)用過程中,整體應(yīng)用成本較低。由于Hadoop具備了較好的可擴(kuò)展性,在系統(tǒng)的構(gòu)建中可以作為基礎(chǔ)技術(shù)進(jìn)行應(yīng)用,在Hadoop基礎(chǔ)上有效接入其他系統(tǒng),避免了系統(tǒng)重建導(dǎo)致的資源浪費(fèi),有效地提高了系統(tǒng)的構(gòu)建效果。
1.3 可靠
Hadoop技術(shù)在多年的應(yīng)用過程中,被證明是一種可靠的大數(shù)據(jù)處理技術(shù)。這種技術(shù)不但可以有效地提高數(shù)據(jù)的處理速度,同時(shí)還能與其他系統(tǒng)進(jìn)行無縫對接,提高信息數(shù)據(jù)的處理能力,滿足系統(tǒng)運(yùn)算和數(shù)據(jù)處理需要。因此,較高的可靠性保證了Hadoop能夠得到有效應(yīng)用。
1.4 高效
Hadoop技術(shù)的突出優(yōu)點(diǎn)是數(shù)據(jù)處理速度較快。其不但可以在較短的時(shí)間內(nèi)加快數(shù)據(jù)處理速度,同時(shí)也會(huì)根據(jù)系統(tǒng)的現(xiàn)實(shí)需求制定個(gè)性化的數(shù)據(jù)處理模式,提高系統(tǒng)的響應(yīng)速度,保證數(shù)據(jù)處理速度能夠達(dá)到預(yù)期目標(biāo),提高數(shù)據(jù)處理的整體效果。
2 Hadoop的體系架構(gòu)
從Hadoop技術(shù)的應(yīng)用來看,通常Hadoop的體系架構(gòu)比較特殊,除了要設(shè)定功能模塊之外,還要使模塊具備一定的接入特性。
具體的功能模塊特點(diǎn)如下。
Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡易的操作和編程接口。
Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng)。
Hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapRedce任務(wù)進(jìn)行運(yùn)行。
ZooKeeper是高效的、可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)。
HBase是一個(gè)分布式文件系統(tǒng),有著高容錯(cuò)性的特點(diǎn)。
MapRedce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。
基于對Hadoop的了解,Hadoop在體系架構(gòu)中用到了多種輔助工具和子系統(tǒng),在整體體系結(jié)構(gòu)上并不復(fù)雜,實(shí)現(xiàn)難度較低,具備了與其他系統(tǒng)有效集成的優(yōu)點(diǎn)。在功能系統(tǒng)構(gòu)建過程中,基本能夠滿足實(shí)際需求,對降低系統(tǒng)構(gòu)建難度具有重要作用。
同時(shí),Hadoop在體系架構(gòu)中采取了分層架構(gòu)的方式,這種模式不但具有一定的突出性,同時(shí)還能夠解決功能系統(tǒng)構(gòu)建過程中存在的系統(tǒng)接入問題。對降低功能系統(tǒng)的接入難度和提高功能系統(tǒng)的接入效果具有重要作用。因此,利用Hadoop構(gòu)建大數(shù)據(jù)分析系統(tǒng)是重要措施。
除此之外,Hadoop具備了與其他系統(tǒng)對接的優(yōu)勢,可以在系統(tǒng)構(gòu)建過程中,根據(jù)系統(tǒng)的實(shí)際特點(diǎn)和功能需要,構(gòu)建相對應(yīng)的大數(shù)據(jù)處理系統(tǒng),提高系統(tǒng)的數(shù)據(jù)處理能力,保證系統(tǒng)在數(shù)據(jù)處理過程中,能夠在整體有效性上得到全面提升。
3 基于Hadoop的市政設(shè)施監(jiān)控系統(tǒng)的構(gòu)建
基于Hadoop的特點(diǎn)以及市政設(shè)施監(jiān)控系統(tǒng)的構(gòu)建需要,利用Hadoop構(gòu)建市政設(shè)施監(jiān)控系統(tǒng),應(yīng)當(dāng)做好系統(tǒng)的總體設(shè)計(jì)和功能設(shè)定。
在市政設(shè)施監(jiān)控系統(tǒng)構(gòu)建過程中,基于Hadoop的特點(diǎn)和優(yōu)勢,應(yīng)當(dāng)采取典型的系統(tǒng)架構(gòu)模式進(jìn)行系統(tǒng)構(gòu)建,并根據(jù)Hadoop的系統(tǒng)架構(gòu)需要對系統(tǒng)結(jié)構(gòu)M行調(diào)整,使市政設(shè)施監(jiān)控系統(tǒng)在科學(xué)性和合理性上滿足實(shí)際需要,提高系統(tǒng)的構(gòu)建質(zhì)量。
考慮到市政設(shè)施監(jiān)控系統(tǒng)的數(shù)據(jù)處理量較大的特點(diǎn),在應(yīng)用Hadoop技術(shù)之后,應(yīng)當(dāng)根據(jù)Hadoop的算法對市政設(shè)施監(jiān)控系統(tǒng)的數(shù)據(jù)進(jìn)行有效處理,保證市政設(shè)施監(jiān)控系統(tǒng)在數(shù)據(jù)處理速度上能夠達(dá)到預(yù)期目標(biāo),提高數(shù)據(jù)處理質(zhì)量。
在此基礎(chǔ)上,應(yīng)發(fā)揮Hadoop大數(shù)據(jù)處理技術(shù)的優(yōu)勢,根據(jù)市政設(shè)施監(jiān)控的實(shí)際特點(diǎn),設(shè)置數(shù)據(jù)處理功能目標(biāo),指導(dǎo)Hadoop大數(shù)據(jù)處理技術(shù)的應(yīng)用,保證Hadoop大數(shù)據(jù)處理技術(shù)在應(yīng)用過程中能夠提高數(shù)據(jù)處理效果。因此,在具體的系統(tǒng)構(gòu)建中,應(yīng)突出數(shù)據(jù)處理速度目標(biāo)。
在市政設(shè)施監(jiān)控系統(tǒng)中,該系統(tǒng)利用先進(jìn)的視頻監(jiān)控、智能識(shí)別和信息技術(shù)手段,增加可管理空間、時(shí)間和范圍,不斷提升管理廣度、深度和精細(xì)度。整個(gè)系統(tǒng)由信息綜合應(yīng)用平臺(tái)、信號(hào)控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)等組成。
最后,在系統(tǒng)構(gòu)建完成之后,應(yīng)對Hadoop大數(shù)據(jù)技術(shù)構(gòu)建的監(jiān)控系統(tǒng)與其他監(jiān)控系統(tǒng)相對比,重點(diǎn)比對數(shù)據(jù)處理速度和數(shù)據(jù)處理量,總結(jié)Hadoop技術(shù)的優(yōu)勢,為市政監(jiān)控系統(tǒng)的構(gòu)建提供良好的系統(tǒng)支持和技術(shù)支持。
4 結(jié)語
通過該文的分析可知,在市政設(shè)施監(jiān)控系統(tǒng)構(gòu)建過程中,有效地應(yīng)用Hadoop技術(shù),不但可以構(gòu)建完善的大數(shù)據(jù)處理中心,同時(shí)還能解決市政設(shè)施監(jiān)控系統(tǒng)中存在的數(shù)據(jù)處理速度慢和數(shù)據(jù)處理量大的問題。因此,應(yīng)對Hadoop技術(shù)有正確的認(rèn)識(shí),做到正確分析Hadoop的優(yōu)勢和特點(diǎn),并在市政設(shè)施監(jiān)控系統(tǒng)的構(gòu)建中有效應(yīng)用Hadoop技術(shù),提高市政設(shè)施監(jiān)控系統(tǒng)的構(gòu)建效果,滿足市政設(shè)施監(jiān)控系統(tǒng)的構(gòu)建需要。
參考文獻(xiàn)
[1] 廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2011(10):1300-1305.
[2] 何忠育.分布式社會(huì)網(wǎng)絡(luò)分析支撐系統(tǒng)研究與應(yīng)用[D].廣東工業(yè)大學(xué),2011.
【關(guān)鍵詞】 區(qū)域 健康數(shù)據(jù) 檢測 報(bào)警
一、引言
近年來,隨著信息技術(shù)的高速發(fā)展,信息化醫(yī)療服務(wù)的模式成為研究熱點(diǎn),人們利用網(wǎng)絡(luò)資源獲得醫(yī)療服務(wù)及醫(yī)療資訊,不用去醫(yī)院與醫(yī)生面對面會(huì)診也可以達(dá)到看病就診的目的,極大地提高了醫(yī)療衛(wèi)生資源的利用率。目前,已有部分國家將D信息化醫(yī)療服務(wù)投入使用中,并獲得了良好的效果,全世界使用信息化醫(yī)療服務(wù)的人也越來越多[1-2]。隨著互聯(lián)網(wǎng)的普及,尤其是無線網(wǎng)絡(luò)和 4G 技術(shù)的發(fā)展,以及各種計(jì)算機(jī)軟、硬件技術(shù)的日趨完善,信息化醫(yī)療服務(wù)將得到廣泛的應(yīng)用,成為 21 世紀(jì)最有前景的產(chǎn)業(yè)之一。
二、需求與可行性分析
我國老齡化現(xiàn)象愈發(fā)嚴(yán)重。老年人由于機(jī)體功能下降,容易引發(fā)各種慢性或突發(fā)性疾病。針對我國國情,有限的衛(wèi)生資源仍然集中在疾病的治療上。對于老人而言,存在著行動(dòng)難、無陪護(hù)、看病難等諸多客觀問題,任何的醫(yī)療養(yǎng)老機(jī)構(gòu)、人員無法長時(shí)間做到24小時(shí)對所有的老人進(jìn)行實(shí)時(shí)監(jiān)護(hù)并給出相應(yīng)的健康指導(dǎo)意見。為了解決上述問題,面向老人的健康監(jiān)護(hù)系統(tǒng)的研究目標(biāo)為:被監(jiān)測者在社區(qū)的無線網(wǎng)絡(luò)覆蓋范圍之中,可實(shí)時(shí)監(jiān)測老人健康數(shù)據(jù)并將數(shù)據(jù)傳輸?shù)娇刂浦行摹?/p>
檢測數(shù)據(jù)正常則存儲(chǔ)備案,以備日后作統(tǒng)計(jì)分析、預(yù)防;當(dāng)老人突發(fā)狀況,系統(tǒng)采集數(shù)據(jù)異常,區(qū)域控制中心顯示數(shù)據(jù)、發(fā)生地理位置并警報(bào)響起,提示醫(yī)護(hù)人員在第一時(shí)間做出反應(yīng),避免錯(cuò)過最佳處理、救治時(shí)機(jī);同時(shí)控制中心系統(tǒng)自動(dòng)向突發(fā)狀況老人的第一聯(lián)系人手機(jī)推送消息,報(bào)告相關(guān)情況。系統(tǒng)的研發(fā)力促達(dá)到24小時(shí)不間斷的數(shù)據(jù)采集和檢測系統(tǒng),形成個(gè)人―家庭―社區(qū)的初級(jí)醫(yī)療服務(wù)供給體系,真正做到以預(yù)防為主、防治結(jié)合。
研發(fā)過程中所使用的單片機(jī),傳感器等設(shè)備材料價(jià)格低廉耗、費(fèi)資金較少、仿照中國科學(xué)院實(shí)施“海云工程”,并推出低成本的健康服務(wù)[3],保證產(chǎn)品市場化利潤空間。實(shí)施過程中,擬解決軟件與硬件問題,所采用的java+sevlet開發(fā)技術(shù)、嵌入式開發(fā)技術(shù)以及移動(dòng)app開發(fā)技術(shù)均為成熟技術(shù),在技術(shù)上,不存在瓶頸。調(diào)研充分前提下研究方案完全可行。
三、系統(tǒng)的分析與設(shè)計(jì)
3.1系統(tǒng)模塊結(jié)構(gòu)
根據(jù)需求,進(jìn)行分析設(shè)計(jì),劃分模塊如圖1所示[4]。
3.2系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
根據(jù)系統(tǒng)需求、技術(shù)可行性以及現(xiàn)實(shí)情況,設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
3.3主要功能
(1)終端檢測模塊。由醫(yī)學(xué)領(lǐng)域?qū)<抑贫ㄉw征數(shù)據(jù)標(biāo)準(zhǔn),開發(fā)監(jiān)測心率、血氧、體溫等模塊。對設(shè)備佩戴者進(jìn)行實(shí)時(shí)監(jiān)測并將檢測數(shù)據(jù)通過網(wǎng)絡(luò)傳送到數(shù)據(jù)分析處理中心。
(2)數(shù)據(jù)分析處理模塊。接收終端數(shù)據(jù)進(jìn)行分析處理;如果數(shù)據(jù)一切再醫(yī)學(xué)領(lǐng)域?qū)<以O(shè)定的標(biāo)準(zhǔn)范圍之內(nèi)則正常存儲(chǔ)以備分析預(yù)防,如果處在異常狀態(tài)下則根據(jù)設(shè)定數(shù)據(jù)匹配危險(xiǎn)系數(shù)給出信號(hào)。
(3)數(shù)據(jù)推送模塊的功能為當(dāng)數(shù)據(jù)分析處理模塊信號(hào)為高危時(shí)啟動(dòng)數(shù)據(jù)推送功能,將高危人當(dāng)前生理狀態(tài)通過消息或短信的方式傳送給其第一負(fù)責(zé)人。
(4)報(bào)警模塊的功能為當(dāng)數(shù)據(jù)分析處理模塊信號(hào)為非正常狀態(tài)時(shí)給予響鈴等報(bào)警提示。醫(yī)護(hù)人員根據(jù)報(bào)警的具體類型采取相信行動(dòng)、避免錯(cuò)過最佳的援助、救治的時(shí)間。
3.4系統(tǒng)目標(biāo)
首先使得老人在固定區(qū)域內(nèi)可自由活動(dòng)不影響實(shí)時(shí)監(jiān)測生命體征數(shù)據(jù)、理想誤差;其次,當(dāng)數(shù)據(jù)發(fā)生異常報(bào)警時(shí),上位機(jī)軟件顯示出當(dāng)前一個(gè)時(shí)間段各項(xiàng)生命體征各項(xiàng)數(shù)據(jù),并指出報(bào)警地點(diǎn),醫(yī)護(hù)人員可以根據(jù)現(xiàn)實(shí)異常數(shù)據(jù)大致判斷原因并第一時(shí)間趕往現(xiàn)場實(shí)施處理、救治,從根本上解決老人“無人管”或“管得晚”的問題,系統(tǒng)達(dá)到國內(nèi)先進(jìn)水平。
四、總結(jié)
國內(nèi)外面向社區(qū)老人的健康監(jiān)護(hù)研究,局限在有線設(shè)備并將被監(jiān)測者束縛在很小局部范圍內(nèi),限制了實(shí)時(shí)性和使用便捷性,基于Zigbee無線傳感器網(wǎng)絡(luò)的健康監(jiān)護(hù)系統(tǒng)的研究具有研究方向和內(nèi)容的創(chuàng)新性。
參 考 文 獻(xiàn)
[1]饒克勤.我國醫(yī)療衛(wèi)生體制改革與政策思考[J].中國執(zhí)業(yè)藥師,2008,5(12):9-12
[2]劉林森.信息化時(shí)代的信息化醫(yī)療服務(wù)[J].上海信息化,2010,(01):84-87
關(guān)鍵詞:成績數(shù)據(jù)倉庫;OLAP;多維數(shù)據(jù)集;數(shù)據(jù)透視表;數(shù)據(jù)透視圖
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)13-2944-05
The Design and Implementation of OLAP Data Warehouse of Student Score Analysis
HUANG Yu-da1,2,LI Xiang-qian2
(1.College of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China;2. Information and Engineering Department,Zhoukou Vocational and Technical College, Zhoukou 466000, China)
Abstract: In response to the situation that a lot of student achievement data Stored in a transactional database are scattered, inconsistent, and independent,using Sql Server 2008 BI Business Intelligence platform and three-tier modeling approach to build an analysis-oriented student achievement data warehouse.The creating of multidimensional datasets,OLAP analysis ,and OLAP analysis results’showing by means of the pivottable and pivotchart of EXCEL 2007 front tool Provide strong support for Educational administrators in Decision analysis, the forecasting of teaching trend and the formulation of management measures.
Key words: score data warehouse; OLAP; multidimensional datasets; pivottable; pivotchart
目前,無論是與學(xué)生成績直接相關(guān)的教務(wù)管理系統(tǒng)還是與學(xué)生成績間接相關(guān)的學(xué)籍管理系統(tǒng)(存儲(chǔ)學(xué)生基本信息)和人事管理系統(tǒng)(存儲(chǔ)教師基本信息)等都已經(jīng)積累了大量數(shù)據(jù)。但對這些數(shù)據(jù)的使用平時(shí)基本上都限于一些單方面分析且難以被再次利用,不僅缺乏一些相應(yīng)技術(shù)對它們加以綜合分析[1],而且這些系統(tǒng)由于相應(yīng)業(yè)務(wù)不同導(dǎo)致相應(yīng)的平臺(tái)、開發(fā)工具、數(shù)據(jù)庫系統(tǒng)等都不盡相同,可以說互相之間各自為政且缺乏科學(xué)、統(tǒng)一的協(xié)調(diào)和規(guī)劃。然而各院校為提高教學(xué)質(zhì)量,對大量教學(xué)決策信息的需求顯得更為迫切。另外,數(shù)據(jù)倉庫是從歷史和發(fā)展的角度來組織和存儲(chǔ)數(shù)據(jù)[2],是面向主題且為決策分析提供服務(wù),而且學(xué)生成績數(shù)據(jù)也比較符合數(shù)據(jù)倉庫一些特征,如面向主題(成績分析)、相對穩(wěn)定(每學(xué)期一次考試)、隨時(shí)間變化(學(xué)年學(xué)期)等。因此將與學(xué)生成績相關(guān)的一些數(shù)據(jù)庫系統(tǒng)中大量歷史數(shù)據(jù)加以預(yù)
處理后載入數(shù)據(jù)倉庫,可充分利用其中的多維數(shù)據(jù)分析技術(shù)(如OLAP)及數(shù)據(jù)挖掘工具等對倉庫中數(shù)據(jù)加以智能化分析處理,從而更好地為教學(xué)管理者提供決策服務(wù)。
本文采用微軟公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平臺(tái)來構(gòu)建學(xué)生成績倉庫,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平臺(tái)工具來建立BI項(xiàng)目并實(shí)現(xiàn)多維數(shù)據(jù)集的創(chuàng)建、OLAP分析功能。
1成績數(shù)據(jù)倉庫的三層建模
本文采用通用的自頂向下、逐步細(xì)化的倉庫建模方式即三層建模,依次為:概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)、物理模型設(shè)計(jì)[3]。
1.1概念模型設(shè)計(jì)
概念模型設(shè)計(jì)是一種面向全局的、較高抽象層次上的設(shè)計(jì),該階段主要任務(wù)是確定系統(tǒng)中主要主題域及其內(nèi)容[4]??紤]到學(xué)生成績特點(diǎn)及影響因素,該文把學(xué)生成績分析作為主題來建立成績數(shù)據(jù)倉庫,倉庫中包含學(xué)生學(xué)籍信息、課程信息、教師信息、班級(jí)信息、專業(yè)信息、系別信息、學(xué)年學(xué)期信息和學(xué)生成績信息共八個(gè)方面的數(shù)據(jù),將學(xué)生成績作為關(guān)鍵性能指標(biāo)并將除學(xué)生成績信息以外的另外七個(gè)方面的信息作為維度數(shù)據(jù),所有數(shù)據(jù)都分別來自學(xué)生學(xué)籍管理系統(tǒng)、教務(wù)管理系統(tǒng)和人事管理系統(tǒng)。
1.2邏輯模型設(shè)計(jì)
由于本文需建立的成績倉庫的維度數(shù)并不是太多而且數(shù)據(jù)量并非很大即不會(huì)占用較多存儲(chǔ)空間,所以針對關(guān)系模式的定義以及較高查詢效率的需求,這里決定采用星型邏輯模型,如圖1所示。
圖1成績數(shù)據(jù)倉庫星型邏輯模型
1.3物理模型設(shè)計(jì)
目前由于大部分?jǐn)?shù)據(jù)倉庫都是基于關(guān)系型數(shù)據(jù)庫而且數(shù)據(jù)的最終管理及存放都是由相應(yīng)數(shù)據(jù)庫系統(tǒng)來處理的,所以這里的物理模型設(shè)計(jì)就主要考慮關(guān)于物理數(shù)據(jù)庫的一些模型設(shè)計(jì),如數(shù)據(jù)的索引、存儲(chǔ)及其結(jié)構(gòu)等[5]。
本文設(shè)計(jì)的數(shù)據(jù)倉庫的核心數(shù)據(jù)庫是微軟的SQL SERVER 2008企業(yè)版關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。對實(shí)體表的主外鍵均建立索引以提高響應(yīng)速度。
2數(shù)據(jù)ETL過程實(shí)現(xiàn)
本文采用筆者所在工作單位—周口職業(yè)技術(shù)學(xué)院幾年來的學(xué)生成績相關(guān)數(shù)據(jù)作為數(shù)據(jù)源??紤]到2007年以前尚未全面啟用教務(wù)管理系統(tǒng)、時(shí)間略顯倉促及數(shù)據(jù)收集和預(yù)處理需花費(fèi)大量時(shí)間、精力,所以數(shù)據(jù)源范圍暫先定于信息工程系、機(jī)電系和財(cái)經(jīng)系三個(gè)系的07級(jí)、08級(jí)、09級(jí)學(xué)生成績數(shù)據(jù)。
2.1數(shù)據(jù)的抽取及清洗
在確定了成績倉庫中事實(shí)表及各個(gè)維度表的具體結(jié)果模型之后,就需要以這些結(jié)構(gòu)模型為重要參考依據(jù)分別從各自對應(yīng)的業(yè)務(wù)型數(shù)據(jù)庫系統(tǒng)中進(jìn)一步抽取相關(guān)數(shù)據(jù)并經(jīng)過預(yù)處理后再載入成績倉庫。
數(shù)據(jù)的清洗主要是對數(shù)據(jù)中的雜質(zhì)、噪聲、不一致、不規(guī)范、遺漏等情況加以處理。一般應(yīng)視各自具體情況區(qū)別對待,不要一律刪除。比如對于某名學(xué)生,若有少量課程成績遺漏或出現(xiàn)0-100范圍外的個(gè)別噪聲數(shù)據(jù)則應(yīng)考慮取平均成績替代;若遺漏課程成績門數(shù)較多(4門以上)或因?qū)W籍異動(dòng)造成其數(shù)據(jù)無法有效參與比較,為保證分析的可靠性則應(yīng)考慮刪除。另外對于一些關(guān)于教師、課程、班級(jí)、專業(yè)維度信息數(shù)據(jù)的缺失或出現(xiàn)不一致的情況則進(jìn)一步核實(shí)后加以填充。如有重修或補(bǔ)考成績則均采用正考即首次成績。
2.2數(shù)據(jù)的轉(zhuǎn)換
對于考查課中的“優(yōu)”、“良”、“中”、“差”四個(gè)層次,為了便于統(tǒng)一分析,應(yīng)向百分制轉(zhuǎn)換。這里對應(yīng)關(guān)系為:“優(yōu)”-90、“良”-80、“中”-70、“差”-50。此外,對于源數(shù)據(jù)表中各屬性名、類型及長度都要統(tǒng)一設(shè)置并與成績倉庫中對應(yīng)的維度表及事實(shí)表保持一致。
2.3數(shù)據(jù)的加載
上述各環(huán)節(jié)工作處理完畢后,接下來就是最后一步即數(shù)據(jù)的加載。首先在Sql Server 2008 Management Studio環(huán)境下建立一個(gè)名為“StudentMA”的數(shù)據(jù)庫,然后利用Sql Server中的數(shù)據(jù)導(dǎo)入功能將已整理好的8個(gè)數(shù)據(jù)表導(dǎo)入到新建的數(shù)據(jù)庫中,如圖2所示。在載入目標(biāo)成績數(shù)據(jù)倉庫數(shù)據(jù)庫后,還需根據(jù)星型邏輯結(jié)構(gòu)和物理結(jié)構(gòu)的具體設(shè)計(jì)來設(shè)置好各表主/外鍵并為其建立相應(yīng)索引。
3多維數(shù)據(jù)集的創(chuàng)建及OLAP技術(shù)的應(yīng)用
3.1多維數(shù)據(jù)集的創(chuàng)建
進(jìn)入Sql Server 2008 Business Intelligence Development Studio集成環(huán)境后,新建一個(gè)名為“學(xué)生成績多維分析”的Analysis Service即SSAS項(xiàng)目,然后使用“解決方案資源管理器”來分別創(chuàng)建項(xiàng)目的“數(shù)據(jù)源”、“數(shù)據(jù)源視圖”、“多維數(shù)據(jù)集”。其中“數(shù)據(jù)源”所對應(yīng)的連接字符串代碼為:
Provider=SQLNCLI10.1;Data Source=SWUST-573110AE0;
圖2預(yù)處理后數(shù)據(jù)源導(dǎo)入SQL SERVER 2008
Integrated Security=SSPI;Initial Catalog=studentMA
另外,為了滿足決策分析的需要,還需要再通過添加“平均成績”計(jì)算成員來新增度量值,新建的“平均成績”計(jì)算變量(avg? Score)所對應(yīng)的MDX語句為:
CREATE MEMBER CURRENTCUBE.[Measures].avgScore AS round([Measures].[Score]/[Measures].[Score計(jì)數(shù)],0), VISIBLE = 1;
創(chuàng)建后的多維數(shù)據(jù)集視圖如圖3所示。
圖3成功創(chuàng)建后的多維數(shù)據(jù)集
最后,對SSAS項(xiàng)目“學(xué)生成績多維分析”加以部署和處理操作,部署并處理成功的結(jié)果如圖4所示。
3.2多維分析及OLAP技術(shù)的應(yīng)用實(shí)現(xiàn)
首先可利用SSAS自帶的“瀏覽器”功能進(jìn)行多維分析和OLAP操作[6]。在“瀏覽器”界面中,可根據(jù)用戶的OLAP處理要求來對創(chuàng)建的CUBE加以自由組合其中的維度,只需將左側(cè)窗口界面中的目標(biāo)對象如維度、維度成員、度量值成員等直接拖動(dòng)到窗口右側(cè)的顯示區(qū)域相應(yīng)位置后即可查看OLAP處理結(jié)果。如果要進(jìn)行數(shù)據(jù)篩選則需要將篩選條件所涉及到的相應(yīng)維度名或其成員值拖放到右側(cè)窗口上方的篩選字段指定區(qū)域。如圖5所示。
另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服務(wù),目前其作為微軟前端展現(xiàn)工具中的一個(gè)重要組件已在商業(yè)智能方面得到了較為廣泛的應(yīng)用[7]。Excel 2007中的數(shù)據(jù)透視表和數(shù)據(jù)透視圖可直接訪問SSAS項(xiàng)目中對應(yīng)多維數(shù)據(jù)集,這樣就不必開發(fā)應(yīng)用程序即可快速而靈活地生成各種圖表及報(bào)表。因此可利用該組件來進(jìn)行多維分析并展現(xiàn)分析結(jié)果。
下面通過Excel 2007中的數(shù)據(jù)透視表來進(jìn)行多維分析??稍谕敢暠泶翱谌我饨M合一些度量值和維度,直接拖動(dòng)到EXCEL表格模型的相應(yīng)行列中即可自動(dòng)生成所需表格數(shù)據(jù)。如果想以數(shù)據(jù)透視圖方式來展示數(shù)據(jù)則只需點(diǎn)擊工具欄中的柱狀小圖標(biāo)即可立即生成對應(yīng)的透視圖。在某些情況下,透視圖的顯示效果要比透視表會(huì)更加直觀,如圖6、7、8所示。
其中圖6為教師、課程、班級(jí)所有學(xué)年學(xué)期信息的匯總顯示,細(xì)節(jié)區(qū)域內(nèi)容為班級(jí)人數(shù)和平均分;圖7為信息工程系建筑設(shè)計(jì)技術(shù)專業(yè)在2009年第二學(xué)期教師、課程、班級(jí)及平均分信息匯總顯示;圖8為信息工程系道路橋梁工程技術(shù)專業(yè)在所有學(xué)年學(xué)期的教師、課程、班級(jí)及平均分信息匯總顯示。
圖4項(xiàng)目成功處理示意圖
圖5多維分析結(jié)果展示
圖6利用PivotTables功能在EXCEL前臺(tái)展示多維分析結(jié)果
圖7利用EXCEL前臺(tái)透視圖功能展示多維分析結(jié)果一
圖8利用EXCEL前臺(tái)透視圖功能展示多維分析結(jié)果二
4結(jié)束語
本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平臺(tái)成功構(gòu)建了學(xué)生成績數(shù)據(jù)倉庫并建立了數(shù)據(jù)集市,然后進(jìn)行了OLAP即聯(lián)機(jī)分析處理,最后利用Microsoft Excel 2007前臺(tái)工具中的數(shù)據(jù)透視表及數(shù)據(jù)透視圖組件對OLAP分析結(jié)果進(jìn)行了直觀展示,為管理者進(jìn)行科學(xué)決策分析提供了重要決策依據(jù)。另外,增加數(shù)據(jù)倉庫中的成績數(shù)據(jù)量以及對成績倉庫中的數(shù)據(jù)進(jìn)行深入挖掘分析將是筆者下一步主要研究內(nèi)容。
參考文獻(xiàn):
[1]魏麗,王雁苓.高校學(xué)生成績分析數(shù)據(jù)倉庫的建立[J].吉林省教育學(xué)院學(xué)報(bào),2010(6):42-43.
[2] Jiawei Han,Micheline Kamber.范明,等,譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[3]羅躍國.高校教務(wù)系統(tǒng)數(shù)據(jù)倉庫的建模及應(yīng)用[J].長江大學(xué)學(xué)報(bào):自然科學(xué)版,2009(3):235-237.
[4]王麗珍,周麗華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學(xué)出版社,2005.
[5]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.
關(guān)鍵詞:海量數(shù)據(jù) NoSQL數(shù)據(jù)庫 高并發(fā)處理
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)07-0000-00
1 引言
針對海量移動(dòng)應(yīng)用數(shù)據(jù)構(gòu)建一套可行的統(tǒng)計(jì)分析系統(tǒng),從基本的數(shù)據(jù)統(tǒng)計(jì),到深入的數(shù)據(jù)分析、挖掘,可以為移動(dòng)互聯(lián)網(wǎng)企業(yè)提供全方位的海量數(shù)據(jù)解決方案,幫助開發(fā)者更好的了解市場動(dòng)向,了解用戶的使用習(xí)慣和需求,從而創(chuàng)造出更有價(jià)值的移動(dòng)應(yīng)用。
2 系統(tǒng)分析設(shè)計(jì)
本系統(tǒng)的用戶為移動(dòng)應(yīng)用開發(fā)者,系統(tǒng)的最終目的是為開發(fā)者們提供一個(gè)應(yīng)用數(shù)據(jù)的統(tǒng)計(jì)分析平臺(tái),為開發(fā)者提供實(shí)時(shí)的用戶統(tǒng)計(jì)數(shù)據(jù)和應(yīng)用統(tǒng)計(jì)數(shù)據(jù),開發(fā)者可以利用這些有價(jià)值的數(shù)據(jù)對應(yīng)用進(jìn)行調(diào)整,從而更好地適應(yīng)不斷變化的市場需求。系統(tǒng)主要完成應(yīng)用趨勢分析,版本分析,渠道分析,用戶參與度分析和終端屬性統(tǒng)計(jì)五部分。應(yīng)用趨勢分析提供對新增用戶、活躍用戶、留存用戶和應(yīng)用啟動(dòng)次數(shù)的統(tǒng)計(jì)分析功能,開發(fā)者從這些數(shù)據(jù)中了解當(dāng)前應(yīng)用的用戶情況,判斷出未來趨勢。版本分析提供對當(dāng)前應(yīng)用所有版本的統(tǒng)計(jì)分析,開發(fā)者可以從中了解目前市場上的版本分布情況,從而可以對版本的更新迭代做出調(diào)整。渠道分析提供對當(dāng)前應(yīng)用各市場下載量的統(tǒng)計(jì)分析數(shù)據(jù),開發(fā)者可以從中分析出各市場的推廣情況如何,從而有針對性的調(diào)整應(yīng)用的推廣策略。
系統(tǒng)分為數(shù)據(jù)服務(wù)器、移動(dòng)終端和WEB展示端三部分來完成,其整體的功能結(jié)構(gòu)圖如圖1所示。在實(shí)現(xiàn)的過程中充分考慮解決海量數(shù)據(jù)處理的問題。通過使用非關(guān)系數(shù)據(jù)庫NoSQL,Epoll技術(shù)及數(shù)據(jù)庫優(yōu)化技術(shù)解決高并發(fā)請求,有效地緩解了海量數(shù)據(jù)對整個(gè)系統(tǒng)的壓力。系統(tǒng)整體在Linux系統(tǒng)下完成開發(fā),綜合運(yùn)用當(dāng)前主流高效的開發(fā)工具和技術(shù)。
數(shù)據(jù)服務(wù)器部分是整個(gè)系統(tǒng)的核心部分。數(shù)據(jù)接收模塊負(fù)責(zé)從移動(dòng)終端獲取用戶數(shù)據(jù)和應(yīng)用數(shù)據(jù),數(shù)據(jù)緩存模塊用于緩存接收到的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)模塊負(fù)責(zé)向數(shù)據(jù)庫從存儲(chǔ)基礎(chǔ)數(shù)據(jù),數(shù)據(jù)統(tǒng)計(jì)分析模塊負(fù)責(zé)對基礎(chǔ)用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析操作,處理后的數(shù)據(jù)用于網(wǎng)站端顯示。移動(dòng)終端部分用于獲取數(shù)據(jù)。基于XML語言對Android界面進(jìn)行設(shè)計(jì),通過對系統(tǒng)函數(shù)和XML解析獲取用戶數(shù)據(jù)和應(yīng)用數(shù)據(jù),后將數(shù)據(jù)通過TCP/IP協(xié)議發(fā)送給服務(wù)器端,若網(wǎng)絡(luò)不允許則將數(shù)據(jù)臨時(shí)緩存,等待下一次發(fā)送請求。網(wǎng)站展示端向開發(fā)者展示最終的統(tǒng)計(jì)分析數(shù)據(jù)。頁面設(shè)計(jì)模塊使用CSS對整體風(fēng)格進(jìn)行控制,繪圖模塊使用highcharts,使用php和javascript向highcharts填充數(shù)據(jù)。
3 系統(tǒng)總體設(shè)計(jì)與實(shí)現(xiàn)
本系統(tǒng)分為數(shù)據(jù)處理服務(wù)器,移動(dòng)終端,WEB展示端三部分來完成。其中移動(dòng)終端負(fù)責(zé)采集用戶數(shù)據(jù)和應(yīng)用數(shù)據(jù),將采集到的數(shù)據(jù)通過網(wǎng)絡(luò)傳輸給數(shù)據(jù)處理服務(wù)器。數(shù)據(jù)處理服務(wù)器一遍負(fù)責(zé)存儲(chǔ)數(shù)據(jù),一遍對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析。統(tǒng)計(jì)和分析的結(jié)果通過相應(yīng)WEB端網(wǎng)站的請求反饋給開發(fā)者。整體的開發(fā)都在Linux系統(tǒng)下完成,移動(dòng)終端部分使用Android平臺(tái),使用Java語言進(jìn)行開發(fā)。數(shù)據(jù)服務(wù)器使用Python進(jìn)行開發(fā),數(shù)據(jù)接收部分使用Linux下GCC庫,使用C++編寫,數(shù)據(jù)庫使用MongoDB。WEB展示端使用PHP語言進(jìn)行開發(fā),整體風(fēng)格使用Bootstrap框架。同時(shí)使用Git作為版本控制工具,用GitHub作為版本容器,方便團(tuán)隊(duì)協(xié)作和代碼更迭。
3.1 數(shù)據(jù)處理服務(wù)器架構(gòu)
數(shù)據(jù)處理服務(wù)器需要實(shí)現(xiàn)數(shù)據(jù)接收、數(shù)據(jù)緩存、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理四部分功能。
數(shù)據(jù)處理服務(wù)器負(fù)責(zé)接收移動(dòng)終端發(fā)送過來的用戶數(shù)據(jù),通過高并發(fā)處理手段緩存到本地。數(shù)據(jù)庫處理程序負(fù)責(zé)從緩存文件中讀取數(shù)據(jù)插入到數(shù)據(jù)庫中。數(shù)據(jù)庫處理程序同時(shí)需要對基礎(chǔ)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析處理,存儲(chǔ)到相應(yīng)集合空間去。數(shù)據(jù)接收部分需要解決高并發(fā)請求。移動(dòng)終端與服務(wù)器之間的通信使用TCP/IP協(xié)議,使用非阻塞的Socket連接來輪詢用戶請求。整體的底層架構(gòu)使用Epoll庫,能夠很好的支持萬級(jí)別的并發(fā)量。數(shù)據(jù)緩存部分使用文件直接緩存。為了避免文件同時(shí)讀寫的鎖定問題,文件緩存按照一定的時(shí)間間隔寫入不同的文件中去。使用腳本文件拷貝寫入完成的數(shù)據(jù)文件到另外的文件夾用于向數(shù)據(jù)庫中寫入,寫入完成之后再將文件刪除。腳本使用python語言編寫。數(shù)據(jù)寫入部分也使用python進(jìn)行編寫,數(shù)據(jù)采用非關(guān)系數(shù)據(jù)庫MongoDB。非關(guān)系數(shù)據(jù)庫在解決海量數(shù)據(jù)處理的問題上有著獨(dú)有的優(yōu)勢,降低了程序與代碼的耦合度,同時(shí)還保證了數(shù)據(jù)存儲(chǔ)的可靠性。使用python處理數(shù)據(jù)寫入時(shí)需要用到MongoDB的python語言驅(qū)動(dòng),一般用pymongo即可。數(shù)據(jù)處理部分也使用python編寫。程序從MongoDB中讀取完數(shù)據(jù)之后,按照業(yè)務(wù)邏輯的要求對數(shù)據(jù)經(jīng)行統(tǒng)計(jì)和分析。比如統(tǒng)計(jì)出某一應(yīng)用一天的啟動(dòng)次數(shù)。將這些統(tǒng)計(jì)數(shù)據(jù)存入到新的集合中去,留作網(wǎng)站展示端進(jìn)行檢索。這樣可以大大減少網(wǎng)站端實(shí)時(shí)搜索對數(shù)據(jù)服務(wù)器造成的壓力。
3.2 移動(dòng)終端架構(gòu)
移動(dòng)終端分為數(shù)據(jù)獲取、數(shù)據(jù)緩存、數(shù)據(jù)傳輸和界面設(shè)計(jì)四部分。移動(dòng)終端整體架構(gòu)使用MVC設(shè)計(jì)模式。前端界面設(shè)計(jì)使用XML進(jìn)行配置,控制層將獲取到的數(shù)據(jù)一部分送至前端顯示,一部分送至數(shù)據(jù)服務(wù)器進(jìn)行存儲(chǔ)。數(shù)據(jù)緩存使用SQLite保存未能發(fā)送至服務(wù)器的用戶數(shù)據(jù)。數(shù)據(jù)獲取指獲取用戶設(shè)備參數(shù)和用戶應(yīng)用數(shù)據(jù),設(shè)備參數(shù)包括設(shè)備的型號(hào)、分辨率、入網(wǎng)方式、內(nèi)容服務(wù)商、系統(tǒng)版本號(hào)等,用戶應(yīng)用數(shù)據(jù)包括應(yīng)用的包名、版本號(hào)、啟動(dòng)時(shí)間、使用時(shí)長、渠道信息、頁面訪問路徑等。數(shù)據(jù)緩存部分主要為了保證數(shù)據(jù)的完整性,因?yàn)橛脩舻脑O(shè)備并不能時(shí)刻保持網(wǎng)絡(luò)接入。當(dāng)用戶處于離線狀態(tài)時(shí),使用SQLite保存用戶信息。當(dāng)用戶再次啟動(dòng)時(shí)檢測是否有網(wǎng)絡(luò)接入,當(dāng)發(fā)現(xiàn)網(wǎng)絡(luò)接入時(shí)將上一次的數(shù)據(jù)發(fā)送出去,同時(shí)清空SQLite數(shù)據(jù)庫。數(shù)據(jù)傳輸使用TCP/IP協(xié)議向數(shù)據(jù)庫服務(wù)器發(fā)送數(shù)據(jù)包。因?yàn)閿?shù)據(jù)庫采用NoSQL數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫的存儲(chǔ)格式為BSON(BSON是對JSON格式的二進(jìn)制化),因此在數(shù)據(jù)發(fā)送之前需要將數(shù)據(jù)序列化為JSON格式。數(shù)據(jù)發(fā)送時(shí)需檢測數(shù)據(jù)是否正常發(fā)送,如果沒有正常發(fā)送則進(jìn)行重發(fā)操作。界面設(shè)計(jì)采用Android標(biāo)準(zhǔn)開發(fā)模式,使用XML文件配置界面。頂部使用Google官方庫ActionBar,中間部分為ListView組件,ListView的每個(gè)Item都為一個(gè)數(shù)據(jù),表示移動(dòng)終端獲取到的某個(gè)變量。
3.3 網(wǎng)站展示端
網(wǎng)站展示端包括前端設(shè)計(jì)、數(shù)據(jù)處理和數(shù)據(jù)報(bào)表三部分。
前端設(shè)計(jì)以美觀大方為目標(biāo),使用twitter前端開源框架Bootstrap。Bootstrap提供了優(yōu)雅的HTML和CSS書寫規(guī)范,它由Less寫成,Less是一種優(yōu)美的動(dòng)態(tài)CSS語言。使用Ajax、jQuery、Javascript等前端技術(shù),融入最新的HTML5、CSS3結(jié)構(gòu)設(shè)計(jì),優(yōu)化UI的整體表現(xiàn)。數(shù)據(jù)處理使用PHP和 javascript。使用PHP語言的MongoDB驅(qū)動(dòng)連接數(shù)據(jù)庫,獲取數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù),格式化成json數(shù)據(jù)之后再送給前端的javascript層。Javascript與前臺(tái)界面經(jīng)行交互,控制前臺(tái)界面的展示效果。數(shù)據(jù)報(bào)表部分是整個(gè)網(wǎng)站展示端的核心,主要用戶想用戶展示各種類型的統(tǒng)計(jì)分析數(shù)據(jù)。包括柱狀圖、折線圖、餅圖等。圖形的繪制使用開源項(xiàng)目Highcharts。Highcharts是一個(gè)使用純javascript編寫的圖標(biāo)庫,可以便捷的在WEB網(wǎng)站顯示交互性的圖表。
參考文獻(xiàn)
[1] 譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013(2):13.
[2] 艾榮榮.基于電信統(tǒng)計(jì)分析平臺(tái)的關(guān)鍵性指標(biāo)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2010.2-4.
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:CSCD期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫