公務(wù)員期刊網(wǎng) 論文中心 正文

電子商務(wù)用戶數(shù)據(jù)挖掘研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電子商務(wù)用戶數(shù)據(jù)挖掘研究范文,希望能給你帶來靈感和參考,敬請閱讀。

電子商務(wù)用戶數(shù)據(jù)挖掘研究

摘要:隨著互聯(lián)網(wǎng)經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展規(guī)模的突飛猛進(jìn),電子商務(wù)呈現(xiàn)著爆炸式發(fā)展態(tài)勢。而電子商務(wù)用戶數(shù)據(jù)也開始暴增,這些由用戶創(chuàng)造的數(shù)據(jù)遠(yuǎn)超出了當(dāng)前人力處理的范圍。因此,研究了將模糊聚類算法應(yīng)用于電子商務(wù)用戶數(shù)據(jù)的挖掘處理中,通過遺傳算法改進(jìn)的模糊C均值聚類,處理龐大的電子商務(wù)用戶數(shù)據(jù),挖掘電子商務(wù)核心資源的商業(yè)價值,從而實現(xiàn)精準(zhǔn)營銷。

關(guān)鍵詞:模糊聚類;遺傳算法;電子商務(wù);數(shù)據(jù)挖掘

0引言

互聯(lián)網(wǎng)經(jīng)濟(jì)時代背景下,伴隨著社交網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的快速發(fā)展,電子商務(wù)的用戶數(shù)據(jù)規(guī)模不斷擴(kuò)大,維度也不斷增加。這些數(shù)據(jù)的類型十分復(fù)雜,除了用戶的基本信息數(shù)據(jù),還包含電子商務(wù)平臺的數(shù)據(jù)、用戶使用移動終端信息等非結(jié)構(gòu)化的過程性數(shù)據(jù)[1]。商業(yè)價值是否能得到最大限度的利用,取決于對用戶數(shù)據(jù)的挖掘和分析的方式。因此,找到一種行之有效的數(shù)據(jù)挖掘技術(shù)對電子商務(wù)用戶數(shù)據(jù)進(jìn)行高效處理十分必要。

1互聯(lián)網(wǎng)經(jīng)濟(jì)下電子商務(wù)用戶數(shù)據(jù)特點

相比較于傳統(tǒng)經(jīng)濟(jì)的數(shù)據(jù),互聯(lián)網(wǎng)經(jīng)濟(jì)下電子商務(wù)用戶數(shù)據(jù)體量極大,每日產(chǎn)生的數(shù)據(jù)規(guī)模已達(dá)到TB級,并且對時效性有著極高的要求。這些數(shù)據(jù)都是高速、實時的數(shù)據(jù)流,蘊(yùn)含著巨大的商業(yè)價值[2]??梢钥闯觯娮由虅?wù)用戶數(shù)據(jù)具有大數(shù)據(jù)的特征。如何高效處理這些用戶數(shù)據(jù),從中挖掘出有價值的信息,從而實現(xiàn)精準(zhǔn)營銷,成為了當(dāng)前亟待解決的問題。

2模糊聚類算法相關(guān)研究

聚類算法是一種自然進(jìn)行、無需人工監(jiān)督的學(xué)習(xí)過程,在這個過程中,不需要任何先驗知識作為指導(dǎo),僅通過數(shù)據(jù)的內(nèi)在特點就可以對其進(jìn)行聚類和分析。作為一種重要的數(shù)據(jù)挖掘技術(shù),聚類算法已被廣泛應(yīng)用到了許多領(lǐng)域,如文本分析、圖像處理等[3]。在電子商務(wù)用戶數(shù)據(jù)的處理分析中,也可以用到模糊聚類。其中,模糊C均值算法FCM(FuzzyC-Means)的應(yīng)用特別廣泛。FCM算法是指通過引入隸屬度的概念,查找各個樣本的數(shù)據(jù)對象依據(jù)隸屬度值的大小決定其是否從屬于某一個分類。簡單來說,它是一種在模糊理論基礎(chǔ)上的柔性劃分。先將向量Xi(i=1,2,…,n)分成c組V={V1,V2,V3,…,Vc},然后求出每組的聚類中心A={A1,A2,A3,…,Ac},對于其中每一個向量Xi都有一個[0,1]之間的值,用于表示其從屬于某一個聚類中心的程度。為得到模糊聚類的最優(yōu)解,要使目標(biāo)函數(shù)在約束條件控制的前提下得到最小值。因此,整個聚類算法過程步驟如下:第一步:初始條件下,隨機(jī)生成c個聚類中心A={A1,A2,A3,…,Ac};第二步:計算全部樣本數(shù)據(jù)的隸屬度矩陣,并且使這個矩陣總能保證滿足和恒等于1的約束條件;第三步:計算目標(biāo)函數(shù)值,當(dāng)其大小與設(shè)定閾值相比,小于閾值則算法結(jié)束;第四步,最后更新聚類中心A,并且迭代整個算法(返回第二步)。

3遺傳算法改進(jìn)的模糊聚類

目前,針對FCM算法的研究和應(yīng)用有許多,但是該算法存在較為明顯的缺陷。因此,利用遺傳算法GA的全局搜索,優(yōu)化FCM算法的隨機(jī)初始聚類中心選取問題。作為一種群體搜索智能算法,GA算法通過一定的規(guī)則逐步迭代,最終選取全局最優(yōu)解。以該最優(yōu)解作為模糊聚類算法的初始聚類中心,可以較好地改善FCM聚類。在整個算法中,可以用t表示迭代演化的代數(shù),那么群體P(t)經(jīng)過一定規(guī)則的搜索后,就會產(chǎn)生下一代群體P(t+1),然后不斷迭代,直到最終找到最優(yōu)解。如果在搜索過程中,群體陷入了局部極值,那么迭代操作就會因此停滯,算法的最終結(jié)果也陷入局部的最優(yōu)解,這種現(xiàn)象稱為早熟,它會導(dǎo)致當(dāng)前搜索的群體中很難涵蓋到全局最優(yōu)解。這個問題產(chǎn)生的最大原因,在于搜索過程中,進(jìn)化到下一代的個體選擇速度過快,即對子代的篩選速度過快,與產(chǎn)生新個體的速度不相匹配,導(dǎo)致個體多樣性受到破壞,最優(yōu)解無法涵蓋到下一代種群。在傳統(tǒng)算法中,是通過交叉和變異操作產(chǎn)生新的個體。因此,可以通過增加交叉和變異操作的概率來達(dá)到加快新個體產(chǎn)生速度的目的。但是,這種操作會導(dǎo)致迭代過程產(chǎn)生的新個體速度過快,個體的多樣性太高,個體中的解決方案丟失,無法完全把最優(yōu)解囊括到下一代群體中。因此,為了保證個體的多樣性,同時也保證群體的穩(wěn)定性,引入了反向?qū)W習(xí)機(jī)制,改善遺傳算法的這個缺陷。也就是說,在搜索過程的子代選擇上,不僅搜索當(dāng)前種群P(t)的個體,還搜索當(dāng)前種群P(t)的反向種群P(t)'個體,從二者的集合中挑選出較優(yōu)解作為下一代解集P(t+1)。遺傳算法中的其他設(shè)置如下。編碼方法采用的是二進(jìn)制編碼,對原始種群中的個體進(jìn)行編碼,每條染色體都是由二進(jìn)制字符串組成,根據(jù)它的位置基因取值是0還是1,進(jìn)而判斷這個位置上的個體是否被選中(0表示未選中,1表示選中)。對需要求解問題的方案好壞做評判,通常是使用適應(yīng)度函數(shù),計算適應(yīng)度的值,對最優(yōu)解的種群個體一一計算,判斷是否可取。這個適應(yīng)度函數(shù)通常是使用與聚類算法相同的目標(biāo)函數(shù)。但是,這種設(shè)置使得每次都要耗費大量時間去計算隸屬度矩陣,每次循環(huán)時都要對其進(jìn)行更新,導(dǎo)致整個算法運行的效率降低。因此,采用了一個新的適應(yīng)度函數(shù)解決時間效率問題。同時,為保證優(yōu)秀個體不被選擇操作破壞,在選擇環(huán)節(jié)采用了隨機(jī)遍歷抽樣的方法,它對子代進(jìn)行選擇的操作與輪盤賭的方法很像,但它的優(yōu)點是只需進(jìn)行一次輪盤旋轉(zhuǎn),整個過程較為快捷。使用該種遺傳算法改進(jìn)模糊聚類FCM算法,可以得到很好的數(shù)據(jù)處理效果。同時也更能適應(yīng)電子商務(wù)用戶數(shù)據(jù)的特點,在數(shù)據(jù)預(yù)處理清洗數(shù)據(jù)雜質(zhì)、冗余、數(shù)據(jù)的挖掘以及分析方面表現(xiàn)優(yōu)異。

4改進(jìn)模糊聚類的電子商務(wù)用戶數(shù)據(jù)挖掘流程

由于電子商務(wù)用戶數(shù)據(jù)的高維度、快流轉(zhuǎn)速度、大體量等特點,普通人工數(shù)據(jù)分析已無法滿足需求。因此,將模糊聚類算法這種數(shù)據(jù)挖掘技術(shù)引入對電子商務(wù)用戶數(shù)據(jù)的處理分析中,以獲得其中潛在的有價值的信息[5]。大致流程如下。第一,數(shù)據(jù)收集。根據(jù)用戶的交易情況、互動情況對數(shù)據(jù)進(jìn)行簡單分類,然后收集用戶產(chǎn)生的各種數(shù)據(jù)。第二,數(shù)據(jù)預(yù)處理。用戶數(shù)據(jù)中存在著很多冗余和噪聲數(shù)據(jù),影響了整個數(shù)據(jù)挖掘分析的結(jié)果。因此,數(shù)據(jù)預(yù)處理的好壞,很大程度上決定了數(shù)據(jù)挖掘的結(jié)果。在預(yù)處理中,通過結(jié)構(gòu)化和半結(jié)構(gòu)化的方法對其進(jìn)行過濾整理,目標(biāo)是提升用戶數(shù)據(jù)的相關(guān)度,找出其潛在的共同性特征。第三,數(shù)據(jù)挖掘。通過遺傳算法改進(jìn)的FCM聚類對已預(yù)處理過的數(shù)據(jù)進(jìn)行聚類分析,根據(jù)電子商務(wù)用戶數(shù)據(jù)的共同特點將數(shù)據(jù)進(jìn)行柔性分類,簡單將其劃分為不同隸屬度的幾個大類。第四,數(shù)據(jù)應(yīng)用。通過聚類分析得到的隸屬度分類,可以應(yīng)用在用戶的購買預(yù)測方面。其對用戶共同特性的聚類如用戶屬性、購買力分析等,可以將用戶群體進(jìn)行劃分,從而實現(xiàn)精準(zhǔn)營銷。

5結(jié)語

聚類分析作為一種重要的數(shù)據(jù)挖掘技術(shù),應(yīng)用于電子商務(wù)用戶數(shù)據(jù)的分析中,可以對海量數(shù)據(jù)進(jìn)行抽取、分類等處理,從而挖掘出關(guān)鍵性信息幫助商家進(jìn)行精準(zhǔn)決策,使電子商務(wù)更加順利的開展進(jìn)行,從而實現(xiàn)更多的經(jīng)濟(jì)效益。

參考文獻(xiàn)

[1]蘆海燕.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用探究[J].電子測試,2014(s1):73-75.

[2]李霏.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用價值探析[J].電子技術(shù)與軟件工程,2016(2):198

[3]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004:11.

[4]張永庫,尹靈雪,孫勁光.基于改進(jìn)的遺傳算法的模糊聚類算法[J].智能系統(tǒng)學(xué)報,2015,10(4):627-635.

作者:王越 單位:山東勞動職業(yè)技術(shù)學(xué)院