前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個性化推薦系統(tǒng)主題范文,僅供參考,歡迎閱讀并收藏。
不斷擴大規(guī)模的電子商務系統(tǒng),在為消費者提供越來越多購物選擇的同時,其自身商業(yè)結構也變得更加復雜。消費者經(jīng)常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品;另一方面,商家也失去了與消費者之間的聯(lián)系,不能準確獲知消費者的消費需求、消費建議。推薦系統(tǒng)就像商店導購人員,直接面對消費者,為其提供商品推薦。這種能準確獲取不同消費者消費需求的推薦系統(tǒng)就是我們要研究的個性化智能推薦系統(tǒng)。
一、電子商務個性化智能推薦系統(tǒng)
個性化智能推薦系統(tǒng)是指通過收集、統(tǒng)計和分析不同消費者消費特征,使用推薦算法研究消費者的興趣偏好和購買行為,并適時更新數(shù)據(jù),實現(xiàn)主動向消費者推薦其所需商品的工作過程。
智能推薦系統(tǒng)運作的中心是準確得出消費者的個體需求,建立以消費者本身消費特征為中心的個性化的營銷策略,滿足不同消費者的不同偏好。電子商務推薦系統(tǒng)通過個性化推薦技術對網(wǎng)站整體結構進行調(diào)整,增加商品的曝光數(shù),提升用戶平均訪問步長和商品頁訪問量,從而提高網(wǎng)站整體營銷能力。
如何使電子商務個性推薦系統(tǒng)更好地根據(jù)消費者的需求推薦消費者感興趣的商品,答案就在其采用的推薦技術上。推薦技術是電子商務推薦系統(tǒng)中最核心,最關鍵的技術,很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。
二、推薦技術
從電子商務個性化推薦系統(tǒng)的主動性上分類,可以將推薦技術分為主動式推薦和被動式推薦。
所謂主動式推薦,是指推薦系統(tǒng)通過對消費者信息和行為的分析,給出恰當?shù)囊庖姾徒ㄗh主動引導消費;而被動式推薦是指消費者通過自己的努力獲得所需要的商品信息。
根據(jù)目前主流的推薦技術分類,制作下表。
(一)被動推薦
被動式推薦技術的優(yōu)點是技術比較成熟,用戶易于使用。主要有下面兩大類:
1、分類瀏覽式推薦
分類瀏覽是一種按照主題分類進行信息查詢的方法。它用樹形結構將分類的商品和服務信息表現(xiàn)出來,易于實現(xiàn),同時操作方便。
幾乎所有的電子商務交易網(wǎng)站都提供這種方式的推薦。但是推薦效率低,且分類方法不統(tǒng)一,對新出現(xiàn)的商品和信息很難準確歸類。
2、關鍵詞查詢式推薦
關鍵詞查詢由用戶輸入查找目標的關鍵詞,系統(tǒng)尋找與關鍵詞匹配的內(nèi)容進行推薦。這種方法也是比較常見的推薦方法,技術較為成熟,且易于用戶接受查找結果,但是對關鍵詞的選擇要求較高,且不易發(fā)現(xiàn)用戶的潛在興趣點。
被動式推薦自動化程度低,無法發(fā)掘用戶潛在興趣與消費需求,因此目前研究比較多的是主動式推薦,即智能推薦技術
(二)智能推薦技術
關鍵詞:個性化;采集;推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)36-8222-03
基于社會計算的個性化推薦系統(tǒng)的設計,主要以新浪博客網(wǎng)頁作為數(shù)據(jù)源來采集設計的,繼而為其網(wǎng)頁文檔信息創(chuàng)建索引。主要模塊包括網(wǎng)頁文本信息采集,lucene索引庫,搜索推薦主干,系統(tǒng)管理等。
為了實現(xiàn)網(wǎng)頁文檔信息的自動采集功能,本系統(tǒng)將采集模塊設置了后臺管理參數(shù),來實現(xiàn)信息的自動“爬蟲”功能,而為了使推薦模塊能夠基于用戶的信息關鍵詞來搜索并提高效率,就必須實現(xiàn)用戶信息的即時搜索和反饋推薦功能。其詳細設計如下:
1 系統(tǒng)流程分析
1)系統(tǒng)業(yè)務處理流程:首先,管理員利用爬蟲進行數(shù)據(jù)的采集,并將采集到的數(shù)據(jù)(博客網(wǎng)頁文檔)存儲進入本地數(shù)據(jù)庫。采集完成即可對數(shù)據(jù)庫中的文檔建立索引。用戶登錄系統(tǒng)前臺輸入關鍵詞進行搜索之后,服務器下達命令于搜索引擎,進行搜索并且對與關鍵字相關的數(shù)據(jù)進行協(xié)同過濾,最后推薦出用戶感興趣的信息,其處理流程如圖1示,系統(tǒng)業(yè)務流程分析圖。
2)系統(tǒng)數(shù)據(jù)處理流程:管理員登入系統(tǒng)后臺爬蟲參數(shù)設置界面,設置好采集數(shù)據(jù)參數(shù),進而在數(shù)據(jù)采集頁面進行抓取網(wǎng)頁文檔,在數(shù)據(jù)采集完成之對采集到的數(shù)據(jù)建立索引,其中包括博文的題目、作者、采集時間等。用戶登錄系統(tǒng)前臺主頁,輸入搜索的數(shù)據(jù),即關鍵詞進行搜索,程序服務器往后臺數(shù)據(jù)庫發(fā)送命令,數(shù)據(jù)庫返回協(xié)同過濾后的搜索結果給程序服務器,再完成所搜索到的博文以及其作者的反饋推薦。其處理流程如圖2示,系統(tǒng)數(shù)據(jù)流程分析圖。
2 系統(tǒng)概要設計
1)系統(tǒng)概念結構設計:概念結構設計就是根據(jù)需求分析的結果,以規(guī)定的方法將其轉化為一個概念數(shù)據(jù)模型。而概念數(shù)據(jù)模型,是根據(jù)系統(tǒng)的需求點來對數(shù)據(jù)和信息進行建模,采用E-R關系圖來描述。其系統(tǒng)總體E-R圖,如圖3示。
2)系統(tǒng)數(shù)據(jù)庫設計:本系統(tǒng)選用Mysql數(shù)據(jù)庫。從個性化推薦系統(tǒng)的功能需求點出發(fā),在系統(tǒng)中設計了采集信息配置表(如圖4示)、信息推薦表等數(shù)據(jù)庫表(如圖5示),可以準確有效地存儲采集到的數(shù)據(jù)。
3)安全性設計:為了系統(tǒng)安全,采用身份和密碼雙重登陸驗證機制,來確保系統(tǒng)后臺管理只有管理員能夠才能夠登陸,進行爬蟲參數(shù)設置、數(shù)據(jù)采集、索引建立以及采集信息查看等操作,保證了系統(tǒng)數(shù)據(jù)的安全性。
此外,還加設了數(shù)據(jù)庫的安全工具策略,如對數(shù)據(jù)庫中表字段或內(nèi)容的編輯功能等操作,需要特定的數(shù)據(jù)庫管理工具配合才能進行,從而進一步提高數(shù)據(jù)的安全性。
3 系統(tǒng)詳細設計
1)系統(tǒng)功能結構設計:根據(jù)系統(tǒng)概要設計,將本系統(tǒng)分為前臺交互和后臺數(shù)據(jù)處理,由四個模塊共同組成:爬蟲采集網(wǎng)頁文檔和信息、lucene索引的創(chuàng)建,以及操控數(shù)據(jù)庫、搜索主干、前臺輸入輸出處理。各個模塊分工協(xié)作運行。其系統(tǒng)功能結構如圖6示。
本系統(tǒng)管理和界面設計,包含了前臺和后臺相聯(lián)構建的內(nèi)容,采用了Eclipse Tomcat服務器和JSP技術。以lucene創(chuàng)建索引,數(shù)據(jù)庫應用了mysql,并使用JDBC來實現(xiàn)編程的友好交互,從而設計出友好的用戶界面。此外,在整個系統(tǒng)的設計上,采用了 B/S 三層體系結構(如圖7示)。管理員使用網(wǎng)頁瀏覽工具向應用服務器發(fā)送服務請求,應用服務器接收請求,并且執(zhí)行業(yè)務邏輯,將操作人員想要的信息返回瀏覽工具顯示,確保整個系統(tǒng)使用過程的開放性與安全性。
本系統(tǒng)中抓取網(wǎng)頁文檔是系統(tǒng)的信息數(shù)據(jù)基礎,也是數(shù)據(jù)的來源,只有有了豐富的數(shù)據(jù)源,才能夠提供有效的服務。因此,本系統(tǒng)測試過程,主要以新浪博客網(wǎng)頁作為數(shù)據(jù)源,來抓取其頁面的文本, heritrix爬蟲具有良好的擴充功能,可以通過編程進行過濾來抓取另外的文本。通過采集網(wǎng)頁的信息,來對網(wǎng)頁中有價值的數(shù)據(jù)實行提取,過濾掉那些無作用的數(shù)據(jù),只留下有效性的文本信息,來提高存儲的利用效率,其數(shù)據(jù)采集結果主要包括該博客網(wǎng)頁文檔以及該博客的地址,博客的題目、內(nèi)容、作者以及采集的時間等,如圖8數(shù)據(jù)采集過程圖和圖9數(shù)據(jù)采集查看圖所示。而搜索推薦主干同樣是利用lucene實現(xiàn),搜索的關鍵字在已經(jīng)創(chuàng)建的索引庫中搜查對應的文本。
4 系統(tǒng)實現(xiàn)
基于社會計算的個性化推薦系統(tǒng)使用軟件MyEclipse 8.5集成開發(fā)實現(xiàn),采用JAVA語言來進行開發(fā),頁面采用jsp語言來設計實現(xiàn),而數(shù)據(jù)庫則是利用Mysql來實現(xiàn),從而實現(xiàn)了根據(jù)用戶的需求和興趣為用戶推薦出有價值的結果集,使用戶能夠在更短的時間獲取到自己想要的信息,其結果轉換如圖10 系統(tǒng)推薦實現(xiàn)圖所示。
參考文獻:
[1] 陳諾言.基于個性化推薦引擎組合的推薦系統(tǒng)的設計與實現(xiàn)[D].廣州:華南理工大學,2012.
[2] 梁弼,王光瓊,鄧小青.基于 Lucene 的全文檢索系統(tǒng)模型的研究及應用[J]. 微型機與應用, 2011(3).
關鍵詞:推薦算法;負面評價;物質(zhì)擴散
中圖分類號:TP312文獻標識碼:A文章編號:1009-3044(2012)03-0611-03
Frame Research of Personalized Recommendation Algorithm by Considering the Negative Ratings
SU Ying
(Business School, University of Shanghai for Science and Technology, Shanghai 200093,China)
Abstract: This paper introduces new recommendation algorithm frame by reconsidering the negative ratings. The numerical results based on MovieLens dataset and the mass-diffusion-based algorithm show that,the new algorithm frame can greatly reduce the redundancy, and also enhance the accuracy and improve the quality of the recommended results.
Key words: recommendation algorithm; negative ratings; mass diffusion
如何準確識別用戶的需求,幫助用戶找到自己真正需要的信息成為信息過濾技術的一大挑戰(zhàn)。為了解決這些問題,推薦系統(tǒng),也稱為個性化推薦應運而生。個性化推薦系統(tǒng)被認為是信息爆炸時代解決信息超載問題的最有效的信息過濾手段。個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎上的一種高級智能平臺,通過記錄用戶的網(wǎng)站使用足跡,挖掘用戶的興趣特點,向用戶推薦其感興趣的信息或商品,為用戶提供完全個性化的決策支持和信息服務,滿足用戶的個性化需求,改善用戶體驗。近幾年,各種各樣的推薦系統(tǒng)被廣泛研究和應用,經(jīng)典的推薦算法包括協(xié)同過濾算法,基于內(nèi)容的推薦算法,基于網(wǎng)絡結構的推薦算法和混合算法等等。
然而,目前對個性化推薦算法的研究都關注利用用戶喜歡產(chǎn)品的信息預測可能感興趣的產(chǎn)品,而用戶的負面評價信息則沒有引起重視。本文重新考慮了在很多推薦算法研究中被忽略掉的用戶的負面評價信息對推薦算法改進的意義,構建了考慮負面評價的個性化推薦算法框架。
1負面評價對推薦算法改進的意義
現(xiàn)實中應用的推薦系統(tǒng)一般都會向用戶提供一個統(tǒng)一的評價體系,方便用戶對產(chǎn)品進行評價的同時,還可以使評分數(shù)據(jù)標準化統(tǒng)一化。幾乎所有系統(tǒng)的評分數(shù)據(jù)都可以大致分為好評和差評兩類:好評數(shù)據(jù)隱含了用戶的偏好特征;差評數(shù)據(jù)隱含了用戶的不喜歡產(chǎn)品的特征。以往的推薦算法研究中都會清洗掉用戶的負面評價,但我們認為負面評價對于推薦系統(tǒng)具有重要意義,具體表現(xiàn)在以下三方面:
1.1利用負面評價可以減少數(shù)據(jù)稀疏給系統(tǒng)帶來的負面影響
實際系統(tǒng)中收集的信息,常由于用戶不愿意透漏自己的隱私等種種原因,嚴重缺省。隨著維度增加,數(shù)據(jù)在它所占據(jù)的空間中將越來越稀疏,最終導致具有統(tǒng)計意義的數(shù)據(jù)樣本稀少。推薦算法依賴于用戶的歷史數(shù)據(jù),一般來說歷史數(shù)據(jù)越多,系統(tǒng)的推薦準確度相對越高,因此數(shù)據(jù)的稀疏問題將直接影響系統(tǒng)的推薦質(zhì)量。忽視用戶的負面評價信息在一定程度上增大了系統(tǒng)的數(shù)據(jù)稀疏性,不利于算法的運行。我們認為用戶的負面評價信息有助于降低系統(tǒng)的數(shù)據(jù)稀疏性,可以有效緩解數(shù)據(jù)稀疏帶來的各種問題,因此用戶的負面評價信息應該得到研究者的關注,并將其合理地用于改進推薦算法。
1.2負面評價可以幫助系統(tǒng)更準確地定位用戶喜好
現(xiàn)有的推薦算法或者利用所有評分數(shù)據(jù),忽略用戶評分數(shù)據(jù)的高低差異,或者只利用用戶正面評價的產(chǎn)品信息,清洗掉用戶負面評價的產(chǎn)品信息。用戶或產(chǎn)品相似性網(wǎng)絡的構建過程中也都只考慮基于正面評價的信息,比如協(xié)同過濾算法,總是從偏好出發(fā)去搜索相似的偏好;基于網(wǎng)絡結構的推薦算法,也只利用用戶的喜歡信息去建立二分圖網(wǎng)絡。在很多情況下,忽視用戶負面評價信息會影響推薦系統(tǒng)對用戶興趣點定位的精確度。如對于一部正在熱映評價尚好的電影,有一小群用戶打了低分,那么他們差評的 理由可能會非常相似,而對于打高分的大多數(shù)人來說,好評的原因卻可能相差很遠,比如,這些人中可能存在著盲從的隨大流的評價者,他們的評價可靠性差,推薦能力很弱,難以刻畫出用戶的興趣點。實際應用中,用戶一般更傾向于進行正面評價,負面評價一旦出現(xiàn)就意味著用戶的厭惡情緒鮮明強烈,因此我們認為用戶的負面評價信息可靠性更高,可以幫助系統(tǒng)更準確地把握用戶的興趣特征。
1.3利用負面評價信息可以有效減少系統(tǒng)中的冗余信息
隨著網(wǎng)絡用戶數(shù)量與產(chǎn)品種類的增加,推薦算法的擴展性問題將成為制約推薦系統(tǒng)發(fā)展的重要因素。數(shù)據(jù)量的急劇增加將給系統(tǒng)存儲、更新帶來越來越大的成本壓力。隨著計算規(guī)模和復雜度逐漸增大,推薦算法的性能將越來越差。如果可以利用用戶的負面評價信息找到用戶不喜歡的產(chǎn)品黑名單,就可以將其作為用戶推薦列表的限制性條件,一旦用戶推薦列表中的產(chǎn)品同時也在黑名單,系統(tǒng)就自動將它從用戶的推薦列表中去除,從而避免向用戶推薦其可能不喜歡的產(chǎn)品,減少用戶的不滿意度,增強用戶對推薦系統(tǒng)的信任。因此利用用戶的負面評價信息不但可以降低推薦列表的出錯率,還有助于降低系統(tǒng)中的信息冗余,對于推薦系統(tǒng)擴展性問題的解決具有重要意義。
2利用負面評價的個性化推薦算法框架
無論哪一種推薦算法,算法的核心都是相似性搜索,既然通過用戶喜歡的產(chǎn)品信息可以找到那些潛在的會得到用戶喜歡的產(chǎn)品,那么通過用戶不喜歡的產(chǎn)品信息也可以找到那些會讓用戶不喜歡的產(chǎn)品?;谶@種理論假設,我們設計了考慮用戶負面評價的推薦算法框架,如圖1所示。
該框架的運行原理為:
1)考慮用戶評分數(shù)據(jù)的好壞差異,對評分數(shù)據(jù)進行分類;
2)通過個性化推薦算法,基于獲得用戶好評的產(chǎn)品信息得到用戶最初的推薦列表,基于得到用戶差評的產(chǎn)品信息得到用戶不喜歡的產(chǎn)品列表;
3)在過濾模塊中,識別并剔除掉那些用戶的推薦列表中存在的用戶不喜歡的產(chǎn)品列表中的產(chǎn)品,精煉推薦結果。
4)為了驗證該框架的運行效果,我們在算法框架的基礎上設計了評價指標算法模塊,可以從推薦準確度,推薦結果的流行性和多樣性,推薦結果的信息量,以及去除的冗余信息量等角度對該算法框架進行評價。
圖1考慮負面評價的個性化推薦算法框架
3數(shù)值實驗
我們采用MovieLens標準數(shù)據(jù)庫中數(shù)量級為105的數(shù)據(jù)集,基于物質(zhì)擴散推薦算法,對該算法框架進行了數(shù)值實驗。該數(shù)據(jù)集包含了943個用戶對1682部電影的打分信息。根據(jù)打分規(guī)則的描述,我們假設用戶對電影的打分大于等于3表示用戶喜歡這部電影,打分小于3表示用戶不喜歡這部電影,據(jù)此將數(shù)據(jù)集分為兩部分:基于喜歡的82520條打分信息和基于不喜歡的17480條打分信息。為了考察算法框架的表現(xiàn),我們把基于喜歡的82520條打分信息按照9:1隨機劃分為訓練集和測試集,進行對照實驗。當推薦列表長度L=10時實驗結果如表1所示。
1)準確度。平均排序分是衡量推薦算法準確度的一個重要指標,測試集中用戶喜歡的所有產(chǎn)品的排序分數(shù)的平均值越小,就說明推薦算法趨向于把用戶喜歡的產(chǎn)品排在前面,推薦算法的準確度越高。
2)流行性。一個產(chǎn)品的度就是這個產(chǎn)品被收藏的次數(shù),產(chǎn)品的度越大說明越流行。一般而言,推薦列表的產(chǎn)品平均度越小的系統(tǒng),意味著系統(tǒng)不會總向用戶推薦熱門產(chǎn)品,用戶滿意度相對更好。
3)多樣性。平均海明距離度量了不同用戶推薦列表的差異化程度,最大值為1,即所有用戶的推薦列表完全不同,最小值為0,
表1實驗結果對比
即所有用戶的推薦列表都完全一致。平均海明距離越大說明系統(tǒng)趨向于向不同的用戶提供差異化更大的推薦列表,推薦列表的多樣性更好。
4)信息量。平均信息量越大,說明每一個推薦結果對用戶的效用越大,意味著推薦結果傳遞的新信息更多,帶給用戶的意外感更強。
5)冗余度。由于利用負面評價的算法,可以用用戶不喜歡的產(chǎn)品列表精煉推薦結果,因此推薦列表總長度更小,推薦列表的信息冗余明顯減少。
綜上,利用負面評價的算法在以上五個評價指標的表現(xiàn)均優(yōu)于經(jīng)典的物質(zhì)擴散推薦算法。
4總結
在推薦系統(tǒng)的實際應用中,用戶的負面評價具有稀缺性,但用戶的負面評價信息卻能夠比大量存在的正面評價信息更準確地反映出用戶的興趣特征,具有重要的研究價值。本文重新考慮了用戶的負面評價對改進推薦系統(tǒng)的作用,構建了考慮用戶負面評價的個性化推薦算法框架?;谖镔|(zhì)擴散推薦算法和MovieLens標準數(shù)據(jù)集的數(shù)值實驗證明,利用負面評價的推薦算法框架能在一定程度上減弱龐大數(shù)據(jù)集數(shù)據(jù)稀疏性的影響,通過去除冗余信息還能提高系統(tǒng)的推薦質(zhì)量,可作為目前推薦系統(tǒng)擴展性難題的解決方法之一。
下一步的工作將關注對負面評價信息的影響進行控制。推薦系統(tǒng)的最終目的是向用戶推薦他們喜歡的產(chǎn)品,而并非不喜歡的產(chǎn)品,并且負面評價中也存在著不準確的信息,因此如何平衡正面評價和負面評價將是未來的工作重點。
參考文獻:
關鍵詞:服裝搭配;個性推薦;專家系統(tǒng)
目前,時尚導購類應用越來越多,面向用戶所展開的功能良莠不齊,很多的應用充斥著大量信息,增加了用戶對于使用產(chǎn)品時的工作負荷量。本文基于專家系統(tǒng),對于個性化推薦穿搭應用是要改善用戶使用體驗,增進理解用戶的需求,降低個人與服裝之間的溝通張力,平衡用戶自知與服裝客觀感知間的和諧。市場上現(xiàn)有的導購推薦類應用,大部分以服裝搭配推薦圖例的展示形式陳列給用戶,卻從未發(fā)自內(nèi)心推敲用戶到底想要什么。用戶開始會被不同的展示圖片所吸引,隨之進入“流”的購物模式。
“流”(Flow),這個概念最早在Mihaly Csikszentmihalyi的著作中Flow:The Psychology of Optimal Experience中被提到。在Peopleware:Productive Projects and Teams一書中,作者Tom DeMarco和Timothy Lister將流描述為“一種深層的、近乎完全的融入狀態(tài)”。流通常包括一種溫和的沉醉感并能讓你對時間的流逝毫無察覺。[1]流也可稱為沉浸式模式,進入沉浸式購物模式的用戶,心境就會發(fā)生轉變,對于網(wǎng)站推薦的衣服本身要求就將變得更加嚴苛。用戶目標與動機明確的設計,是產(chǎn)品最該被列入首要的主題。
用戶在購買時,從購物心理學的角度來講分為:無意識購物、購物環(huán)境潛移默化、消費者固有的慣性思維中心等。簡單來說,用戶在購物的時候大多處于一種盲目的狀態(tài),如以下網(wǎng)購流程簡述:正常的網(wǎng)上購物行為應該粗略分為以下12步:想要購買衣服、不同應用中探尋、有喜歡的、看價格、價格合適、鏈接、看圖片服飾細節(jié)、看店家信譽、看已購買用戶評價、(思考是否合適自己、聯(lián)想自己的已有服飾的搭配)、是否是7天無理由退還貨物店、加入購物車、(再次思考猶豫)、購買。
在網(wǎng)上購物不同于現(xiàn)實購物,所看即所得,只要上身好看就可以直接購買。網(wǎng)購時,購買的12步中,我們其實從第3步就已經(jīng)開始有了購買的欲望,但是到最終的購買我們還要歷經(jīng)很多的評斷時間。問題在于我們對于物品的不信任,對于自己的不了解,更加重要的是對于自己的衣櫥沒有一個整體概覽。很多18~25歲的“小白用戶”人群想要尋求變化,找到自己的特點穿出個性,盲目地推薦她們下載時尚導購類的應用,只會叫她們更加的舉步維艱。
解鈴還須系鈴人,問題的根本要從用戶自身尋找,要使用戶自己了解自己。服裝搭配不僅僅是肉體和布料間的疊加,而是有關色彩、材質(zhì)、款型、身高體重、臉型等因素組成,個性化推薦也是基于此。個性化推薦的專家系統(tǒng),首先是要在大量的數(shù)據(jù)基礎之上,運用人工智能的技術完成。
專家系統(tǒng)(Expert System,ES)亦稱為專家咨詢系統(tǒng),它是一種具有大量專門知識與經(jīng)驗的智能計算機系統(tǒng)。它把專門領域中人類專家的知識和思考解決問題的方法、經(jīng)驗和訣竅組織整理且存儲在計算機中,不但能模擬領域專家的思維過程,而且能讓計算機如同人類專家那樣智能地解決實際問題?!皩<蚁到y(tǒng)”指擁有某個或某些專門領域相當數(shù)量的專家級知識,并且能夠在運行過程中不斷地增長新知識和修改原有知識,從總體上達到專家水平。由于專家系統(tǒng)是基于知識的系統(tǒng),那么,建造專家系統(tǒng)就涉及知識獲?。◤娜祟悓<夷抢锘驈膶嶋H問題那里搜集、整理、歸納專家級知識),知識的組織與管理,知識庫建立與維護,知識的利用等。本文中所描述的基于專家系統(tǒng)的個性化穿搭應用推薦猜想,也是從搜集專家級的知識開始,以下會從視覺上最先感知的顏色開始,推導出我們的個性化穿搭推薦的專家系統(tǒng)。[2]
服飾搭配中最為吸引人眼球的是整體的顏色。首先,要確立用戶膚色的大致劃分,以便找到適合自己的服裝風格顏色。例如,皮膚比較偏向棕色的女生,可能由于更加崇尚健康常曬太陽,比較適合活躍的熒光色,色彩飽和度高的色彩;皮膚比較白皙的女生,比較適合暖色。顏色確定后,我們通過顏色的劃分和歸類,可以導向服飾搭配中的風格分類。根據(jù)各大電商的風格分類總結,可以將服飾風格劃分為4種大類:女性化、中性化、個性化、大眾化。根據(jù)色彩的關聯(lián),能夠很快地定位用戶的方向,每次向用戶推薦2種風格,其中可變更風格1種(女性化、中性化、個性化任選其一)。更換一種大風格則相應的推薦另外兩種可變更風格之一;替換一種大風格下的小趨向,可從新獲得2種小趨向風格。
不做硬性的推薦,而是感情化的給予建議,如同你的購物閨蜜一般。這樣的推薦來源于用戶自身真實的個體特征資料,通過猜風格的形式和用戶產(chǎn)生第一次的互動,讓用戶不會有被迫的感覺。這樣的個性化推薦,大大減少了用戶尋找想要服飾的時間,并且在每次用戶操作過后,系統(tǒng)將會更加了解用戶心里的欲求購買物品,可以更加準確的推薦給用戶。每種大風格下面的服飾搭配,所用的單品總是共10種,包括包、配飾等配件,10種搭配衍生出7種整體符合大風格的造型。這就是我們想要強調(diào)的收斂型。不是夸張地叫你總是購買新衣服,而是有節(jié)制的從需求、適合、喜歡,三種不同層級出發(fā)收斂,以幫助用戶不會穿錯的基礎上提高20%的心意,打造潮級平凡的搭配效果。
每款推薦的搭配都是在一定價格范圍之內(nèi)。根據(jù)18~25歲用戶的經(jīng)濟水平,每套服裝搭配都應該有其應用的價格傾向,適合“小白用戶”的更加細分的人群。在校園中,大部分的經(jīng)濟來源都是父母的支持,我們應該樹立良好的價值觀,不應過度消費。
每款推薦的搭配單品可以通過拍照的方式進行替換,合理的利用現(xiàn)有服飾,搭配出相同的效果。本質(zhì)是現(xiàn)有衣服的重組沒有建立起來。一遍遍的試穿現(xiàn)有的服裝,在體力上用戶使用度不夠良好。所以,只要用戶輸入了現(xiàn)有的服裝,系統(tǒng)可以自動為其匹配;或是用戶可以利用其碎片時間,完成搭配的小游戲。這種互動可以增加用戶的搭配能力,在體驗中尋求成長。用戶的搭配知識來源于,系統(tǒng)的推薦和達人用戶的服飾街拍樣例。每一次用戶自我的搭配還可以分享給其他用戶,通過評分的機制,增加整個使用過程中的游戲性,讓搭配成為一種誰人都可以做好的事情。達人的服飾展示不僅可以作為服飾搭配的知識來源,還可以作為“小白用戶”的匹配樣板。根據(jù)“小白用戶”最開始的個體體征數(shù)據(jù),可以找到資料相當?shù)倪_人,作為參考樣板。
通過這樣的專家系統(tǒng)化的個性化推薦設計,不僅可以減少用戶在尋求購買時的時間成本,最重要的可以幫助“小白用戶”完成自我探尋的第一步,開啟了他們的服飾搭配敲門磚。購物只需三步:選擇――喜歡――購買。個性化推薦的關鍵就是在幫助用戶,在一定的預算范圍之內(nèi),完成最大化的個性服飾搭配,并解決最快的購買流程?;趯<蚁到y(tǒng)的個性化推薦設計,想要做的就是平衡“個人偏好”與“實際獲得”之間的距離,讓用戶最終買到的東西盡可能的貼近用戶心里欲求的。
參考文獻:
[1] Alan Cooper(美),等.About Face3交互設計精髓[M].劉松濤,等,譯.電子工業(yè)出版社.
關鍵詞:個性化服務 Web使用挖掘 頻繁訪問模式 在線推薦
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1007-9416(2012)07-0141-02
1、引言
互聯(lián)網(wǎng)已經(jīng)成為日常生活不可或缺的重要組成部分,然而隨著近年來爆炸式地增長,信息過載與信息迷失正逐漸制約著人們利用互聯(lián)網(wǎng)來高效地獲取有價值的信息。面對浩如煙海的網(wǎng)絡空間,如何快速定位到個人真正感興趣的資源是一個迫切需要解決的問題,個性化服務應運而生。本文采用當前網(wǎng)絡開發(fā)的較為成熟的主流技術,設計了一個基于Web使用數(shù)據(jù)挖掘的個性化推薦系統(tǒng)。
2、個性化服務的概述
2.1 個性化服務的主要方式
個性化服務是以用戶為中心的,解決和滿足用戶的信息服務的需要。目前,個性化服務方式主要有以下幾種:
(1)信息分類定制服務:主要面對大眾提供可以定制的 web 頁面,具有為用戶創(chuàng)立和管理個人信息的功能,用戶可根據(jù)自己的需要定制個性化的界面設置、信息資源和服務形式,而系統(tǒng)會根據(jù)用戶的定制要求完成個性化的頁面設計,自動呈現(xiàn)用戶需要的信息類別。
(2)個性化信息檢索服務:根據(jù)用戶的興趣和特點進行檢索,返回與用戶需求相關的檢索結果。這就要求個性化信息系統(tǒng)增加優(yōu)化查詢功能,通過內(nèi)容過濾等技術,在檢索的同時考慮用戶的個性化差異,從而提高檢索質(zhì)量。
(3)個性化推薦服務:主要是根據(jù)用戶的信息例如用戶的喜好,為滿足用戶的信息需求向用戶推送用戶喜好相關的信息,在這個過程中就是根據(jù)用戶的需求和目前的信息數(shù)據(jù)庫進行不斷的配對,將相關的信息推送給用戶。
2.2 個性化服務的相關技術
(1)數(shù)據(jù)挖掘是從大量的、不完整的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是可信的、潛在的和有價值的信息和知識的過程。
(2)信息推送技術是通過一定的標準和協(xié)議,在網(wǎng)絡上按照用戶的需求,定期主動傳送用戶需要的信息的一項計算機技術。推送技術的核心思想是建立一個信息機制,把由客戶端擔負的責任轉給服務器,由服務器將用戶定制好的感興趣的網(wǎng)上信息以推送或網(wǎng)播的方式直接傳送到用戶面前。
(3)信息過濾是指從動態(tài)的信息流中獲取符合用戶靜態(tài)需求的信息,或者根據(jù)需要禁止?jié)M足特定條件的信息流入。
(4)Web挖掘技術它可以從網(wǎng)絡瀏覽行為中抽取用戶感興趣的模式。通過對用戶瀏覽網(wǎng)站的日志數(shù)據(jù)進行收集、分析和處理,建立起用戶的行為和興趣模型,這些模型可以幫助理解用戶行為,改進站點結構以及為用戶提供良好的個性化信息服務。
3、系統(tǒng)分析和設計
3.1 個性化服務的內(nèi)涵及特征
個性化信息服務是“信息爆炸”的背景下針對“信息過載”和“信息迷向”問題的重要解決方案之一。它基于用戶的學科、興趣和使用習慣等特征,利用網(wǎng)絡等信息技術,通過用戶個人信息定制、系統(tǒng)推薦和信息推送等功能,針對不同的用戶需求,采用不同的服務方式,提供不同的信息內(nèi)容,實現(xiàn)多層面的個性化。從理論層面講,個性化信息服務是一種服務理念,從技術層面講,個性化信息服務是一個實現(xiàn)個性化服務的平臺。具休地說,個性化信息服務具有如下特征:
3.1.1 以用戶需求為中心
以用戶需求為中心包含兩層含義:一是以用戶的需求為導向設計與安排服務功能與設施;二是創(chuàng)建個性化的信息環(huán)境,按照用戶或用戶群的特點組織信息資源,提供多樣化的信息服務。
3.1.2 信息資源多元化
通過對各種館藏資源的有效組織、管理與配置,建立多元化的信息資源組織體系,為讀者利用館藏資源提供最大的便利。支持個性化服務系統(tǒng)的數(shù)據(jù)庫包含指向豐富信息內(nèi)容的鏈接,力爭達到讓用戶即需即得的效果。
3.1.3 具有智能化分析和挖掘用戶需求的功能
智能化分析是指主動采集并跟蹤用戶瀏覽的信息,一方面從用戶日常檢索瀏覽中主動學習用戶的興趣,推理并預測用戶需求,及時處理推薦信息;另一方面可根據(jù)不同用戶的相同點或相似性進行信息推薦,使需求相同的用戶之間共享查詢結果。
3.1.4 推薦信息的準確性、高效性
由個性化服務推薦給用戶的信息必須是準確的、高效的、適合用戶的。能通過使用信息過濾等技術,屏蔽無關、無用的冗余信息,推薦精確、真實可用的信息;能自動地、智能地將大量的數(shù)據(jù)信息轉換為用戶所要求的或用戶可接受的系統(tǒng)知識形式,從而節(jié)約用戶時間,提高服務效率。
3.2 系統(tǒng)結構設計
在Web使用挖掘的一般過程中,主要將其劃分為三個階段:數(shù)據(jù)預處理;模式發(fā)現(xiàn);模式分析與應用,如圖1所示。
由于服務器日志并非專門用于數(shù)據(jù)挖掘,因此在進行Web使用挖掘之前必須對其進行處理過濾,解決數(shù)據(jù)的不一致性、不完整性等問題,使之符合Web挖掘的需要,這就是數(shù)據(jù)預處理階段,預處理的結果會直接影響到挖掘算法產(chǎn)生的規(guī)則和模式;模式發(fā)現(xiàn)階段即挖掘算法實施階段,是對預處理后的數(shù)據(jù)使用數(shù)據(jù)挖掘中的算法如關聯(lián)規(guī)則,聚類分析等來產(chǎn)生規(guī)則和模式;模式分析與應用階段是整個Web使用挖掘過程的最后一步,此階段的主要目的是通過一定的技術和方法過濾掉模式發(fā)現(xiàn)階段產(chǎn)生的“不感興趣”的規(guī)則和模式。
3.3 系統(tǒng)功能模塊設計
整個系統(tǒng)框架包括離線和在線推薦引擎兩部分。離線部分又包括數(shù)據(jù)準備、用戶興趣建模等模塊;在線部分則由建立推薦池、產(chǎn)生初步推薦集、融合離線部分產(chǎn)生結果推薦集模塊組成。離線部分承擔數(shù)據(jù)準備和知識挖掘等功能,該部分面向的數(shù)據(jù)源通常為系統(tǒng)內(nèi)存儲的各種海量歷史數(shù)據(jù),挖掘處理需要較長時間,因此被設計為離線部分,以避免對實時性要求的影響;在線部分則承擔向當前用戶提供實時個性化服務推薦等功能,該部分是建立在離線部分的基礎上,直接參照其所生成的基于用戶興趣的頁面推薦集,針對不同用戶快速生成各種推薦服務?;赪eb挖掘的個性化推薦系統(tǒng)的功能框架圖如圖2所示。
圖2 基于Web挖掘的個性化推薦系統(tǒng)框架圖
各子模塊功能如下:
(1)數(shù)據(jù)準備模塊。該模塊是對原始的用戶訪問日志進行數(shù)據(jù)采集、數(shù)據(jù)清洗和事務標識,生成對挖掘階段有用的用戶會話文件、事務數(shù)據(jù)庫及將站點的相關文件生成站點數(shù)據(jù)文件。
(2)建立用戶興趣模型庫模塊。該模塊使用Web挖掘技術對用戶訪問頁面內(nèi)容和用戶訪問行為進行分析,抽取用戶興趣,結合信息資源的相關性,形成用戶興趣的矢量描述,并能隨著用戶的訪問的推進和用戶興趣的改變,及時更新用戶模型。
(3)建立推薦池模塊。該模塊就是通過獲取用戶評價,得到帶有用戶訪問時長的用戶訪問頁面集合。
(4)產(chǎn)生初步推薦集模塊。該模塊通過對當前用戶訪問頁面的相似度計算,繼而進行用戶聚類分析,再對聚類用戶進行關聯(lián)規(guī)則發(fā)現(xiàn),產(chǎn)生初步推薦頁面集。
(5)融合離線部分產(chǎn)生個性化推薦集模塊。該模塊將產(chǎn)生的初步推薦頁面集與離線部分的用戶興趣模型相匹配。通過比較產(chǎn)生出最適合用戶的個性化推薦頁面集,并把這些頁面的地址附加到當前訪問頁面的底部,以進行推薦(圖3)。
4、結語
綜上所述,本文在對web服務技術及數(shù)據(jù)挖掘語言實施了分析和研究后,提出一個基于Web使用挖掘的個性化系統(tǒng)架構,該系統(tǒng)通過挖掘用戶Web訪問信息,生成了獨立的用戶興趣模型庫,可以更全面地反映用戶的興趣偏好,從而為用戶提供更詳細的信息推薦。
參考文獻
[1]韓家煒,孟小峰.Web挖掘研究.計算機研究與發(fā)展,38(4):405-414,2001.
[2]崔林,宋瀚濤,龔永罡,陸玉昌.基于Web使用挖掘的個性化服務技術研究.計算機系統(tǒng)應用,第三期:23-26,2005.
[3]王彤,何丕謙.Web日志挖掘及AprioriAll算法的改進.天津理工大學學報,23(1):13-17,2007.
[關鍵詞]e-learning;協(xié)同過濾技術;學習資源;個性化推薦
[中圖分類號]Tp391 [文獻標識碼]A [文章編號]1672-0008(2011)03-0066-06
一、引言
e-learning已成為企業(yè)開展員工培訓的有效方式之一。目前,許多企業(yè)在企業(yè)內(nèi)部網(wǎng)或互聯(lián)網(wǎng)搭建了e-learning支持系統(tǒng)。隨著e-learning應用實踐的深入,e-learning支持系統(tǒng)中學習資源數(shù)量日漸增多,導致員工需要花費大量的時間和精力在平臺中檢索和查閱符合自己需要的學習資源,甚至找不到符合自己興趣和工作崗位需求的學習資源。
通過分析多個企業(yè)e-learning門戶系統(tǒng),我們發(fā)現(xiàn),當前e―learning系統(tǒng)推送學習資源的方式有三種:
(1)Top-N推薦方式,即采取將點擊率最高的前N個熱門資源推薦給用戶。點擊率的高低在一定程度上反映學習資源的受歡迎程度,但無法實現(xiàn)個性化推薦。在包含多種職業(yè)領域的學習資源管理系統(tǒng)中,學習者對資源類別、媒體類型需求迥異,點擊率較高的學習資源,只能反映部分學習者的需求和偏好。
(2)關鍵字查詢方式。這種方式具有便捷和快速的優(yōu)點,但是這種被動式資源查詢方式只追求目標資源與所提供檢索關鍵字的契合程度,無法體現(xiàn)目標資源質(zhì)量的高低,無法實現(xiàn)資源主動式個性化推薦。
(3)最新資源推薦。這種方式可以將資源庫的更新情況在第一時間反饋給用戶,增加最新學習資源被訪問機會,但是資源的質(zhì)量無法保證,個性化的推薦無法實現(xiàn)。鑒于以上資源推送方式存在的不足,如何解決e-learning系統(tǒng)中學習資源的主動式個性化推薦,成為當前教育技術學研究人員面臨的研究主題之一。
個性化推薦技術能克服傳統(tǒng)資源檢索方式的缺陷,其中,協(xié)同過濾推薦技術是一種應用最為廣泛的個性化推薦技術。目前,協(xié)同過濾技術已成功應用于電子商務領域。本研究嘗試將協(xié)同過濾推薦技術引入e-learning系統(tǒng)的學習資源個性化推薦中,以推進這一研究主題的深入。
二、文獻綜述
(一)個性化推薦技術
個性化推薦是推薦系統(tǒng)根據(jù)用戶的個性化特征,如興趣、愛好、職業(yè)或專業(yè)特點等,主動地向用戶推送適合其學習需要或可能感興趣的信息資源的一種推薦技術。此外,個性化推薦技術可以共享用戶間的經(jīng)驗,為目標用戶推薦其相似用戶群偏好的信息資源。其工作原理是:首先根據(jù)用戶信息建立用戶興趣模型;然后,在信息資源庫中尋找與其匹配的資源信息并產(chǎn)生推薦,以滿足不同用戶的個性化需求。按實現(xiàn)算法和實現(xiàn)方式的不同,個性化推薦技術可分為基于關聯(lián)規(guī)則的推薦、內(nèi)容過濾推薦、協(xié)同過濾推薦等三種,也可以綜合以上三種推薦方式產(chǎn)生新的混合型推薦算法。
1.基于關聯(lián)規(guī)則的推薦
基于關聯(lián)規(guī)則的推薦技術的工作原理:首先由管理員定制一系列的規(guī)則條目,然后利用制定的規(guī)則度量項目間的相互關聯(lián)性,將關聯(lián)密切的項目推送給用戶。在進行推薦時,系統(tǒng)分析用戶當前的興趣愛好或訪問記錄,然后按照事先制定的規(guī)則向用戶推薦其可能感興趣的資源項目。例如,對于一個正在學習網(wǎng)頁設計技術的學習者來說,當他點播以ASP網(wǎng)頁設計為主題的學習資源時,系統(tǒng)向他推薦了與HTML技術相關的學習資源。這是因為HTML技術是網(wǎng)頁制作的基礎知識,學習者有可能并未很好掌握,或者仍有興趣深入學習。這樣就形成了一個基于關聯(lián)規(guī)則的推薦。
基于關聯(lián)規(guī)則的個性化推薦存在兩個缺點:
(1)規(guī)則無法由系統(tǒng)自動生成,必須由管理員手動定制,這無法保證推薦的精確度,而且規(guī)則的制定和維護的工作量大;(2)規(guī)則在制定之后不能動態(tài)變化。制定后的規(guī)則只能為用戶推薦與其原始興趣相符的資源條目,無法為其推薦其它高質(zhì)量的資源,更不能發(fā)現(xiàn)用戶潛在的興趣點。
2.內(nèi)容過濾推薦
內(nèi)容過濾推薦技術是信息過濾中最基本的一種方法,是較早被提出的一種推薦技術。內(nèi)容過濾的工作原理:采用概率統(tǒng)計和機器學習等技術實現(xiàn)過濾,首先用一個用戶興趣向量表示用戶的信息需求;然后對文本集內(nèi)的文本進行分詞、標引、詞頻統(tǒng)計加權等,生成一個文本向量;最后計算用戶向量和文本向量之間的相似度,把相似度高的資源條目發(fā)送給該用戶模型的注冊用戶。
內(nèi)容過濾推薦技術適用于推薦文本類型的學習資源,不適用于推薦多媒體類型的學習資源。內(nèi)容過濾推薦技術需要在分析文本資源結構的基礎上,抽象出若干個代表文本特征的關鍵詞,描述資源內(nèi)容特征。對于其它形式的學習資源(動畫、音頻、視頻等),該技術不能用幾個關鍵詞概括它們而無法做出較高精度的推薦。另外,內(nèi)容過濾推薦只能根據(jù)資源向量同用戶向量的匹配程度向用戶推薦相關資源,無法篩選出優(yōu)質(zhì)的資源。
3.協(xié)同過濾推薦
與前兩種推薦技術不同,協(xié)同過濾推薦需要在分析資源內(nèi)容、計算資源和用戶的匹配度的基礎上產(chǎn)生用戶推薦,產(chǎn)生推薦的依據(jù)是用戶對資源的評分。協(xié)同過濾推薦的工作原理:首先分析用戶特性,如興趣、職業(yè)等信息;然后利用相似性算法計算用戶間的相似性,找出與目標用戶相似性最高的k個用戶;最后參照鄰居對資源的評分預測目標用戶對資源的評分,將預測評分最高的n個資源推薦給目標用戶。
協(xié)同過濾推薦技術具有以下三個特點:(1)較好的普適性。與其它個性化推薦技術不同,協(xié)同過濾推薦算法所依賴的是用戶對資源的評分,和資源的內(nèi)容或者形式無關。這一特點使得協(xié)同過濾推薦不僅適用于容易抽象出特征向量的文本類資源,而且對動畫、視頻、音頻等難以準確概括出特征向量的多媒體素材具有同樣的推薦效果。(2)良好的推薦精度。用戶對資源的評分反映了用戶對資源的滿意程度,在絕大多數(shù)情況下代表了資源的品質(zhì),使建立在評分數(shù)據(jù)基礎上的協(xié)同過濾推薦具有出色的推薦準度,其推薦結果在質(zhì)量上能夠得到保證。(3)共享好友經(jīng)驗。由于協(xié)同過濾推薦通過目標用戶(項目)的鄰居預測評分,使得相似用戶間彼此共享資源使用經(jīng)驗。通過分享鄰居的經(jīng)驗發(fā)現(xiàn)目標用戶的潛在興趣點,能拓展其學習思路和提供學習支架,使得推薦更加高效。
三、協(xié)同過濾推薦技術
(一)概述
協(xié)同過濾概念的提出要追溯到上個世紀,在1992年由Goldberg、Oki、Nichols和Terry首次提出,首先應用在Tapestry系統(tǒng)中。作為協(xié)同過濾技術的第一代產(chǎn)品,Tapestry系統(tǒng)存在諸多缺陷,沒有達到成熟的程度。發(fā)展至今,協(xié)同過濾技術在互聯(lián)網(wǎng)的眾多領域得到了廣泛地應用,如電子商務領域的Amazon、Netflix、Taobao,國內(nèi)主流的視頻點播網(wǎng)站Youku、Tudou等。協(xié)同過濾推薦技術已成為流行的個性化推薦技術之一。
協(xié)同過濾算法分為兩大類:基于存儲(Memory-based)的協(xié)同過濾算法和基于模型(Model-based)的協(xié)同過濾算法。目前,大部分協(xié)同過濾算法的實際應用都屬于基于存儲的協(xié)同過濾算法范疇。
基于存儲的協(xié)同過濾算法包括基于用戶(User-based)的協(xié)同過濾算法和基于項目(Item-based)的協(xié)同過濾算法。它以用戶――項目(信息資源)評分數(shù)據(jù)為基礎,通過使用不同的相似性度量方法,計算用戶或者項目之間的相似性值,形成鄰居用戶或者鄰居項目集合;然后,以鄰居集合中用戶對項目的評分為依據(jù),預測用戶對未評分項目的評分,形成推薦項目列表,以合適的視圖呈現(xiàn)給用戶。
基于模型的協(xié)同過濾算法首先建立一個用戶――項目評價模型,以此模型為依據(jù)提供對項的推薦?;谀P偷膮f(xié)同過濾算法同基于存儲的協(xié)同過濾算法的區(qū)別在于,基于模型的方法不是基于一些啟發(fā)規(guī)則進行預測計算,而是基于對已有數(shù)據(jù)應用統(tǒng)計和機器學習生成的模型進行預測。目前,基于模型的協(xié)同過濾算法主要有聚類模型、Bayes模型、關聯(lián)規(guī)則模型、語義生成模型等幾種。
(二)協(xié)同過濾推薦技術的實現(xiàn)
協(xié)同過濾推薦基于以下假設:如果用戶對一些項目的評分比較相似,則他們對其它項目的評分也比較相似;如果大部分用戶對一些項目的評分比較相似,則當前用戶對這些項目的評分也比較相似。協(xié)同過濾推薦系統(tǒng)使用統(tǒng)計技術搜索目標用戶的若干最近鄰,然后根據(jù)最近鄰對項目的評分預測目標用戶對項目的評分,產(chǎn)生對應的推薦列表。協(xié)同過濾推薦的實現(xiàn)流程包含三個關鍵步驟:獲取及表示用戶信息、形成鄰居和產(chǎn)生推薦。
1.荻取及表示用戶信息
用戶數(shù)據(jù)包括三類:用戶注冊信息、用戶學習數(shù)據(jù)和用戶行為記錄。推薦系統(tǒng)獲取用戶行為數(shù)據(jù)有顯式評分和隱式評分兩種方法。顯式評分是指用戶通過直接打分的形式給資源的評分過程。隱式評分是記錄用戶行為數(shù)據(jù),將其加權轉化為用戶對資源的評分。顯式評分和隱式評分各有其優(yōu)缺點,前者比較直觀,能準確反映用戶對資源喜好程度,但由于評分操作可能中斷用戶的學習行為,所以會給用戶帶來一些不便;后者通過分析用戶相關信息而間接得到評分,不需要增加用戶額外的操作,但其缺點是相關用戶數(shù)據(jù)在某些情況下不能準確地反映用戶的喜好,使評分的準確性下降。
協(xié)同過濾技術將獲取的數(shù)據(jù)以用戶一資源評分矩陣的形式表示,如表1所示。其中,第i行第j列的元素R代表第i個用戶對第i個資源的評分。
2.形成鄰居
尋找目標用戶的鄰居是協(xié)同過濾技術的最核心步驟。所謂鄰居,即與目標用戶i具有相同或者相似興趣的用戶群。計算目標用戶i和其他用戶i之間相似性的過程:首先篩選得到用戶i和用戶j共同評分的所有資源集合Resli=Resln Res,,然后通過相似性度量方法計算兩個用戶之間的相似性。目前常用的相似性度量方法有:余弦相似性、相關相似性和修正的余弦相似性。
余弦相似性是最為傳統(tǒng)的相似性計算方法,而修正的余弦相似性算法的計算過程為:推薦系統(tǒng)中的不同用戶在學習經(jīng)歷、對資源的要求、價值標準等各方面都存在較大地差異,用戶對資源的評分在很大程度上建立在用戶的主觀判斷上,所以會體現(xiàn)出對資源的評價尺度上的差異性,為了適應這種狀況,需要適當?shù)匦拚嘞蚁嗨菩运惴?。修正的余弦相似性算法在計算用戶對資源評分時減去用戶對資源的平均評分,弱化由于用戶間評價尺度的差異性帶來的評分誤差,因此較傳統(tǒng)的余弦相似性算法得到更為準確地相似性值。
3.產(chǎn)生推薦
產(chǎn)生推薦是協(xié)同過濾推薦算法的最后一個步驟。產(chǎn)生推薦的計算過程是通過鄰居集對資源的評分預測目標用戶學習資源的評分:用戶i對項目s的打分R,通過其他用戶(即鄰居集x中的用戶)對s的打分計算得到,在預測了用戶i對資源集s的評分R之后,取R值最大的前若干項資源推薦給用戶i基于協(xié)同過濾的推薦算法流程如圖1所示。
(三)協(xié)同過濾推薦系統(tǒng)的案例分析
協(xié)同過濾推薦算法作為一種高效的資源推薦技術,在電子商務及網(wǎng)上視頻點播領域已經(jīng)得到廣泛、成功的應用。全球最大的圖書銷售網(wǎng)站Amazon(亞馬遜),國內(nèi)最大的電子商務網(wǎng)站Taobao(淘寶網(wǎng)),以及國內(nèi)知名的視頻網(wǎng)站Tudou(土豆網(wǎng))等。在本節(jié)中,我們將Amazon網(wǎng)站的協(xié)同推薦算法作為案例加以分析。
Amazon網(wǎng)站的協(xié)同過濾推薦算法與傳統(tǒng)的算法有一定差異,它采用的是所謂的item-to-item協(xié)同過濾算法,類似于傳統(tǒng)協(xié)同過濾推薦算法中基于項目(itern-based)的推薦算法,其算法流程如圖3所示。
與傳統(tǒng)的協(xié)同過濾算法相比,hem-to-item~法的優(yōu)點是:商品(項)之間的相似度計算可以離線進行,這提升了系統(tǒng)對用戶請求的響應速度;同時,由于不同用戶共同購買的商品數(shù)量很小,所以商品間的相似度計算更為快速。其不足之處在于:離線計算的形式不能實時地反映用戶對商品的評價情況,影響了相似度計算以及推薦的精度。
我們通過一個簡單的實例進一步說明該算法的計算機過程。表2中的數(shù)據(jù)是一個簡化的圖書購買信息表,其中“1”表示購買,“O”表示未購買。
對于上表,以“趙大”為例,說明item―t0一item協(xié)同過濾算法的計算流程:
(1)根據(jù)用戶購買行為生成“資源――用戶”向量。將表中以書名劃分的每一個條目轉化為向量,各條目及對應向量如下:《TCP/IP協(xié)議解析》:Vecl=;《算法導論》:Vee2=;《人工智能》:Vee3=;《Linux~作系統(tǒng)》:Vec4=;《概率統(tǒng)計》:Vec5=。
(2)兩兩計算資源條目間的相似度。此過程的計算操作可以離線進行,采用的是前文介紹的修正的余弦相似性計算方法?!摆w大”購買了《TCP/IP協(xié)議解析》和《人工智能》兩書,他們與其它書目的相似度為:《TCP/IP協(xié)議解析》:Sirel:=0.82,Sire=0.82,Siml4=0.82,Siml,=0.41;《人工智能》:Sim2l=0.82,Sim23=0.5,Sim24=0,Sim25=0.5。
(3)產(chǎn)生推薦結果。通過對比得出,與《TCP/IP協(xié)議解析》有最大相似度的是《算法導論》和《人工智能》,與《人
工智能》最為相似的是《TCP/IP協(xié)議解析》、《算法導論》、《概率統(tǒng)計》,最后,推薦系統(tǒng)取兩者的交集,將《算法導論》推薦給“趙大”。
(四)協(xié)同過濾推薦算法存在的缺陷
從Amazon的案例分析我們看到,協(xié)同過濾推薦技術可以為用戶找到與其原有興趣點最為契合的資源。然而,該技術產(chǎn)生精確推薦的前提是要有足夠多的評分數(shù)據(jù),即較高的用戶――資源評分率。然而,對于大型的應用系統(tǒng)(電子商務網(wǎng)站、e-learning平臺等)來說,其數(shù)據(jù)庫中的資源項目的數(shù)量異常龐大。目前,在Amazon網(wǎng)站上銷售的書目已超過310萬之多,每個用戶訪問并評價的資源數(shù)目只占其中很小的一部分,這將導致用戶――資源評分矩陣極為稀疏,由此產(chǎn)生協(xié)同過濾算法的第一個缺陷:數(shù)據(jù)稀疏。這種情況使得系統(tǒng)難以成功的產(chǎn)生鄰居用戶集,用戶間的相似性計算非常耗時,產(chǎn)生的推薦結果也難盡人意。
協(xié)同過濾推薦技術的第二個缺陷是“冷啟動”問題。一方面,對于一個新注冊的用戶來說,由于系統(tǒng)中沒有該用戶的任何資源訪問記錄,所以系統(tǒng)無法為其找到鄰居用戶集,更無法對其進行推薦;同樣的,對于一個新加入的資源,系統(tǒng)中也不存在對該資源的任何評分記錄,因而無法被協(xié)同過濾算法所推薦。這兩種“0評分”情況構成了協(xié)同過濾算法的“冷啟動”問題。
在下一部分,筆者將綜合相關學者提出的協(xié)同過濾優(yōu)化算法,形成一種組合的協(xié)同過濾推薦算法,提出個性化的學習資源推薦模型,以在一定程度上降低兩大問題給推薦帶來的負面影響。
四、基于協(xié)同過濾技術的學習資源個性化推薦模型
(一)兩大缺陷的解決思路
首先,對于“數(shù)據(jù)稀疏”問題,目前流行的有兩種解決方法:一種是缺省值法,也就是將用戶對未評分項目的評分統(tǒng)一設置設為一個固定的缺省值(通過情況下取用戶對項目評分的平均值,如5分制中的2.5分),這個方法雖然簡單,但可以在一定程度上緩解數(shù)據(jù)稀疏問題;另一種方法是項目評分預測法,可通過計算資源條目之間的相似性,由用戶對相似項目的評分來預測用戶對未評分項目的評分,使得用戶之間共同評分的項目比較多,從而有效地解決用戶評分數(shù)據(jù)極端稀疏情況下傳統(tǒng)相似性度量方法存在的不足。
其次,對于“冷啟動”問題,我們引入內(nèi)容過濾克服協(xié)同過濾推薦算法的不足。具體實現(xiàn)方法:對用戶――資源的評分率設定一個閾值,當評分率小于閾值時即可認為處于“冷啟動”狀態(tài),此時采用內(nèi)容過濾推薦的方式。由于內(nèi)容過濾是根據(jù)用戶興趣模型與資源向量空間模型的匹配來產(chǎn)生推薦,其對每個用戶的操作都是獨立的而不依賴其他用戶對資源的評價,因此能夠比較好地解決“冷啟動”問題。
(二)個性化推薦模型結構
前文我們已經(jīng)對協(xié)同過濾推薦算法從算法原理到實現(xiàn)過程都作了細致的分析,并提出了對協(xié)同過濾算法兩大問題的解決思路。在此基礎上我們構建了一個基于協(xié)同過濾技術的學習資源個性化推薦系統(tǒng)的理論模型,該模型主要包括數(shù)據(jù)支持、協(xié)同過濾推薦引擎和新進資源推薦等三個模塊,如圖4所示。
1.數(shù)據(jù)支持
數(shù)據(jù)支持模塊為一個信息數(shù)據(jù)庫,其中包含四個數(shù)據(jù)表:用戶信息表、學習行為數(shù)據(jù)表、資源信息表、資源評分數(shù)據(jù)表。(1)用戶信息表:存放學習者的個人信息,包括注冊時填寫的基本信息,以及通過Web數(shù)據(jù)挖掘技術得到的其它相關信息,如興趣、習慣、資源偏好等。為了提升協(xié)同過濾推薦的準確度,要求系統(tǒng)對用戶個人信息的掌握越詳細越好。(2)學習行為數(shù)據(jù)表:保存學習者在學習過程中產(chǎn)生的學習行為記錄。系統(tǒng)通過跟蹤、記錄學習者的各種行為數(shù)據(jù),經(jīng)過分析后抽取其中能較好體現(xiàn)學習者對資源偏好的行為數(shù)據(jù)(如對資源的下載、閱讀、收藏、推薦等)記錄到該數(shù)據(jù)表中。學習行為數(shù)據(jù)是用戶對資源條目隱式評分的數(shù)據(jù)來源。(3)資源信息庫:保存了系統(tǒng)中各種學習資源信息,如課件、案例、試題、新聞、文獻等。(4)資源評分數(shù)據(jù)表:保存學習者對學習資源的評分信息。該表是協(xié)同過濾算法的主要數(shù)據(jù)支撐。協(xié)同過濾算法通過分析用戶――資源評分數(shù)據(jù)、計算用戶或者資源之間的相似度來為用戶產(chǎn)生推薦。
2.協(xié)同過濾推薦引擎
該引擎是推薦系統(tǒng)的核心模塊,學習資源個性化推薦實現(xiàn)的中樞,其實現(xiàn)流程如圖5所示。
整個推薦引擎的算法流程可以概括為以下幾步:第一步,檢索數(shù)據(jù)庫,形成用戶――資源評分矩陣;第二步,計算數(shù)據(jù)稀疏度,在此把數(shù)據(jù)稀疏度定義為:
第三步,根據(jù)稀疏度值選擇用何種方法對協(xié)同過濾算法進行修正。此處,我們設置了一個閾值,Th value’作為選擇進行評分預測或者內(nèi)容過濾的臨界值。當SparsityTh value時,將采用評分預測算法進行修正;第四步,形成鄰居,并最終對用戶產(chǎn)生推薦。
3.新進資源推薦
該模塊主要針對協(xié)同過濾推薦技術中“冷啟動”問題而設計。它的主要功能是分析每個學習者的興趣、愛好與專業(yè)(職業(yè))類別,并為其推薦相關領域的最新資源,以提高最新資源的被訪問率。協(xié)同過濾推薦的基礎是用戶對資源的評分,但是一個剛加入到資源庫的資源如果還沒有被學習者訪問和評價而一直處于被訪問的等待隊列中,那么它將永遠沒有機會為系統(tǒng)所推薦。通過新增這一模塊,能在一定程度上克服協(xié)同過濾中的冷啟動問題,提高新人庫的學習資源被訪問的機率。
(二)隱式評分的引入
協(xié)同過濾推薦算法的一大優(yōu)點是對各種不同的資源類型都具有很好的適用性,這使得該算法可以輕易地從電子商務領域移植到e-learning系統(tǒng)中。然而e-learning系統(tǒng)中學習者的學習行為有異于電子商務領域中消費者的購買行為,前者要考慮的因素更多??紤]到e-learning系統(tǒng)存在這樣的情況:即有一部分未被評分的學習資源事實上已經(jīng)被學習者點播或者學習。我們可以通過分析用戶對于這一部分資源的學習行為,形成一個隱式評價模型。用戶的學習行為中如果出現(xiàn)了表示用戶對資源喜好的行為因素(下載、收藏、推薦、學習時長等),就可以把這些行為加權轉化為用戶對資源的隱式評分。
隱式評分是通過計算用戶各特定行為或者行為組合的分值而得到的。如表3所示,為了方便期間,我們用D、c、R、T四個字母分別代表下載、收藏、推薦、學習時長(>30min)等四種行為,資源評分的最高分為10分。
在e-learning系統(tǒng)中引入隱式評價有兩個好處:第一,通過用戶自身的學習行為來計算其對資源的評分,具有比預測更高的可靠性;第二,可以增加資源的評分率,使得預測算法有更多地評分數(shù)據(jù)可以參考。這將在一定程度上緩解協(xié)同過濾算法的“數(shù)據(jù)稀疏”問題,從而間接地提高了預測評分的準確性。
(三)有關模型的幾個關鍵問題的討論
為了滿足學習者的個性化學習需求,我們從學習資源人
手,提出了基于協(xié)同過濾技術的學習資源個性化推薦系統(tǒng)模型。該模型能有效指導e-learning個性化學習環(huán)境的設計,提高e-learning績效。但是,這其中有多個因素會影響個性化推薦的精度,降低算法的推薦效率,從而導致推薦結果難以滿足學習者的個性化學習需求。
1.學習者興趣偏好的獲取及更新
在個性化推薦系統(tǒng)中,學習者的興趣和偏好的地位相當于坐標系中的參照點。因為一個好的個性化推薦系統(tǒng)所推薦的資源應能夠很好地符合每個用戶的興趣、偏好,所以,學習者興趣、偏好的抽取過程與方法在推薦系統(tǒng)中顯得極為重要。另外,由于學習者的興趣、偏好和知識水平不是一成不變的,推薦系統(tǒng)應能夠很好地追蹤這些變化并及時地更新相關信息,以滿足學習者新的個性化需求。
2.學習者學習行為的跟蹤
學習者特定的學習行為能體現(xiàn)出學習者當前的學習偏好。例如,他學習了哪份教材第幾章第幾節(jié)的內(nèi)容,這就說明他當前比較熱衷于學習這一節(jié)所涵蓋的知識點,可以對其進行有針對性地推薦。同樣,學習者收藏、下載、推薦學習資源的行為說明學習者對這項資源感興趣。因此,系統(tǒng)應該有效跟蹤這類學習行為,并將行為數(shù)據(jù)記錄到數(shù)據(jù)庫,作為協(xié)同過濾推薦中隱式評分的重要依據(jù)。除此之外,推薦系統(tǒng)應力求更全面地掌握其它能夠體現(xiàn)用戶偏好的行為要素,以期能夠更為精確地掌握用戶的興趣、愛好,并對其產(chǎn)生最為合適的資源。
3.協(xié)同過濾推薦中兩大問題的進一步研究
雖然在我們提出的組合協(xié)同過濾推薦算法中引入了項目評分預測和內(nèi)容過濾推薦的方法,以解決協(xié)同過濾算法存在的“數(shù)據(jù)稀疏”和“冷啟動”兩大問題,但組合協(xié)同過濾推薦算法中仍有兩個關鍵點需要進一步深入考慮:(1)閾值的選取。閾值決定了何時用項目評分預測與何時用內(nèi)容過濾推薦,那么閾值在何值時才能使推薦引擎具有最優(yōu)的推薦精度?這需要進一步的考證;(2)兩大問題更優(yōu)解決方法的探尋。誠然我們提出的組合算法能在一定程度上緩解協(xié)同過濾算法的兩大問題,但是否還存在更為有效的解決辦法,需要我們開展進一步的工作去探究、找尋,以期找到更為完美的解決方案
五、結論與未來研究展望
關鍵詞:個性化信息服務 協(xié)同過濾 用戶評分
中圖分類號:TP399 文獻標識碼:A 文章編號:1007-9416(2015)09-0000-00
1 引言
隨著互聯(lián)網(wǎng)的普及和全球信息化進程的發(fā)展,網(wǎng)絡已經(jīng)成為人們獲取信息的主要途徑,互聯(lián)網(wǎng)上的信息資源也開始呈現(xiàn)爆炸式增長。信息流量、規(guī)模、服務項目等各方面的迅猛發(fā)展,給人們帶來了極大便利,同時也產(chǎn)生了“信息過載”等問題,傳統(tǒng)的信息服務模式已難以滿足用戶的實際需求,個性化信息服務逐漸成為人們的網(wǎng)絡服務訴求?;ヂ?lián)網(wǎng)服務在電子商務、社交網(wǎng)絡、數(shù)字媒體服務等領域不斷應用擴展,在關注信息本身的基礎上,對信息服務的信息量、時效性和表現(xiàn)形式等多方面也都有了新的需求,特別是對信息服務的個性化要求尤為突出。如果網(wǎng)站針對不同用戶根據(jù)其興趣展示不同的頁面,可以使用戶快速、準確的找到自己需要的信息資源,進而使用戶產(chǎn)生被認真服務的良好體驗,從而對網(wǎng)站維護穩(wěn)定的用戶群起到了大大的促進作用。個性化推薦系統(tǒng)正是在這種需求背景下產(chǎn)生的,它是網(wǎng)絡信息快速膨脹的結果,是未來網(wǎng)絡服務的一個發(fā)展方向,也是IT領域的一個研究熱點[1]。
2 個性化信息服務網(wǎng)絡系統(tǒng)
使用個性化信息服務網(wǎng)絡系統(tǒng)是為了讓每個用戶獲得的信息資源或服務都符合其自身的知識結構、身份背景等不同需要,滿足用戶的個性化信息需求[2]。為了能夠為用戶主動、準確的提供所需信息,個性化信息服務推薦系統(tǒng)通常應具有如下基本功能:
(1)用戶信息維護。主要包括用戶姓名、性別、年齡等基本信息,用戶的興趣、愛好、習慣、思維方式等背景信息和用戶的工作性質(zhì)、業(yè)務領域等信息如何存儲和表示。負責處理用戶初次輸入的信息,并且滿足用戶隨時查詢、修改最新的個人信息;負責用戶身份驗證問題;將用戶輸入的興趣、愛好信息及用戶對于推薦信息的評價提交給需求分析模塊。
(2)網(wǎng)絡資源的建設與共享。網(wǎng)絡信息資源的建設是個性化信息服務系統(tǒng)的基礎,資源的類型多種多樣,包括文檔、圖片、音頻、視頻等。作為公共資源網(wǎng)絡平臺,通常,由注冊用戶來共同進行資源建設,服務平臺提供用戶和管理資源的功能。在平臺中,每位用戶的資源都對其他用戶公開,并對他們提供瀏覽、搜索、下載等功能,實現(xiàn)資源的共享。
(3)資源的評分與評價。為了幫助網(wǎng)絡用戶更快的甄別資源的好壞,同時也能為用戶間的相互交流提供服務,網(wǎng)絡系統(tǒng)實現(xiàn)注冊用戶對于資源打分和評價的功能,這也是為實現(xiàn)個性化服務獲得基礎數(shù)據(jù)的重要途徑,負責用戶對個性化信息服務反饋信息的收集、整理,實現(xiàn)系統(tǒng)開發(fā)者與使用者的交互。
(4)資源的自動推薦。這體現(xiàn)了“資源找人”的服務理念。網(wǎng)絡信息服務系統(tǒng)中通常包括兩種類型的推薦:一種是非個性化的推薦(即對所有游客的推薦內(nèi)容都相同),包括熱門資源的推薦、最新資源的推薦,這種推薦方式面向所有瀏覽網(wǎng)絡信息系統(tǒng)的人員;另一種是個性化推薦,這是個性化服務的體現(xiàn)所在,針對已經(jīng)注冊并登錄的用戶,提供具有個性化特征的資源推薦服務。
(5)信息的數(shù)據(jù)挖掘過濾。使用 web 數(shù)據(jù)挖掘技術,根據(jù)用戶模型,對具有相同或相似興趣的用戶進行信息檢索,根據(jù)檢索結果進行過濾并依據(jù)某種原則將過濾結果推送給用戶,這是個性化服務性能的關鍵所在。
系統(tǒng)的運行需要用戶(系統(tǒng)使用者)、系統(tǒng)開發(fā)者、網(wǎng)站經(jīng)營者的三方共同支持,讓用戶以最簡潔、方便、快捷的方式得到最需要的信息,使系統(tǒng)開發(fā)者和網(wǎng)站經(jīng)營者實現(xiàn)其商業(yè)目的。個性化信息推薦服務系統(tǒng)的體系結構[3]如圖1所示。
圖 1 個性化信息服務網(wǎng)絡系統(tǒng)體系架構
應用層的功能是面向用戶的。其中,資源建設功能包括資源上傳、歷史上傳資源查看\修改\刪除等;資源共享功能包括資源的下載、查看、搜索等;用戶管理功能包括用戶的注冊與登錄、用戶信息的查看與修改等;評分管理包括用戶對資源的評分與文字評價等。
數(shù)據(jù)庫存放著用戶信息數(shù)據(jù)、網(wǎng)絡資源數(shù)據(jù)和用戶評價數(shù)據(jù)等,這些數(shù)據(jù)來自系統(tǒng)的交互活動中,構成了資源個性化推薦模型所需的基本數(shù)據(jù)。
系統(tǒng)的關鍵部分是資源個性化推薦,承擔為注冊用戶推薦符合其個性化需求的網(wǎng)絡資源的任務,主要包括用戶興趣模型的構建、用戶相似性計算和資源預測評分產(chǎn)生推薦數(shù)據(jù)集。數(shù)據(jù)處理和模型構建是個性化推薦技術的基礎,負責將系統(tǒng)收集到的數(shù)據(jù)進行預處理,使其可計算化。推薦策略是整個推薦模型的核心部分,決定了推薦模型的質(zhì)量,需要完成個性化推薦中大部分的計算工作。采用協(xié)同過濾推薦技術,對項目進行聚類,計算用戶興趣的相似度,通過多輪循環(huán),找出目標用戶的最相似的幾個用戶,并建立相似用戶數(shù)據(jù)集。產(chǎn)生推薦結果集的工作是依據(jù)推薦算法計算階段得到的結果進行目標用戶對于資源的預測評分計算,來過濾出最終可供推薦的資源,實現(xiàn)推薦過程。
3 關鍵技術說明
個性化信息推薦系統(tǒng)在建?用戶的個人信息的基礎上,通過用戶對網(wǎng)絡資源評價及瀏覽、收藏等操作行為了解用戶的特征、習性、偏好等信息,借此過濾出與用戶相關的內(nèi)容并加以整合,進而利用機器學習和數(shù)據(jù)挖掘算法提取用戶的偏好特征,幫助用戶在眾多且雜亂的信息中過濾出有用的部分,最后推薦符合使用者預期的資源。其中信息的有效過濾推薦是系統(tǒng)性能好壞的決定因素,推薦方法主要有關聯(lián)規(guī)則推薦、基于內(nèi)容的推薦和協(xié)同過濾推薦,其中最為流行且高效的是協(xié)同過濾推薦技術。
協(xié)同過濾(Collaboration Filtering,簡化為CF)推薦的基本思想是利用已有用戶群的行為或評分等信息,找到目標用戶與用戶群中其他用戶的相似性關系,根據(jù)目標用戶的相似用戶信息對目標用戶產(chǎn)生推薦。舉個簡單的例子,如果用戶A和用戶B的購買經(jīng)歷非常相似,而且用戶A最近買了一本用戶B還不知道的書,那么基于協(xié)同過濾技術的邏輯就是要向B推薦這本書。由于系統(tǒng)依據(jù)購買經(jīng)歷等信息判斷用戶A是用戶B的相似用戶,那么系統(tǒng)就會把相似用戶A喜愛的物品直接推薦給用戶B,而在產(chǎn)生推薦的整個過程中,用戶間是相互協(xié)作的關系,故這種技術被稱為協(xié)同過濾技術。
協(xié)同過濾推薦通?;谙旅嫒c假設:
(1)在時間上用戶興趣偏好不變。比如,用戶A在過去喜歡科技類書籍,那么將來也會喜歡科技類書籍。(2)相似用戶的興趣是相同的。如果用戶A和用戶B有相似的購買經(jīng)歷(A與B相似),那么用戶A感興趣的物品也是用戶B所感興趣的,反之,用戶B感興趣的也是A所感興趣的。(3)目標用戶對未評分項目的評分是可以預測的。系統(tǒng)可以依據(jù)整個用戶群對項目集合的評分信息以及它們之間的相似性信息,預測未評分項目的評分。
協(xié)同過濾不需要對物品的內(nèi)容進行分析,不用提取資源的特征信息,只是依靠用戶對資源的評價信息來為當前用戶尋找興趣相近的用戶,然后通過鄰居用戶的評分來預測當前用戶對項目的評分,最后依據(jù)預測評分對當前用戶產(chǎn)生推薦。協(xié)同過濾推薦技術避免了獲取物品特征信息的難度,因而在推薦系統(tǒng)中得到了廣泛的應用。根據(jù)實現(xiàn)推薦的策略不同,可分為基于內(nèi)存的協(xié)同過濾推薦和基于模型的協(xié)同過濾推薦兩類,兩類推薦算法都需要對用戶-項目評分矩陣進行分析計算[4]。
基于內(nèi)存的協(xié)作推薦主要根據(jù)系統(tǒng)擁有的已有用戶評分數(shù)據(jù),在內(nèi)存中通過一定的啟發(fā)式方法實現(xiàn)評分預測,進而為用戶推薦預測評分最高的資源?;谕扑]角度的不同,又可分為2類:從用戶角度實現(xiàn)的基于用戶的協(xié)作推薦,根據(jù)用戶最近鄰居實現(xiàn)推薦,其關鍵在于查找目標用戶的鄰居用戶,并根據(jù)鄰居的評分對目標用戶的未訪問項目進行評分預測;從項目角度實現(xiàn)基于項目的協(xié)作推薦,其工作原理與基于用戶的協(xié)同推薦類似,區(qū)別在于它更強調(diào)“用戶未來的信息興趣將保持與以往信息興趣相一致”,項目間相似度更為穩(wěn)定,挖掘信息項目之間的相似性,分類相似的項目是算法的關鍵[5]。
基于模型的協(xié)同推薦對系統(tǒng)中的評分數(shù)據(jù)分布進行分析和挖掘,通過機器學習或統(tǒng)計方法學習符合評分數(shù)據(jù)分布的評分預測模型進而依據(jù)目標用戶的已有評分數(shù)據(jù),通過該模型實現(xiàn)未知評分的預測計算。此類技術大量采用了機器學習和數(shù)據(jù)挖掘算法,對評分數(shù)據(jù)的潛在復雜模式進行學習。常用的模型和算法有貝葉斯網(wǎng)絡、聚類算法、回歸算法、馬爾科夫決策模型和關聯(lián)規(guī)則挖掘等。由于對模型的訓練和學習一般需要耗費大量的計算時間,因此預測模型的構造往往離線完成,并且還要對模型進行周期性的更新。
協(xié)同過濾推薦的基礎是用戶對項目的評分,然而對于那些新加入系統(tǒng)的用戶或資源項目,由于沒有任何評分信息而無法合理推薦,這就是協(xié)同過濾的“冷啟動”問題;在實際應用中,由于用戶習慣和需求會使用戶對項目不能進行充分的評分,造成評分數(shù)據(jù)不足,嚴重影響推薦精度,這就是協(xié)同過濾的“數(shù)據(jù)稀疏性”問題;隨著系統(tǒng)的運行時間的加長,用戶和資源數(shù)據(jù)不斷增加,數(shù)據(jù)處理的計算量和復雜度會越來越大,這會降低算法的運行效率,因而如何有效降低算法的復雜度也是協(xié)同過濾推薦的一個亟待解決的重要問題。
4 結語
個性化的信息獲取、個性化的信息服務的研究與IT技術的發(fā)展是密不可分的,只有應用最先進的信息技術才能真正做到信息服務的個性化。個性化推薦系統(tǒng)是互聯(lián)網(wǎng)時展的產(chǎn)物,協(xié)同過濾技術是個性化推薦系統(tǒng)最熱門的研究對象。個性化推薦系統(tǒng)既能作為信息過濾的工具幫助用戶更好地利用互聯(lián)網(wǎng)信息,又能作為網(wǎng)站營銷的武器,提高網(wǎng)站的用戶黏著度和推廣相關產(chǎn)品或服務。
參考文獻:
[1]李春,朱珍民,葉劍,周佳穎.個性化服務研究綜述[J].計算機應用研究,2009,11:4001-4005.
[2]杜鵬飛.基于Web的數(shù)據(jù)挖掘與網(wǎng)絡個性化信息服務研究[D].中國石油大學,2009:6-12.
[3]唐國菊.網(wǎng)絡學習資源個性化推薦系統(tǒng)的設計與開發(fā)[D].山西師范大學,2012:41-49.
[4]http:///lnhenrylee@126/blog/static/2414832520123269713813/?COLLCC=1862522904&.
[5]任磊.推薦系統(tǒng)關鍵技術研究[D].華東師范大學,2012:18-30.
收稿日期:2015-08-18
關鍵詞:個性化推薦系統(tǒng);推薦算法
中圖分類號:TP751文獻標識碼:A文章編號:1009-3044(2010)13-3501-01
Web Research on Personalized Recommendation
ZHAO Zhi, LIU Chang-ming, SUN Yan
(Computer Office, Aviation University of Air Force, Changchun 130022, China)
Abstract: This article describes the Web Personalized Recommendation on the classification of technologies input data and interface forms.
Key words: personalization recommendation system;recommendation algorithm
1 概述
進入21世紀后,隨著網(wǎng)絡的普及,Internet正在前所未有地改變著我們的生活。WWW上的一些主要工作,例如Web站點設計、Web服務設計、電子商務等工作正變得越來越復雜。由此,如何對網(wǎng)絡上大量的信息進行有效組織利用,幫助海量數(shù)據(jù)的擁有者們找出真正有價值的信息和知識,以指導他們的決策行為成為研究者們主要關注的熱點。個性化推薦就在這樣的背景下產(chǎn)生出來,它是在Internet出現(xiàn)后產(chǎn)生的數(shù)據(jù)挖掘的一個新的分支,主要研究在Internet網(wǎng)絡上,對各種數(shù)據(jù)源,如Web日志、用戶登記信息、頁面內(nèi)容等,利用數(shù)據(jù)挖掘技術尋找網(wǎng)絡上數(shù)據(jù)間各種隱含的知識模式和獲取一些測試信息。把Web數(shù)據(jù)挖掘用于個性化推薦,可以幫助指導站點改進服務、調(diào)整結構和實施有針對性的商業(yè)行為,以更好地滿足訪問者的需求。
2 推薦系統(tǒng)的分類
(1) 非個性化推薦:推薦主要基于其它客戶對該產(chǎn)品的評價。電子商務推薦系統(tǒng)對每個用戶產(chǎn)生的推薦都是相同的。這種推薦系統(tǒng)可以基于Web站點工作人員的手工推薦,可以基于統(tǒng)計分析技術等。
(2) 基于產(chǎn)品屬性的推薦:推薦主要是基于產(chǎn)品的屬性。該系統(tǒng)需要客戶輸入他所需要產(chǎn)品的屬性,因此推薦是手工產(chǎn)生的?;诋a(chǎn)品屬性的推薦也可以是瞬時的或個性化的,這取決于電子商務網(wǎng)站是否保存有客戶偏好的記錄。
(3) 相關性產(chǎn)品推薦:推薦系統(tǒng)根據(jù)客戶感興趣的產(chǎn)品推薦相關的產(chǎn)品,由于它不需要客戶購買產(chǎn)品的歷史記錄,只需了解客戶當前選擇的產(chǎn)品,因此是瞬時的。如果推薦系統(tǒng)產(chǎn)生的推薦是基于客戶長期較少改變的購買模式,可以認為它是自動的,如果需要客戶明確輸入一些感興趣的產(chǎn)品后產(chǎn)生推薦,可以認為它是手工。
(4) 相關性客戶推薦:又稱協(xié)作過濾或社會過濾。它考慮了用戶的評價信息,根據(jù)客戶與其他已經(jīng)購買了商品的客戶之間的相關性進行推薦。
3 關鍵技術
目前存在著許多個性化服務系統(tǒng)[1],它們提出了各種思路以實現(xiàn)個性化服務。個性化服務系統(tǒng)根據(jù)其所采用的推薦技術可以分為兩種:基于規(guī)則的系統(tǒng)和信息過濾系統(tǒng)。信息過濾系統(tǒng)又可分為基于內(nèi)容過濾的系統(tǒng)和協(xié)同過濾系統(tǒng)[2]。
3.1 基于規(guī)則的技術
基于規(guī)則的系統(tǒng)它們允許系統(tǒng)管理員根據(jù)用戶的靜態(tài)特征和動態(tài)屬性來制定規(guī)則,規(guī)則可以由用戶定制,也可以利用基于關聯(lián)規(guī)則的挖掘技術來發(fā)現(xiàn),利用規(guī)則來推薦信息依賴于規(guī)則的質(zhì)量和數(shù)量,一個規(guī)則本質(zhì)上是一個If-Then語句,規(guī)則決定了在不同的情況下如何提供不同的服務。
基于規(guī)則的系統(tǒng)一般分為 3 部分:關鍵詞層、描述層和用戶接口層。關鍵詞層提供上層描述所需的關鍵詞,并定義關鍵詞間的依賴關系,在該層可以定義靜態(tài)屬性的個性化規(guī)則。描述層定義用戶描述和資源描述,由于描述層是針對具體的用戶和資源,所以描述層的個性化規(guī)則是動態(tài)變化的。用戶接口層提供個性化服務,根據(jù)下面兩層定義的個性化規(guī)則將滿足規(guī)則的資源推薦給用戶。
3.2 信息過濾技術
信息過濾,也就是所謂的信息的選擇性傳播。與信息檢索不同,信息過濾關注用戶的長線需求(指在一段時間內(nèi),比較固定的信息需求),是為非結構化及半結構化的數(shù)據(jù)設計的,主要用來處理文本信息。其目標是幫助用戶處理大量的信息,對動態(tài)的信息流進行篩選,著重于排除用戶不希望得到的信息。信息過濾技術可分為基于內(nèi)容過濾的技術和協(xié)同過濾技術。
3.2.1 內(nèi)容過濾
基于內(nèi)容過濾的技術是通過比較資源與用戶描述文件來推薦資源,假定每個用戶的操作都是相互獨立的,因此過濾的結果僅僅依賴于用戶信息需求模型(也稱用戶模板)與文本的匹配程度。基于內(nèi)容過濾的基本問題包括用戶興趣的建模與更新以及相似性計算方法。
基于內(nèi)容過濾的系統(tǒng)其優(yōu)點是簡單、有效,缺點是難以區(qū)分資源內(nèi)容的品質(zhì)和風格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。
3.2.2 協(xié)同過濾
迄今為止在個性化推薦系統(tǒng)中,協(xié)同過濾技術是應用最成功的技術。協(xié)同過濾,又稱社會過濾[3],它是基于這樣的假設:為一用戶找到他真正感興趣內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內(nèi)容推薦給此用戶。它們利用用戶之間的相似性來過濾信息。它一般采用基于近鄰用戶的協(xié)同過濾技術,核心問題是為當前用戶尋找 k 個最相似的鄰居來預測當前用戶的興趣。
目前有許多網(wǎng)站采用了該技術的推薦系統(tǒng)如:互聯(lián)網(wǎng)上最大的書店; Web上最大的CD商店;互聯(lián)網(wǎng)上最大訪問量之一的電影網(wǎng)站等。由微軟研究院開發(fā)的協(xié)同過濾工具已被集成在微軟的Commerce Server產(chǎn)品中,并被許多站點使用。
參考文獻:
[1] Pretschner, A. Ontology based personalized search [MS. Thesis]. Lawrence, KS:University of Kansas, 1999.
[關鍵詞]情景感知 圖書館服務 自適應服務 個性化服務
[分類號]G250.7
引言
關于個性化信息服務(PIS)的研究一直是備受圖書館領域關注的課題。但隨著個性化服務應用的不斷深入,人們逐漸發(fā)現(xiàn)當前圖書館在實現(xiàn)個性化服務中存在的一些不足:①當前多數(shù)PIS系統(tǒng)使用繁瑣或系統(tǒng)復雜,不能自動地隱式獲取用戶需求;②獲取的用戶個性化需求準確性和可靠性不高;③自適應性不強,提供的服務不能適應用戶信息需求不斷變化的實際情況;④缺乏探測性,用戶的信息需求有時不是非常有目的性,需要根據(jù)對用戶已有需求的了解推斷出用戶可能感興趣的信息,而當前的PIS系統(tǒng)和方法在這方面沒有考慮或者考慮很少。
與此同時,對情景和情景感知的研究不斷深入,并取得不少成功的應用案例,于是基于情景感知的自適應服務應運而生。情景(context),也稱情境、上下文,是指用于刻畫一個實體所處狀態(tài)的任何信息,包括每個實體的位置、時間、活動和偏好等。這里,實體可以是一個人、一個地方、一個對象,也包括用戶和應用軟件本身。利用情景向用戶提供適合當前情形的相關信息或服務就是情景感知(context-aware)服務。它通過自動感知用戶當前所處的情景信息(如人物、地點、時間和任務等)自動獲取和發(fā)現(xiàn)用戶需求,實現(xiàn)信息服務與用戶的自適應,提高服務的準確性和可靠性,是協(xié)助信息服務系統(tǒng)提高性能和質(zhì)量的重要支持手段和方法。因此,個性化服務中開始探究引入情景和情景感知的方法。如Kwon等創(chuàng)建的NAMA原型系統(tǒng)通過用戶情景、用戶描述等信息來發(fā)現(xiàn)用戶的信息需求,從而為電子商務購買者推薦個性化信息。Kim等提出的新型個性化推薦系統(tǒng)通過獲取用戶的位置、時間、身份、需求類型等情景信息為用戶提供個性化的廣告服務。Mylonas等分析了用戶的歷史情景和當前情景的表示,并對不確定環(huán)境下的模糊情景(如用戶注意力和愿望等)展開了研究,認為情景是提升個性化信息服務質(zhì)量的有效手段。圖書館作為一個以服務用戶為宗旨的知識信息中心,也應該不斷適應新技術和新環(huán)境的變化,創(chuàng)新個性化服務方式,以滿足用戶的動態(tài)需求。
2圖書館中基于情景感知的自適應個性化服務的產(chǎn)生動因分析
泛在計算和移動網(wǎng)絡的發(fā)展極大地改變了用戶獲取和使用信息的方式。用戶需求不斷趨于動態(tài)化、多元化、高效化,同時,越來越多的信息服務商給圖書館的發(fā)展帶來了嚴峻的挑戰(zhàn)。圖書館只有不斷尋求新的服務方式,才能獲得可持續(xù)發(fā)展。因此,將情景感知引入圖書館個性化服務中是多種動力綜合作用的結果。
2.1 外推力――移動技術推動與泛在環(huán)境的挑戰(zhàn)
從傳統(tǒng)圖書館到數(shù)字圖書館、移動圖書館,圖書館的每一步發(fā)展都離不開信息技術的支撐和推動作用。20世紀90年代“泛在計算”(也稱普適計算、無處不在的計算)的概念被提出。普適計算的應用、泛在環(huán)境的建立,更是對圖書館的型態(tài)、資源與服務都產(chǎn)生了重要的影響。泛在環(huán)境下,隨著無線網(wǎng)絡技術、傳感器技術、移動終端設備的發(fā)展,信息技術對用戶活動及其所處情景的捕獲、分析和推理能力進一步增強,為圖書館營造普適計算環(huán)境,將信息服務融入用戶當前的任務情景,通過“感知”用戶的具體行為識別用戶的實時需求,并據(jù)此提供自適應的動態(tài)服務提供了發(fā)展契機。因此,移動技術的發(fā)展與泛在環(huán)境的到來,是圖書館關注、獲取情景信息并探討實現(xiàn)情景感知自適應服務的重要推動力。
2.2 內(nèi)驅力――圖書館應對危機、獲得自身持續(xù)發(fā)展的出路
圖書館作為傳播知識和提供服務的重要機構,曾經(jīng)在傳統(tǒng)的信息交流體系中扮演著重要的角色。但隨著信息技術的發(fā)展和數(shù)字資源的主流化,隨著信息資源中心和公共信息服務平臺的非圖書館化以及以用戶和信息生產(chǎn)者驅動的信息資源與服務市場新格局的出現(xiàn),圖書館作為曾經(jīng)的信息服務中心的地位正在被邊緣化。OCLC最新的《圖書館認知2010》顯示,已經(jīng)沒有人將圖書館門戶作為查找信息的首選人口(2005年的調(diào)查結果為1%)。這反映了圖書館面臨的危機。而情景感知自適應服務就是充分利用情景感知計算的技術優(yōu)勢,通過獲取用戶的地理位置、時間、標識和活動等當前情景信息,并結合用戶的歷史情景,自適應地調(diào)整信息服務,貫徹“用戶在什么位置,服務就延伸到什么位置”,是圖書館應對危機、獲得自身發(fā)-展的重要出路。
2.3 引導力――用戶信息需求動態(tài)化、情景敏感化
以用戶為中心、滿足用戶的個性化需求是圖書館一切工作的出發(fā)點。但是用戶的個性化需求是復雜的、多維的、動態(tài)的、易變的,尤其是在當前的移動和泛在環(huán)境下,用戶的個性化需求表現(xiàn)出極強的情景敏感性。這種需求特點的變化對圖書館服務提出了更高的要求,引導著圖書館個性化服務的變革方向。圖書館傳統(tǒng)的依靠用戶模型提供個性化服務的方式已無法滿足用戶的需求,這是因為用戶的信息需求不僅與用戶的身份、興趣、偏好等有關,而且依賴于時間、地點、用戶任務以及用戶與系統(tǒng)的交互歷史等情景信息,后者甚至是決定用戶所需信息的關鍵因素。因此,基于情景感知提供自適應的個性化服務是圖書館滿足用戶動態(tài)多變信息需求的重要舉措。
3圖書館情景感知自適應個性化服務的定位7實現(xiàn)模式
3.1 情景感知與圖書館個性化服務的契舍性分析
情景感知不僅是一種技術,更是一種理念,它通過將情景信息引入推薦系統(tǒng)中,以進一步提高個性化服務的精確度和用戶滿意度,兼具“普適計算”和“個性化”兩種優(yōu)勢。情景感知計算作為普適計算的核心領域之一,能夠利用人機交互或傳感器提供給計算設備關于用戶與設備環(huán)境等方面的情景信息,并讓計算設備給出相應的反應,從而支持用戶隨時隨地、透明地獲取符合個性化需求的信息,因而為圖書館個性化服務的實現(xiàn)提供了有效的支撐。普適計算所體現(xiàn)的普適服務“無所不在”的時空特性、“自然透明”的人機交互模式以及“以人為本”的根本理念,與圖書館的用戶服務理論也是不謀而合的。
另外,用戶個性化需求的復雜、異構、變化甚至沖突,使得用戶所處的具體環(huán)境和狀態(tài)不同,面臨的任務不同,其需求也將會不同。即使在同樣的情況下,由于用戶知識積累與偏好的不同,其所需的信息與服務也不盡相同。因此,將情景感知引入圖書館個性化服務具有重要的研究意義和實用價值,情景感知與圖書館個性化服務具有天然的契合性。
3.2圖書館情景感知自適應個性化服務的內(nèi)涵與特征
“情景感知”自被提出之后,不同的研究者就給予其不同的定義。Dey等認為如果一個系統(tǒng)利用情景向
用戶提供與用戶任務相關的信息或者服務,那么這個系統(tǒng)就是情景感知系統(tǒng),提供的服務就是情景感知服務。萬亞紅等認為情景感知是指系統(tǒng)利用情景信息,智能判斷用戶行為及目的并主動提供相關信息或服務,人性化調(diào)整人與情景交互的方式和內(nèi)容。
筆者以為,圖書館情景感知自適應個性化服務是以用戶為中心,將圖書館的信息空間與用戶的物理空間相融合,將圖書館服務嵌入到用戶的活動任務過程中,通過系統(tǒng)自動感知實時情景,智能判斷用戶活動行為及目的,并自適應地調(diào)整系統(tǒng)的服務行為,以便滿足用戶動態(tài)需求的新型服務模式。情景感知服務的目的是通過利用人機交互或傳感器提供給計算設備的各種情景信息,構筑自動適應用戶及其任務需求的服務體系,使圖書館服務充分融入并逐步成為用戶信息活動的有機組成部分。因此,這種服務具有環(huán)境導向性、情景適應性、智能性、主動性等特征。
3.3 圖書館情景感知自適應個性化服務的實現(xiàn)模式
3.3.1 圖書館開展情景感知自適應個性化服務涉及的問題 圖書館情景感知服務的開展依賴于情景感知技術,情景感知技術涉及情景要素的界定、情景信息的獲取、情景過濾與推理、情景建模、情景管理與利用等多個方面,這些問題的有效解決是實現(xiàn)情景感知服務的關鍵。在針對圖書館個性化服務的應用中,需要關注的情景要素包括用戶情景與資源或者服務情景。用戶情景包括用戶的身份、偏好、需求歷史、當前的任務與活動、周圍的環(huán)境狀態(tài)等信息。資源情景包括圖書館資源的類型、用途與所屬學科、被用戶利用的情景以及用戶使用之后的反饋和評價等信息。服務情景包括服務的特性、功能、質(zhì)量、服務狀態(tài)等信息。情景信息可以通過感知器捕獲、從已有的信息中抽取、由用戶直接設定等多種方式獲得。在情景感知服務的應用領域,其主要獲取方式包括顯式獲取、隱式獲取和推理獲取。通過各種方式獲取的情景信息一般是一些原始、模糊、不精確、不穩(wěn)定甚至是沖突、不一致的數(shù)據(jù),因此需要進行清洗、過濾、推斷、解釋和融合,以得到各種應用所需的高層情景。
3.3.2 圖書館情景感知自適應個性化服務的應用模式 由于技術等方面的限制,目前情景感知服務系統(tǒng)還不能捕獲各種完整而又準確的全部情景信息,完全智能化服務的實現(xiàn)還比較困難。因此,在當前圖書館中,基于情景感知的自適應個性化服務主要有以下三種實現(xiàn)模式:
?情景感知檢索服務。在信息搜索活動中,無論是用戶的信息需求,還是用戶所需的各種信息,都是處于各自的情景之下的,因此有效地利用情景信息提高檢索性能,開展基于情景感知的信息檢索與信息抽取研究已經(jīng)成為信息領域具有挑戰(zhàn)性的一個新課題。ACM SIGIR和European Science Foundation等組織早在2004年7月的國際會議IRiX(Information Interaction inContext)上就開始討論如何利用情景信息幫助信息檢索。情景信息可以幫助確定查詢關鍵詞的意義,可以用來進行查詢擴展以及過濾初始的查詢結果。在當前的圖書館信息檢索服務中,情景信息主要用于對初始的檢索結果進行重新排序與過濾,其基本的服務過程
情景感知檢索服務綜合考慮了用戶的查詢情景、查詢?nèi)蝿铡⒉樵儣l件、用戶偏好以及所需信息的情景等因素,使得用戶能夠獲得“動態(tài)”的查詢結果,即檢索系統(tǒng)能夠根據(jù)具體的檢索情景和應用環(huán)境,能動地、自適應地輸出用戶真正需要的結果,從而有效地提高個性化檢索的準確性和可靠性。情景化的檢索也被認為是信息檢索領域中一個長期的挑戰(zhàn)。
?情景感知推薦服務?;谇榫案兄耐扑]服務和推薦系統(tǒng)的理論與方法研究在國外的許多大學和研究機構都得到了深入的開展。ACM推薦系統(tǒng)年會(ACM Conference on Recommender Systems)從2009年開始舉辦情景感知推薦系統(tǒng)專題研討會CARS,到目前已經(jīng)舉行了三屆,對情景感知推薦系統(tǒng)領域中的情景建模技術、情景依賴推薦數(shù)據(jù)集、識別相關情景數(shù)據(jù)的算法、融入情景信息的推薦算法等問題進行了廣泛的探討。2011年2月在美國舉辦的情景感知檢索與推薦專題會(Workshop 0n Context-aware Retrieval andRecommendation,CaRR)重點關注情景感知建模、聚類、檢索、推薦、協(xié)同過濾等主題。繼2010年情景感知的電影推薦(CAMRa2010)年會成功舉辦之后,CAM―Ra2011將與推薦系統(tǒng)年會(RecSys2011)一起舉辦,對基于情景感知的電影推薦課題中的挑戰(zhàn)進行深入探討。情景信息在提升圖書館個性化推薦質(zhì)量方面同樣具有非常重要的作用。現(xiàn)有的個性化推薦主要考慮用戶和資源或服務兩個方面的因素,而基于情景感知的個性化推薦不僅考慮“用戶一項目”二元關系,而且融人用戶的需求情景和資源或服務情景,進行多維度的推薦,生成精確度更高的推薦服務。其基本的服務過程
在基于情景感知的圖書館推薦服務中,既通過比較資源或服務情景與用戶情景的相似度進行內(nèi)容匹配,向用戶推薦最適合其情景的資源或服務,同時又能夠根據(jù)用戶在特定情景下的行為和需求進行用戶聚類,從而可以組成用戶社區(qū),實現(xiàn)協(xié)作推薦。當然,情景化推薦中涉及到情景信息的有效獲取與計算、用戶情景化需求的精確提取、情景感知推薦算法以及隱私與安全等問題,因此在具體的實現(xiàn)過程中還有很多技術問題需要深入研究。
?情景感知咨詢服務。為用戶提供參考咨詢服務是圖書館的核心業(yè)務之一。然而傳統(tǒng)的咨詢服務存在以下缺陷:一是缺少對提供咨詢答案的權威性與可靠性的檢查;二是在用戶與咨詢?nèi)藛T交互過程中未考慮情景因素,導致對不同用戶提出的同樣問題給予統(tǒng)一的答案?;谇榫案兄膯柎鹱稍兎談t綜合考慮了用戶、問題所屬領域、回答者、相關答案等情景因素,根據(jù)用戶提出問題時所處的位置、提問的原因、與問題相關的隱含因素、用戶特點、用戶先前咨詢過的問題、交互歷史等情景信息,為用戶提供量身定制的答案。將情景信息融入咨詢服務過程,在目前國內(nèi)外的咨詢服務實踐中已得到了一定的應用?;ヂ?lián)網(wǎng)公共圖書館(IPL)提出一個多學科研究計劃來探索問答服務(Q―A)中情景的影響,通過在數(shù)字問答服務中充分挖掘情景因素的作用,并致力于開發(fā)一個情景敏感的網(wǎng)上參考服務,以幫助用戶在一個數(shù)字圖書館中找到問題的正確答案,從而提供高效的咨詢服務。中國科學院國家科學圖書館在國內(nèi)外圖書館界首次開展9―9實時咨詢服務,利用頁面共覽、嵌接和情景敏感等先進技術,將咨詢服務全程地嵌入用戶環(huán)境和流程中,實現(xiàn)向不同IP的讀者推薦相應的學科館員或本地咨詢館員,從而提升咨詢服務的質(zhì)量和效率。這些實踐活動為在圖書館中廣泛開展基于情景感知的咨詢服務提供了有效的參考借鑒。4結語
移動、泛在環(huán)境的發(fā)展直接推動了圖書館個性化服務的變革,圖書館將不再是被動地滿足用戶的需求,而是主動感知用戶場景的變化并進行信息交互,提供智能化的自適應服務。這種新型的服務不僅拓展了圖書館個性化服務的新模式,豐富了圖書館信息服務的理論體系,同時也能夠有效地改善用戶體驗,提升圖書館在迅速變化的信息環(huán)境下應對危機與挑戰(zhàn)的能力,具有重要的理論和實踐價值。可以預見,以用戶為中心,具備豐富的泛在智能環(huán)境和情景感知能力,能為用戶提供迅速、快捷、高效的信息資源,提供面向用戶最佳個性化體驗的情景感知服務將是未來圖書館信息服務的發(fā)展方向。