前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的搜索引擎研究主題范文,僅供參考,歡迎閱讀并收藏。
互聯(lián)網(wǎng)對(duì)商業(yè)發(fā)展產(chǎn)生了巨大的推動(dòng)作用,我國(guó)商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬(wàn)家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長(zhǎng),“信息過(guò)載”、“信息超載”現(xiàn)象引起了人們的重視。如何高效、準(zhǔn)確的獲得包含用戶(hù)所需的信息的網(wǎng)頁(yè),日益成為需要迫切解決的問(wèn)題。
垂直搜索引擎是解決這一問(wèn)題的一個(gè)有效方法。面向商業(yè)的中文專(zhuān)題垂直搜索引擎有針對(duì)性的搜索網(wǎng)上商業(yè)專(zhuān)題信息,從而使商務(wù)人員高效檢索所需的信息。而隨著萬(wàn)維網(wǎng)上的信息數(shù)量呈指數(shù)增長(zhǎng),大量信息垃圾也混雜其中。如何向商業(yè)用戶(hù)提供質(zhì)量好且數(shù)量適當(dāng)?shù)臋z索結(jié)果成為垂直搜索引擎關(guān)注的方向之一。
二、國(guó)內(nèi)外現(xiàn)狀與發(fā)展趨勢(shì)
垂直搜索引擎大都處于研究和試驗(yàn)階段,利用其搜索的結(jié)果再加上專(zhuān)業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直門(mén)戶(hù)網(wǎng)站也已經(jīng)出現(xiàn)。目前在國(guó)外,對(duì)有關(guān)主題搜索引擎的研究已經(jīng)成為一大熱點(diǎn),我國(guó)主題搜索引擎的研究則剛剛起步。
目前面向主題的網(wǎng)絡(luò)搜索主要有兩種技術(shù):
一是基于內(nèi)容的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術(shù)的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個(gè)針對(duì)主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設(shè)的詞表對(duì)網(wǎng)上的信息進(jìn)行索引。各個(gè)不同的系統(tǒng)詞表建設(shè)的復(fù)雜度也大不相同。
二是基于鏈接分析的搜索。網(wǎng)頁(yè)之間的鏈接指引關(guān)系與傳統(tǒng)的引文索引非常相似,通過(guò)對(duì)鏈接進(jìn)行分析,可以找出各個(gè)網(wǎng)頁(yè)之間的引用關(guān)系。由于引用網(wǎng)頁(yè)與被引用網(wǎng)頁(yè)之間內(nèi)容上一般都比較相關(guān),所以就可以很容易地按照引用關(guān)系對(duì)大量網(wǎng)頁(yè)分類(lèi)。
三、技術(shù)關(guān)鍵
基于面向商業(yè)的垂直搜索引擎服務(wù)具有其自身的特性,下面列舉出實(shí)現(xiàn)商業(yè)信息垂直搜索引擎的四大關(guān)鍵技術(shù)。
1.針對(duì)性、實(shí)時(shí)性和易于管理的網(wǎng)頁(yè)采集技術(shù):面向商業(yè)的垂直搜索帶有專(zhuān)業(yè)性或行業(yè)性的需求和目標(biāo),所以只對(duì)局部來(lái)源的網(wǎng)頁(yè)進(jìn)行采集,采集的網(wǎng)頁(yè)數(shù)量適中,但其要求采集的網(wǎng)頁(yè)全面,必須達(dá)到更深的層級(jí),采集動(dòng)態(tài)網(wǎng)頁(yè)的優(yōu)先級(jí)也相對(duì)較高。在實(shí)際應(yīng)用中,垂直搜索的網(wǎng)頁(yè)采集技術(shù)應(yīng)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動(dòng)態(tài)網(wǎng)頁(yè)采集,即采集技術(shù)要能達(dá)到更加針對(duì)性、實(shí)時(shí)性和易于管理,并且網(wǎng)頁(yè)信息更新周期也更短,獲取信息更及時(shí)。
2.結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁(yè)解析技術(shù):由于面向商業(yè)的垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時(shí)間、來(lái)源、作者及其他元數(shù)據(jù)解析,包括對(duì)網(wǎng)頁(yè)定內(nèi)容的提取。在商業(yè)垂直搜索服務(wù)中,要求對(duì)于作者、主題、地區(qū)、機(jī)構(gòu)名稱(chēng)、產(chǎn)品名稱(chēng)以及特定行業(yè)用語(yǔ)進(jìn)行提取,才能進(jìn)一步提供更有價(jià)值的搜索服務(wù)。
3.全文索引和聯(lián)合檢索技術(shù):面向商業(yè)的垂直搜索由于在信息的專(zhuān)業(yè)性和使用價(jià)值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式。另外,還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類(lèi)進(jìn)行組合檢索等。
4.智能化的文本挖掘技術(shù):面向商業(yè)的垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。基于結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶(hù)提供更加到位、更有價(jià)值的服務(wù)。整個(gè)結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁(yè)解析到網(wǎng)頁(yè)加工處理的過(guò)程。同時(shí)面對(duì)上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)、自動(dòng)標(biāo)引、自動(dòng)重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)。
四、設(shè)計(jì)方案
1.技術(shù)路線(xiàn)。采用如下的研究開(kāi)發(fā)路線(xiàn):
(1)針對(duì)商業(yè)信息的分布特點(diǎn)以及用戶(hù)的實(shí)際需求,在充分調(diào)研的基礎(chǔ)上,詳細(xì)了解和比較其他研究人員在類(lèi)似領(lǐng)域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎(chǔ)上初步提出平臺(tái)的整體架構(gòu)。
(2)結(jié)合面向?qū)ο笤O(shè)計(jì)技術(shù),對(duì)上一步設(shè)計(jì)出的平臺(tái)進(jìn)一步細(xì)化,從而明確對(duì)該項(xiàng)目所采用的具體設(shè)計(jì)模式。
(3)根據(jù)設(shè)計(jì)模式所面臨的具體問(wèn)題(例如,如何提高爬行速度問(wèn)題、系統(tǒng)資源限制問(wèn)題、網(wǎng)頁(yè)分類(lèi)器問(wèn)題、HTML文檔解析問(wèn)題等)給出有效的解決方案。
(4)將以上的方案付諸實(shí)施,形成一個(gè)面向商業(yè)的信息查詢(xún)與共享平臺(tái);同時(shí)對(duì)系統(tǒng)的各種參數(shù)進(jìn)行進(jìn)一步測(cè)試,不斷地完善和優(yōu)化,最終形成一個(gè)界面友好、響應(yīng)速度/查全率/查準(zhǔn)率均符合用戶(hù)要求的面向商業(yè)的垂直搜索引擎。
2.創(chuàng)新點(diǎn)。為達(dá)到商業(yè)信息搜索引擎預(yù)期的響應(yīng)速度、查全率和查準(zhǔn)率,在系統(tǒng)的開(kāi)發(fā)中有如下創(chuàng)新點(diǎn):
(1)系統(tǒng)總體為模塊化結(jié)構(gòu),各個(gè)模塊之間高內(nèi)聚,低耦合。
(2)系統(tǒng)使用面向?qū)ο笳Z(yǔ)言開(kāi)發(fā),能夠有效地重用系統(tǒng)部分代碼。
(3)在設(shè)計(jì)過(guò)程中,使用面向?qū)ο蟮乃枷胱鲋笇?dǎo),建立系統(tǒng)類(lèi)圖,便于開(kāi)發(fā)人員之間的交流。在編碼過(guò)程中,不斷重構(gòu)代碼,使得代碼具有很高的運(yùn)行效率,大大提高其重用性。
(4)系統(tǒng)集成時(shí),使用XML文檔作為模塊間傳遞信息的工具。
【關(guān)鍵詞】搜索引擎 信息檢索 查準(zhǔn)率隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們對(duì)信息需求也越來(lái)越高,為了方便人們共享網(wǎng)絡(luò)信息資源,更有效地利用信息資源,搜索引擎應(yīng)運(yùn)而生,國(guó)內(nèi)外出現(xiàn)了一大批著名的搜索引擎。它們都有各自的優(yōu)缺點(diǎn),本文通過(guò)查全率和個(gè)性化服務(wù)兩方面的比較,對(duì)中外著名的搜索引擎進(jìn)行分析,并對(duì)這些搜索引擎提出了一點(diǎn)自己的設(shè)想。
一、Goole,百度與中國(guó)搜索的查準(zhǔn)率之比較
因特網(wǎng)擁有豐富的信息資源,其中以超文本標(biāo)記語(yǔ)言存貯和傳輸?shù)腤WW(World Wide Web,即萬(wàn)維網(wǎng))信息資源,因其方便迅速的瀏覽、一點(diǎn)即開(kāi)的超鏈接和聲音圖像、視頻等多媒體顯示方式,成為網(wǎng)上信息資源的主流。在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。隨著互聯(lián)網(wǎng)的迅速發(fā)展,Interne資源的驟然增加,特別是web信息的迅速膨脹,使得檢索新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)t越困難,普通網(wǎng)絡(luò)用戶(hù)想找到所需的資料如同大海撈針,這時(shí)為滿(mǎn)足大眾信息檢索需求的專(zhuān)業(yè)搜索引擎便應(yīng)運(yùn)而生。
(一)國(guó)內(nèi)外搜索引擎回顧
搜索引擎技術(shù)1994年在美國(guó)出現(xiàn),1995年開(kāi)始進(jìn)入大規(guī)模的商業(yè)化開(kāi)發(fā)階段。由于中西方語(yǔ)言文化的差異,中文搜索引擎的出現(xiàn)相對(duì)晚些,但在隨后幾年的中文搜索引擎得到快速發(fā)展,涌現(xiàn)了許多著名的搜索引擎。在內(nèi)地,北大天網(wǎng)1997年10月29日開(kāi)始為Internet用戶(hù)提供WEB信息導(dǎo)航服務(wù),1998年2月搜狐成立,新浪1999年開(kāi)始搜索服務(wù),2000年百度創(chuàng)立,同年網(wǎng)易開(kāi)始創(chuàng)搜索服務(wù),2001年TOM的搜索服務(wù)及2002年8月慧聰搜索的成立等。2003年9月25日,慧聰搜索攜手中國(guó)互聯(lián)網(wǎng)新聞中心共同發(fā)起并成立了以搜索引擎應(yīng)用為基礎(chǔ)的聯(lián)盟組織――中國(guó)搜索聯(lián)盟,12月23日原慧聰搜索正式獨(dú)立運(yùn)作,成立了中國(guó)搜索。香港地區(qū)有1997年創(chuàng)立的添達(dá)香港搜索(ti mway.co m)以及2002年創(chuàng)立的巴辣香港(ba )等。臺(tái)灣地區(qū),1995年8月蕃薯(番薯,藩屬)藤()開(kāi)始繁體中文的搜索服務(wù),成為世界上第一個(gè)開(kāi)始啟動(dòng)中文搜索服務(wù)的搜索引擎;1998年1O月penfind(.tw)成立,同年4月開(kāi)始提供繁體中文搜索服務(wù)等。國(guó)外著名的搜索引擎從1999年開(kāi)始也相繼開(kāi)展中文搜索服務(wù),如:Yahoo中國(guó)于1999年9月正式開(kāi)通,2000年9月12日Google啟動(dòng)中文搜索服務(wù),2004年6月21日雅虎在中國(guó)推出一搜Ill等。從第一個(gè)中文搜索引擎問(wèn)世至今,互聯(lián)網(wǎng)上有記錄可查的中文搜索引擎有數(shù)百個(gè),現(xiàn)已成為人們查找網(wǎng)絡(luò)信息資源必不可少的工具。中文搜索引擎通常包括兩種類(lèi)型:一種是網(wǎng)頁(yè)全文搜索引擎,另一種則是網(wǎng)站搜索引擎,前者由程序自動(dòng)抓取網(wǎng)頁(yè)進(jìn)行分析并建立索引,后者由專(zhuān)業(yè)編輯人員進(jìn)行人工分類(lèi)和維護(hù)。它們各自滿(mǎn)足不同的搜索需求,而且互為補(bǔ)充。
據(jù)此可見(jiàn),順應(yīng)信息檢索需求,1994年以來(lái)國(guó)內(nèi)外搜索引擎相繼涌現(xiàn),在成就其數(shù)量?jī)?yōu)勢(shì)的同時(shí),也為其彼此間服務(wù)質(zhì)量?jī)?yōu)勢(shì)的角逐提供了平臺(tái)。國(guó)外引擎以Goole為例,國(guó)內(nèi)以百度和中國(guó)搜索為例,本文將就其各自的相對(duì)查準(zhǔn)率進(jìn)行下列比較。
(二)Google,百度和中國(guó)引擎查準(zhǔn)率之比較
我們拿一些實(shí)例來(lái)具體比較一下國(guó)內(nèi)的一些搜索引擎與國(guó)外的搜索引擎的區(qū)別在哪里,國(guó)外以Google為例,國(guó)內(nèi)就拿百度和中國(guó)搜索來(lái)比較。
相對(duì)查準(zhǔn)率是衡量搜索引擎的一個(gè)重要指標(biāo)。有人在網(wǎng)上做過(guò)這樣的測(cè)試,即,在這三大搜索引擎中輸入同樣的30條記錄,然后觀(guān)察它們所搜索出來(lái)的信息情況,其結(jié)果是這樣的:
不管是國(guó)外的Google,還是國(guó)內(nèi)的百度與中國(guó)搜索,有很多重復(fù)或無(wú)用的信息呈現(xiàn),甚至前10條記錄中都有這一現(xiàn)象發(fā)生。在搜索結(jié)果的前30條記錄中,重復(fù)或無(wú)用的信息最多的是中國(guó)搜索(共110條)其次是百度(共101條),最少的是Google(共91條)。在前10條記錄中重復(fù)或無(wú)用信息最多的是中國(guó)搜索(33條),Google與百度幾乎相當(dāng);在11-20條記錄中重復(fù)或無(wú)用信息最少的是Google(24條),百度與中國(guó)搜索相差無(wú)幾。就出現(xiàn)在21-30條記錄中的重復(fù)或無(wú)用信息量而言,三者完全相同,都是42條。并且在重復(fù)或無(wú)用信息中,有一定字面聯(lián)系、但內(nèi)容信息無(wú)用的鏈接占有相當(dāng)?shù)谋壤F渲饕蛑皇撬阉饕娌捎萌臋z索,不能完全理解搜索查詢(xún)請(qǐng)求,也不能很好地理解網(wǎng)頁(yè)的內(nèi)容,只要在全文中可以找到所有的檢索詞,信息就會(huì)被檢出。這樣,有些web頁(yè)面只在全文中含有檢索提問(wèn)式中的所有相應(yīng)關(guān)鍵詞,在信息內(nèi)涵上并不符合檢索提問(wèn)的要求,也會(huì)被檢索出來(lái),造成這一現(xiàn)象的另一個(gè)主要原因則是搜索引擎使用的排序技術(shù)本身的不足所致,它是由網(wǎng)頁(yè)的權(quán)值決定的。網(wǎng)頁(yè)的權(quán)值與網(wǎng)頁(yè)被鏈接的數(shù)量及質(zhì)量有關(guān),被鏈入的網(wǎng)頁(yè)數(shù)越多、網(wǎng)頁(yè)的權(quán)值越高及被鏈出的網(wǎng)頁(yè)數(shù)越少,則該網(wǎng)頁(yè)的權(quán)值越高,這樣小站、新站、專(zhuān)業(yè)站的內(nèi)容再好,因?yàn)椴荒苎杆俚玫酱罅扛哔|(zhì)量的超鏈,難以得到合適的排名,而一些權(quán)值高的網(wǎng)頁(yè)碩士學(xué)位論文討論認(rèn)為,即使其內(nèi)容與搜索詞之間沒(méi)有相關(guān)性,只要在網(wǎng)頁(yè)中有搜索詞出現(xiàn),其排名也會(huì)比較靠前。還有一個(gè)原因就是重復(fù)網(wǎng)頁(yè)沒(méi)有完全被過(guò)濾掉。因此,許多有用和相關(guān)頁(yè)面無(wú)法返回給用戶(hù),很多重復(fù)無(wú)用的信息出現(xiàn)在,Google、百度和中國(guó)搜索的相對(duì)查準(zhǔn)率分別為0.449,0.433,0.399,從數(shù)字上看Google的相對(duì)查準(zhǔn)率比百度與中國(guó)搜索的相對(duì)查準(zhǔn)率高一點(diǎn)六個(gè)百分點(diǎn)和5個(gè)百分點(diǎn),但Google與百度前30條記錄查準(zhǔn)率、Google與中國(guó)搜索前30條記錄查準(zhǔn)率,都經(jīng)t檢驗(yàn),P>0.05 ,故尚不能認(rèn)為國(guó)外搜索引擎Google的相對(duì)查準(zhǔn)率比國(guó)內(nèi)搜索引擎百度、中國(guó)搜索的相對(duì)查準(zhǔn)率高。在搜索引擎相對(duì)查準(zhǔn)率的測(cè)試過(guò)程中,對(duì)其有影響的因素有檢索表達(dá)式、前N條記錄、組的權(quán)值、相關(guān)范疇以及相關(guān)范疇的相關(guān)系數(shù)等。如何合理地選取表達(dá)式及N如何取值是值得研究的問(wèn)題,另外對(duì)前N條記錄如何合理地進(jìn)行分組、組的權(quán)值如何分配、相關(guān)范疇如何分配以及相關(guān)范疇的相關(guān)系數(shù)如何賦予都是值得探討的問(wèn)題。值得探討的問(wèn)題。
二、Google,百度及中國(guó)搜索個(gè)性化服務(wù)功能之比較
個(gè)性化搜索服務(wù)對(duì)于搜索引擎來(lái)說(shuō)應(yīng)該是屬于一個(gè)賣(mài)點(diǎn)。你有怎么樣的服務(wù),你就有怎樣的服務(wù)人群,所以這種擁有自己特點(diǎn)的服務(wù)對(duì)于每一個(gè)搜索引擎來(lái)說(shuō)都是至關(guān)重要的。
由于Google、百度和中國(guó)搜索默認(rèn)每頁(yè)顯示10條搜索結(jié)果,為了方便查看,減少顯示結(jié)果的頁(yè)數(shù),需要到搜索引擎相應(yīng)的功能區(qū)重新設(shè)置每頁(yè)搜索結(jié)果顯示條數(shù)。除中國(guó)搜索無(wú)法更改外,在Google和百度的高級(jí)搜索與個(gè)性設(shè)置功能區(qū)都能重新設(shè)置每頁(yè)搜索結(jié)果顯示條數(shù)。并且在重新設(shè)置的過(guò)程中發(fā)現(xiàn):搜索與某個(gè)指定網(wǎng)頁(yè)存在鏈接的所有網(wǎng)頁(yè)、搜索35種語(yǔ)言的網(wǎng)頁(yè)、提供包括簡(jiǎn)體中文和繁體中文共101種語(yǔ)言的搜索界面、提供中文簡(jiǎn)體和繁體文本之間的"翻譯"轉(zhuǎn)換等功能,只有Google擁有。雖然百度與中國(guó)搜索只有簡(jiǎn)體中文界面,百度的無(wú)法在檢索的結(jié)果頁(yè)進(jìn)行搜索高級(jí)搜索與個(gè)性設(shè)置,中國(guó)搜索也無(wú)法在結(jié)果頁(yè)進(jìn)行個(gè)性設(shè)置,但都能按地域搜索網(wǎng)頁(yè),并且中國(guó)搜索還能按行業(yè)進(jìn)行網(wǎng)頁(yè)搜索等。同時(shí),在利用中外主流搜索引擎搜索中文網(wǎng)頁(yè)的過(guò)程中發(fā)現(xiàn),不同的人使用相同檢索表達(dá)式得到的搜索結(jié)果卻完全相同,不會(huì)因人的地域、性別、年齡、職業(yè)、愛(ài)好、專(zhuān)業(yè)、心理傾向的差異而有所不同,并且搜索結(jié)果都無(wú)法按網(wǎng)頁(yè)更新日期、網(wǎng)頁(yè)生成日期等其它方式排序,而是都只有按內(nèi)容相關(guān)度排序一種方式。由此可見(jiàn),百度和中國(guó)搜索的個(gè)性化服務(wù)與Google一樣有了一定的體現(xiàn),個(gè)性化搜索服務(wù)水平仍然不高,但各具特色。
通過(guò)以上的分析,我們不難概括出國(guó)內(nèi)主流搜索引擎存在的幾點(diǎn)優(yōu)勢(shì):百度中文網(wǎng)頁(yè)的收錄量超過(guò)了Google;國(guó)內(nèi)的百度和中國(guó)搜索對(duì)中文的理解要比國(guó)外的Google好;縱觀(guān)中外主流搜索引擎的更新周期及最近一天中文網(wǎng)頁(yè)的更新能力,百度中文網(wǎng)頁(yè)的更新能力超過(guò)了Google;國(guó)內(nèi)的百度與中國(guó)搜索的更新周期比國(guó)外的Google短。顯然,國(guó)內(nèi)主流搜索引擎也存在諸多的不足:中國(guó)搜索缺乏對(duì)PDF,PS,DOC,PPT等非HTML文檔的收錄;綜觀(guān)Google、百度和中國(guó)搜索的去重、類(lèi)聚能力和網(wǎng)頁(yè)的重復(fù)率,國(guó)內(nèi)主流搜索引擎的去重能力仍然比國(guó)外主流搜索引擎遜色;中國(guó)搜索最近一天的網(wǎng)頁(yè)更新能力明顯低于Google,并在使用百度與中國(guó)搜索的搜索結(jié)果后的網(wǎng)頁(yè)快照功能查看該網(wǎng)頁(yè)的快照內(nèi)容時(shí),仍出現(xiàn)"死鏈"現(xiàn)象;百度和中國(guó)搜索前30條記錄中重復(fù)和無(wú)用信息的總數(shù)高于Google國(guó)內(nèi)外主流搜索引擎共同的不足:而國(guó)外的搜索引擎也不乏有這樣的缺陷;國(guó)內(nèi)外主流搜索引擎的相對(duì)查準(zhǔn)率雖然基本相等但都沒(méi)有超過(guò)50%(0.5),離用戶(hù)的情報(bào)需求還有相當(dāng)?shù)木嚯x;國(guó)內(nèi)搜索引擎百度和中國(guó)搜索與國(guó)外搜索引擎Google的個(gè)雖然有了一定的體現(xiàn),并各具特色,但搜索結(jié)果卻都不會(huì)因人的地域、性別、年齡、職業(yè)、愛(ài)好、專(zhuān)業(yè)、心理傾向的差異而有所不同,并且除新聞網(wǎng)頁(yè)的搜索結(jié)果提供按日期排序和按相關(guān)性排序方式外,其它網(wǎng)頁(yè)的搜索結(jié)果都無(wú)法按網(wǎng)頁(yè)更新日期或網(wǎng)頁(yè)生成日期等排序,只能按相關(guān)性進(jìn)行排序,用戶(hù)沒(méi)有選擇的余地。
三、結(jié)論
如今,知識(shí)經(jīng)濟(jì)、信息時(shí)代均以互聯(lián)網(wǎng)的存在為自身存在和發(fā)展的前提。知識(shí)的一半是"找到知識(shí)"。信息經(jīng)過(guò)加工轉(zhuǎn)化為知識(shí),知識(shí)經(jīng)過(guò)實(shí)踐繼而轉(zhuǎn)化為智慧,此三者的辯證性循環(huán)與攀升建構(gòu)了人類(lèi)智能發(fā)展的歷程。而搜索引擎的存在及其功用一定程度上顛覆性地革新了人類(lèi)信息的提取速度和質(zhì)量。但是,在信息爆炸的年代,如何提進(jìn)一步提升搜索引擎互聯(lián)網(wǎng)信息檢索的查準(zhǔn)率并使之最大化的發(fā)揮作用,是信息提取效率的關(guān)鍵所在。實(shí)踐證明,加強(qiáng)語(yǔ)義檢索的應(yīng)用是提高搜索引擎質(zhì)量的一個(gè)重要辦法也應(yīng)該是未來(lái)的發(fā)展方向。
眾所周知,查準(zhǔn)率是衡量搜索引擎優(yōu)越性的重要指標(biāo),國(guó)內(nèi)外主流搜索引擎的相對(duì)查準(zhǔn)率都在0.5以下,主要原因是它們都將關(guān)鍵詞檢索作為主要的檢索途徑,采用全文檢索所致。
目前的關(guān)鍵詞搜索是對(duì)關(guān)鍵詞進(jìn)行機(jī)械式匹配,只注重檢索詞的外在表現(xiàn)形式,而非它們所表達(dá)的概念,并且查詢(xún)結(jié)果完全依賴(lài)用戶(hù)給出的關(guān)鍵詞,系統(tǒng)與用戶(hù)之間無(wú)進(jìn)一步的交互。而在大多數(shù)情況下,用戶(hù)很難簡(jiǎn)單地用關(guān)鍵詞或關(guān)鍵詞串來(lái)真實(shí)地表達(dá)他們的檢索需求。由于同一概念,對(duì)其稱(chēng)呼以前與現(xiàn)在不同,隨著地域的改變,同一概念的表達(dá)也會(huì)不同,不同的學(xué)科專(zhuān)業(yè)領(lǐng)域,也都有自己的術(shù)語(yǔ)命名規(guī)則。因此,同一概念可以用不同的詞來(lái)表達(dá),使得許多關(guān)鍵詞都有同義詞、近義詞、上位詞、下位詞、全稱(chēng)、簡(jiǎn)稱(chēng)、俗稱(chēng)、商品名等。同時(shí),不同的用戶(hù)對(duì)同一概念往往會(huì)采用不同的檢索詞,從而使檢索效果不佳,相對(duì)查準(zhǔn)率偏低,重復(fù)和無(wú)用信息在前30條記錄中大量存在。如果搜索引擎的檢索子系統(tǒng)可以真正理解檢索詞的概念含義、理解關(guān)鍵詞之間的聯(lián)系,具有同義擴(kuò)檢和其他相關(guān)檢索的能力,對(duì)用戶(hù)需求和文本實(shí)施概念匹配,將會(huì)減少重復(fù)網(wǎng)頁(yè)的出現(xiàn),提高相對(duì)查準(zhǔn)率,極大的提高檢索質(zhì)量,使搜索結(jié)果真正按相關(guān)性排列,從而使檢索結(jié)果真正符合用戶(hù)的檢索要求,提高用戶(hù)查詢(xún)的滿(mǎn)意度。
參考文獻(xiàn):
[1]李明.中文元搜索引擎萬(wàn)緯搜索研究[J].現(xiàn)代圖書(shū)情報(bào)
技術(shù),2003,(5).
[2]鄒小筑.專(zhuān)業(yè)搜索引擎-Scirus科學(xué)搜索引擎研究[J].圖
書(shū)館建設(shè),2002,(6).
[3]劉海航,黃碧云.元搜索引擎Profusion[J].情報(bào)科學(xué),
2002,(9).
[4]李村合.因特網(wǎng)多元搜索引擎SearchX2000的研究[J].情 報(bào)學(xué)報(bào),2002,(4).
[5]陸興.八個(gè)著名中文搜索引擎的特征及其評(píng)析[J].圖書(shū)館
理論與實(shí)踐,2003,(2).
[摘要]隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的迅速普及,搜索引擎在網(wǎng)絡(luò)用戶(hù)的生活中扮演著越來(lái)越重要的地位,了解并能熟練使用搜索引擎成為大眾的必修課。對(duì)搜索引擎的基本知識(shí)和種類(lèi)作簡(jiǎn)要介紹,并結(jié)合親身實(shí)踐介紹幾種實(shí)用的搜索技巧。
[關(guān)鍵詞]搜索引擎種類(lèi)技巧
一、搜索引擎概述
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù)的系統(tǒng)。它主要是用于檢索網(wǎng)站、網(wǎng)址、文獻(xiàn)信息等內(nèi)容。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,各種搜索引擎層出不窮,目前流行的搜索引擎主要是幫助用戶(hù)搜索表層信息,如google、百度、雅虎等。
二、搜索引擎的分類(lèi)
目前,主流的搜索引擎有如下幾類(lèi):
(一)全文索引
根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類(lèi),一類(lèi)擁有自己的檢索程序(Indexer),俗稱(chēng)“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的Google和百度就屬于此類(lèi);另一類(lèi)則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
(二)目錄索引
目錄索引雖然有搜索功能,但不能稱(chēng)為真正的搜索引擎,只是按目錄分類(lèi)的網(wǎng)站鏈接列表而已。用戶(hù)完全可以按照分類(lèi)目錄找到所需要的信息,不依靠關(guān)鍵詞進(jìn)行查詢(xún)。目錄索引中最具代表性的是Yahoo、新浪分類(lèi)目錄搜索。
(三)元搜索引擎
元搜索引擎接受用戶(hù)查詢(xún)請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶(hù)。著名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
三、搜索引擎使用技巧
(一)關(guān)鍵詞的選擇
目前搜索引擎不具備智能識(shí)別能力,較人腦而言還很“弱智”,往往不能很好地把握用戶(hù)到底想要什么,只會(huì)在現(xiàn)成的數(shù)據(jù)庫(kù)索引中查找相匹配的關(guān)鍵詞。因此,選擇合適的關(guān)鍵詞是成功檢索的第一步。關(guān)鍵詞的選擇雖然沒(méi)有什么定式,不過(guò)也有一些規(guī)律可循,在提取關(guān)鍵詞時(shí)力求做到規(guī)范,避免口語(yǔ)化,便能達(dá)到事半功倍的效果。此處用特殊實(shí)例來(lái)說(shuō)明:
1.使用特定詞匯。有時(shí)輸入的關(guān)鍵詞由于過(guò)泛而沒(méi)有被收錄在搜索引擎的數(shù)據(jù)庫(kù)索引中,這時(shí)可以選擇與該主題相關(guān)且更具體的詞匯。例如,欲搜索某些期刊的投稿電子信箱,一般策略是在搜索框內(nèi)輸入“xxx雜志編輯部”,對(duì)知名度高、信息化程度高的期刊而言,一般都能搜出相應(yīng)的email,可信息化程度不高的期刊就比較難。此時(shí)可以嘗試如下兩種方法提高搜索效率:(1)同時(shí)輸入兩個(gè)關(guān)鍵詞,縮小檢索范圍,即“xxx雜志email”或“xxx雜志電子信箱”;(2)關(guān)鍵詞中加入電子信箱關(guān)鍵信息,即“xxx雜志@”。因?yàn)槿魏坞娮有畔渲芯小癅”,“@”成了查找電子信箱的關(guān)鍵符號(hào)。通過(guò)這兩種方法,很容易就能將期刊編輯部的電子信箱搜到。
2.使用多個(gè)含義相近的關(guān)鍵詞。對(duì)于熱門(mén)信息來(lái)說(shuō),搜索時(shí)犯愁的是返回條目太多,可對(duì)冷門(mén)事件或事物來(lái)說(shuō)往往恰恰相反。此時(shí)可使用同義關(guān)鍵詞和關(guān)聯(lián)關(guān)鍵詞來(lái)檢索,以達(dá)到更全面的搜索結(jié)果。如:在學(xué)術(shù)部門(mén)的年輕人想查閱申報(bào)課題的技巧時(shí)會(huì)發(fā)現(xiàn)相關(guān)結(jié)果少,此時(shí)可用“報(bào)課題技巧”、“報(bào)項(xiàng)目技巧”、“課題申報(bào)經(jīng)驗(yàn)”、“課題申報(bào)指南”等關(guān)鍵詞來(lái)檢索。
(二)局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道
許多單位都會(huì)針對(duì)同一熱門(mén)事件在本單位網(wǎng)站發(fā)大量文件或文章。這些文章或文件往往名稱(chēng)相同但具體內(nèi)容和要求卻不同。此時(shí),指定網(wǎng)站或頻道的搜索功能能為我們提高搜索效率。
(三)按文件類(lèi)型查找
如需要查找簡(jiǎn)歷模版時(shí)可以構(gòu)建如下檢索式:“簡(jiǎn)歷模版filetype:
doc”,此時(shí)能搜到word格式的簡(jiǎn)歷模版。此處的filetype:doc是限定檢索文件的類(lèi)型,該字段必須在英文狀態(tài)下錄入,而“簡(jiǎn)歷模版”是檢索的關(guān)鍵詞。兩個(gè)字段之間必須用空格隔開(kāi)。同理,如果需要檢索市場(chǎng)營(yíng)銷(xiāo)的教案也可以構(gòu)造“市場(chǎng)營(yíng)銷(xiāo)教案filetype:ppt”的檢索式,檢索結(jié)果為ppt格式的市場(chǎng)營(yíng)銷(xiāo)教案。該檢索式支持txt,ppt,xls,pdf,mp3,swf等常見(jiàn)文件類(lèi)型。(四)巧用快照
有時(shí)會(huì)搜到訪(fǎng)問(wèn)不了的“死鏈網(wǎng)頁(yè)”和過(guò)期文件,而看其內(nèi)容摘要很符合需要。此時(shí)可利用搜索引擎提供的網(wǎng)頁(yè)快照功能查閱此類(lèi)文獻(xiàn)。
(五)使用不同的搜索引擎
不同的搜索引擎,其信息覆蓋范圍有差異,我們平時(shí)搜索信息時(shí)僅集中于某一家搜索引擎是不明智的,因?yàn)樵俸玫乃阉饕嬉灿芯窒扌?,而使用?yōu)秀的搜索引擎可以達(dá)到事半功倍的效果。
(六)留意搜索引擎返回的結(jié)果
由于競(jìng)價(jià)排名業(yè)務(wù)的推廣,搜索引擎返回的Web站點(diǎn)順序會(huì)影響人們的訪(fǎng)問(wèn)。所以,為了增加Web站點(diǎn)的點(diǎn)擊率,一些Web站點(diǎn)會(huì)付費(fèi)給搜索引擎,以在相關(guān)Web站點(diǎn)列表中顯示在靠前的位置。好的搜索引擎會(huì)鑒別Web站點(diǎn)的內(nèi)容,并據(jù)此安排它們的順序,但許多搜索引擎無(wú)法鑒別。
【關(guān)鍵詞】 JAVA 搜索引擎 技術(shù)體系
搜索引擎本質(zhì)上屬于一類(lèi)數(shù)據(jù)庫(kù),它主要由搜索器 、索引器 、檢索器以及用戶(hù)接口所構(gòu)成。其工作模式包括兩種即自動(dòng)信息搜集與定期搜索。以最常見(jiàn)的谷歌引擎為例,在一定周期時(shí)間內(nèi)會(huì)利用蜘蛛程序進(jìn)行主動(dòng)搜索,當(dāng)發(fā)掘出新的網(wǎng)站時(shí)便可以從網(wǎng)站中提取相關(guān)信息并將這些信息置于數(shù)據(jù)庫(kù)當(dāng)中[1]。
也就是說(shuō)每隔一個(gè)周期搜索引擎數(shù)據(jù)庫(kù)的數(shù)據(jù)都會(huì)持續(xù)性地更新,一方面擴(kuò)大了搜索引擎的應(yīng)用范圍,另一方面為用戶(hù)也提供了極大的便捷。在搜索引擎使用過(guò)程中用戶(hù)通過(guò)搜尋關(guān)鍵詞便可在數(shù)據(jù)庫(kù)中進(jìn)行相關(guān)搜索,其中會(huì)涉及到各類(lèi)特殊算法,經(jīng)過(guò)處理后將關(guān)聯(lián)程度以由高至低的順序向用戶(hù)反饋。JAVA技術(shù)的革新給搜索引擎的發(fā)展帶來(lái)了新的動(dòng)力,使其朝著更高的層次邁進(jìn)。
一、JAVA技術(shù)特征概述
相對(duì)于其他匯編語(yǔ)言,JAVA語(yǔ)言具有良好的兼容性,另外在通用性、安全性方面較其他語(yǔ)言更具優(yōu)勢(shì),另外JAVA語(yǔ)言涵蓋了以下特點(diǎn):首先JAVA語(yǔ)言具有良好的安全性,這種安全性對(duì)于網(wǎng)絡(luò)環(huán)境而言有著十分重要的意義,其安全機(jī)制能夠遏制相關(guān)代碼攻擊[2]。其次JAVA語(yǔ)言具有強(qiáng)制性特征,在其面向?qū)ο蟮倪^(guò)程中,通常情況僅僅支持類(lèi)之間的單向繼承,在多個(gè)接口情況下則能夠進(jìn)行多處承接。再者JAVA語(yǔ)言呈現(xiàn)了良好的動(dòng)態(tài)性特點(diǎn),它可以滿(mǎn)足動(dòng)態(tài)性環(huán)境變化進(jìn)行匹配,這使得基于JAVA語(yǔ)言匯編的系統(tǒng)、軟件等均得到了良好的兼容性,特別是使對(duì)于應(yīng)用而言易于升級(jí)。另外JAVA語(yǔ)言具備多線(xiàn)程特征,這種特征使得相關(guān)應(yīng)用及系統(tǒng)的性能得到了保證,為開(kāi)發(fā)者與使用者帶來(lái)了更高質(zhì)量的服務(wù)。
二、JAVA技術(shù)在搜索引擎中的應(yīng)用分析
利用JAVA技術(shù)可對(duì)搜索引擎進(jìn)行有效優(yōu)化,其中java 2 PSE、Lucne以及Tomcat等均是常見(jiàn)的開(kāi)發(fā)工具。通過(guò)使用這些工具可以使JAVA應(yīng)用開(kāi)發(fā)環(huán)境得到優(yōu)化,并且能夠讓搜索java類(lèi)庫(kù)以及索引java類(lèi)庫(kù)得以實(shí)現(xiàn)。本研究中網(wǎng)站搜索引擎構(gòu)建對(duì)JAVA技術(shù)的應(yīng)用進(jìn)行了分析[3]。以JAVA為基礎(chǔ)首先可以對(duì)網(wǎng)站內(nèi)部鏈接進(jìn)行優(yōu)化。從形式上來(lái)看網(wǎng)站內(nèi)部結(jié)構(gòu)復(fù)雜,但卻表現(xiàn)了顯著的層次性。因此為了讓網(wǎng)站能夠保持正常的工作狀態(tài)就需要構(gòu)建出一個(gè)通常的信息渠道,保持其暢通性,這樣才能促使網(wǎng)站良性運(yùn)作,并且使得網(wǎng)站內(nèi)部環(huán)境與外部環(huán)境關(guān)聯(lián)起來(lái)。以網(wǎng)站搜索為例,在網(wǎng)站中置入搜索框,那么該搜索框便可為用戶(hù)提供快速的信息獲取途徑。
同時(shí)可將其整合成一個(gè)針對(duì)性的平臺(tái)界面,歸類(lèi)對(duì)象。這種形式可以讓用戶(hù)更好地在平臺(tái)上進(jìn)行交互從而讓業(yè)務(wù)面得以擴(kuò)充。對(duì)于搜索引擎而言網(wǎng)頁(yè)標(biāo)題也是關(guān)鍵的部分,因此需對(duì)其進(jìn)行優(yōu)化。標(biāo)題直接關(guān)系到了搜索引擎使用過(guò)程中的成效性,會(huì)影響搜索引擎的預(yù)判。另外從心理層面來(lái)看網(wǎng)頁(yè)標(biāo)題會(huì)對(duì)用戶(hù)產(chǎn)生一定程度的心理引導(dǎo)效應(yīng),若標(biāo)題具有吸引力則能夠吸引用戶(hù)點(diǎn)擊并查閱。因此利用JAVA技術(shù)結(jié)合網(wǎng)站布局在不同頁(yè)面構(gòu)建出不同的標(biāo)題,從而體現(xiàn)標(biāo)題的差異性。當(dāng)然標(biāo)題相互之間具有明顯的差異性,但是又體現(xiàn)了統(tǒng)一性,也就是說(shuō)標(biāo)題整體內(nèi)容應(yīng)該圍繞網(wǎng)頁(yè)內(nèi)容組織構(gòu)建,不僅僅能夠?qū)W(wǎng)頁(yè)內(nèi)容進(jìn)行明確反映并促使兩者可相互匹配。JAVA匯編提升了網(wǎng)站系統(tǒng)的識(shí)別能力,讓網(wǎng)站的功能性得以增強(qiáng)。
在應(yīng)用JAVA技術(shù)的過(guò)程中Internet連接技術(shù)發(fā)揮了十分重要的作用,由于搜索引擎需要對(duì)網(wǎng)站中不同頁(yè)面的信息進(jìn)行調(diào)用,而JAVA則帶來(lái)了豐富的功能選擇。事實(shí)上在網(wǎng)絡(luò)中應(yīng)用計(jì)算機(jī)的過(guò)程中都離不開(kāi)套接字類(lèi)的作用,而端口則承擔(dān)了這種角色。
實(shí)際應(yīng)用時(shí)在一個(gè)特定的時(shí)刻存在唯一的服務(wù)器程序?qū)ο嗤亩丝谶M(jìn)行偵聽(tīng),而ServerSocket與Socket是JAVA定義的兩個(gè)重要類(lèi)別,通過(guò)上述兩類(lèi)可對(duì)關(guān)鍵字進(jìn)行聲明,從而構(gòu)建出一對(duì)一的連接。也就是說(shuō)利用JAVA保證了套接字可對(duì)相關(guān)信息數(shù)據(jù)進(jìn)行直接讀取或?qū)懭?。另外需要注意的是JAVA可能對(duì)中文字體可能會(huì)產(chǎn)生亂碼,因此需要進(jìn)行針對(duì)性處理,另外可充分利用JAVA的多線(xiàn)程機(jī)制使得后臺(tái)運(yùn)行保持穩(wěn)定的狀態(tài)。
三、結(jié)語(yǔ)
JAVA為搜索引擎提供了重要的技術(shù)支持,特別是在搜索引擎智能化發(fā)展的情況下JAVA技術(shù)將得到更大的應(yīng)用空間讓搜索引擎的功能性得以完善。
參 考 文 獻(xiàn)
[1] 郭彥秋. 淺析百度與谷歌兩搜索引擎的比較與分析[J]. 才智. 2012(06)
關(guān)鍵詞:企業(yè)信息門(mén)戶(hù);搜索引擎;數(shù)據(jù)采集;信息搜索;分類(lèi);聚類(lèi)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)31-7574-02
Study on Enterprise Information Portal Search Engine
FENG Shu-wen1,ZHAN Ying1,LI Yi-wei2
(1. Automation Research Institute of Lanzhou Petrochemical Company,Lanzhou 730060,China;2.Oil and Gas Storage and Transportation Branch, Petrochina Xinjiang Oilfield Company, Karamay 834002,China)
Abstract:EIP is an application framework of enterprise information system. It supplies user a platform which integrates with all kinds of application systems, data and network.. Facing the accumulated data and distracted information, we must introduce EIP search engine to supply a fast, effective search function. EIPSE integrate all the enterprise information resource and improve efficiency in application and accession to enterprise information system. EIPSE enforce the construction and application of EIP, improve the level of decision making.
Key words:enterprise information portal;search engine;data acquisition;information research;categorization;Clustering
企業(yè)信息門(mén)戶(hù)(EIP,Enterprise Information Portal)是在Internet的環(huán)境下,將各種應(yīng)用系統(tǒng)、數(shù)據(jù)資源和互聯(lián)網(wǎng)資源統(tǒng)一集成到一個(gè)信息管理平臺(tái)之上,并以統(tǒng)一的界面提供給用戶(hù),是企業(yè)信息系統(tǒng)的應(yīng)用框架。EIP提供對(duì)企業(yè)的內(nèi)部、外部各類(lèi)信息的訪(fǎng)問(wèn),協(xié)助企業(yè)提高決策水平、優(yōu)化生產(chǎn)運(yùn)作。面對(duì)門(mén)戶(hù)建設(shè)中積累的海量數(shù)據(jù),以及門(mén)戶(hù)技術(shù)本身導(dǎo)致的信息不能有效分析、缺乏統(tǒng)一規(guī)范、可拓展性差等問(wèn)題,提供快速、高效檢索的功能成為企業(yè)信息門(mén)戶(hù)亟待解決的問(wèn)題。
由于通用搜索引擎存在信息冗余量大、搜索深度不夠、搜索精度差、海量信息無(wú)序化等問(wèn)題,無(wú)法滿(mǎn)足企業(yè)對(duì)于搜索結(jié)果精確度和信息保持最新性的要求等。因此,直接使用通用搜索引擎進(jìn)行企業(yè)信息門(mén)戶(hù)的信息檢索并不合適,需要結(jié)合企業(yè)自身特點(diǎn)和需求開(kāi)發(fā)專(zhuān)用的企業(yè)信息門(mén)戶(hù)搜索引擎(Enterprise Information Portal Search Engine)。
1 企業(yè)信息門(mén)戶(hù)對(duì)搜索引擎需求
通過(guò)企業(yè)門(mén)戶(hù)搜索引擎與互聯(lián)網(wǎng)搜索引擎的比較,并結(jié)合本企業(yè)自身特點(diǎn),提出企業(yè)信息門(mén)戶(hù)對(duì)搜索引擎的需求。如表1所示。
本企業(yè)信息門(mén)戶(hù)對(duì)搜索引擎的需求主要包含以下幾方面:
1)搜索引擎必須將門(mén)戶(hù)網(wǎng)站的所有信息都索引進(jìn)去,支持office系列、txt、PDF等多種文檔格式抓取;支持微軟AD域的權(quán)限模型抓取;支持zip、rar、tar等壓縮文件的采集。
2)數(shù)據(jù)采集之后,對(duì)于相應(yīng)的數(shù)據(jù)更新,要具備靈活的機(jī)制,保證數(shù)據(jù)的質(zhì)量與完善,搜索引擎的索引能夠及時(shí)反映企業(yè)信息的變更。
3)系統(tǒng)應(yīng)提供強(qiáng)大的智能內(nèi)容搜索功能,搜索方式除了涵蓋傳統(tǒng)的關(guān)鍵字、布爾表達(dá)式、字段匹配搜索等外,還需要支持概念搜索,訓(xùn)練搜索,搜索導(dǎo)航,搜索聚類(lèi),甚至能對(duì)用戶(hù)搜索偏好和對(duì)結(jié)果擬合度的選擇進(jìn)行學(xué)習(xí),以提高搜索結(jié)果的準(zhǔn)確度和價(jià)值。
4)系統(tǒng)要對(duì)采集到的全部信息進(jìn)行內(nèi)容挖掘,實(shí)現(xiàn)自動(dòng)化處理,包括自動(dòng)分類(lèi)、聚類(lèi)。
2 EIPSE設(shè)計(jì)
2.1 EIPSE的設(shè)計(jì)原則
1)標(biāo)準(zhǔn)化:遵循技術(shù)標(biāo)準(zhǔn)化、結(jié)構(gòu)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)準(zhǔn)化等相關(guān)要求。
2)開(kāi)放性:系統(tǒng)在體系結(jié)構(gòu)、硬件產(chǎn)品、軟件產(chǎn)品、數(shù)據(jù)交換協(xié)議等方面,充分利用開(kāi)放平臺(tái),保證系統(tǒng)具有較好的互操作性、可移植性。
3)可擴(kuò)展性:軟硬件配置具備動(dòng)態(tài)平滑擴(kuò)展能力,可以通過(guò)調(diào)整系統(tǒng)框架和相應(yīng)服務(wù)單元的配置,適應(yīng)業(yè)務(wù)量的變化。系統(tǒng)架構(gòu)在開(kāi)放的、安全應(yīng)用支撐體系結(jié)構(gòu)之上,具有良好的可擴(kuò)充性。
4)技術(shù)的先進(jìn)性和成熟性:采用先進(jìn)和成熟的技術(shù),滿(mǎn)足系統(tǒng)在生命周期內(nèi)具有持續(xù)的可維護(hù)性和可擴(kuò)展性,獲得更高的發(fā)展起點(diǎn)。
5)安全性:充分考慮系統(tǒng)安全性設(shè)計(jì),保障數(shù)據(jù)備份、應(yīng)用流程、權(quán)限管理等各個(gè)環(huán)節(jié)的安全性。在設(shè)計(jì)系統(tǒng)結(jié)構(gòu)時(shí),各個(gè)層次都充分考慮到系統(tǒng)的冗余配置和災(zāi)難恢復(fù)。
6)可管理性:采用合理的系統(tǒng)體系結(jié)構(gòu),實(shí)現(xiàn)對(duì)系統(tǒng)的集中管理和監(jiān)控。
2.2 EIPSE的架構(gòu)設(shè)計(jì)
智能內(nèi)容搜索服務(wù)平臺(tái)是架構(gòu)于智能數(shù)據(jù)處理層(Intelligent Data Operating Layer,IDOL)上,其核心是建立在獨(dú)特的信息論和概率論的基礎(chǔ)之上的模式識(shí)別技術(shù),抽取概念和內(nèi)容挖掘后,為提供多種的搜索應(yīng)用服務(wù)。因此,系統(tǒng)總體架構(gòu)按照實(shí)際應(yīng)用的流程實(shí)現(xiàn),即從數(shù)據(jù)的采集和處理,索引和分析、應(yīng)用與三個(gè)層次實(shí)現(xiàn),設(shè)計(jì)結(jié)構(gòu)如圖1所示。
2.3 EIPSE的功能設(shè)計(jì)
為了充分實(shí)現(xiàn)本企業(yè)信息門(mén)戶(hù)強(qiáng)大的搜索功能,整個(gè)系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)采集、信息搜索、分類(lèi)、聚類(lèi)、個(gè)性化、自動(dòng)關(guān)聯(lián)以及部分可視化的管理功能。
2.3.1 數(shù)據(jù)采集平臺(tái)
數(shù)據(jù)采集平臺(tái)是整個(gè)系統(tǒng)的基礎(chǔ),是系統(tǒng)對(duì)外提供內(nèi)容服務(wù)的源泉,主要從各種數(shù)據(jù)源(包括文件系統(tǒng)、數(shù)據(jù)庫(kù)、內(nèi)部其他系統(tǒng)以及獨(dú)立信息源)采集信息。針對(duì)不同的數(shù)據(jù)格式,采用不同的方式,將各數(shù)據(jù)孤島的信息采集過(guò)來(lái),用于資源平臺(tái)的整合與使用。如圖2所示。
2.3.2 信息搜索
信息搜索包括關(guān)鍵字的搜索、標(biāo)準(zhǔn)搜索、高級(jí)搜索、聯(lián)合搜索、參數(shù)搜索、自動(dòng)摘要等功能。參數(shù)搜索可以實(shí)現(xiàn)各元數(shù)據(jù)的統(tǒng)計(jì)和分析,并可以以柱狀圖、餅圖、線(xiàn)圖等圖形形式進(jìn)行輸出,使用戶(hù)實(shí)時(shí)了解搜索對(duì)象的數(shù)量特征。同時(shí),系統(tǒng)可根據(jù)每篇文章中的主要概念,自動(dòng)生成摘要。并且根據(jù)用戶(hù)瀏覽內(nèi)容或者檢索條件,產(chǎn)生變化的動(dòng)態(tài)摘要,使用戶(hù)能夠通過(guò)摘要來(lái)判斷是否為所需信息。
2.3.3 信息分類(lèi)
信息分類(lèi)實(shí)現(xiàn)自動(dòng)分類(lèi),精確地根據(jù)非結(jié)構(gòu)化文本中的概念進(jìn)行分類(lèi)。自動(dòng)分類(lèi)是根據(jù)一些分類(lèi)標(biāo)準(zhǔn),將某個(gè)范圍的信息內(nèi)容生成分類(lèi)樹(shù),根據(jù)不同的分類(lèi)主題,用戶(hù)點(diǎn)擊相關(guān)的分類(lèi)樹(shù)節(jié)點(diǎn)即可查看結(jié)果。采用自動(dòng)分類(lèi)方法,克服了人工分類(lèi)中信息檢索不全面、更新速度慢的缺點(diǎn),提高了用戶(hù)的檢索速度和檢索準(zhǔn)確度。
2.3.4 信息聚類(lèi)
用戶(hù)使用搜索引擎時(shí)會(huì)得到大量返回信息組成的線(xiàn)性表,其中很大一部分與用戶(hù)的查詢(xún)請(qǐng)求無(wú)關(guān),通過(guò)對(duì)檢索結(jié)果集合進(jìn)行聚類(lèi),可以使用戶(hù)檢索結(jié)果相關(guān)的信息比較靠近。通過(guò)自動(dòng)地分析采集過(guò)來(lái)的所有信息內(nèi)容,把相似的文檔聚類(lèi)到一起,同時(shí)自動(dòng)生成類(lèi)別的標(biāo)題, 以可視化的各類(lèi)方式提供給用戶(hù),由用戶(hù)選擇瀏覽。
2.3.5 個(gè)性化
這里的個(gè)性化服務(wù)主要包括個(gè)性訂閱、自動(dòng)提示、推送等功能。通過(guò)用戶(hù)自己設(shè)定感興趣的內(nèi)容范圍與條件,系統(tǒng)根據(jù)用戶(hù)的設(shè)定主題提供內(nèi)容服務(wù)。同時(shí)系統(tǒng)能夠自動(dòng)維護(hù)用戶(hù)檔案,一旦發(fā)現(xiàn)有新的符合用戶(hù)要求的信息,能夠自動(dòng)收藏到用戶(hù)檔案夾中,或者通過(guò)短信、郵件等手段來(lái)對(duì)用戶(hù)進(jìn)行提示。
2.3.6 模塊監(jiān)控管理
模塊監(jiān)控管理系統(tǒng)為內(nèi)容搜索各模塊提供關(guān)鍵的維護(hù)、管理、控制和監(jiān)測(cè)功能,采用b/s架構(gòu)方式從中央位置與所有內(nèi)容服務(wù)(例如連接器、DIH、DAH等等)進(jìn)行通訊。同時(shí)模塊監(jiān)控系統(tǒng)也提供了可視化的整體面板,使內(nèi)容管理員能夠?qū)λ袃?nèi)容模塊(或服務(wù))操作進(jìn)行本地或遠(yuǎn)程管理,提供可視化的參數(shù)管理、參數(shù)配置、模塊監(jiān)測(cè)、狀態(tài)報(bào)表等。
3 結(jié)束語(yǔ)
本文是以某煉化企業(yè)正在實(shí)施的門(mén)戶(hù)搜索引擎技術(shù)為主要研究?jī)?nèi)容,通過(guò)現(xiàn)有的搜索引擎技術(shù)進(jìn)行簡(jiǎn)單分析,結(jié)合企業(yè)實(shí)際需求和自身特點(diǎn),對(duì)該企業(yè)目前采用的門(mén)戶(hù)搜索技術(shù)進(jìn)行了深入研究。研究表明通用搜索引擎用于企業(yè)信息門(mén)戶(hù)存在諸多缺陷和不足,只有針對(duì)門(mén)戶(hù)搜索開(kāi)發(fā)的搜索引擎具備較好的靈活性和可擴(kuò)展性,才能滿(mǎn)足企業(yè)信息化發(fā)展的需要。
參考文獻(xiàn):
[1] 周祥,王麗芳,蔣澤軍.基于Lucene的企業(yè)信息門(mén)戶(hù)搜索引擎設(shè)計(jì)[J].微機(jī)處理,2009(4):62-64.
任何時(shí)候在搜索引擎中輸入查詢(xún)關(guān)鍵詞,你將會(huì)獲得數(shù)千條的搜索結(jié)果,太多的信息總是意味著沒(méi)有信息。用戶(hù)對(duì)信息的需求正朝著多元化的方向發(fā)展,對(duì)某一領(lǐng)域的信息需求不再是多而廣,而是精而深。其次,用戶(hù)對(duì)信息的要求不再是量,而是注重信息的質(zhì),即是否能給用戶(hù)解決實(shí)際的需求,提供的信息準(zhǔn)確、權(quán)威、及時(shí)等等。通用搜索引擎的性質(zhì)決定了其不能滿(mǎn)足用戶(hù)的特定需求,市場(chǎng)被不斷細(xì)分,滿(mǎn)足人們特定需求的垂直搜索引擎將相繼出現(xiàn)。
基于這種現(xiàn)狀,眾多行業(yè)垂直搜索引擎應(yīng)運(yùn)而生,像搜索電影的迅雷、搜索軟件的狗狗,搜索游戲的17173等搜索平臺(tái)廣泛得到大眾的認(rèn)可??梢源竽懙恼f(shuō),將來(lái)的搜索市場(chǎng)將不再是簡(jiǎn)單的幾大搜索巨頭統(tǒng)治的時(shí)代!而商業(yè)搜索引擎,特別是針對(duì)性比較強(qiáng)的城市商業(yè)搜索引擎領(lǐng)域?qū)⑹呛鹆孔罡叩氖袌?chǎng)。因?yàn)樗婕暗揭粋€(gè)城市方方面面的商業(yè)需求?!冻鞘猩虡I(yè)搜索引擎》以其先進(jìn)的運(yùn)營(yíng)構(gòu)架、準(zhǔn)確的信息采集方法和創(chuàng)新的競(jìng)價(jià)排名模式造就了整個(gè)商業(yè)搜索引擎行業(yè)的標(biāo)準(zhǔn),用戶(hù)完全可以?huà)仐壦^城市信息港、分類(lèi)信息、便民網(wǎng)站。
因?yàn)槲覀兊男畔⑹峭ㄟ^(guò)面對(duì)面的信息采集方式獲得,是最真實(shí)、最全面的!城市商業(yè)引擎的推出不僅滿(mǎn)足的B2B的市場(chǎng)需要,還可延伸到B2C市場(chǎng),擴(kuò)展為一種給人們生產(chǎn)、生活方便快捷的便民綜合搜索引擎,其商業(yè)價(jià)值遠(yuǎn)高于傳統(tǒng)的通用搜索引擎。因此誰(shuí)能夠迅速的建立符合用戶(hù)需求的搜索平臺(tái),誰(shuí)將成為新一輪搜索行業(yè)的領(lǐng)軍企業(yè)。
基于城市的商業(yè)搜索服務(wù)-其搜索結(jié)果全部是產(chǎn)品或企業(yè)相關(guān)信息。內(nèi)容更純粹,搜索的結(jié)果以產(chǎn)品或企業(yè)為主題結(jié)構(gòu)化展示出來(lái),便于用戶(hù)查看、了解。用戶(hù)可以對(duì)搜索結(jié)果帶有參與性、搜索結(jié)果也會(huì)隨著用戶(hù)的參與得到不斷豐富。這些都讓用戶(hù)更方便、快捷地找到自己想要的產(chǎn)品或服務(wù),極大地滿(mǎn)足了人們的商業(yè)消費(fèi)需求。如在工作時(shí)間,用戶(hù)要采購(gòu)一批辦公用品“打印紙”,需要找相應(yīng)的供應(yīng)商或服務(wù)商,就可以到《城市商業(yè)搜索引擎》來(lái)查找:搜索結(jié)果只顯示供應(yīng)“打印紙”的企業(yè)信息,沒(méi)有其他雜亂的信息,更方便用戶(hù)找到相應(yīng)的產(chǎn)品供應(yīng)商。如對(duì)某個(gè)企業(yè)感興趣,可以直接點(diǎn)擊查看,供應(yīng)企業(yè)信息覆蓋包括企業(yè)獨(dú)立展示網(wǎng)站、B2B平臺(tái)商鋪及行業(yè)門(mén)戶(hù)商鋪在內(nèi)的數(shù)據(jù)源,保證了供應(yīng)商信息數(shù)量的最大化。用戶(hù)還可通過(guò)“企業(yè)評(píng)論空間”來(lái)查看不同用戶(hù)對(duì)供應(yīng)商的看法,了解供應(yīng)商更多內(nèi)在的信息,便于對(duì)采購(gòu)供應(yīng)做出決策。
《城市商業(yè)搜索引擎》最大程度地覆蓋了商業(yè)用戶(hù)人群!本項(xiàng)目是黑蟻搜索團(tuán)隊(duì)在多年從事互聯(lián)網(wǎng)行業(yè)的基礎(chǔ)上,根據(jù)自身及廣大用戶(hù)的實(shí)際需求,結(jié)合我國(guó)當(dāng)前的互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展趨勢(shì)逐步發(fā)展完善而確定的。該項(xiàng)目的提出,一方面符合國(guó)家的企業(yè)信息化產(chǎn)業(yè)政策,另一方面也是將傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)有機(jī)結(jié)合實(shí)現(xiàn)真正意義上的網(wǎng)絡(luò)便民服務(wù)的必由之路。
【關(guān)鍵詞】Agent;元搜索引擎;個(gè)性化檢索
Agent技術(shù)最早源于分布式人工智能(DAI),從80年代以來(lái),Agent技術(shù)已經(jīng)從DAI領(lǐng)域中拓展開(kāi)來(lái),廣泛應(yīng)用到很多其他領(lǐng)域,包括電子商務(wù)、工作流管理、運(yùn)輸系統(tǒng)、網(wǎng)上信息檢索系統(tǒng)以及其他的網(wǎng)絡(luò)應(yīng)用等。Multi-Agent技術(shù)在元搜索引擎中的應(yīng)用就是Agent在信息檢索系統(tǒng)中的典型應(yīng)用之一。目前,對(duì)于A(yíng)gent技術(shù)的研究主要分為智能Agent、多Agent系統(tǒng)(Multi-Agent System,簡(jiǎn)稱(chēng)MAS)和面向Agent的程序設(shè)計(jì)(Agent Oriented Programming,簡(jiǎn)稱(chēng)AOP)三個(gè)方面。本文將Multi-Agent技術(shù)運(yùn)用于元搜索引擎中,提出了一個(gè)基于多Agent的元搜索引擎系統(tǒng)模型。該模型既具備Agent技術(shù)智能性的特征,還具有元搜索引擎較傳統(tǒng)搜索引擎查全率高的優(yōu)勢(shì),不但能夠彌補(bǔ)元搜索引擎在智能化程度低、無(wú)法滿(mǎn)足用戶(hù)個(gè)性化需求等方面的缺陷,還能在一定程度上提高系統(tǒng)的靈活性和易用性。
1.基于Multi-Agent的元搜索引擎系統(tǒng)
由于每個(gè)獨(dú)立搜索引擎的覆蓋面有限,人們不得不同時(shí)調(diào)用多個(gè)獨(dú)立搜索引擎進(jìn)行檢索,于是元搜索引擎應(yīng)運(yùn)而生。元搜索引擎是建立在多個(gè)獨(dú)立搜索引擎之上的一種綜合性搜索引擎,它接收用戶(hù)搜索請(qǐng)求并將查詢(xún)?nèi)蝿?wù)分發(fā)給各獨(dú)立搜索引擎,并將各獨(dú)立搜索引擎返回的查詢(xún)結(jié)果按照一定規(guī)則重新整理后呈現(xiàn)給用戶(hù)。因此,元搜索引擎又被稱(chēng)為“搜索引擎之上的搜索引擎”或“搜索引擎之母”。由于元搜索引擎能夠利用多個(gè)獨(dú)立搜索引擎同時(shí)進(jìn)行查詢(xún),相對(duì)于傳統(tǒng)搜索引擎,信息的查全率就有了很大提高。但是,元搜索引擎還處在發(fā)展階段,某些技術(shù)尚不夠成熟,在一定程度上存在智能化程度偏低、無(wú)法滿(mǎn)足用戶(hù)的個(gè)性化檢索需求的缺陷。為解決這一問(wèn)題,本文在元搜索引擎中引入Agent技術(shù),建立一個(gè)基于Multi-Agent的元搜索引擎系統(tǒng)模型,該模型綜合了Agent和元搜索引擎兩者的優(yōu)勢(shì),能具備較高的系統(tǒng)性能。
1.1 基于Multi-Agent的元搜索引擎系統(tǒng)模型
圖1是建立的基于Multi-Agent的元搜索引擎系統(tǒng)模型。該模型采用Agent組織來(lái)實(shí)現(xiàn)元搜索引擎的智能化和個(gè)性化,利用多個(gè)Agent協(xié)同工作,通過(guò)各個(gè)Agent間的交互通訊和合作,不僅能夠開(kāi)發(fā)新的問(wèn)題求解方法,還能夠從相互學(xué)習(xí)中進(jìn)一步完善提高各Agent的基本能力,理論上可提高查全率與查準(zhǔn)率。
該系統(tǒng)主要由用戶(hù)交互Agent、興趣學(xué)習(xí)Agent、查詢(xún)擴(kuò)展Agent、查詢(xún)管理Agent、成員Agent和結(jié)果整合Agent以及個(gè)性化模式庫(kù)和引擎性能評(píng)價(jià)庫(kù)組成。
1.2 基于Multi-Agent的元搜索引擎模型的系統(tǒng)功能
用戶(hù)交互Agent是用戶(hù)與元搜索引擎的交互接口,一方面它獲取用戶(hù)的查詢(xún)請(qǐng)求,遞交給查詢(xún)擴(kuò)展Agent;另一方面將用戶(hù)的行為日志遞交給興趣學(xué)習(xí)Agent,由興趣學(xué)習(xí)Agent分析挖掘用戶(hù)興趣,將獲得的個(gè)性化模式存入個(gè)性化模式庫(kù)中,并實(shí)時(shí)調(diào)整、改善用戶(hù)興趣模型,智能地協(xié)助用戶(hù)進(jìn)行信息檢索。查詢(xún)擴(kuò)展Agent將請(qǐng)求中所含的有效參數(shù)分解出來(lái),按一定語(yǔ)法格式重組后,將查詢(xún)指令發(fā)送給查詢(xún)管理Agent;查詢(xún)管理Agent除將查詢(xún)?nèi)蝿?wù)分發(fā)給各成員Agent外,還負(fù)責(zé)管理各Agent之間的協(xié)調(diào)和通訊;各成員Agent完成搜索任務(wù)后,將各自查詢(xún)結(jié)果發(fā)送給結(jié)果整合Agent,再由結(jié)果整合Agent進(jìn)行歸并、去重、排序,最終按統(tǒng)一格式將查詢(xún)結(jié)果返回給用戶(hù)交互Agent,顯示給用戶(hù)。
個(gè)性化模式庫(kù)用于儲(chǔ)存用戶(hù)的個(gè)性化模式,這些個(gè)性化模式是由興趣學(xué)習(xí)Agent根據(jù)用戶(hù)以往的行為記錄經(jīng)驗(yàn),對(duì)相關(guān)信息進(jìn)行分析、挖掘和推理而得到的興趣模型,也可通過(guò)用戶(hù)主動(dòng)提出自己的興趣愛(ài)好或?qū)υ阉饕娌樵?xún)結(jié)果進(jìn)行評(píng)價(jià)反饋獲得;引擎性能評(píng)價(jià)庫(kù)中存放各個(gè)成員搜索引擎的性能評(píng)價(jià)值信息、響應(yīng)時(shí)間信息、返回鏈接數(shù)信息以及異常信息等。
2.多Agent間的通信
在基于Multi-Agent的元搜索引擎系統(tǒng)中,要想檢索到想要的結(jié)果,實(shí)現(xiàn)各Agent之間的信息傳遞,就需要有共同的通信語(yǔ)言和通信機(jī)制來(lái)保證各之間正常的交流通信。
2.1 Agent通信語(yǔ)言
目前國(guó)際上最通用的Agent通信語(yǔ)言主要是KQML(Knowledge Query and Manipulation Language)和FIPA ACL。本系統(tǒng)中各Agent間的通信語(yǔ)言可采用現(xiàn)在被廣泛使用和接受的KQML[15]。該語(yǔ)言既是一種Agent間的消息表達(dá)格式,也是一種消息處理協(xié)議,它規(guī)定了消息格式和消息傳送系統(tǒng),為Multi-Agent系統(tǒng)的通信和協(xié)作提供了一種通用框架。因?yàn)闃?biāo)準(zhǔn)是開(kāi)放的,各種語(yǔ)言可以用來(lái)傳送知識(shí),也可以集成在KQML中。
2.2 Agent通信機(jī)制
在多Agent系統(tǒng)中,通信方法大致可分為黑板系統(tǒng)和消息/對(duì)話(huà)系統(tǒng)。
(1)黑板系統(tǒng)原理
黑板系統(tǒng)是傳統(tǒng)的人工智能系統(tǒng)和專(zhuān)家系統(tǒng)的議事日程的擴(kuò)展,通過(guò)使用合適的結(jié)構(gòu)支持分布式問(wèn)題求解。在多Agent系統(tǒng)中黑板提供公共工作區(qū),Agent可以互相交信息、知識(shí)和數(shù)據(jù)。Agent可以在任何時(shí)刻訪(fǎng)問(wèn)黑板,獲取新的信息。它一般只選取對(duì)當(dāng)前工作需要和預(yù)測(cè)將要需要的信息。在黑板系統(tǒng)中Agent之間不發(fā)生直接通信。每個(gè)Agent獨(dú)立完成所求解的問(wèn)題。黑板可以用在任務(wù)共享和結(jié)果共享系統(tǒng)中。各個(gè)Agent在訪(fǎng)問(wèn)黑板時(shí)要從大量的信息中決定需要的內(nèi)容。其原理如圖2所示。
(2)消息傳送原理
采用消息通信是實(shí)現(xiàn)靈活復(fù)雜的協(xié)同策略的基礎(chǔ)。一個(gè)Agent叫發(fā)送者,傳送特定的消息到另一個(gè)Agent,即接收者。與采用消息通信和黑板系統(tǒng)不同,兩個(gè)Agent之間直接進(jìn)行數(shù)據(jù)交換,一個(gè)Agent直接將特定消息發(fā)送給另外的一個(gè)Agent。為了協(xié)同需要,Agent之間的通信協(xié)議必須定義好通訊過(guò)程、消息格式和通信語(yǔ)言,而且Agent必須明確知道語(yǔ)言的語(yǔ)義。消息的語(yǔ)義內(nèi)容知識(shí)是分布式問(wèn)題求解的核心部分。面向消息的Agent系統(tǒng)的原理如圖3所示。
3.多Agent協(xié)商
在基于Multi-Agent的元搜索引擎系統(tǒng)模型中,要想保證各Agent之間通過(guò)合作交流完成信息檢索,避免產(chǎn)生資源的沖突和死鎖,就需要有共同的協(xié)商機(jī)制來(lái)規(guī)范控制各Agent的行為,使之井然有序地進(jìn)行,保證Agent之間通過(guò)協(xié)商對(duì)某些問(wèn)題達(dá)成一致意見(jiàn)。
先根據(jù)功能及結(jié)構(gòu)的不同,將本系統(tǒng)模型中各Agent劃分為兩大類(lèi):Facilitator-Agent和Crawler-Agent。Facilitator-Agent(簡(jiǎn)稱(chēng)F-Agent)又稱(chēng)為管理Agent,它主要負(fù)責(zé)計(jì)劃的制定、任務(wù)的分配以及Agent之間的通信管理;Crawler-Agent(簡(jiǎn)稱(chēng)C-Agent)又稱(chēng)為任務(wù)Agent,它們執(zhí)行具體爬行的任務(wù),受到F-Agent的管理。本模型中,除了查詢(xún)管理Agent具備F-Agent和C-Agent雙重身份外,其他各Agent都屬于C-Agent。
下面介紹兩種應(yīng)用于搜索引擎中的Agent協(xié)商協(xié)議。
4.性能評(píng)價(jià)
在基于Multi-Agent的元搜索引擎系統(tǒng)中,系統(tǒng)的性能主要受到各Agent的自身能力和成員搜索引擎調(diào)度機(jī)制的影響。對(duì)Agent的自身能力評(píng)價(jià),可通過(guò)其能力值來(lái)直接判定;成員搜索引擎的調(diào)度機(jī)制可通過(guò)其對(duì)應(yīng)的成員Agent的獎(jiǎng)勵(lì)情況進(jìn)行調(diào)整。
4.1 Agent自身能力評(píng)價(jià)
5.結(jié)束語(yǔ)
近幾年,隨著Agent技術(shù)的不斷成熟,MAS在信息檢索中的應(yīng)用研究逐漸成為熱點(diǎn)。利用MAS可以解決元搜索引擎中許多無(wú)法解決或解決不好的問(wèn)題。本文提出一個(gè)適用于元搜索引擎的多Agent組織結(jié)構(gòu),在此基礎(chǔ)上將各Agent按功能不同分為管理Agent和任務(wù)Agent兩大類(lèi),同時(shí)對(duì)Agent的通信、協(xié)商以及能力評(píng)價(jià)都進(jìn)行了詳細(xì)研究。隨著MAS系統(tǒng)方法的不斷改進(jìn),Multi-Agent技術(shù)在元搜索引擎中的應(yīng)用也有了良好的發(fā)展前景。
參考文獻(xiàn)
[1]徐科,黃國(guó)景,崔志明.元搜索引擎中基于用戶(hù)興趣的個(gè)性化調(diào)度模型[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,45(S1): 1915-1919.
[2]董占兵.基于形式概念分析的主題搜索策略研究[D].成都:西華大學(xué),2007:35-62.
[3]Jiang,Y.C.,Jiang,J.C.,A multi-Agent coordination model for the variation of underlying network topology,Expert Systems with Applations,2005(29):,372-382.
[4]Araujo Macedo,R.J.,Assis Silva,F.M.The mobile groups approach for the coordinationofmobileAgents,JournalofParallelandDistributedComputing,2005(65):275-288.
[5]趙文龍,侯義斌.多Agent系統(tǒng)及其組織結(jié)構(gòu)[J].計(jì)算機(jī)應(yīng)用研究,2000(7):12-14.
[6]何炎祥,陳莘萌.Agent和多Agent系統(tǒng)的設(shè)計(jì)與應(yīng)用[M].武漢:武漢大學(xué)出版社,2001.
[7]向丹.專(zhuān)業(yè)搜索引擎中的多Agent協(xié)調(diào)研究[D].成都:西華大學(xué),2007.
[8]Ronald C Arkin,Tucker Balch,Elizabeth munication of behavorial state in multi-agent retrieval tasks[J].Robotics and Automation,2003(3):588-594.
關(guān)鍵詞:搜索引擎;web鏈接;PageRank;HITS
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)24-6748-02
Research and Improvement of the Web-link Algorithms in Search Engine
WANG Mei
(Jiangsu Maritime Institute, Nanjing211170, China)
Abstract: This article researches algorithms of search engine link structure, analyzes HITS PageRank and the algorithms of apparent defect. Improving measures are put forward. Through the test, the test in the search algorithm improves the quality, etc.
Key words: search engine; web-link; PageRank; HITS
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,Web上信息量呈爆炸式增長(zhǎng),網(wǎng)上的資源及其豐富,但同時(shí)也充斥著大量的垃圾信息。 人們依據(jù)搜索引擎中的關(guān)鍵詞進(jìn)行鏈接時(shí),迫切需要從紛繁蕪雜的信息中找到有用知識(shí),因此,通過(guò)有效的鏈接算法判斷網(wǎng)頁(yè)十分重要。
目前Google、百度等的鏈接算法使用PageRank算法和HITS算法。PageRank算法的特點(diǎn)在于對(duì)網(wǎng)頁(yè)進(jìn)行了基于權(quán)威值的排序處理,最重要的網(wǎng)頁(yè)出現(xiàn)在結(jié)果的最前面。HITS算法是在描述網(wǎng)頁(yè)與主題的相關(guān)度時(shí)引入了權(quán)威網(wǎng)頁(yè)(Authority)和中心頁(yè)面(Hub)的概念,反映了權(quán)威網(wǎng)頁(yè)和中心網(wǎng)頁(yè)的相互加強(qiáng)關(guān)系。
1PageRank算法和HITS算法
1.1 PageRank算法
PageRank算法是將鏈接的網(wǎng)頁(yè)基于權(quán)威值按序排列。網(wǎng)頁(yè)的權(quán)威值基于下列考慮:1)一個(gè)網(wǎng)頁(yè)被多次引用,或者雖然沒(méi)有被多次引用,但是被重要的網(wǎng)頁(yè)引用,則它可能是很重要的。這種重要的網(wǎng)頁(yè)稱(chēng)為權(quán)威(Authoritive)網(wǎng)頁(yè)。2)假定用戶(hù)一開(kāi)始隨機(jī)地訪(fǎng)問(wèn)網(wǎng)頁(yè)集合中的一個(gè)網(wǎng)頁(yè),以后跟隨網(wǎng)頁(yè)的向外鏈接向前瀏覽網(wǎng)頁(yè),不回退瀏覽,瀏覽下一個(gè)網(wǎng)頁(yè)的概率就是被瀏覽網(wǎng)頁(yè)的PageRank值。
PageRank算法描述如下:A(u)是網(wǎng)頁(yè)u的網(wǎng)頁(yè)集合,N(v)是網(wǎng)頁(yè)v指向外的鏈接數(shù),v∈A(u),c是一個(gè)用于規(guī)范化的因子(Google通常取0.85),則u的PageRank值R(u)計(jì)算如下:
R(u)=cΣA(u)/N(v)(1)
但是如果有2個(gè)相互指向的網(wǎng)頁(yè)a,b,他們不指向其它任何網(wǎng)頁(yè),另外有某個(gè)網(wǎng)頁(yè)c,指向a,b中的某一個(gè),比如a,那么在計(jì)算中,a,b的PageRank值就無(wú)法分布而不斷地累計(jì)。解決這個(gè)問(wèn)題的辦法可以在算法中引入衰退因子E(u),因此式(1)改進(jìn)如下:
R’(u)= cΣA(u)/N(v)+cE(u)(2)
1.2 HITS算法
HITS的算法主要考慮權(quán)威網(wǎng)頁(yè)(Authority)和中心網(wǎng)頁(yè)(Hub)之間的加強(qiáng)關(guān)系。每個(gè)網(wǎng)頁(yè)都會(huì)有一個(gè)對(duì)應(yīng)的權(quán)威值和中心值,如果某個(gè)網(wǎng)頁(yè)有許多中心值高的網(wǎng)頁(yè)指向它,則它就有高的權(quán)威值;同樣,如果某個(gè)網(wǎng)頁(yè)指向了許多高權(quán)威的網(wǎng)頁(yè),那么它將具有較高的中心值。
它的算法描述為:將查詢(xún)q提交給基于關(guān)鍵字匹配的搜索引擎.搜索引擎返回很多網(wǎng)頁(yè),從中取前n個(gè)網(wǎng)頁(yè)作為根集(root set),用S表示。S滿(mǎn)足如下3個(gè)條件:
1)S中網(wǎng)頁(yè)數(shù)量相對(duì)較小。2)S中網(wǎng)頁(yè)大多數(shù)是與查詢(xún)q相關(guān)的網(wǎng)頁(yè)。3)S中網(wǎng)頁(yè)包含較多的權(quán)威網(wǎng)頁(yè)
通過(guò)向S中加入被S引用的網(wǎng)頁(yè)和引用S的網(wǎng)頁(yè)將S擴(kuò)展成一個(gè)更大的集合T,稱(chēng)為基礎(chǔ)集。以T中的Hub網(wǎng)頁(yè)為頂點(diǎn)集V,以權(quán)威網(wǎng)頁(yè)為頂點(diǎn)集U,V中的網(wǎng)頁(yè)到U中的網(wǎng)頁(yè)的超鏈接為邊集E,形成一個(gè)二分有向圖SG=(V,U,E)。對(duì)V中的任一頂點(diǎn)v,用h(v)表示網(wǎng)頁(yè)v的Hub值;對(duì)U中的頂點(diǎn)u,用a(u)表示網(wǎng)頁(yè)的Authority值。開(kāi)始時(shí)h(v)=a(u)=1,對(duì)u執(zhí)行下列(3)式操作修改它的a(u),對(duì)v執(zhí)行下列式(4)操作修改它的h(v),如此不斷地重復(fù)計(jì)算直到a(u),h(v)收斂。
a(u)=∑h(v) (3)
h(v)=∑a(u) (4)
(3)式反映了若一個(gè)網(wǎng)頁(yè)由很多好的Hub指向,則其權(quán)威值會(huì)相應(yīng)增加(即權(quán)威值增加為所有指向它的網(wǎng)頁(yè)的現(xiàn)有Hub值之和)。式(4)反映了若一個(gè)網(wǎng)頁(yè)指向許多好的權(quán)威頁(yè),則Hub值也會(huì)相應(yīng)增加(即Hub值增加為該網(wǎng)頁(yè)鏈接的所有網(wǎng)頁(yè)的權(quán)威值之和)。
2 算法存在的問(wèn)題和改進(jìn)措施
2.1 PageRank和HITS算法存在的問(wèn)題
PageRank算法只返回包含查詢(xún)項(xiàng)的網(wǎng)頁(yè),然后根據(jù)網(wǎng)頁(yè)的PageRank值對(duì)搜索到的結(jié)果進(jìn)行排序。它把PageRank值最高的網(wǎng)頁(yè)放置到最前面,但是如果最重要的網(wǎng)頁(yè)不在結(jié)果網(wǎng)頁(yè)集中,PageRank算法就無(wú)能為力了;另外,用戶(hù)在網(wǎng)頁(yè)瀏覽時(shí),回退瀏覽較多。
同樣,HITS算法也存在問(wèn)題,比如:1)有些網(wǎng)頁(yè)在制作時(shí),加入了一些與查詢(xún)主題無(wú)關(guān)的鏈接;比如商業(yè)廣告,贊助商和用于友情交換的鏈接,這些都降低了HITS算法的精度。2)有時(shí),主機(jī)A上的很多文檔可能指向另外一臺(tái)主機(jī)B上的某個(gè)文檔,這就增加了A上文檔的Hub值和B上文檔的Authority,相反的情況也如此。3)HITS算法最大的弱點(diǎn)是處理不好主題漂移問(wèn)題(topic drift),也就是緊密鏈接TKC(Tightly-Knit Community Effect)現(xiàn)象。如果在集合T中有少數(shù)與查詢(xún)主題無(wú)關(guān)的網(wǎng)頁(yè),但是他們是緊密鏈接的,HITS算法的結(jié)果可能就是這些網(wǎng)頁(yè),偏離了原來(lái)的查詢(xún)主題。4)用HITS進(jìn)行窄主題查詢(xún)時(shí),可能產(chǎn)生主題泛化問(wèn)題,即擴(kuò)展以后引入了比原來(lái)主題更重要的新的主題,新的主題可能與原始查詢(xún)無(wú)關(guān)。
2.2 改進(jìn)PageRank算法
去除PageRank算法需要的前提2,增加考慮了用戶(hù)從一個(gè)網(wǎng)頁(yè)直接跳轉(zhuǎn)到非直接相鄰的但是內(nèi)容相關(guān)的另外一個(gè)網(wǎng)頁(yè)的情況。
2.3 改進(jìn)HITS算法
1) 改進(jìn)HITS算法中的第Ⅰ問(wèn)題:
提取根集S中的每個(gè)文檔的前若干量的詞語(yǔ),串連起來(lái)作為查詢(xún)主題T,計(jì)算每個(gè)文檔的主題相似度,根據(jù)不同的閾值進(jìn)行刷選,閾值可以選擇所有文檔相似度的中值、根集文檔相似度的中值或最大文檔相似度。根據(jù)不同閾值進(jìn)行處理,刪除不滿(mǎn)足條件的文檔。
2) 改進(jìn)HITS算法中的第Ⅱ問(wèn)題:
假定主機(jī)A上有k個(gè)網(wǎng)頁(yè)指向主機(jī)B上的某個(gè)文檔d,則A上的k個(gè)文檔對(duì)B的Authority貢獻(xiàn)值總共為1,每個(gè)文檔貢獻(xiàn)1/k,而不是HITS中的每個(gè)文檔貢獻(xiàn)1,總共貢獻(xiàn)k。類(lèi)似的,對(duì)于Hub值,假定主機(jī)A上某個(gè)文檔t指向主機(jī)B上的m個(gè)文檔,則B上m個(gè)文檔對(duì)t的Hub值總共貢獻(xiàn)1,每個(gè)文檔貢獻(xiàn)1/m。
3) 改進(jìn)HITS算法中的第Ⅲ問(wèn)題(TKC問(wèn)題)
得到根集并且擴(kuò)展為網(wǎng)頁(yè)集合T,除去孤立節(jié)點(diǎn);
從集合T構(gòu)造無(wú)向圖G’=(Vh,Ua,E)
Vh = { Sh | S∈T and out-degree(S) > 0 } ( G’的Hub邊). (5)
Ua = { Sa | S∈T and in-degree(S) > 0 } (G’的Authority邊).(6)
E= { (Sh , Sa)}
這就定義了2條馬爾可夫鏈鏈,Authority鏈和Hub鏈。
以上改進(jìn)算法并非完美算法,仍然有改進(jìn)的空間,如計(jì)算網(wǎng)頁(yè)的Authority值時(shí),只考慮網(wǎng)頁(yè)在直接相鄰網(wǎng)頁(yè)集中的受歡迎程度,忽略其它網(wǎng)頁(yè)對(duì)它的影響等等。
3 驗(yàn)證與結(jié)果
自行開(kāi)發(fā)搜索引擎系統(tǒng),對(duì)以上HITS算法和改進(jìn)算法進(jìn)行測(cè)試。
3.1 測(cè)試數(shù)據(jù)
使用搜索引擎中的網(wǎng)絡(luò)爬蟲(chóng)程序抓取網(wǎng)頁(yè),收集近百個(gè)網(wǎng)站20多萬(wàn)網(wǎng)頁(yè)。對(duì)這些網(wǎng)頁(yè)進(jìn)行分析處理,并加以保存。
先為這些信息按HITS算法建立索引,保存在索引文件夾中。通過(guò)這些索引構(gòu)建搜索器,將該索引映射到內(nèi)存中,對(duì)提交的查詢(xún)關(guān)鍵字進(jìn)行快速檢索。再對(duì)網(wǎng)頁(yè)信息按改進(jìn)的算法優(yōu)化索引,并保存在新的索引文件夾中。
3.2 測(cè)試結(jié)果
1)生成基礎(chǔ)集的質(zhì)量方面
表2為改進(jìn)算法與HITS算法生成基礎(chǔ)集質(zhì)量比較。
2)搜索質(zhì)量
用不同算法,搜索上述關(guān)鍵詞的前20名鏈接網(wǎng)頁(yè)加以排序,判斷這些網(wǎng)頁(yè)是否符合關(guān)鍵詞。
表3為改進(jìn)算法和HITS算法搜索質(zhì)量比較。
3)測(cè)試結(jié)論:用改進(jìn)算法進(jìn)行鏈接搜索,其結(jié)果較HITS算法更令人滿(mǎn)意。
4 結(jié)束語(yǔ)
本文就當(dāng)前搜索引擎的鏈接問(wèn)題分析了2種算法,同時(shí)對(duì)這2種算法的缺陷提出了改進(jìn)的措施,使搜索引擎的主題鏈接在性能上有很大提高。
當(dāng)然,關(guān)于搜索引擎的鏈接結(jié)構(gòu),可探討的問(wèn)題還有許多,可總結(jié)的算法也有很多,以上2種算法還有未及之處,比如沒(méi)有有效的方法準(zhǔn)確判定鏈接是否包含重要的信息、查詢(xún)的分類(lèi)沒(méi)有明確界限等等。如果算法要取得更好的效果,還需要繼續(xù)做深入的研究。
參考文獻(xiàn):
關(guān)鍵詞:上市公司;門(mén)戶(hù)網(wǎng)站;搜索引擎優(yōu)化
中圖分類(lèi)號(hào):F27
文獻(xiàn)標(biāo)識(shí)碼:A
1引言
搜索引擎作為用戶(hù)與網(wǎng)絡(luò)的主要接口,是用戶(hù)搜索網(wǎng)絡(luò)信息最常用的工具,在連接用戶(hù)與企業(yè)上扮演著關(guān)鍵角色。搜索引擎優(yōu)化依托于搜索引擎而出現(xiàn),是一種針對(duì)搜索引擎的檢索特點(diǎn)、排序規(guī)律,對(duì)網(wǎng)頁(yè)進(jìn)行科學(xué)調(diào)整的優(yōu)化方法。上市公司門(mén)戶(hù)網(wǎng)站是用戶(hù)獲取產(chǎn)品信息的重要途徑,其通過(guò)搜索引擎優(yōu)化可以使網(wǎng)站更易被搜索引擎檢索收錄,提高網(wǎng)站在搜索引擎內(nèi)的排名,進(jìn)而吸引目標(biāo)用戶(hù),提高網(wǎng)站流量。
現(xiàn)有研究中,焦麗和路波基于自身經(jīng)驗(yàn)對(duì)搜索引擎優(yōu)化策略進(jìn)行了分析。唐衛(wèi)東和劉存后結(jié)合某網(wǎng)站的優(yōu)化實(shí)例,提出基于關(guān)鍵詞效能的搜索引擎優(yōu)化策略。范哲重點(diǎn)分析了國(guó)內(nèi)12家優(yōu)秀企業(yè)門(mén)戶(hù)網(wǎng)站的外部鏈接優(yōu)化情況。蔣雪瑛和徐福緣則以?xún)蓚€(gè)農(nóng)村創(chuàng)業(yè)型網(wǎng)站為例研究了國(guó)內(nèi)小型創(chuàng)業(yè)網(wǎng)站的搜索引擎優(yōu)化策略。
上述研究雖然從不同的角度探討了公司網(wǎng)站的搜索引擎優(yōu)化情況,但缺乏對(duì)上市公司門(mén)戶(hù)網(wǎng)站搜索引擎優(yōu)化實(shí)施情況的分析,且相關(guān)結(jié)論也缺乏大樣本數(shù)據(jù)的支持。
區(qū)別現(xiàn)有研究,本文調(diào)查82家汽車(chē)制造業(yè)上市公司的門(mén)戶(hù)網(wǎng)站,從標(biāo)題、關(guān)鍵詞、描述、網(wǎng)頁(yè)大小及反鏈接設(shè)置等方面對(duì)網(wǎng)站的搜索引擎優(yōu)化運(yùn)用情況進(jìn)行分析,最后提出上市公司門(mén)戶(hù)網(wǎng)站的搜索引擎優(yōu)化建議。
2研究設(shè)計(jì)
搜索引擎優(yōu)化是一種提升網(wǎng)頁(yè)在搜索引擎自然搜索結(jié)果中的排序位置的優(yōu)化方法。具體的搜索引擎優(yōu)化技術(shù)包括標(biāo)題優(yōu)化、關(guān)鍵詞優(yōu)化、描述優(yōu)化、網(wǎng)頁(yè)優(yōu)化、鏈接優(yōu)化、錯(cuò)誤頁(yè)面優(yōu)化和網(wǎng)站結(jié)構(gòu)優(yōu)化等多個(gè)方面。
由于上市公司門(mén)戶(hù)網(wǎng)站的搜索引擎優(yōu)化涉及面廣,部分?jǐn)?shù)據(jù)難以獲取,本文主要分析標(biāo)題、關(guān)鍵詞、描述、網(wǎng)頁(yè)大小和鏈接優(yōu)化,以及百度收錄和百度權(quán)重兩種優(yōu)化效果表現(xiàn)。由于優(yōu)化數(shù)據(jù)會(huì)隨著時(shí)間變化而改變,本文數(shù)據(jù)均在2017年2月27日,通過(guò)站長(zhǎng)工具網(wǎng)站(http:///)收集。具體數(shù)據(jù)收集過(guò)程如下。
第一,上市公司名單獲取。通過(guò)中國(guó)證券監(jiān)督管理委員會(huì)網(wǎng)站(http:///pub/newsite/scb/ssgshyfljg/)獲得2016年4季度上市公司行業(yè)分類(lèi)結(jié)果,并從中選擇汽車(chē)制造業(yè)上市公司名單,共93家。本文選擇汽車(chē)制造業(yè)的原因在于:隨著經(jīng)濟(jì)生活水平的提高,用戶(hù)對(duì)汽車(chē)的需求逐漸增多,上網(wǎng)獲取汽車(chē)信息的需求也逐漸增加,用戶(hù)與汽車(chē)公司門(mén)戶(hù)網(wǎng)站的接觸也越來(lái)越多。
第二,網(wǎng)址獲取?;?3家上市公司名單,通過(guò)百度搜索獲得公司門(mén)戶(hù)網(wǎng)站網(wǎng)址。
第三,數(shù)據(jù)收集。打開(kāi)站長(zhǎng)工具網(wǎng)站,逐一對(duì)93個(gè)網(wǎng)址進(jìn)行SEO綜合查詢(xún),記錄相關(guān)的搜索引擎優(yōu)化數(shù)據(jù)。
第四,數(shù)據(jù)整理。對(duì)收集到的93組數(shù)據(jù)進(jìn)行整理,刪除有重要變量數(shù)據(jù)缺失的公司數(shù)據(jù),最終獲得82組數(shù)據(jù)。
3調(diào)查結(jié)果
通過(guò)對(duì)82組上市公司門(mén)戶(hù)網(wǎng)站的相關(guān)數(shù)據(jù)進(jìn)行整理,其具體的搜索引擎優(yōu)化實(shí)施情r如表1所示。
3.1標(biāo)題優(yōu)化
標(biāo)題是搜索結(jié)果的重要組成部分,是網(wǎng)頁(yè)留給用戶(hù)的第一印象,可以提示網(wǎng)頁(yè)最主要的內(nèi)容。調(diào)查顯示82家公司均設(shè)置標(biāo)題,且超過(guò)半數(shù)的公司網(wǎng)站標(biāo)題的設(shè)置與公司名稱(chēng)有關(guān)。而其他的標(biāo)題形式也多為公司名稱(chēng)與經(jīng)營(yíng)產(chǎn)品的組合,只有極少數(shù)的標(biāo)題僅用“首頁(yè)”等字樣。
3.2關(guān)鍵詞優(yōu)化
關(guān)鍵詞優(yōu)化是搜索引擎優(yōu)化的核心內(nèi)容。選擇合適的關(guān)鍵詞有利于搜索引擎檢索到公司網(wǎng)站,也有利于公司更為準(zhǔn)確的傳遞其產(chǎn)品信息。調(diào)查顯示82家公司中有60家設(shè)置了關(guān)鍵詞,且多以公司名稱(chēng)和經(jīng)營(yíng)產(chǎn)品為關(guān)鍵詞形式。
3.3描述優(yōu)化
描述也是搜索結(jié)果的重要組成部分,是對(duì)網(wǎng)頁(yè)主要內(nèi)容的簡(jiǎn)要解釋。調(diào)查顯示82家公司中61家設(shè)置有描述標(biāo)簽,占74.39%。特別的,描述標(biāo)簽的長(zhǎng)度一般不超過(guò)200字符,需要精簡(jiǎn)準(zhǔn)確的描寫(xiě)出網(wǎng)頁(yè)的重要內(nèi)容。設(shè)有描述標(biāo)簽的61家公司中,僅有1家超過(guò)200字符。
3.4網(wǎng)頁(yè)大小優(yōu)化
網(wǎng)頁(yè)大小越大越能提供給搜索引擎和用戶(hù)更多的信息。但過(guò)大的網(wǎng)頁(yè)又不能被搜索引擎完全檢索。因此,網(wǎng)頁(yè)設(shè)置時(shí)需要對(duì)網(wǎng)頁(yè)進(jìn)行適當(dāng)壓縮,以便于搜索引擎的檢索和收錄。調(diào)查顯示82家公司網(wǎng)站中,49家網(wǎng)站有對(duì)網(wǎng)頁(yè)進(jìn)行壓縮,占59.76%。
3.5反鏈接優(yōu)化
反鏈接是指其它網(wǎng)站指向該網(wǎng)站的外部鏈接,又稱(chēng)導(dǎo)入鏈接。反鏈接代表其他網(wǎng)站本網(wǎng)站的信任和支持,反鏈接越多,證明本網(wǎng)站越受其他網(wǎng)站歡迎。網(wǎng)站擁有更多的高質(zhì)量的反鏈接,越容易被搜索引擎檢索,且獲得更高的權(quán)重和收錄。調(diào)查顯示82家公司中72家有反鏈接,占87.8%,但其中46家公司的反鏈接數(shù)量在10條以下。
3.6百度收錄
百度收錄是指網(wǎng)站被百度搜索引擎收錄網(wǎng)頁(yè)的數(shù)量。從表1中可以看出,82家公司網(wǎng)站的收錄數(shù)相差較大。半數(shù)的公司其百度收錄數(shù)處于100到1000之間。
3.7百度權(quán)重
百度權(quán)重是指關(guān)鍵詞排名給網(wǎng)站帶來(lái)的流量,代表網(wǎng)站受歡迎程度,可以劃分為等級(jí)0-10。從表1中可以看出權(quán)重值超過(guò)5的網(wǎng)站只有3家,半數(shù)以上的網(wǎng)站百度權(quán)重在3以下。
4問(wèn)題及建議
4.1問(wèn)題
通過(guò)對(duì)調(diào)查結(jié)果分析發(fā)現(xiàn):
第一,上市公司門(mén)戶(hù)網(wǎng)站主要關(guān)注標(biāo)題的設(shè)置,對(duì)關(guān)鍵詞和描述的設(shè)置有所忽視。且在標(biāo)簽(包括標(biāo)題、關(guān)鍵詞和描述)內(nèi)容的選擇上比較單一,主要圍繞公司名稱(chēng),只有部分考慮到公司的經(jīng)營(yíng)產(chǎn)品等內(nèi)容,但也未考慮到更多的其他內(nèi)容。且還有小半部分公司網(wǎng)站直接忽視了關(guān)鍵詞和描述的優(yōu)化。
第二,在網(wǎng)頁(yè)大小的壓縮上,也存在部分公司未對(duì)網(wǎng)頁(yè)進(jìn)行壓縮,這不利于搜索引擎的檢索,也可能導(dǎo)致用戶(hù)在打開(kāi)網(wǎng)站時(shí),由于網(wǎng)頁(yè)過(guò)大,受到網(wǎng)絡(luò)帶寬的影響。
第三,在反鏈接優(yōu)化上,大多公司雖然都考慮到了對(duì)反鏈接的設(shè)置,但未足夠重視。這還可能是公司網(wǎng)站未加強(qiáng)推廣,以至于公司網(wǎng)站缺乏知名度,不能吸引來(lái)自外部的鏈接。
此外,從百度收錄和百度權(quán)重的統(tǒng)計(jì)來(lái)看,網(wǎng)站的百度收錄數(shù)偏低,百度權(quán)重值也不高。這也間接反映了上市公司門(mén)戶(hù)網(wǎng)站在搜索引擎優(yōu)化上的實(shí)施還不到位。
4.2建議
首先,要重視標(biāo)簽的設(shè)置。標(biāo)題以公司名稱(chēng)的形式是合理的,但可以進(jìn)一步優(yōu)化。標(biāo)題在搜索引擎結(jié)果頁(yè)面中暴露程度最大,最易吸引用戶(hù)注意。因此,標(biāo)題要精確的總結(jié)頁(yè)面的中心內(nèi)容,還要簡(jiǎn)潔、醒目。在關(guān)鍵詞優(yōu)化上,公司不僅要重視對(duì)關(guān)鍵詞內(nèi)容的選擇,還要注意對(duì)關(guān)鍵詞的管理,控制關(guān)鍵詞的數(shù)量和出現(xiàn)的次數(shù)等,避免造成關(guān)鍵詞堆砌。此外,關(guān)鍵詞反映了公司網(wǎng)站的定位,所以隨著公司網(wǎng)站定位的變化,以及響應(yīng)競(jìng)爭(zhēng)者的競(jìng)爭(zhēng)活動(dòng)等,關(guān)鍵詞的選擇應(yīng)該是變化的。
其次,要控制網(wǎng)頁(yè)大小。網(wǎng)頁(yè)越大,呈現(xiàn)給搜索引擎和用戶(hù)的信息可能更多,但需要花費(fèi)更多的時(shí)間去檢索和等待。因此,公司網(wǎng)站要合理的壓縮網(wǎng)頁(yè)大小。此外,公司網(wǎng)站還可以通過(guò)調(diào)整網(wǎng)站的內(nèi)容和結(jié)構(gòu)安排來(lái)為網(wǎng)頁(yè)“減負(fù)”。
最后,要加強(qiáng)反鏈接的設(shè)置。反鏈接可以增加網(wǎng)站被檢索的可能,好的反鏈接還會(huì)增加網(wǎng)站在搜索引擎中的排名。因此,公司網(wǎng)站不僅要主動(dòng)的去接觸其他的與本公司有關(guān)的高質(zhì)量的網(wǎng)站,與其建立鏈接,還要加強(qiáng)對(duì)自身內(nèi)容的管理,使其更加豐富和權(quán)威,增加網(wǎng)站的價(jià)值,吸引其他網(wǎng)站來(lái)主動(dòng)鏈接。最后,公司還要時(shí)常關(guān)注鏈接的有效性,避免出現(xiàn)錯(cuò)誤鏈接和失效鏈接。
5總結(jié)
本文以82家汽車(chē)制造業(yè)上市公司門(mén)戶(hù)網(wǎng)站為樣本,調(diào)查分析了相關(guān)網(wǎng)站的搜索引擎優(yōu)化實(shí)施情r。調(diào)查發(fā)現(xiàn)相關(guān)網(wǎng)站對(duì)搜索引擎優(yōu)化還不夠重視,在標(biāo)簽設(shè)置,網(wǎng)頁(yè)壓縮和引入反鏈接上都需要進(jìn)一步的加強(qiáng)。為了提高上市公司門(mén)戶(hù)網(wǎng)站在搜索引擎中的收錄和排名,吸引更多的用戶(hù),創(chuàng)造更好的收益,上市公司門(mén)戶(hù)網(wǎng)站應(yīng)重視對(duì)搜索引擎優(yōu)化的實(shí)施和管理。
參考文獻(xiàn)
[1]Egri G,Bayrak C.The Role of Search Engine Optimization on Keeping the User on the Site[J].Procedia Computer Science,2014,(36):335342.
[2]李憶,袁志會(huì),袁梓翔.搜索引擎優(yōu)化技術(shù)對(duì)網(wǎng)站友好性影響的實(shí)證研究[J].情報(bào)雜志,2014,(09):173180.
[3]焦麗,路波.搜索引擎優(yōu)化策略研究[J].生產(chǎn)力研究,2010,(07):118119.
[4]唐衛(wèi)東,劉存后.基于關(guān)鍵詞效能的搜索引擎優(yōu)化策略分析[J].現(xiàn)代情報(bào),2011,(10):3641.
[5]范哲.國(guó)內(nèi)優(yōu)秀企業(yè)門(mén)戶(hù)網(wǎng)站外部鏈接的分析與思考[J].情報(bào)雜志,2009,(09):146151.
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)