文獻(xiàn)主題_商業(yè)主題搜索引擎研究
本文關(guān)鍵詞:主題搜索引擎研究,由筆耕文化傳播整理發(fā)布。
商業(yè)主題搜索引擎研究
2010年02月09日10:12 中國(guó)電子商務(wù)研究中心 我要投稿 產(chǎn)品服務(wù)
一、引言
互聯(lián)網(wǎng)對(duì)商業(yè)發(fā)展產(chǎn)生了巨大的推動(dòng)作用,我國(guó)商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬(wàn)家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長(zhǎng),“信息過(guò)載”、“信息超載”現(xiàn)象引起了人們的重視。如何高效、準(zhǔn)確的獲得包含用戶所需的信息的網(wǎng)頁(yè),日益成為需要迫切解決的問(wèn)題。
垂直搜索引擎是解決這一問(wèn)題的一個(gè)有效方法。面向商業(yè)的中文專題垂直搜索引擎有針對(duì)性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)人員高效檢索所需的信息。而隨著萬(wàn)維網(wǎng)上的信息數(shù)量呈指數(shù)增長(zhǎng),大量信息垃圾也混雜其中。如何向商業(yè)用戶提供質(zhì)量好且數(shù)量適當(dāng)?shù)臋z索結(jié)果成為垂直搜索引擎關(guān)注的方向之一。
二、國(guó)內(nèi)外現(xiàn)狀與發(fā)展趨勢(shì)
垂直搜索引擎大都處于研究和試驗(yàn)階段,利用其搜索的結(jié)果再加上專業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直門戶網(wǎng)站也已經(jīng)出現(xiàn)。目前在國(guó)外,對(duì)有關(guān)主題搜索引擎的研究已經(jīng)成為一大熱點(diǎn),我國(guó)主題搜索引擎的研究則剛剛起步。
目前面向主題的網(wǎng)絡(luò)搜索主要有兩種技術(shù):
一是基于內(nèi)容的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術(shù)的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個(gè)針對(duì)主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設(shè)的詞表對(duì)網(wǎng)上的信息進(jìn)行索引。各個(gè)不同的系統(tǒng)詞表建設(shè)的復(fù)雜度也大不相同。
二是基于鏈接分析的搜索。網(wǎng)頁(yè)之間的鏈接指引關(guān)系與傳統(tǒng)的引文索引非常相似,通過(guò)對(duì)鏈接進(jìn)行分析,可以找出各個(gè)網(wǎng)頁(yè)之間的引用關(guān)系。由于引用網(wǎng)頁(yè)與被引用網(wǎng)頁(yè)之間內(nèi)容上一般都比較相關(guān),所以就可以很容易地按照引用關(guān)系對(duì)大量網(wǎng)頁(yè)分類。
三、技術(shù)關(guān)鍵
基于面向商業(yè)的垂直搜索引擎服務(wù)具有其自身的特性,下面列舉出實(shí)現(xiàn)商業(yè)信息垂直搜索引擎的四大關(guān)鍵技術(shù)。
1.針對(duì)性、實(shí)時(shí)性和易于管理的網(wǎng)頁(yè)采集技術(shù):面向商業(yè)的垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標(biāo),所以只對(duì)局部來(lái)源的網(wǎng)頁(yè)進(jìn)行采集,采集的網(wǎng)頁(yè)數(shù)量適中,但其要求采集的網(wǎng)頁(yè)全面,必須達(dá)到更深的層級(jí),采集動(dòng)態(tài)網(wǎng)頁(yè)的優(yōu)先級(jí)也相對(duì)較高。在實(shí)際應(yīng)用中,垂直搜索的網(wǎng)頁(yè)采集技術(shù)應(yīng)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動(dòng)態(tài)網(wǎng)頁(yè)采集,即采集技術(shù)要能達(dá)到更加針對(duì)性、實(shí)時(shí)性和易于管理,并且網(wǎng)頁(yè)信息更新周期也更短,獲取信息更及時(shí)。
2.結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁(yè)解析技術(shù):由于面向商業(yè)的垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時(shí)間、來(lái)源、作者及其他元數(shù)據(jù)解析,包括對(duì)網(wǎng)頁(yè)中特定內(nèi)容的提取。在商業(yè)垂直搜索服務(wù)中,要求對(duì)于作者、主題、地區(qū)、機(jī)構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語(yǔ)進(jìn)行提取,才能進(jìn)一步提供更有價(jià)值的搜索服務(wù)。
3.全文索引和聯(lián)合檢索技術(shù):面向商業(yè)的垂直搜索由于在信息的專業(yè)性和使用價(jià)值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式。另外,還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類進(jìn)行組合檢索等。
4.智能化的文本挖掘技術(shù):面向商業(yè)的垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位;诮Y(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價(jià)值的服務(wù)。整個(gè)結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁(yè)解析到網(wǎng)頁(yè)加工處理的過(guò)程。同時(shí)面對(duì)上述要求,垂直搜索還能夠按需提供智能化處理功能,,比如自動(dòng)分類、自動(dòng)聚類、自動(dòng)標(biāo)引、自動(dòng)重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)。
四、設(shè)計(jì)方案
1.技術(shù)路線。采用如下的研究開(kāi)發(fā)路線:
(1)針對(duì)商業(yè)信息的分布特點(diǎn)以及用戶的實(shí)際需求,在充分調(diào)研的基礎(chǔ)上,詳細(xì)了解和比較其他研究人員在類似領(lǐng)域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎(chǔ)上初步提出平臺(tái)的整體架構(gòu)。
(2)結(jié)合面向?qū)ο笤O(shè)計(jì)技術(shù),對(duì)上一步設(shè)計(jì)出的平臺(tái)進(jìn)一步細(xì)化,從而明確對(duì)該項(xiàng)目所采用的具體設(shè)計(jì)模式。
(3)根據(jù)設(shè)計(jì)模式所面臨的具體問(wèn)題(例如,如何提高爬行速度問(wèn)題、系統(tǒng)資源限制問(wèn)題、網(wǎng)頁(yè)分類器問(wèn)題、HTML文檔解析問(wèn)題等)給出有效的解決方案。
(4)將以上的方案付諸實(shí)施,形成一個(gè)面向商業(yè)的信息查詢與共享平臺(tái);同時(shí)對(duì)系統(tǒng)的各種參數(shù)進(jìn)行進(jìn)一步測(cè)試,不斷地完善和優(yōu)化,最終形成一個(gè)界面友好、響應(yīng)速度/查全率/查準(zhǔn)率均符合用戶要求的面向商業(yè)的垂直搜索引擎。
2.創(chuàng)新點(diǎn)。為達(dá)到商業(yè)信息搜索引擎預(yù)期的響應(yīng)速度、查全率和查準(zhǔn)率,在系統(tǒng)的開(kāi)發(fā)中有如下創(chuàng)新點(diǎn):
(1)系統(tǒng)總體為模塊化結(jié)構(gòu),各個(gè)模塊之間高內(nèi)聚,低耦合。
(2)系統(tǒng)使用面向?qū)ο笳Z(yǔ)言開(kāi)發(fā),能夠有效地重用系統(tǒng)部分代碼。
(3)在設(shè)計(jì)過(guò)程中,使用面向?qū)ο蟮乃枷胱鲋笇?dǎo),建立系統(tǒng)類圖,便于開(kāi)發(fā)人員之間的交流。在編碼過(guò)程中,不斷重構(gòu)代碼,使得代碼具有很高的運(yùn)行效率,大大提高其重用性。
(4)系統(tǒng)集成時(shí),使用XML文檔作為模塊間傳遞信息的工具。
(5)大量采用散列表來(lái)提高數(shù)據(jù)的查找速度,優(yōu)化系統(tǒng)性能。
目前,對(duì)于搜索引擎的首要關(guān)注點(diǎn)已經(jīng)從如何找到更多的信息轉(zhuǎn)移到如何找到準(zhǔn)確、有用的信息,查準(zhǔn)率已經(jīng)成為眾多搜索引擎的首要目標(biāo)。垂直搜索引擎從商業(yè)專題出發(fā),有針對(duì)性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)用戶高效檢索所需的信息。這項(xiàng)研究可以方便商業(yè)用戶更有效的挖掘網(wǎng)上信息資源,提高信息查詢效率。從商業(yè)搜索引擎入手,這種以點(diǎn)帶面的新構(gòu)想必將使商業(yè)用戶上網(wǎng)獲得所需專題信息,并且對(duì)搜索引擎的發(fā)展產(chǎn)生不可低估的影響。(編選:中國(guó)搜索研究中心)
【獨(dú)家專題】【查看評(píng)論】【】【】【我要糾錯(cuò)】
「關(guān)鍵字」
會(huì)議報(bào)道
B2B研究
B2C研究
版權(quán)聲明
(1)凡本中心注明“來(lái)源:中國(guó)電子商務(wù)研究中心”或帶有中國(guó)電子商務(wù)研究中心水印LOGO的所有文字、圖片、音頻、視頻及其他任何形式的作品 ,其版權(quán)均屬中國(guó)電子商務(wù)研究中心所有,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本中心協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)布/發(fā)表。已與本中心協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時(shí)必須注明“稿件來(lái)源:中國(guó)電子商務(wù)研究中心”,違者本中心將依法追究責(zé)任。
(2)轉(zhuǎn)載或引用本中心內(nèi)容必須是以新聞性或資料性公共免費(fèi)信息為使用目的的合理、善意引用,不得對(duì)本中心內(nèi)容原意進(jìn)行曲解、修改,同時(shí)必須保留本中心注明的“稿件來(lái)源”,并自負(fù)版權(quán)等法律責(zé)任。
(3)對(duì)于不當(dāng)轉(zhuǎn)載或引用本中心內(nèi)容而引起的民事紛爭(zhēng)、行政處理或其他損失,本中心不承擔(dān)責(zé)任。
(4)凡本中心注明“來(lái)源:xxx(非中國(guó)電子商務(wù)研究中心)”的文/圖等稿件,均轉(zhuǎn)載自其它媒體、網(wǎng)站與機(jī)構(gòu),其轉(zhuǎn)載目的在于傳遞更多信息,并不代表本中心贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容,如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)下載使用,必須保留本網(wǎng)注明的“稿件來(lái)源”,并自負(fù)版權(quán)等法律責(zé)任。
(5)關(guān)于本中心發(fā)布的用戶投訴稿件,信息均由用戶通過(guò)本中心投訴通道提供,本中心不對(duì)其真實(shí)性負(fù)責(zé),若內(nèi)容真實(shí)性有誤,請(qǐng)與本中心聯(lián)系,本中心將在核實(shí)后進(jìn)行處理。
(6)對(duì)不遵守本聲明或其他違法、惡意使用本中心內(nèi)容者,本中心保留追究其法律責(zé)任的權(quán)利。
(7)如因作品內(nèi)容、版權(quán)和其它問(wèn)題需要同本中心聯(lián)系的請(qǐng)發(fā)送相關(guān)內(nèi)容至郵箱:news@netsun.com)
此版權(quán)聲明解釋權(quán)歸中國(guó)電子商務(wù)研究中心所有。
本文關(guān)鍵詞:主題搜索引擎研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):141951
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/141951.html