垂直搜索引擎相關(guān)技術(shù)及其系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),搜索引擎論文
本文關(guān)鍵詞:面向高校信息的垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
紹興圖書館數(shù)字化工程經(jīng)過 10 余年的建設(shè),目前已擁有較為完善的軟、硬件設(shè)施,積累了一定規(guī)模的數(shù)字資源,在特色數(shù)據(jù)庫建設(shè)以及公共圖書館數(shù)字資源整合門戶建設(shè)方面已具雛形,,相繼開通了多項(xiàng)數(shù)字化服務(wù)項(xiàng)目. 2011 年紹興圖書館數(shù)字資源訪問、下載量突破了 80 萬篇( 冊) 次. 但同時,紹興圖書館這些數(shù)字資源本身是零散的、孤立的,不利于讀者的利用,而且紹興地區(qū)各個圖書館之間資源因缺少有效的整合統(tǒng)籌途徑,各自獨(dú)立為營,資源重復(fù)建設(shè)的情況比較突出. 因此,實(shí)現(xiàn)具有實(shí)用性、整合性、統(tǒng)一認(rèn)證、可擴(kuò)展、可配置的數(shù)字資源門戶( 共享) 平臺,從而為讀者提供統(tǒng)一服務(wù)入口,從各類資源與應(yīng)用中獲取個性化信息是很有必要的. 提高數(shù)字圖書館的查準(zhǔn)率、查全率是實(shí)現(xiàn)智能化知識服務(wù)的基礎(chǔ). 在圖書檢索中,用戶的查詢請求一般用一個或幾個關(guān)鍵詞來表示,而這往往很難忠實(shí)表達(dá)用戶的檢索請求,導(dǎo)致用戶真正需要的文檔因關(guān)鍵詞的選擇不當(dāng)而無法檢索出來. 通用搜索引擎采集信息的速度跟不上網(wǎng)絡(luò)資源的增長速度,檢索詞的命中率不到 75%. 紹興市圖書館數(shù)字圖書館于 2012 年建成,為紹興市圖書館量身定制一個垂直搜索引擎,提供個性化知識服務(wù),對其數(shù)字圖書館建設(shè)是有意義和必要的.
1 國內(nèi)外研究現(xiàn)狀
目前,國內(nèi)基于垂直搜索引擎方面的研究大都集中在原理、算法等方面. 鄒嵩等通過研究最大長度匹配算法,提出了改進(jìn)后的最大長度匹配算法以提高檢索效率. 夏斌等以用戶對農(nóng)業(yè)信息搜索需求為研究背景,采用向量空間模型對農(nóng)業(yè)主題進(jìn)行識別,并采用網(wǎng)頁內(nèi)容和鏈接分析相結(jié)合的方法,設(shè)計(jì)實(shí)現(xiàn)了一個中文農(nóng)業(yè)信息垂直搜索引擎. 汲業(yè)等根據(jù)生活服務(wù)領(lǐng)域網(wǎng)頁信息的特點(diǎn),提出了一種面向生活服務(wù)領(lǐng)域的垂直搜索引擎模型,給出了該模型在信息采集、信息抽取、索引建立和信息檢索等 4 個功能模塊的具體算法及實(shí)現(xiàn)方式. 劉博卿從軍事工程兵的角度出發(fā),對垂直搜索引擎進(jìn)行系統(tǒng)研究,研究表明垂直搜索引擎具有很強(qiáng)的針對性、智能性和實(shí)時性.而基于用戶行為分析方面的研究,國內(nèi)主要集中在算法研究階段. 王微微等針對現(xiàn)有的用戶模型不能及時根據(jù)用戶自身興趣偏移進(jìn)行更新的問題,提出了一種基于用戶行為反饋的興趣度模型更新算法,實(shí)現(xiàn)用戶興趣的自動更新,得到針對新用戶興趣的推薦商品列表以及推薦商品的個性化排序,從而向用戶進(jìn)行個性化推薦. 于升峰等從全面分析用戶上網(wǎng)行為入手,構(gòu)建網(wǎng)絡(luò)行為數(shù)據(jù)庫,采取區(qū)別不同用戶的個性化主動 RSS 推送服務(wù)方式,提出了一種基于用戶行為數(shù)據(jù)庫的主動式知識服務(wù)模式. 王存睿等結(jié)合用戶行為時間序列和操作頻次,融合 FP - GROWTH 算法設(shè)計(jì)了用戶特征挖掘算法,建立網(wǎng)絡(luò)形式的用戶行為特征表達(dá)方法,并設(shè)計(jì)了相應(yīng)的用戶行為采集系統(tǒng). 張宇紅介紹地方文獻(xiàn)作為特色館藏進(jìn)行主題標(biāo)引的案例,其目的在于資源的共建共享.
2 垂直搜索引擎相關(guān)技術(shù)
2. 1 知識組織系統(tǒng)
知識組織系統(tǒng)( Knowledge Organization Systems,KOS) ,是隨著數(shù)字信息組織技術(shù)及人們對信息組織需求的發(fā)展,由信息組織向知識組織變革而產(chǎn)生的各種語義工具的統(tǒng)稱. 知識組織系統(tǒng)的類型最早期是分類法,其后出現(xiàn)了敘詞表、概念地圖、語義網(wǎng)絡(luò)以及本體等. 利用知識組織方式對圖書等資源進(jìn)行重新標(biāo)引,能夠揭示其語義特征從而支持相關(guān)推理. 利用領(lǐng)域知識對資源進(jìn)行二次加工和整合,能夠賦予資源專業(yè)化、語義化特征,因而克服了通用搜索引擎基于關(guān)鍵詞匹配查全率不足的問題.特色數(shù)據(jù)庫正是利用知識組織系統(tǒng)進(jìn)行再加工而形成的能夠滿足用戶個性化需求的文獻(xiàn)資源庫,它依托圖書館館藏文獻(xiàn)資源,針對特定讀者的信息需求,對某一學(xué)科領(lǐng)域或某一專題中有利用和收藏價值的文獻(xiàn)信息進(jìn)行收集、整理、分析、評價、處理、存儲等,并按照某一標(biāo)準(zhǔn)數(shù)據(jù)格式和規(guī)范將其數(shù)字化.
2. 2 垂直搜索引擎
垂直搜索引擎又稱專業(yè)或主題搜索引擎,是專門針對普通搜索引擎查詢的信息量大而且查詢不準(zhǔn)確、深度不夠等特點(diǎn)提出的新查詢服務(wù)工具. 垂直搜索引擎具有濃郁的行業(yè)和領(lǐng)域特色,是專為檢索某一學(xué)科或主題的信息而產(chǎn)生的查詢工具,專門收錄某一方面、某一行業(yè)或某一主題的信息,對解決實(shí)際查詢問題要比搜索引擎門戶有效得多,其特點(diǎn)就是“專、精、深”. 相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入. 垂直搜索引擎憑借明確的檢索目標(biāo)定位,對網(wǎng)頁進(jìn)行選擇性收集,信息采集量小,更新及時,因而能有效解決通用搜索引擎的弊端. 垂直搜索引擎正在以其日趨精準(zhǔn)化、人性化的信息檢索服務(wù),提升人們對搜索引擎的使用率和認(rèn)同度,助推了搜索引擎的快速發(fā)展.垂直檢索引擎主要由內(nèi)容抓取、建立索引以及檢索系統(tǒng)組成. 內(nèi)容抓取———主要是通過蜘蛛程序從信息源抓取數(shù)據(jù). 內(nèi)容抓取涉及的關(guān)鍵技術(shù)點(diǎn)有爬行路徑分析、增量抓取與全抓取、信息構(gòu)造完整性、信息唯一性識別、多網(wǎng)頁信息整合、自動標(biāo)引等. 建立索引———是指把抓來的信息建立類似書目的數(shù)據(jù)文件,以實(shí)現(xiàn)高速檢索. 檢索系統(tǒng)———就是提供搜索功能的網(wǎng)站,網(wǎng)站的具體表現(xiàn)形式大不相同,但是都提供全文搜索功能. 垂直搜索是對行業(yè)信息進(jìn)行深度的加工,有效的整合. 本文重點(diǎn)研究利用知識組織系統(tǒng),對其圖書檢索內(nèi)容進(jìn)行分析,提供網(wǎng)頁搜索無法做到的專業(yè)性、功能性,為用戶提供深一步的服務(wù)和完整的體驗(yàn).
3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本系統(tǒng)以紹興市圖書館為應(yīng)用環(huán)境,利用知識組織方式對圖書資源進(jìn)行標(biāo)引形成特色數(shù)據(jù)庫,同時通過用戶畫像的建立,實(shí)現(xiàn)用戶個性化垂直搜索服務(wù). 紹興圖書館圖書檢索垂直引擎系統(tǒng)的原理如圖 1 所示,本系統(tǒng)主要由 3 個功能模塊組成: 用戶建模模塊、知識加工模塊以及垂直搜索服務(wù)模塊.
3. 1 用戶建模模塊
用戶建模模塊,是指通用對用戶瀏覽網(wǎng)站等行為和用戶相關(guān)的日志進(jìn)行分析從而形成用戶模板庫等.IP 地址是系統(tǒng)用戶最主要的特征,瀏覽器 Cookie 能夠?qū)⑾嗤?IP 地址下的用戶進(jìn)一步細(xì)分. 紹興圖書館圖書檢索垂直引擎系統(tǒng)正式采用兩者結(jié)合進(jìn)行用戶識別. 用戶的行為可以通過如下方式表示: userInfor =< IP,Cookie,url,rfUrl,pageTitle,stamp,status > . 其中 url 是訪問的網(wǎng)址,rfUrl 是前一個 url,pageTitle 是頁面標(biāo)題,stamp 表示當(dāng)前時間,status 表示狀態(tài). 用戶識別以及行為定義之后,系統(tǒng)可以還原用戶在網(wǎng)站上的瀏覽行為并進(jìn)行跟蹤.紹興圖書館圖書檢索垂直引擎系統(tǒng)通過用戶識別、頁面行為跟蹤,以及建立用戶畫像三個過程實(shí)現(xiàn)用戶行為分析.
3. 2 知識加工模塊
知識加工模塊用于系統(tǒng)對資源進(jìn)行加工,資源的加工精度決定了對外服務(wù)的質(zhì)量,主要包括元數(shù)據(jù)管理以及知識加工等內(nèi)容. 系統(tǒng)各類用戶各負(fù)其責(zé),知識專家和領(lǐng)域?qū)<覍υ獢?shù)據(jù)進(jìn)行管理,知識編輯人員通過知識組織庫對圖書資源進(jìn)行標(biāo)引等知識加工,從而形成特色數(shù)據(jù)庫. 本文中的特色數(shù)據(jù)庫,可以采用順序文件、索引文件、倒排文件等形式來組織. 經(jīng)過知識加工后,能夠揭示隱含的有價值的信息.元數(shù)據(jù)管理包括元數(shù)據(jù)更新以及發(fā)布. 元數(shù)據(jù)存儲在專用的數(shù)據(jù)庫中,分為索引目錄和關(guān)系映射數(shù)據(jù)庫. 索引目錄用于檢索,關(guān)系數(shù)據(jù)庫用于元數(shù)據(jù)與原文的關(guān)聯(lián)記錄. 元數(shù)據(jù)倉儲提供 OAI - DP 服務(wù),供其它應(yīng)用系統(tǒng)調(diào)用,并返回 XML 格式的結(jié)果.在紹興圖書館圖書檢索垂直引擎系統(tǒng)中知識組織庫采用本體來描述. 本體可以使用資源表( t_re-source) 將類和屬性等信息組織起來. 本體中的資源采用 URI 進(jìn)行唯一標(biāo)識,而 URI 是由 namespace 和 lo-calname 組成的. 字段 type 記錄資源的類型: 類、實(shí)例、屬性. 紹興圖書館圖書檢索垂直引擎系統(tǒng)存儲表結(jié)構(gòu)信息如表 1 所示.
圖書檢索服務(wù)主要涉及到的類包括書籍( Book) 、作者( Author) 、出版社( Publisher) 和讀者( Reader) .圖書檢索涉及到的圖書類的主要關(guān)系有 hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes 等,主要包括書籍的中文名稱、語種、行業(yè)、出版時間、字?jǐn)?shù)、價格、作者和借閱次數(shù)等信息. 系統(tǒng)通過關(guān)系的連接,來達(dá)到添加信息語義的目的,例如“中文”與類“圖書名”相關(guān)聯(lián)形成“中文圖書”,“出借次數(shù)”與“行業(yè)”相關(guān)聯(lián)形成“行業(yè)熱門書籍”.實(shí)例的基本信息存儲在單獨(dú)的實(shí)例表 t_ instance 中,實(shí)例存儲的主要字段有 instanceID 和 instance-Name,以及每個實(shí)例的屬性及屬性值. 系統(tǒng)采用基于三元組的存儲思想,將 instanceID,propertyID 和 value視為一個三元組,直接存儲在表中.
3. 3 垂直搜索服務(wù)模塊
垂直搜索服務(wù)模塊是紹興圖書館圖書檢索垂直引擎系統(tǒng)對外服務(wù)的模塊,面對用戶輸入的響應(yīng),盡可能提供給用戶滿意的結(jié)果,提供垂直搜索和個性化資源推薦等服務(wù).相對傳統(tǒng)搜索引擎,垂直搜索引擎由于覆蓋整個行業(yè),搜索相關(guān)性更高,更符合用戶意圖. 同時,紹興圖書館圖書檢索垂直引擎系統(tǒng)由于知識組織系統(tǒng)的介入,數(shù)據(jù)結(jié)構(gòu)化的因素,檢索結(jié)果更是少而精. 垂直搜索流程如圖 2 所示. 用戶輸入檢索詞后,系統(tǒng)提取用戶畫像確定其關(guān)注的領(lǐng)域信息,然后對用戶輸入的檢索詞進(jìn)行擴(kuò)展等推理,并將推理結(jié)果交給檢索模塊進(jìn)行檢索,最后向用戶返回檢索結(jié)果.個性化推薦是以用戶滿意為中心的主動推送服務(wù),是根據(jù)用戶的不同興趣和特點(diǎn),提供有針對性的服務(wù). 系統(tǒng)根據(jù)不同時間用戶行為的變化不斷調(diào)整、豐富用戶畫像,尋找用戶最相近興趣和特點(diǎn)的人的最近情況,直接推送用戶感興趣的圖書等信息.4 結(jié)束語。
紹興市圖書館在主題標(biāo)引方面已經(jīng)取得了一定的成果,為數(shù)字圖書館圖書檢索垂直引擎的應(yīng)用打下了基礎(chǔ). 本文利用知識組織方式對數(shù)字圖書館圖書資源進(jìn)行標(biāo)引等加工,形成特色數(shù)據(jù)庫; 同時,通過跟蹤用戶行為建立用戶畫像,在圖書檢索中引入垂直搜索引擎,以其“專、精、深”的特點(diǎn),將顯著提高查準(zhǔn)率、查全率.特色數(shù)據(jù)庫的建設(shè)以及個性化的服務(wù),為紹興市圖書館等中小型圖書館在知識時代的發(fā)展提供新的契機(jī).
參考文獻(xiàn):
。1]張敏. 基于本體的垂直搜索引擎的研究[J]. 軟件導(dǎo)刊,2010,9( 2) :13 -15.
。2]鄒嵩,趙詩陽,周新志. 垂直搜索引擎中分詞技術(shù)的算法研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22( 2) :131 -137.
。3]夏斌,丁立,喬紅波,等. 中文農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 河南農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,44( 6) :715 -717.
。4]汲業(yè),陳燕,楊健,等. 生活服務(wù)領(lǐng)域垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程,2010,36( 24) : 24 -26.
[5]劉博卿. 基于軍事工程兵的垂直搜索引擎研究[J]. 科技創(chuàng)新導(dǎo)報(bào),2011( 18) :6.
。6]王微微,夏秀峰,李曉明. 一種基于用戶行為反饋的興趣度模型更新算法[J]. 遼寧大學(xué)學(xué)報(bào)( 自然科學(xué)版) ,2011,38( 1) :40 -45.
。7]于升峰,藍(lán)潔. 基于用戶行為挖掘和 RSS 技術(shù)的知識服務(wù)模式研究[J]. 情報(bào)探索,2011( 8) :93 -95.
。8]王存睿,王元剛,陳婧,等. 基于行為采集系統(tǒng)的用戶特征挖掘及分析[J]. 大連民族學(xué)院學(xué)報(bào),2011,13( 3) :296 -300.
。9]張宇紅. 地方文獻(xiàn)的主題標(biāo)引. 圖書館研究與工作,2004( 2) :67 -68.
。10]趙德平,王延臣,李鵬,等. 面向高校信息的垂直搜索引擎的研究與實(shí)現(xiàn)[J]. 沈陽建筑大學(xué)學(xué)報(bào)( 自然科學(xué)版) ,2012,28( 3) :555 -562.
。11]張敏,杜華. 垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 情報(bào)科學(xué),2011( 3) :421 -424,439.
本文關(guān)鍵詞:面向高校信息的垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:249751
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/249751.html