天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究

發(fā)布時間:2016-12-03 16:45

  本文關(guān)鍵詞:結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究,由筆耕文化傳播整理發(fā)布。


nutch,Lucene,PageRank,搜索引擎

計算機科學(xué)2008Vol 35 2

結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究*

赫建營1 晏海華2 金茂忠3 劉 超4

(北京航空航天大學(xué)計算機學(xué)院 北京100083)

)

摘 要 針對垂直搜索引擎研究領(lǐng)域的關(guān)鍵技術(shù)問題,提出了一個結(jié)合本體篩選和文本挖掘的垂直搜索引擎構(gòu)建思想。首先探討了作為研究基礎(chǔ)的本體和文本挖掘技術(shù),討論了兩者的作用;之后闡述了垂直搜索引擎構(gòu)建的關(guān)鍵技術(shù),包括基于本體篩選的智能搜索器、結(jié)合文本挖掘的網(wǎng)頁信息分析及抽取、索引器及查詢處理器的構(gòu)造;最后,對提出的思想進行了實現(xiàn)驗證,構(gòu)造一個面向高校畢業(yè)生招聘的垂直搜索引擎原型。關(guān)鍵詞 垂直搜索,本體,本體篩選,文本挖掘

ResearchofVerticalSearchEngineIncorporatingwithOntologyFilteringandTextMining

HEJian-Ying1 YANHa-iHua2 JINMao-Zhong3 LIUChao4

(SchoolofComputerScience&Engineering,BeihangUniversity,Beijing100083)

Abstract Thispaperpresentsaconstructionmethodforverticalsearchengineutilizingontologyfilteringandtextminingto-wardsexistingproblemsinthedomain.Firstly,itdiscussesontologyandtextminingaswellastheirapplications.Then,weprovideasetofkeytechniquesfortheconstructionofverticalsearchenginewhichincludeontology-basedWebcrawling,Webpageanalyzingcombinedwithtextmining,indexerandsearcherconstructing.Finally,anevaluationofourproposedideasispresentedbyimplementingaprototypeofjobhuntingsearchenginetowardscollegestudents.Keywords Verticalsearch,Ontology,Ontologyfiltering,Textmining

Internet是一把雙刃劍,一方面人們把越來越多的信息推送到網(wǎng)上,極大地推動了信息的共享,另一方面過多的垃圾信息湮滅了用戶想要真正獲取的 真知灼見 。如何從呈指數(shù)級增長的Internet資源庫中迅速準確地獲取所需信息成為一個亟待解決的問題。搜索引擎以其對Web信息強有力的檢索能力成為目前人們從浩如煙海的Internet中獲取所需信息的重要途徑[1]。然而,即使技術(shù)先進如Google和百度這樣的通用搜索引擎巨頭仍然面臨諸如下述的棘手問題尚未解決[2]:

(1)低查準率:查準率和查全率猶如 矛 和 盾 一樣難以協(xié)和兼得,通用搜索引擎往往以犧牲查準率來獲得較高的查全率,而這種做法對有特定信息需求的人群越來越顯得無能為力;

(2)搜索的 垂直度 問題:如何針對專業(yè)領(lǐng)域的行業(yè)需求,更精確地、深入地挖掘和獲取用戶所需信息既是一個難度很高也是一個亟待解決的現(xiàn)實問題;

(3)可定制性問題:目前已經(jīng)存在一些垂直搜索引擎,如Google公司的Froogle、Ucloo搜人引擎等,但其所采用的技術(shù)與行業(yè)應(yīng)用結(jié)合過于緊密,如何快速定制出面向新領(lǐng)域的垂直引擎則需要進一步的探討。

針對上述問題,本文通過引入本體技術(shù)和文本挖掘技術(shù)來構(gòu)造一個面向領(lǐng)域的垂直搜索引擎。首先探討了本體管理和文本挖掘技術(shù),這是我們進一步研究的技術(shù)基礎(chǔ);之后提出了一個結(jié)合本體篩選和文本挖掘的垂直搜索引擎構(gòu)建思想,具體包括基于本體篩選的智能搜索器(Spider/Crawler)、結(jié)合文本挖掘的網(wǎng)頁信息抽取及分析、分類器和查詢處理器的構(gòu)建等;最后,我們給出了一個基于此思想的原型系統(tǒng)的實現(xiàn)。

1 基礎(chǔ)技術(shù)的研究

搜索引擎的前身是信息檢索(InformationRetrieval),主

要通過對文本信息進行系統(tǒng)性的操作(索引),以方便快速地從大量文檔中通過查詢(搜索)獲取相關(guān)信息,其基本流程包含數(shù)據(jù)收集、特征選擇、模型選擇、訓(xùn)練、測試、評估等活動[1]。主要部分可以劃分為模型和模式結(jié)構(gòu)、評分函數(shù)、優(yōu)化和搜索算法、數(shù)據(jù)管理策略等幾個部分。信息檢索在其發(fā)展過程中,先后產(chǎn)生了多種信息資源檢索工具,其中基于Web的搜索引擎以其界面友好、使用方便成為目前全球最流行的檢索工具,為廣大用戶快速、準確地查詢與獲取網(wǎng)上信息創(chuàng)造了便利[3]。本文的主要特點在于采用本體技術(shù)來篩選與領(lǐng)域相關(guān)的Web頁面,通過文本挖掘技術(shù)來對篩選出的Web頁面進行結(jié)構(gòu)化數(shù)據(jù)自動分析和提取。因而,本體和文本挖掘技術(shù)是本文研究的基礎(chǔ),下面就此兩項技術(shù)進行深入探討。

1.1 本體的作用及其構(gòu)造

本體被定義為 概念模型的明確的規(guī)范說明 [4],可以用來描述某個領(lǐng)域甚至更廣范圍內(nèi)的概念以及概念之間的關(guān)系,使得這些概念和關(guān)系在共享的范圍內(nèi)具有大家共同認可的、明確的、唯一的定義,這樣,人機之間以及機器之間就可以進行交流。

盡管本體的研究日趨成熟,但是很少關(guān)注本體的實際應(yīng)用。Riichiro和Mitsuru提出本體的應(yīng)用可以分為八個層次[5],其中前三個層次只是作為一個公共的受控詞典來為它所索引的知識庫內(nèi)容提供信息骨架,而后五個層次由于涉及到內(nèi)容,因而更多地和人工智能技術(shù)聯(lián)系在一起。在本文的

*)基金項目:國家自然科學(xué)基金資助項目(編號60573084)和武器裝備預(yù)研基金(9140A15050106HK0114)。赫建營 博士研究生,主要研究領(lǐng)域為軟件工程、軟件測試技術(shù)和知識管理;晏海華 碩士,副教授,主要研究領(lǐng)域為軟件工程、軟件測試技術(shù)和面向?qū)ο蠹夹g(shù);金茂忠 教授,博導(dǎo),研究方向為軟件工程和編譯技術(shù);劉 超 教授,博導(dǎo),CCF高級會員,主要研究領(lǐng)域為軟件工程。


  本文關(guān)鍵詞:結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究,,由筆耕文化傳播整理發(fā)布。



本文編號:203508

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/203508.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶28034***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com