基于概念檢索的中文搜索引擎
本文關(guān)鍵詞:四大中文搜索引擎檢索性能測評,由筆耕文化傳播整理發(fā)布。
當(dāng)前位置:文庫下載 > 所有分類 > IT/計(jì)算機(jī) > 基于概念檢索的中文搜索引擎
基于概念檢索的中文搜索引擎
基于概念檢索的中文搜索引擎
第1期 逄煥利等:基于概念檢索的中文搜索引擎9
搜索器。搜索引擎工作的基本思想是:使用Robot來遍歷Web,將Web上分布的信息下載到本地文檔庫;然后對文檔內(nèi)容進(jìn)行自動分析并建立索引,添加到倒排索引庫;對于用戶提出的檢索請求,搜索引擎通過檢查索引庫找出匹配的文檔(鏈接),返回用戶。而基于概念檢索的搜索引擎特別是在建立索引和檢索過程中,所有的工作都是建立在概念語義網(wǎng)絡(luò)基礎(chǔ)之上的。搜索引擎系統(tǒng)框架如圖1所示
。
位概念常常是下位概念的抽象、概括或整體表示;下位概念往往是上位概念的屬性、特征或說明,是對上位概念的補(bǔ)充和細(xì)化,它描述自己的獨(dú)有屬性,同時繼承上位概念的屬性。從這個意義上來看,概念語義網(wǎng)絡(luò)首先是一個分類樹。根據(jù)計(jì)算機(jī)領(lǐng)域的特點(diǎn)和通常的分類標(biāo)準(zhǔn),概念語義網(wǎng)絡(luò)共分為4層。第1層是最高層,是最具概括性的概念,表明了一個獨(dú)立的主題,以下各層逐步細(xì)化。例如“計(jì)算機(jī)”可分為“軟件”和“硬件”……! 〕藢哟侮P(guān)系之外,概念之間又具有各種聯(lián)系。,在樹型結(jié)構(gòu)起來,。這些橫。
212 Robot Robot(機(jī)器人)的主要功能就是利用網(wǎng)頁中
的超文本鏈在互聯(lián)網(wǎng)中漫游、發(fā)現(xiàn)和搜集信息。Robot從一個初始URL集開始,順著超文本鏈的URL采用深度優(yōu)先搜索策略對Web進(jìn)行遍歷并
圖1 搜索引擎系統(tǒng)框架
211 概念語義網(wǎng)絡(luò)[2]
智能搜索引擎需要具備符合用戶實(shí)際需要的
知識庫,在搜索時,引擎根據(jù)已有的知識庫,了解檢索詞的意義并以此產(chǎn)生聯(lián)想,從而找全相關(guān)文章。適當(dāng)?shù)闹R表示是建立知識庫系統(tǒng)的關(guān)鍵,語義網(wǎng)絡(luò)是其中一種常用的表示方法! 「拍钫Z義網(wǎng)絡(luò)是一個帶標(biāo)識的有向圖,其中,節(jié)點(diǎn)表示概念,有向邊表示概念之間的聯(lián)系,指明所聯(lián)接的概念節(jié)點(diǎn)之間的某種關(guān)系。我們選用計(jì)算機(jī)領(lǐng)域來構(gòu)建概念語義網(wǎng)絡(luò),如圖2所示。圖中實(shí)心點(diǎn)表示主題詞(概念節(jié)點(diǎn)),空心點(diǎn)表示非主題詞
。
下載文檔,以便分析器對其進(jìn)行處理。系統(tǒng)中維護(hù)一個超鏈隊(duì)列,其中包含一些起始URL。Robot從這些URL出發(fā),下載相應(yīng)的頁面,并從中抽取出新的超鏈加入到隊(duì)列中。上述過程不斷重復(fù),直到隊(duì)列為空。本系統(tǒng)的檢索策略主要有:
(1)檢查URL的合法性:在掃描URL時,對于不符合規(guī)定的URL,將其構(gòu)造成合法的URL! (2)限制處理鏈接類型:因?yàn)楸鞠到y(tǒng)只處理文本信息,因而對于指向“.ps”“,.zip”“,.Z”“,.gif”,“.jpg”等鏈接時自動忽略,不予處理。
(3)遵循Robot排斥標(biāo)準(zhǔn):本系統(tǒng)的Robot訪問一個服務(wù)器時,首先讀取Robots.txt文件,分析該文件后訪問相應(yīng)的合法網(wǎng)頁。在訪問一個主頁時,首先察看Robot.txt文件的限制,只訪問那些授權(quán)的鏈接。
(4)限制處理協(xié)議的類型:本Robot處理“HTTP”“,FTP”等協(xié)議,對于“NEWS”“,WAIS”等協(xié)議不予處理。
(5)對訪問每個URL的時間的限制:避免Robot陷入黑洞。
圖2 概念語義網(wǎng)絡(luò)示意圖
213 索引器[3]
概念具有層次結(jié)構(gòu),不同的層次表明其抽象的程度不同,層次越高概括性越強(qiáng),包含的下位概念可能越多。上位概念由一組下位概念組成,上 索引器從Robot抓回的主頁中抽取主題詞,
對其賦予不同的權(quán)值,以表明這些主題詞同網(wǎng)頁內(nèi)容的相關(guān)度,并從文檔的標(biāo)記項(xiàng)中抽取相應(yīng)的
Word文檔免費(fèi)下載:基于概念檢索的中文搜索引擎(下載1-3頁,,共3頁)
我要評論
相關(guān)主題
相關(guān)文檔
【論文】基于概念檢索的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
基于概念檢索的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_專業(yè)資料。構(gòu)建語義庫和擴(kuò)展查詢是影響概念檢索效率的主要因素。提出一種自動構(gòu)建語義庫和相關(guān)性查詢擴(kuò)展的方法,方法利用...
基于概念檢索的中文搜索引擎研究
本文給出了一種基于概念檢索的中文搜索引擎模型.采用“以網(wǎng)對網(wǎng)”技術(shù)來實(shí)現(xiàn)概念檢索,使搜索引擎從基于關(guān)鍵詞的檢索提高到基于知識的智能檢索;诟拍顧z索的中文...
基于概念檢索的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
基于概念檢索的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_IT/計(jì)算機(jī)_專業(yè)資料;诟拍顧z索的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)第23 卷第 5 期 2006 年 5 月 計(jì)算機(jī)應(yīng)用與軟件 ...
四大中文搜索引擎檢索性能測評_岳珍
利用中文搜索引擎檢索網(wǎng)... 4頁 免費(fèi) 基于概念檢索的中文搜索... 3頁 7...23, No. 6 June, 2005 四大中文搜索引擎檢索性能測評岳 珍 ( 南京大學(xué) 信息...
四大中文搜索引擎檢索性能測評
是基于中文分詞和標(biāo)注技術(shù)的檢索工具。 種測評指標(biāo)體系,從最能反映搜索引擎“...字段檢索 加權(quán)檢索概念檢索 自然j 爵言檢索 相關(guān)j 匠饋檢索 目錄j £檢索 ...
搜索引擎優(yōu)化排名推廣的方式和概念
作為最大的中文搜索引擎, 百度能給各個網(wǎng)站帶來的流量大家 都清楚的知道。然而...如對于基于 META 標(biāo)簽檢索的搜索引擎,在 META 標(biāo)簽中設(shè)置有效 的關(guān)鍵詞和網(wǎng)站...
中文搜索引擎現(xiàn)狀及檢索策略
基于概念檢索的中文搜索引... 3頁 20財(cái)富值 一種提高中文搜索引擎檢索... 10頁 免費(fèi) 一種提高中文搜索引擎檢索... 4頁 免費(fèi)喜歡此文檔的還喜歡...
利用中文搜索引擎檢索網(wǎng)絡(luò)信息資源
利用中文搜索引擎檢索網(wǎng)絡(luò)信息資源_社會學(xué)_人文社科_專業(yè)資料。搜索技巧...搜索引擎的基本概念搜 索引擎其實(shí)是一組或一系列的專用服務(wù)器 "可 搜集 & ...
中文智能搜索引擎技術(shù)及其對數(shù)字圖書館的影響
1 智能搜索引擎簡介 智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引 擎。 由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于 知識 (或概念) 層面, 對知識有一定...
他們剛剛閱讀過:
大大精華整理孔軸配合公差表
共點(diǎn)力平衡條件的應(yīng)用(習(xí)題)
十三五戰(zhàn)略解讀在線學(xué)習(xí)答案
家用被制作設(shè)備
SDCL1005CR33貼片陶瓷電感規(guī)格書
綠化費(fèi)申請書
2014年5月金融管理綜合應(yīng)用考生須知及案例資料
小學(xué)語文二年級下冊《畫雞蛋》課件
軍藝考研-2016年解放軍藝術(shù)學(xué)院藝術(shù)碩士藝術(shù)基礎(chǔ)考研參考書 真題資料
怪魚拾零
濟(jì)陽小學(xué)一年級語文上冊期末考試試卷及答案
圖樣畫法
2012版標(biāo)點(diǎn)符號用法簡表
兇殘機(jī)器人好玩嗎?兇殘機(jī)器人游戲介紹
2014年12月CET6大學(xué)英語六級作文押題
編譯原理實(shí)驗(yàn)指導(dǎo)書
汽車制動系統(tǒng)維修題庫
整式乘法練習(xí)題
眼鏡店的生意秘訣
西柏坡精神頌
為了進(jìn)一步增強(qiáng)衛(wèi)生院的服務(wù)管理意識
14.植樹的牧羊人ppt
本文關(guān)鍵詞:四大中文搜索引擎檢索性能測評,由筆耕文化傳播整理發(fā)布。
本文編號:178672
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/178672.html