垂直搜索引擎主題特征提取及相關度算法研究
本文關鍵詞:垂直搜索引擎主題特征提取及相關度算法研究,由筆耕文化傳播整理發(fā)布。
《長安大學》 2007年
垂直搜索引擎主題特征提取及相關度算法研究
段一飛
【摘要】: 搜索引擎是人們獲取海量網(wǎng)絡信息的首要工具,是網(wǎng)絡研究和應用的關鍵內(nèi)容。目前隨著Internet信息的爆炸增長以及信息多元化的發(fā)展,快速有效地獲取需要的相關信息變得越來越困難,綜合性的搜索引擎已不能適應用戶對信息檢索的準確性要求,專業(yè)化的、面向主題的垂直搜索引擎正成為研究的熱點與發(fā)展趨勢。 本文重點研究中文Web主題信息獲取與檢索技術(shù),設計和實現(xiàn)了一個以計算機專業(yè)技術(shù)文獻信息采集為核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 論文分析了搜索引擎國內(nèi)外目前的研究現(xiàn)狀及發(fā)展趨勢,探討了專業(yè)搜索引擎目前主要存在的問題及現(xiàn)行專業(yè)搜索引擎所采用的搜索策略存在的缺陷。針對中文分詞中歧義字段的切分問題,提出一種對中文句子進行分詞預處理的方法,在預處理的基礎上實現(xiàn)了一種改進的MM算法,使分詞系統(tǒng)在機械分詞階段具有比MM算法更好的效果。 針對垂直搜索引擎網(wǎng)絡蜘蛛搜索路徑的選擇策略問題,提出了非貪婪的V-Page-Rank搜索策略,指引網(wǎng)絡蜘蛛動態(tài)調(diào)整下載方向,優(yōu)先下載可能包含有相關主題內(nèi)容的頁面,有效地實現(xiàn)搜索引擎的專業(yè)化。在信息檢索方面,提出了基于向量空間模型的自適應分類算法IVSM對網(wǎng)頁從內(nèi)容和結(jié)構(gòu)兩方面進行相關性過濾。 論文提出了基于網(wǎng)頁分塊的爬行算法。解決了網(wǎng)頁多主題的困難,并有效地去除了網(wǎng)頁中的噪音信息,使得網(wǎng)絡爬行的啟發(fā)信息能準確地被收集。提出了一種比較理想的垂直搜索引擎設計方案,并實現(xiàn)了一個面向計算機主題的垂直搜索引擎系統(tǒng)CTLS。研究并設計出了適合專業(yè)資源采集的分布式Robot體系結(jié)構(gòu)。 最后總結(jié)了面向計算機專業(yè)技術(shù)主題的垂直搜索引擎系統(tǒng)的研究和開發(fā)經(jīng)驗,并指出了系統(tǒng)的應用前景以及下一步研究的方向。
【關鍵詞】:
【學位授予單位】:長安大學
【學位級別】:碩士
【學位授予年份】:2007
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉博卿;;基于軍事工程兵的垂直搜索引擎研究[J];科技創(chuàng)新導報;2011年18期
2 張旭;;構(gòu)建基于本地服務的垂直搜索引擎[J];才智;2011年18期
3 王曉春;李慧;;面向教育的垂直搜索引擎框架及其應用[J];電化教育研究;2011年09期
4 施佺;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實現(xiàn)[J];微電子學與計算機;2011年07期
5 郭銳;;新型垂直育兒搜索引擎“智能育兒通”的研究與實現(xiàn)[J];天津科技;2011年03期
6 李光敏;陳年生;許新山;;面向網(wǎng)頁結(jié)構(gòu)特征的Hopfield算法[J];計算機系統(tǒng)應用;2011年07期
7 孔云;楊婷;;開源信息檢索技術(shù)在高校圖書館的應用——以昆明理工大學圖書館為例[J];湖南科技學院學報;2011年08期
8 陳國華;湯庸;彭澤武;李建國;;基于學術(shù)社區(qū)的學術(shù)搜索引擎設計[J];計算機科學;2011年08期
9 ;[J];;年期
10 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學會第十七屆信息論學術(shù)年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
2 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
3 王艷;[N];中國旅游報;2000年
4 王靖;[N];人民日報海外版;2000年
5 記者 王滸;[N];中國旅游報;2009年
6 本報記者 王宏;[N];中國計算機報;2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 記者 吳德群;[N];深圳特區(qū)報;2009年
9 本報記者 王曉雁;[N];法制日報;2009年
10 本報記者 胡鈺;[N];華夏時報;2009年
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術(shù)研究[D];浙江大學;2011年
3 李傳席;基于本體的自適應Web信息抽取方法研究[D];中國科學技術(shù)大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設計與實現(xiàn)[D];大連海事大學;2010年
3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學;2010年
4 陳向東;寵物用品垂直搜索引擎研究與設計[D];西北農(nóng)林科技大學;2010年
5 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學;2010年
6 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學;2009年
7 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡輿情巡控中的研究與應用[D];中國海洋大學;2010年
8 劉大伸;垂直搜索引擎技術(shù)的研究及實現(xiàn)[D];東北大學;2008年
9 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2009年
10 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設計與開發(fā)[D];武漢理工大學;2011年
本文關鍵詞:垂直搜索引擎主題特征提取及相關度算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:64166
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/64166.html