垂直搜索引擎主題特征提取及相關(guān)度算法研究
本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,由筆耕文化傳播整理發(fā)布。
《長(zhǎng)安大學(xué)》 2007年
垂直搜索引擎主題特征提取及相關(guān)度算法研究
段一飛
【摘要】: 搜索引擎是人們獲取海量網(wǎng)絡(luò)信息的首要工具,是網(wǎng)絡(luò)研究和應(yīng)用的關(guān)鍵內(nèi)容。目前隨著Internet信息的爆炸增長(zhǎng)以及信息多元化的發(fā)展,快速有效地獲取需要的相關(guān)信息變得越來(lái)越困難,綜合性的搜索引擎已不能適應(yīng)用戶對(duì)信息檢索的準(zhǔn)確性要求,專業(yè)化的、面向主題的垂直搜索引擎正成為研究的熱點(diǎn)與發(fā)展趨勢(shì)。 本文重點(diǎn)研究中文Web主題信息獲取與檢索技術(shù),設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)以計(jì)算機(jī)專業(yè)技術(shù)文獻(xiàn)信息采集為核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 論文分析了搜索引擎國(guó)內(nèi)外目前的研究現(xiàn)狀及發(fā)展趨勢(shì),探討了專業(yè)搜索引擎目前主要存在的問(wèn)題及現(xiàn)行專業(yè)搜索引擎所采用的搜索策略存在的缺陷。針對(duì)中文分詞中歧義字段的切分問(wèn)題,提出一種對(duì)中文句子進(jìn)行分詞預(yù)處理的方法,在預(yù)處理的基礎(chǔ)上實(shí)現(xiàn)了一種改進(jìn)的MM算法,使分詞系統(tǒng)在機(jī)械分詞階段具有比MM算法更好的效果。 針對(duì)垂直搜索引擎網(wǎng)絡(luò)蜘蛛搜索路徑的選擇策略問(wèn)題,提出了非貪婪的V-Page-Rank搜索策略,指引網(wǎng)絡(luò)蜘蛛動(dòng)態(tài)調(diào)整下載方向,優(yōu)先下載可能包含有相關(guān)主題內(nèi)容的頁(yè)面,有效地實(shí)現(xiàn)搜索引擎的專業(yè)化。在信息檢索方面,提出了基于向量空間模型的自適應(yīng)分類算法IVSM對(duì)網(wǎng)頁(yè)從內(nèi)容和結(jié)構(gòu)兩方面進(jìn)行相關(guān)性過(guò)濾。 論文提出了基于網(wǎng)頁(yè)分塊的爬行算法。解決了網(wǎng)頁(yè)多主題的困難,并有效地去除了網(wǎng)頁(yè)中的噪音信息,使得網(wǎng)絡(luò)爬行的啟發(fā)信息能準(zhǔn)確地被收集。提出了一種比較理想的垂直搜索引擎設(shè)計(jì)方案,并實(shí)現(xiàn)了一個(gè)面向計(jì)算機(jī)主題的垂直搜索引擎系統(tǒng)CTLS。研究并設(shè)計(jì)出了適合專業(yè)資源采集的分布式Robot體系結(jié)構(gòu)。 最后總結(jié)了面向計(jì)算機(jī)專業(yè)技術(shù)主題的垂直搜索引擎系統(tǒng)的研究和開(kāi)發(fā)經(jīng)驗(yàn),并指出了系統(tǒng)的應(yīng)用前景以及下一步研究的方向。
【關(guān)鍵詞】:
【學(xué)位授予單位】:長(zhǎng)安大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉博卿;;基于軍事工程兵的垂直搜索引擎研究[J];科技創(chuàng)新導(dǎo)報(bào);2011年18期
2 張旭;;構(gòu)建基于本地服務(wù)的垂直搜索引擎[J];才智;2011年18期
3 王曉春;李慧;;面向教育的垂直搜索引擎框架及其應(yīng)用[J];電化教育研究;2011年09期
4 施佺;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2011年07期
5 郭銳;;新型垂直育兒搜索引擎“智能育兒通”的研究與實(shí)現(xiàn)[J];天津科技;2011年03期
6 李光敏;陳年生;許新山;;面向網(wǎng)頁(yè)結(jié)構(gòu)特征的Hopfield算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年07期
7 孔云;楊婷;;開(kāi)源信息檢索技術(shù)在高校圖書(shū)館的應(yīng)用——以昆明理工大學(xué)圖書(shū)館為例[J];湖南科技學(xué)院學(xué)報(bào);2011年08期
8 陳國(guó)華;湯庸;彭澤武;李建國(guó);;基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J];計(jì)算機(jī)科學(xué);2011年08期
9 ;[J];;年期
10 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲(chóng)的研究[A];中國(guó)電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 賽迪網(wǎng) 方剛;[N];中國(guó)計(jì)算機(jī)報(bào);2000年
2 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年
3 王艷;[N];中國(guó)旅游報(bào);2000年
4 王靖;[N];人民日?qǐng)?bào)海外版;2000年
5 記者 王滸;[N];中國(guó)旅游報(bào);2009年
6 本報(bào)記者 王宏;[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 記者 吳德群;[N];深圳特區(qū)報(bào);2009年
9 本報(bào)記者 王曉雁;[N];法制日?qǐng)?bào);2009年
10 本報(bào)記者 胡鈺;[N];華夏時(shí)報(bào);2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 王曄;垂直搜索引擎若干問(wèn)題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
3 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
5 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
6 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年
7 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2010年
8 劉大伸;垂直搜索引擎技術(shù)的研究及實(shí)現(xiàn)[D];東北大學(xué);2008年
9 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
10 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)[D];武漢理工大學(xué);2011年
本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):64166
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/64166.html