基于網(wǎng)頁(yè)分塊的主題搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于網(wǎng)頁(yè)分塊的主題搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《浙江工業(yè)大學(xué)》 2009年
基于網(wǎng)頁(yè)分塊的主題搜索引擎的研究與實(shí)現(xiàn)
高樂(lè)
【摘要】: 搜索引擎解決了網(wǎng)上查找信息難的問(wèn)題。隨著網(wǎng)絡(luò)信息指數(shù)級(jí)增長(zhǎng)以及行業(yè)分工不斷加大,針對(duì)專業(yè)領(lǐng)域的信息搜索在精度和深度方面要求日益提高,主題搜索引擎必然成為搜索引擎的發(fā)展方向。然而,隨著網(wǎng)頁(yè)主題的多元化,以網(wǎng)頁(yè)為最小單位進(jìn)行處理的主題搜索引擎存在鏈接預(yù)測(cè)不準(zhǔn)確、隧道穿越能力低、網(wǎng)頁(yè)消重效果差、檢索質(zhì)量不高等問(wèn)題,導(dǎo)致了主題搜索時(shí)易出現(xiàn)主題漂移現(xiàn)象;谝陨蠁(wèn)題,本文將網(wǎng)頁(yè)分塊技術(shù)應(yīng)用于主題搜索,在主題搜索時(shí)將網(wǎng)頁(yè)中的內(nèi)容塊作為最小處理單元,而不再是整個(gè)網(wǎng)頁(yè)。 但傳統(tǒng)網(wǎng)頁(yè)分塊算法對(duì)多主題網(wǎng)頁(yè)分塊效果不好,因此不適合應(yīng)用到主題搜索引擎中。針對(duì)這一問(wèn)題,本文提出一種能適應(yīng)多主題網(wǎng)頁(yè)分塊的新算法CTVPS,該算法充分利用網(wǎng)頁(yè)中的視覺(jué)信息、標(biāo)簽信息和鏈接信息,同時(shí)在分塊過(guò)程中提出若干啟發(fā)規(guī)則來(lái)控制分塊的精度和粒度。在完成了網(wǎng)頁(yè)分塊的基礎(chǔ)上,本文提出了與之適應(yīng)的主題相關(guān)塊提取方法即將文本分類(lèi)中的分類(lèi)模型移植到內(nèi)容塊分類(lèi)中,實(shí)現(xiàn)了主題相關(guān)內(nèi)容塊的提取。最終使主題搜索引擎在鏈接預(yù)測(cè)準(zhǔn)確度、索引容量和檢索質(zhì)量等問(wèn)題上得到較大改進(jìn),從而降低主題漂移問(wèn)題的出現(xiàn)。 在基于網(wǎng)頁(yè)分塊的主題搜索引擎系統(tǒng)Search Smart的設(shè)計(jì)和實(shí)現(xiàn)中,本文將網(wǎng)頁(yè)分塊作為Search Smart的核心,同時(shí)對(duì)開(kāi)源搜索引擎Nutch進(jìn)行了分析和代碼復(fù)用。最后,通過(guò)Search Smart系統(tǒng)的運(yùn)行和測(cè)試,對(duì)系統(tǒng)的爬行性能、檢索質(zhì)量?jī)蓚(gè)重要指標(biāo)進(jìn)行了結(jié)果分析,最終驗(yàn)證了本文思想正確性并提出后續(xù)可能的改進(jìn)方向。
【關(guān)鍵詞】:
【學(xué)位授予單位】:浙江工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類(lèi)號(hào)】:TP391.3
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 陳必坤;基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];鄭州大學(xué);2011年
2 易清亮;面向主題的P2P搜索引擎的研究[D];西華大學(xué);2010年
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
2 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期
3 朱亮,顧俊峰,馬范援;基于Mobile Agent的搜索引擎關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)工程;2000年08期
4 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時(shí)代;2007年01期
5 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁(yè)快速去重算法研究[J];中文信息學(xué)報(bào);2003年02期
6 馮晉,李春平;基于統(tǒng)計(jì)學(xué)和語(yǔ)義信息的中文文本主題識(shí)別技術(shù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
7 常璐,夏祖奇;搜索引擎的幾種常用排序算法[J];圖書(shū)情報(bào)工作;2003年06期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張輝;吳輝;劉瑞;周剛;;科技資源信息檢索關(guān)鍵技術(shù)[J];北京航空航天大學(xué)學(xué)報(bào);2006年09期
2 朱華;淺談網(wǎng)絡(luò)信息資源采集技術(shù)[J];國(guó)家圖書(shū)館學(xué)刊;2004年02期
3 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲(chóng)設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期
4 張俊芬;;搜索引擎之競(jìng)價(jià)排名的法律問(wèn)題研究[J];北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2009年06期
5 葛宇;梁靜;陳曉敏;;搜索引擎系統(tǒng)中熱點(diǎn)問(wèn)題的探討[J];成都電子機(jī)械高等?茖W(xué)校學(xué)報(bào);2009年04期
6 胡彧;蘇雪峰;;特定主題的相關(guān)概念挖掘研究與實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2007年02期
7 殷妮哿;;Internet中的多媒體快速查詢[J];電腦開(kāi)發(fā)與應(yīng)用;2009年09期
8 鹿文超;;論利用服務(wù)器日志優(yōu)化搜索引擎的研究[J];電腦知識(shí)與技術(shù);2008年21期
9 胡靜芳;沈亞斌;;基于Web的新聞采集系統(tǒng)[J];電腦知識(shí)與技術(shù);2009年19期
10 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國(guó)核電子學(xué)與核探測(cè)技術(shù)學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
2 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁(yè)去重算法[A];中國(guó)索引學(xué)會(huì)第三次全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年
3 董紅斌;蘇中濱;;基于Mobile Agent的信息搜索技術(shù)[A];全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用年會(huì)論文集(2001)[C];2001年
4 李盛韜;吳麗輝;于滿泉;潘文鋒;余智華;王斌;程學(xué)旗;;主題Web信息采集的研究與設(shè)計(jì)[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
5 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁(yè)查重算法[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
6 張凱;李魁;張剛;王斌;;基于站點(diǎn)的Web信息采集器研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
7 張凱;丁國(guó)棟;張剛;;GatherCore:一種面向采集系統(tǒng)的工具集[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 楊劍鋒;適合并行的無(wú)干預(yù)文檔聚類(lèi)算法研究[D];武漢大學(xué);2010年
2 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
3 舒江波;面向中文信息處理的復(fù)句關(guān)系詞自動(dòng)標(biāo)識(shí)研究[D];華中師范大學(xué);2011年
4 龔才春;短文本語(yǔ)言計(jì)算的關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2008年
5 李衛(wèi);領(lǐng)域知識(shí)的獲取[D];北京郵電大學(xué);2008年
6 徐永東;多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
7 文坤梅;基于本體知識(shí)庫(kù)推理的語(yǔ)義搜索研究[D];華中科技大學(xué);2007年
8 方寧;基于認(rèn)知的文本語(yǔ)境生成和度量研究[D];上海大學(xué);2009年
9 劉孝男;移動(dòng)P2P網(wǎng)絡(luò)中基于方向搜索算法的研究[D];吉林大學(xué);2010年
10 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué)(北京);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 汪永偉;搜索引擎中網(wǎng)頁(yè)排序算法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
2 于飛;基于搜索引擎的個(gè)性化推薦研究[D];哈爾濱理工大學(xué);2010年
3 李永春;主題搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年
4 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年
5 陳可欽;基于垂直搜索引擎的主題爬蟲(chóng)算法的研究[D];中南林業(yè)科技大學(xué);2009年
6 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[D];西安電子科技大學(xué);2009年
7 姜博;基于聚焦爬蟲(chóng)的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年
8 許成文;基于B/S模式的網(wǎng)絡(luò)考試系統(tǒng)[D];河北科技大學(xué);2011年
9 李莎莎;增量式Web信息采集與信息提取系統(tǒng)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年
10 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計(jì)[D];濟(jì)南大學(xué);2011年
【同被引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2009年07期
2 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識(shí)與技術(shù);2009年21期
3 易清亮;劉克劍;蔡祖戀;;基于P2P技術(shù)的大型分布式FTP搜索引擎研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
4 李衛(wèi)東;;基于DOM的半結(jié)構(gòu)化網(wǎng)頁(yè)信息抽取算法[J];河北省科學(xué)院學(xué)報(bào);2009年01期
5 張兆中;基于HTML標(biāo)記信息的主題相關(guān)性判定方法[J];淮陰師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年03期
6 何國(guó)斌;趙晶璐;;Web頁(yè)面主題相關(guān)性排序算法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年23期
7 姚國(guó)祥;羅偉其;沈鎮(zhèn)林;;網(wǎng)上信息搜索技術(shù)與搜索引擎[J];計(jì)算機(jī)科學(xué);2000年07期
8 吳敏琦;丁岳偉;;基于Nutch的XML網(wǎng)站全文搜索引擎實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2008年15期
9 余斯恒,鄭扣根,陳丹;一種面向商業(yè)領(lǐng)域的搜索引擎索引結(jié)構(gòu)設(shè)計(jì)及實(shí)現(xiàn)[J];計(jì)算機(jī)工程與科學(xué);2005年12期
10 徐飛;孫勁光;;中文分詞切分技術(shù)研究[J];計(jì)算機(jī)工程與科學(xué);2008年05期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 侯震宇;主題型搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 趙立剛;搜索引擎的研究與設(shè)計(jì)[D];吉林大學(xué);2005年
3 徐傳運(yùn);基于主題相關(guān)的P2P全文搜索引擎的研究[D];重慶大學(xué);2006年
4 董祥千;搜索引擎設(shè)計(jì)分析與結(jié)果聚類(lèi)改進(jìn)[D];電子科技大學(xué);2007年
5 劉強(qiáng)國(guó);主題搜索引擎設(shè)計(jì)與研究[D];電子科技大學(xué);2007年
6 葉勤勇;基于URL規(guī)則的聚焦爬蟲(chóng)及其應(yīng)用[D];浙江大學(xué);2007年
7 蘇曉珂;基于Nutch的主題爬蟲(chóng)研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2007年
8 胡曉博;面向特定領(lǐng)域的專業(yè)搜索引擎的架構(gòu)與實(shí)現(xiàn)方法[D];哈爾濱工程大學(xué);2007年
9 黃波;主題搜索引擎的研究與應(yīng)用[D];成都理工大學(xué);2007年
10 傅士光;基于主題的搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2007年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 丁璇,侯漢清,章成志;中文網(wǎng)頁(yè)標(biāo)引源主題表達(dá)能力的調(diào)查統(tǒng)計(jì)[J];大學(xué)圖書(shū)館學(xué)報(bào);2002年06期
2 赫楓齡,陶文學(xué),李凱,周力,左萬(wàn)利;新一代網(wǎng)絡(luò)搜索引擎系統(tǒng)CHINA_VIVI的實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2003年02期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 周勇生;你知道網(wǎng)頁(yè)是怎樣工作的嗎[J];多媒體世界;2000年12期
2 李瑩;網(wǎng)頁(yè)中多層效果的靈活使用[J];電腦編程技巧與維護(hù);2000年06期
3 李凡希;保存網(wǎng)頁(yè)的好方法[J];電腦愛(ài)好者;2000年18期
4 張東淮;一步一步做網(wǎng)頁(yè)(二)[J];電腦技術(shù);2001年08期
5 陸偉;如何制作和發(fā)布網(wǎng)頁(yè)[J];現(xiàn)代通信;2001年03期
6 葉知秋;特酷網(wǎng)頁(yè)輕松做[J];電腦愛(ài)好者;2001年15期
7 沁心;網(wǎng)頁(yè)自動(dòng)演示小工具——HTML Autorunner[J];電腦愛(ài)好者;2001年18期
8 趙杰;劉志宇;邢軍;;網(wǎng)頁(yè)設(shè)計(jì)與開(kāi)發(fā)[J];牡丹江師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2001年03期
9 陳勁宏;網(wǎng)頁(yè)減肥兩三招[J];電腦知識(shí)與技術(shù);2003年27期
10 溫傳偉;網(wǎng)頁(yè)圖片“當(dāng)當(dāng)當(dāng)”[J];電腦知識(shí)與技術(shù);2003年30期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁(yè)入侵檢測(cè)技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
2 林政;呂雅娟;劉群;馬希榮;;基于雙語(yǔ)混和網(wǎng)頁(yè)的平行語(yǔ)料挖掘[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網(wǎng)頁(yè)褒貶傾向性識(shí)別[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 隋春明;郭志豐;;網(wǎng)頁(yè)防篡改技術(shù)在電力信息網(wǎng)中的應(yīng)用[A];二○○九年全國(guó)電力企業(yè)信息化大會(huì)論文集[C];2009年
5 王海源;石睿智;;高校網(wǎng)頁(yè)惡意代碼的檢測(cè)、清理與預(yù)防[A];中國(guó)高等教育學(xué)會(huì)教育信息化分會(huì)第十次學(xué)術(shù)年會(huì)論文集[C];2010年
6 戴玉剛;;藏文網(wǎng)頁(yè)采集技術(shù)研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
7 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 范德生 鄧亞玲;[N];電腦報(bào);2005年
2 貞;[N];中國(guó)電腦教育報(bào);2002年
3 楊耀祥;[N];中國(guó)電腦教育報(bào);2003年
4 網(wǎng)天;[N];大眾科技報(bào);2000年
5 楊興平 六子;[N];電腦報(bào);2004年
6 河北 李永波;[N];電腦報(bào);2004年
7 ;[N];中國(guó)電腦教育報(bào);2004年
8 劉成富;[N];計(jì)算機(jī)世界;2004年
9 綿陽(yáng)南山 iled;[N];電腦報(bào);2001年
10 陳宗偉;[N];電腦報(bào);2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉典型;多頁(yè)面特殊網(wǎng)頁(yè)文字提取與合并技術(shù)研究[D];湖南大學(xué);2010年
2 熊茜;虛擬表示模型在網(wǎng)頁(yè)結(jié)構(gòu)化設(shè)計(jì)中的應(yīng)用[D];重慶大學(xué);2006年
3 秦超;網(wǎng)頁(yè)噪聲識(shí)別與消除方法研究[D];山東科技大學(xué);2011年
4 郭安;從韓國(guó)網(wǎng)頁(yè)設(shè)計(jì)看網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)的視覺(jué)呈現(xiàn)[D];武漢理工大學(xué);2008年
5 李翠輕;網(wǎng)頁(yè)設(shè)計(jì)中視覺(jué)傳達(dá)與信息傳遞的統(tǒng)一性研究[D];河北大學(xué);2009年
6 萬(wàn)唯一;基于數(shù)字水印的網(wǎng)頁(yè)防篡改技術(shù)研究[D];西南交通大學(xué);2012年
7 劉晨曦;網(wǎng)頁(yè)去噪音與分類(lèi)算法研究[D];華僑大學(xué);2008年
8 羅利民;網(wǎng)頁(yè)防篡改技術(shù)的研究與應(yīng)用[D];中南大學(xué);2008年
9 聶璐;論網(wǎng)頁(yè)界面設(shè)計(jì)中的人性化因素[D];湖南師范大學(xué);2010年
10 屠輝;中文重復(fù)網(wǎng)頁(yè)的檢測(cè)算法研究[D];北京郵電大學(xué);2010年
本文關(guān)鍵詞:基于網(wǎng)頁(yè)分塊的主題搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):221158
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/221158.html