基于高校信息垂直搜索引擎的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-09 00:08
近年來隨著計(jì)算機(jī)的普及和網(wǎng)絡(luò)的高速發(fā)展,網(wǎng)絡(luò)信息呈爆炸似的增長,人們已經(jīng)邁進(jìn)了信息時(shí)代。網(wǎng)絡(luò)已經(jīng)成為日常生活、工作和學(xué)習(xí)必不可少的一部分。面對海量的信息資源,像百度、Google等通用的搜索引擎系統(tǒng)在幫助人們查找信息的同時(shí),也帶來了大量的無用的信息給用戶帶來了一定的困擾。人們迫切需要一個(gè)查詢質(zhì)量更高,反饋效果更好尤其是針對某一領(lǐng)域的搜索引擎,在此背景下,面向?qū)I(yè)領(lǐng)域的搜索引擎——垂直搜索引擎誕生了。垂直搜索引擎通俗來講是將某一類或是某一領(lǐng)域方面的網(wǎng)絡(luò)信息集中起來構(gòu)建成一個(gè)資源庫,為只關(guān)心這方面信息的人群服務(wù)。相對于通用搜索引擎用戶比較單一,但它能為用戶提供更加準(zhǔn)確、更加專業(yè)的主題信息,這也是它的特點(diǎn)所在。目前網(wǎng)絡(luò)上針對旅游、汽車、房產(chǎn)等方面的都有比較好的垂直搜索引擎網(wǎng)站,但還沒有或比較成熟的針對于高校信息領(lǐng)域的搜索引擎系統(tǒng),而隨著高等教育信息化快速發(fā)展網(wǎng)絡(luò)上這一類信息日益增多且分布松散,所以創(chuàng)建一個(gè)面向高校信息查詢的搜索引擎系統(tǒng)對關(guān)注這方面的群體是很有幫助的。本文首先論述搜索引擎的研究意義和背景,并認(rèn)真分析當(dāng)前流行的搜索引擎的特點(diǎn)和不足,進(jìn)而引入垂直搜索引擎的概念、工作原理和體系結(jié)構(gòu)。...
【文章來源】:沈陽建筑大學(xué)遼寧省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 引言
1.2 選題背景和研究意義
1.2.1 選題背景
1.2.2 研究意義
1.3 論文的主要內(nèi)容和結(jié)構(gòu)
第二章 搜索引擎相關(guān)知識介紹
2.1 搜索引擎概述
2.1.1 搜索引擎的概念
2.1.2 搜索引擎的發(fā)展歷史
2.1.3 搜索引擎的分類
2.2 搜索引擎的工作原理
2.3 通用搜索引擎的局限性
2.4 垂直搜索引擎
2.4.1 垂直搜索引擎概述
2.4.2 垂直搜索引擎的工作原理
2.4.3 垂直搜索引擎的體系結(jié)構(gòu)
2.5 本章小結(jié)
第三章 垂直搜索引擎關(guān)鍵技術(shù)研究
3.1 網(wǎng)絡(luò)爬蟲的搜索策略
3.1.1 基于網(wǎng)頁鏈接的搜索策略
3.1.2 基于網(wǎng)頁內(nèi)容分析的搜索策略
3.2 信息處理技術(shù)
3.2.1 網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)
3.2.2 網(wǎng)頁消重
3.3 中文分詞技術(shù)的研究
3.4 LUCENE 索引技術(shù)研究
3.5 本章小結(jié)
第四章 高校信息的垂直搜索引擎研究與設(shè)計(jì)
4.1 需求分析和實(shí)現(xiàn)目標(biāo)
4.2 高校信息垂直搜索引擎的設(shè)計(jì)
4.3 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)
4.4 索引和檢索設(shè)計(jì)
4.5 本章小結(jié)
第五章 高校信息垂直搜索引擎的實(shí)現(xiàn)
5.1 網(wǎng)絡(luò)爬蟲抓取信息功能的實(shí)現(xiàn)
5.1.1 構(gòu)建主題知識庫
5.1.2 主題爬行器類與接口實(shí)現(xiàn)
5.1.3 頁面相關(guān)度分析
5.2 索引和檢索的實(shí)現(xiàn)
5.2.1 Lucene 索引建立
5.2.2 索引器實(shí)現(xiàn)
5.3 實(shí)現(xiàn)結(jié)果與比較
5.4 本章小結(jié)
第六章 總結(jié)
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
作者簡介
致謝
【參考文獻(xiàn)】:
期刊論文
[1]面向垂直搜索引擎的Web站點(diǎn)劃分方案[J]. 李學(xué)凱,許笑,孫春奇,張偉哲,李斌. 計(jì)算機(jī)工程. 2010(08)
[2]基于內(nèi)容和鏈接分析的主題爬蟲策略[J]. 劉朋,林泓,高德威. 計(jì)算機(jī)與數(shù)字工程. 2009(01)
[3]一種基于Lucene的中文全文檢索系統(tǒng)[J]. 蘇潭英,郭憲勇,金鑫. 計(jì)算機(jī)工程. 2007(23)
[4]自適應(yīng)最優(yōu)搜索算法的網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[J]. 魏文國,謝桂園. 計(jì)算機(jī)應(yīng)用. 2007(11)
[5]Web信息的自主抽取方法[J]. 許建潮,侯錕. 計(jì)算機(jī)工程與應(yīng)用. 2005(14)
[6]專業(yè)搜索引擎搜索策略綜述[J]. 歐陽柳波,李學(xué)勇,李國徽,王鑫. 計(jì)算機(jī)工程. 2004(13)
[7]HITS算法與PageRank算法比較分析[J]. 何曉陽,吳強(qiáng),吳治蓉. 情報(bào)雜志. 2004(02)
[8]爬行蟲算法設(shè)計(jì)與程序?qū)崿F(xiàn)[J]. 杜亞軍,嚴(yán)兵,宋亮. 計(jì)算機(jī)應(yīng)用. 2004(01)
[9]一種基于向量空間模型的個(gè)性化搜索引擎研究[J]. 張?jiān)?趙仲孟,沈鈞毅. 微電子學(xué)與計(jì)算機(jī). 2003(11)
[10]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學(xué)研究. 2003(02)
博士論文
[1]文本檢索中若干問題研究[D]. 王秀娟.北京郵電大學(xué) 2006
碩士論文
[1]垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D]. 姚琪.上海交通大學(xué) 2008
本文編號:3484269
【文章來源】:沈陽建筑大學(xué)遼寧省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 引言
1.2 選題背景和研究意義
1.2.1 選題背景
1.2.2 研究意義
1.3 論文的主要內(nèi)容和結(jié)構(gòu)
第二章 搜索引擎相關(guān)知識介紹
2.1 搜索引擎概述
2.1.1 搜索引擎的概念
2.1.2 搜索引擎的發(fā)展歷史
2.1.3 搜索引擎的分類
2.2 搜索引擎的工作原理
2.3 通用搜索引擎的局限性
2.4 垂直搜索引擎
2.4.1 垂直搜索引擎概述
2.4.2 垂直搜索引擎的工作原理
2.4.3 垂直搜索引擎的體系結(jié)構(gòu)
2.5 本章小結(jié)
第三章 垂直搜索引擎關(guān)鍵技術(shù)研究
3.1 網(wǎng)絡(luò)爬蟲的搜索策略
3.1.1 基于網(wǎng)頁鏈接的搜索策略
3.1.2 基于網(wǎng)頁內(nèi)容分析的搜索策略
3.2 信息處理技術(shù)
3.2.1 網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)
3.2.2 網(wǎng)頁消重
3.3 中文分詞技術(shù)的研究
3.4 LUCENE 索引技術(shù)研究
3.5 本章小結(jié)
第四章 高校信息的垂直搜索引擎研究與設(shè)計(jì)
4.1 需求分析和實(shí)現(xiàn)目標(biāo)
4.2 高校信息垂直搜索引擎的設(shè)計(jì)
4.3 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)
4.4 索引和檢索設(shè)計(jì)
4.5 本章小結(jié)
第五章 高校信息垂直搜索引擎的實(shí)現(xiàn)
5.1 網(wǎng)絡(luò)爬蟲抓取信息功能的實(shí)現(xiàn)
5.1.1 構(gòu)建主題知識庫
5.1.2 主題爬行器類與接口實(shí)現(xiàn)
5.1.3 頁面相關(guān)度分析
5.2 索引和檢索的實(shí)現(xiàn)
5.2.1 Lucene 索引建立
5.2.2 索引器實(shí)現(xiàn)
5.3 實(shí)現(xiàn)結(jié)果與比較
5.4 本章小結(jié)
第六章 總結(jié)
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
作者簡介
致謝
【參考文獻(xiàn)】:
期刊論文
[1]面向垂直搜索引擎的Web站點(diǎn)劃分方案[J]. 李學(xué)凱,許笑,孫春奇,張偉哲,李斌. 計(jì)算機(jī)工程. 2010(08)
[2]基于內(nèi)容和鏈接分析的主題爬蟲策略[J]. 劉朋,林泓,高德威. 計(jì)算機(jī)與數(shù)字工程. 2009(01)
[3]一種基于Lucene的中文全文檢索系統(tǒng)[J]. 蘇潭英,郭憲勇,金鑫. 計(jì)算機(jī)工程. 2007(23)
[4]自適應(yīng)最優(yōu)搜索算法的網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[J]. 魏文國,謝桂園. 計(jì)算機(jī)應(yīng)用. 2007(11)
[5]Web信息的自主抽取方法[J]. 許建潮,侯錕. 計(jì)算機(jī)工程與應(yīng)用. 2005(14)
[6]專業(yè)搜索引擎搜索策略綜述[J]. 歐陽柳波,李學(xué)勇,李國徽,王鑫. 計(jì)算機(jī)工程. 2004(13)
[7]HITS算法與PageRank算法比較分析[J]. 何曉陽,吳強(qiáng),吳治蓉. 情報(bào)雜志. 2004(02)
[8]爬行蟲算法設(shè)計(jì)與程序?qū)崿F(xiàn)[J]. 杜亞軍,嚴(yán)兵,宋亮. 計(jì)算機(jī)應(yīng)用. 2004(01)
[9]一種基于向量空間模型的個(gè)性化搜索引擎研究[J]. 張?jiān)?趙仲孟,沈鈞毅. 微電子學(xué)與計(jì)算機(jī). 2003(11)
[10]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學(xué)研究. 2003(02)
博士論文
[1]文本檢索中若干問題研究[D]. 王秀娟.北京郵電大學(xué) 2006
碩士論文
[1]垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D]. 姚琪.上海交通大學(xué) 2008
本文編號:3484269
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3484269.html
最近更新
教材專著