天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎的主題網(wǎng)頁抓取策略研究

發(fā)布時間:2016-10-31 13:06

  本文關(guān)鍵詞:垂直搜索引擎的主題網(wǎng)頁抓取策略研究,由筆耕文化傳播整理發(fā)布。


《重慶理工大學》 2012年

垂直搜索引擎的主題網(wǎng)頁抓取策略研究

謝治軍  

【摘要】:隨著計算機網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為海量信息的主要載體,如何有效的利用這些信息,對人們來說是一個巨大的挑戰(zhàn)。搜索引擎作為信息檢索的工具,現(xiàn)已成為用戶訪問互聯(lián)網(wǎng)的入口和指南并受到廣大用戶的青睞。然而,傳統(tǒng)的搜索引擎正面臨著網(wǎng)頁索引規(guī)模、更新速度、個性化需求和查詢結(jié)果精度低等多方面的嚴峻挑戰(zhàn)。為解決傳統(tǒng)搜索引擎所面臨的突出問題,,面向特定主題的垂直搜索引擎便應(yīng)運而生。主題網(wǎng)頁抓取技術(shù)是構(gòu)建垂直搜索引擎的核心技術(shù),它的目標是盡可能多地抓取與特定主題內(nèi)容相關(guān)的網(wǎng)頁,同時最大限度地避免無關(guān)網(wǎng)頁的抓取。因此,對主題網(wǎng)頁抓取策略的研究具有十分重要的意義。 本文主要以垂直搜索引擎的主題網(wǎng)頁抓取策略作為研究內(nèi)容,從提高主題網(wǎng)頁抓取的準確率和效率作為出發(fā)點,詳細分析了現(xiàn)有的主題網(wǎng)頁抓取方法及其優(yōu)缺點。重點分析了基于隱馬爾科夫模型的主題網(wǎng)頁抓取策略的實現(xiàn)和優(yōu)缺點,以此為基礎(chǔ),提出了一種改進的主題網(wǎng)頁抓取策略。為了使特征詞權(quán)重更能代表網(wǎng)頁的真實內(nèi)容,改進了網(wǎng)頁預處理后的特征詞權(quán)重的計算方式,對網(wǎng)頁中不同位置的特征詞賦予不同的權(quán)重。為了提高主題網(wǎng)頁抓取的準確率,改進了待爬行隊列中URL優(yōu)先權(quán)值的計算方法,綜合考慮了隱馬爾科夫模型方法和網(wǎng)頁內(nèi)容相關(guān)度方法。 為了驗證改進算法的性能和效率,本文將改進后的方法與隱馬爾科夫方法和Best-First方法進行對比,實驗結(jié)果表明,在抓取大量主題網(wǎng)頁時,改進后的方法能抓取大量與給定主題相關(guān)的高質(zhì)量網(wǎng)頁,主題爬行性能優(yōu)于改進前的隱馬爾科夫方法和Best-First方法。

【關(guān)鍵詞】:
【學位授予單位】:重慶理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 宋宇;孟祥增;;基于改進Fish-search算法的多媒體檢索[J];計算機工程;2008年11期

2 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

3 連浩;劉悅;許洪波;程學旗;;改進的基于布爾模型的網(wǎng)頁查重算法[J];計算機應(yīng)用研究;2007年02期

4 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期

5 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計算機應(yīng)用研究;2009年05期

6 鄒永斌;陳興蜀;王文賢;;基于貝葉斯分類器的主題爬蟲研究[J];計算機應(yīng)用研究;2009年09期

7 陳軍;陳竹敏;;基于網(wǎng)頁分塊的Shark-Search算法[J];山東大學學報(理學版);2007年09期

8 謝治軍;楊武;李稚楹;宋靜靜;;基于HMM的主題爬蟲研究[J];重慶工商大學學報(自然科學版);2012年02期

中國博士學位論文全文數(shù)據(jù)庫 前2條

1 陳定權(quán);自動主題搜索的應(yīng)用研究[D];中國科學院研究生院(文獻情報中心);2003年

2 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

中國碩士學位論文全文數(shù)據(jù)庫 前5條

1 向虹;基于HMM的協(xié)議異常檢測技術(shù)研究[D];北京交通大學;2007年

2 倪賢貴;聚焦爬蟲技術(shù)研究[D];江南大學;2008年

3 朱克峰;基于隱馬爾科夫模型的人臉認證算法研究[D];北京交通大學;2009年

4 吳世杰;基于支持向量機分類算法的主題爬蟲的研究與實現(xiàn)[D];華中師范大學;2009年

5 彭樂;基于HMM的定題信息采集研究與實踐[D];東華大學;2010年

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻信息檢索系統(tǒng)的研究[J];安徽大學學報(自然科學版);2009年05期

2 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學;2007年22期

3 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學;2009年20期

4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期

5 謝能付;王文生;段延娥;;基于概念空間的領(lǐng)域信息爬蟲設(shè)計研究[J];江西師范大學學報(自然科學版);2008年02期

6 任斌;毛應(yīng)爽;;基于本體的主動學習主題爬行的研究與實現(xiàn)[J];長春工程學院學報(自然科學版);2011年01期

7 楊仁廣;孟祥增;;網(wǎng)絡(luò)多媒體教學資源主題搜索研究[J];電化教育研究;2009年05期

8 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學;2012年02期

9 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實現(xiàn)[J];電腦編程技巧與維護;2010年18期

10 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期

中國重要會議論文全文數(shù)據(jù)庫 前5條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年

2 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學術(shù)論壇論文集(二)[C];2008年

3 劉兵;胡學鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學術(shù)會議論文集(上冊)[C];2009年

4 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年

5 單鐵城;張安妮;馬德輝;;基于爬蟲改進算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學術(shù)年會論文集[C];2012年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年

2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年

3 安璐;基于自組織映射的期刊主題研究[D];武漢大學;2009年

4 張翔;文本挖掘技術(shù)研究及其在綜合風險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學;2011年

5 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年

6 田俊華;基于本體知識庫的教學資源自動采集技術(shù)研究[D];南京師范大學;2011年

7 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

8 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學;2010年

9 萬源;基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學;2012年

10 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學;2012年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學;2010年

2 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年

3 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年

4 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年

5 李永春;主題搜索引擎的研究與實現(xiàn)[D];哈爾濱理工大學;2010年

6 鐘銳;基于隱馬爾科夫模型的入侵檢測系統(tǒng)研究[D];江西理工大學;2010年

7 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學;2010年

8 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學;2009年

9 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學;2010年

10 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學學報(自然科學版);2001年05期

2 王玲;穆志純;郭輝;;一種基于聚類的支持向量機增量學習算法[J];北京科技大學學報;2007年08期

3 徐光美;楊炳儒;秦奕青;張偉;;基于互信息的多關(guān)系樸素貝葉斯分類器[J];北京科技大學學報;2008年08期

4 朱靖波,姚天順;文本內(nèi)容主題的識別方法[J];東北大學學報;2002年05期

5 張明衛(wèi);王波;張斌;朱志良;;基于相關(guān)系數(shù)的加權(quán)樸素貝葉斯分類算法[J];東北大學學報(自然科學版);2008年07期

6 林鴻飛,高仁璟;基于潛在語義索引的文本摘要方法[J];大連理工大學學報;2001年06期

7 傅明,史長瓊,彭玉旭;基于Internet的空間數(shù)據(jù)搜索引擎的研究與設(shè)計[J];電腦與信息技術(shù);2000年04期

8 盧微;;隱馬爾可夫模型在自然語言理解研究中的應(yīng)用[J];電腦與信息技術(shù);2007年01期

9 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學報;2000年S1期

10 柳征;王明陽;姜文利;周一宇;;一種新的貝葉斯調(diào)制分類算法[J];電子與信息學報;2006年07期

中國博士學位論文全文數(shù)據(jù)庫 前4條

1 張智雄;Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實踐研究[D];中國科學院文獻情報中心;2000年

2 李廣建;個性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2002年

3 毛軍;Web信息服務(wù)中受控語言研究[D];中國科學院研究生院(文獻情報中心);2002年

4 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫 前3條

1 王勝海;網(wǎng)絡(luò)智能知識服務(wù)系統(tǒng)設(shè)計與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2002年

2 張儉恭;擴展元搜索引擎(EMSE)的系統(tǒng)設(shè)計[D];中國科學院研究生院(文獻情報中心);2002年

3 侯震宇;主題型搜索引擎的研究與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2003年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學[J];科學24小時;2003年Z1期

2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期

3 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期

4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期

5 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

6 牟思;;基于垂直搜索引擎的學校網(wǎng)站的研究與建設(shè)[J];中國教育技術(shù)裝備;2011年21期

7 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期

8 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年31期

9 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期

10 宿建光;;指點通:移動垂直搜索的創(chuàng)新者[J];通信世界;2007年03期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學會第十七屆信息論學術(shù)年會論文集[C];2010年

4 何莉;林鴻飛;;分布式檢索中基于主題的語言模型集合選擇策略[A];2009年全國開放式分布與并行計算機學術(shù)會議論文集(下冊)[C];2009年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年

6 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

7 黃天航;;面向數(shù)字城市規(guī)劃的數(shù)據(jù)倉庫構(gòu)建中主題信息的組織與提取研究——以大北京區(qū)域規(guī)劃為例[A];規(guī)劃創(chuàng)新:2010中國城市規(guī)劃年會論文集[C];2010年

8 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

9 吳筱媛;鄧紅素;顧寧;邱君瑞;耿亦兵;;一種支持信息發(fā)現(xiàn)的元數(shù)據(jù)描述方法[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2001年

10 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;[N];計算機世界;2010年

2 王艷;[N];中國旅游報;2000年

3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年

4 王靖;[N];人民日報海外版;2000年

5 記者 王滸;[N];中國旅游報;2009年

6 本報記者 王宏;[N];中國計算機報;2001年

7 徐瑾 張玉;[N];人民郵電;2009年

8 ;[N];計算機世界;2005年

9 本報記者 王曉雁;[N];法制日報;2009年

10 記者 吳德群;[N];深圳特區(qū)報;2009年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術(shù)大學;2012年

4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學;2013年

5 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學;2010年

6 唐穎軍;基于語義主題模型的圖像場景分類研究[D];北京交通大學;2010年

7 徐盛;基于主題模型的高空間分辨率遙感影像分類研究[D];上海交通大學;2012年

8 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學;2013年

9 蒲強;基于獨立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學;2010年

10 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年

2 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學;2013年

3 劉相琴;大豆主題垂直搜索引擎關(guān)鍵技術(shù)的研究與設(shè)計[D];東北農(nóng)業(yè)大學;2013年

4 黃勝根;智能垂直搜索引擎的研究與設(shè)計[D];重慶大學;2010年

5 張行;木材垂直搜索引擎設(shè)計與實現(xiàn)[D];北京林業(yè)大學;2012年

6 陳高維;基于垂直搜索引擎的旅游線路評價推薦系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學;2010年

7 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年

8 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2009年

9 王延臣;基于高校信息垂直搜索引擎的研究與實現(xiàn)[D];沈陽建筑大學;2012年

10 張斌;基于本體的食品安全垂直搜索引擎研究[D];浙江工業(yè)大學;2013年


  本文關(guān)鍵詞:垂直搜索引擎的主題網(wǎng)頁抓取策略研究,由筆耕文化傳播整理發(fā)布。



本文編號:159927

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/159927.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b17c2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com