安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:為提高企業(yè)內(nèi)安卓研發(fā)人員的工作效率,企業(yè)開(kāi)發(fā)了安卓技術(shù)信息的垂直搜索引擎。在垂直搜索引擎中,最為基礎(chǔ)和底層的數(shù)據(jù)是由主題爬蟲(chóng)提供的。因此主題爬蟲(chóng)的能力決定了整個(gè)垂直搜索引擎在該領(lǐng)域上的專業(yè)程度。而主題爬蟲(chóng)能夠找準(zhǔn)方向進(jìn)行爬行就能高效合理地到達(dá)垂直資源所在的位置,也就能高效率地獲得符合主題的資源。為此,本文將對(duì)主題爬蟲(chóng)的核心部分——主題爬行策略展開(kāi)論述,并針對(duì)策略中的兩個(gè)子功能網(wǎng)頁(yè)主題相關(guān)度判斷和隧道穿越進(jìn)行研究與實(shí)現(xiàn)。因此論文比較了現(xiàn)有的基于網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)鏈接結(jié)構(gòu)多種算法的優(yōu)劣,并對(duì)安卓技術(shù)信息的資源進(jìn)行分析制定專有的網(wǎng)頁(yè)主題相關(guān)度判斷方案,并實(shí)現(xiàn)穿越隧道的能力。其中主要貢獻(xiàn)如下:(1)實(shí)現(xiàn)了參考谷歌的網(wǎng)頁(yè)排名算法并改進(jìn)了鯊魚搜索對(duì)主題背景不適用的部分,最后結(jié)合一個(gè)參考網(wǎng)頁(yè)兄弟節(jié)點(diǎn)的綜合方案進(jìn)行爬行;(2)為了提高獲取主題資源的準(zhǔn)確率,課題制定了基于向量空間模型對(duì)分類后的網(wǎng)頁(yè)內(nèi)容進(jìn)行主題相關(guān)度計(jì)算的方法;(3)為擴(kuò)大爬行結(jié)果在網(wǎng)站中主題資源的覆蓋程度,使用繼承相關(guān)性和遞減搜集隧道種子的特性來(lái)實(shí)現(xiàn)隧道穿越功能;對(duì)主題爬蟲(chóng)的關(guān)鍵模塊實(shí)現(xiàn)后進(jìn)行測(cè)試驗(yàn)證,結(jié)果表明,實(shí)現(xiàn)的主題爬蟲(chóng)能較有效率的爬行和準(zhǔn)確的抓取到主題相關(guān)的網(wǎng)頁(yè),并能通過(guò)隧道穿越解決主題孤島現(xiàn)象。但仍存在部分主題相關(guān)的網(wǎng)頁(yè)被誤判無(wú)法拾回的現(xiàn)象,在執(zhí)行隧道穿越中依舊遍歷了大量的網(wǎng)頁(yè)數(shù),占用網(wǎng)絡(luò)帶寬和計(jì)算資源,這是下一步要改進(jìn)的工作。
【關(guān)鍵詞】:主題爬蟲(chóng) 安卓技術(shù) 隧道穿越 主題詞庫(kù) 爬行策略
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 中英文對(duì)照表9-10
- 第一章 緒論10-14
- 1.1 研究背景及意義10
- 1.2 網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀綜述10-12
- 1.2.1 常見(jiàn)爬蟲(chóng)研究方向10-11
- 1.2.2 國(guó)內(nèi)外著名的主題爬蟲(chóng)11-12
- 1.3 研究?jī)?nèi)容12-13
- 1.4 論文組織結(jié)構(gòu)13-14
- 第二章 相關(guān)技術(shù)14-27
- 2.1 主題爬行策略技術(shù)14-18
- 2.1.1 超文本歸納主題搜索14-15
- 2.1.2 網(wǎng)頁(yè)排名與山頂算法15-16
- 2.1.3 最佳優(yōu)先搜索16
- 2.1.4 魚群搜索與鯊魚搜索16-18
- 2.2 主題相關(guān)度判別技術(shù)18-23
- 2.2.1 主題相關(guān)度計(jì)算方法19-21
- 2.2.2 正文提取方法21-22
- 2.2.3 權(quán)重賦值方法22-23
- 2.3 隧道穿越技術(shù)23-24
- 2.4 主題爬蟲(chóng)系統(tǒng)工作流程24-25
- 2.5 網(wǎng)絡(luò)中垂直領(lǐng)域信息資源現(xiàn)狀25-27
- 第三章 主題爬行策略27-39
- 3.1 功能分析27-28
- 3.1.1 主題爬行策略概述27
- 3.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求27-28
- 3.2 設(shè)計(jì)方案28
- 3.3 功能設(shè)計(jì)28-33
- 3.3.1 選取爬行策略類型28-29
- 3.3.2 優(yōu)化鯊魚搜索29-31
- 3.3.3 網(wǎng)頁(yè)排序算法融入策略31-32
- 3.3.4 使用兄弟節(jié)點(diǎn)作參考32-33
- 3.4 方案實(shí)現(xiàn)33-39
- 第四章 網(wǎng)頁(yè)主題相關(guān)度判斷39-48
- 4.1 功能分析39-40
- 4.1.1 網(wǎng)頁(yè)主題相關(guān)度判斷概述39
- 4.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求39-40
- 4.2 設(shè)計(jì)方案40
- 4.3 功能設(shè)計(jì)40-46
- 4.3.1 建立主題詞庫(kù)40-42
- 4.3.2 對(duì)正文提取及代碼段去噪42-43
- 4.3.3 安卓技術(shù)信息資源分類處理43-45
- 4.3.4 對(duì)單塊文本主題相似度計(jì)算45-46
- 4.4 方案實(shí)現(xiàn)46-48
- 第五章 隧道穿越48-56
- 5.1 功能分析48-49
- 5.1.1 隧道穿越概述48
- 5.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求48-49
- 5.2 設(shè)計(jì)方案49
- 5.3 功能設(shè)計(jì)49-51
- 5.3.1 關(guān)聯(lián)特性和深度限制49
- 5.3.2 判斷主題孤島現(xiàn)象發(fā)生49-50
- 5.3.3 遞減收集方法50-51
- 5.4 方案實(shí)現(xiàn)51-56
- 第六章 總結(jié)與展望56-58
- 6.1 總結(jié)56
- 6.2 下一步工作及展望56-58
- 致謝58-59
- 參考文獻(xiàn)59-61
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹(shù)比較的Web頁(yè)面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 解琰;主題優(yōu)化過(guò)濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁(yè)的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲(chóng)及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
本文關(guān)鍵詞:安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):374736
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374736.html