天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-18 00:04

  本文關(guān)鍵詞:安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:為提高企業(yè)內(nèi)安卓研發(fā)人員的工作效率,企業(yè)開(kāi)發(fā)了安卓技術(shù)信息的垂直搜索引擎。在垂直搜索引擎中,最為基礎(chǔ)和底層的數(shù)據(jù)是由主題爬蟲(chóng)提供的。因此主題爬蟲(chóng)的能力決定了整個(gè)垂直搜索引擎在該領(lǐng)域上的專業(yè)程度。而主題爬蟲(chóng)能夠找準(zhǔn)方向進(jìn)行爬行就能高效合理地到達(dá)垂直資源所在的位置,也就能高效率地獲得符合主題的資源。為此,本文將對(duì)主題爬蟲(chóng)的核心部分——主題爬行策略展開(kāi)論述,并針對(duì)策略中的兩個(gè)子功能網(wǎng)頁(yè)主題相關(guān)度判斷和隧道穿越進(jìn)行研究與實(shí)現(xiàn)。因此論文比較了現(xiàn)有的基于網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)鏈接結(jié)構(gòu)多種算法的優(yōu)劣,并對(duì)安卓技術(shù)信息的資源進(jìn)行分析制定專有的網(wǎng)頁(yè)主題相關(guān)度判斷方案,并實(shí)現(xiàn)穿越隧道的能力。其中主要貢獻(xiàn)如下:(1)實(shí)現(xiàn)了參考谷歌的網(wǎng)頁(yè)排名算法并改進(jìn)了鯊魚搜索對(duì)主題背景不適用的部分,最后結(jié)合一個(gè)參考網(wǎng)頁(yè)兄弟節(jié)點(diǎn)的綜合方案進(jìn)行爬行;(2)為了提高獲取主題資源的準(zhǔn)確率,課題制定了基于向量空間模型對(duì)分類后的網(wǎng)頁(yè)內(nèi)容進(jìn)行主題相關(guān)度計(jì)算的方法;(3)為擴(kuò)大爬行結(jié)果在網(wǎng)站中主題資源的覆蓋程度,使用繼承相關(guān)性和遞減搜集隧道種子的特性來(lái)實(shí)現(xiàn)隧道穿越功能;對(duì)主題爬蟲(chóng)的關(guān)鍵模塊實(shí)現(xiàn)后進(jìn)行測(cè)試驗(yàn)證,結(jié)果表明,實(shí)現(xiàn)的主題爬蟲(chóng)能較有效率的爬行和準(zhǔn)確的抓取到主題相關(guān)的網(wǎng)頁(yè),并能通過(guò)隧道穿越解決主題孤島現(xiàn)象。但仍存在部分主題相關(guān)的網(wǎng)頁(yè)被誤判無(wú)法拾回的現(xiàn)象,在執(zhí)行隧道穿越中依舊遍歷了大量的網(wǎng)頁(yè)數(shù),占用網(wǎng)絡(luò)帶寬和計(jì)算資源,這是下一步要改進(jìn)的工作。
【關(guān)鍵詞】:主題爬蟲(chóng) 安卓技術(shù) 隧道穿越 主題詞庫(kù) 爬行策略
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 中英文對(duì)照表9-10
  • 第一章 緒論10-14
  • 1.1 研究背景及意義10
  • 1.2 網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀綜述10-12
  • 1.2.1 常見(jiàn)爬蟲(chóng)研究方向10-11
  • 1.2.2 國(guó)內(nèi)外著名的主題爬蟲(chóng)11-12
  • 1.3 研究?jī)?nèi)容12-13
  • 1.4 論文組織結(jié)構(gòu)13-14
  • 第二章 相關(guān)技術(shù)14-27
  • 2.1 主題爬行策略技術(shù)14-18
  • 2.1.1 超文本歸納主題搜索14-15
  • 2.1.2 網(wǎng)頁(yè)排名與山頂算法15-16
  • 2.1.3 最佳優(yōu)先搜索16
  • 2.1.4 魚群搜索與鯊魚搜索16-18
  • 2.2 主題相關(guān)度判別技術(shù)18-23
  • 2.2.1 主題相關(guān)度計(jì)算方法19-21
  • 2.2.2 正文提取方法21-22
  • 2.2.3 權(quán)重賦值方法22-23
  • 2.3 隧道穿越技術(shù)23-24
  • 2.4 主題爬蟲(chóng)系統(tǒng)工作流程24-25
  • 2.5 網(wǎng)絡(luò)中垂直領(lǐng)域信息資源現(xiàn)狀25-27
  • 第三章 主題爬行策略27-39
  • 3.1 功能分析27-28
  • 3.1.1 主題爬行策略概述27
  • 3.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求27-28
  • 3.2 設(shè)計(jì)方案28
  • 3.3 功能設(shè)計(jì)28-33
  • 3.3.1 選取爬行策略類型28-29
  • 3.3.2 優(yōu)化鯊魚搜索29-31
  • 3.3.3 網(wǎng)頁(yè)排序算法融入策略31-32
  • 3.3.4 使用兄弟節(jié)點(diǎn)作參考32-33
  • 3.4 方案實(shí)現(xiàn)33-39
  • 第四章 網(wǎng)頁(yè)主題相關(guān)度判斷39-48
  • 4.1 功能分析39-40
  • 4.1.1 網(wǎng)頁(yè)主題相關(guān)度判斷概述39
  • 4.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求39-40
  • 4.2 設(shè)計(jì)方案40
  • 4.3 功能設(shè)計(jì)40-46
  • 4.3.1 建立主題詞庫(kù)40-42
  • 4.3.2 對(duì)正文提取及代碼段去噪42-43
  • 4.3.3 安卓技術(shù)信息資源分類處理43-45
  • 4.3.4 對(duì)單塊文本主題相似度計(jì)算45-46
  • 4.4 方案實(shí)現(xiàn)46-48
  • 第五章 隧道穿越48-56
  • 5.1 功能分析48-49
  • 5.1.1 隧道穿越概述48
  • 5.1.2 設(shè)計(jì)與實(shí)現(xiàn)要求48-49
  • 5.2 設(shè)計(jì)方案49
  • 5.3 功能設(shè)計(jì)49-51
  • 5.3.1 關(guān)聯(lián)特性和深度限制49
  • 5.3.2 判斷主題孤島現(xiàn)象發(fā)生49-50
  • 5.3.3 遞減收集方法50-51
  • 5.4 方案實(shí)現(xiàn)51-56
  • 第六章 總結(jié)與展望56-58
  • 6.1 總結(jié)56
  • 6.2 下一步工作及展望56-58
  • 致謝58-59
  • 參考文獻(xiàn)59-61

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期

10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹(shù)比較的Web頁(yè)面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年

2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年

3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 解琰;主題優(yōu)化過(guò)濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年

2 楊春艷;基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年

3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年

4 黃志;基于維基歧義頁(yè)的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年

5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年

6 任昱鳳;基于Hadoop的分布式主題爬蟲(chóng)及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年

7 韓琳;基于貝葉斯主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年

9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年

10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年


  本文關(guān)鍵詞:安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):374736

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374736.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9b89***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com