天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-20 09:09

  本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式增長(zhǎng)。由于互聯(lián)網(wǎng)上的數(shù)據(jù)過于龐大,數(shù)據(jù)增長(zhǎng)快而且更新十分迅速,并且具有很強(qiáng)的動(dòng)態(tài)性,所以用戶難以快速準(zhǔn)確的獲取到自己需要的信息。為了從如此浩瀚、巨大的資料庫(kù)中快速精準(zhǔn)地查找用戶所需資料,同時(shí)盡可能忽略掉不相關(guān)的信息,搜索引擎技術(shù)應(yīng)運(yùn)而生。作為一個(gè)輔助人們檢索信息的工具、用戶訪問萬維網(wǎng)的入口和指南,搜索引擎的目標(biāo)是達(dá)到盡可能高的網(wǎng)絡(luò)覆蓋率,但是高的網(wǎng)絡(luò)覆蓋率又會(huì)導(dǎo)致其為用戶提供的無用信息過多。此外傳統(tǒng)搜索引擎提供的特定領(lǐng)域的信息檢索結(jié)果不夠?qū)I(yè),無法滿足特定領(lǐng)域、特定專業(yè)人群的特定需求。 為了解決傳統(tǒng)搜索引擎的局限性,本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng),用于爬取互聯(lián)網(wǎng)中的新聞和博客頁(yè)面。本文完成了以下工作: 首先,研究傳統(tǒng)網(wǎng)絡(luò)爬蟲和已有的主題爬蟲的相關(guān)技術(shù),并對(duì)其進(jìn)行簡(jiǎn)單介紹; 其次,針對(duì)系統(tǒng)在文本去重方面的需求,對(duì)文本去重技術(shù)進(jìn)行研究和探討,提出了基于語義指紋和LCS的文本快速去重方法; 再次,對(duì)系統(tǒng)進(jìn)行需求分析,并根據(jù)需求分析對(duì)系統(tǒng)功能和數(shù)據(jù)庫(kù)進(jìn)行總體設(shè)計(jì); 最后,對(duì)系統(tǒng)的主要功能模塊進(jìn)行了詳細(xì)設(shè)計(jì),包括功能模塊詳細(xì)設(shè)計(jì)、處理流程設(shè)計(jì),描述了系統(tǒng)關(guān)鍵模塊的代碼實(shí)現(xiàn),并簡(jiǎn)單展示了系統(tǒng)的運(yùn)行界面。 研究并實(shí)現(xiàn)的基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)支持多任務(wù)、多線程爬取頁(yè)面,支持用戶進(jìn)行參數(shù)配置、主題配置。該系統(tǒng)能提供實(shí)時(shí)的針對(duì)某一特定領(lǐng)域的新聞、博客信息的爬取。本文最后從數(shù)據(jù)抓取速率及主題判斷的準(zhǔn)確度兩個(gè)方面對(duì)系統(tǒng)的性能進(jìn)行驗(yàn)證,結(jié)果表明本系統(tǒng)能達(dá)到較高的網(wǎng)頁(yè)抓取速率,在主題資源搜索方面具有較高的準(zhǔn)確度和覆蓋率,同時(shí)具備良好的文本去重效果。
【關(guān)鍵詞】:主題爬蟲 文本去重 simhash LCS 相關(guān)度
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-10
  • 第一章 緒論10-14
  • 1.1 研究背景10-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-12
  • 1.3 本文主要研究工作12
  • 1.4 論文組織結(jié)構(gòu)12-14
  • 第二章 爬蟲基本原理及相關(guān)技術(shù)14-20
  • 2.1 爬蟲技術(shù)14
  • 2.2 通用爬蟲14-17
  • 2.2.1 通用爬蟲的基本工作流程14-15
  • 2.2.2 通用爬蟲爬行策略15-16
  • 2.2.3 通用爬蟲的不足16-17
  • 2.3 主題爬蟲17-19
  • 2.3.1 主題爬蟲的結(jié)構(gòu)17
  • 2.3.2 主題爬蟲的搜索策略17-19
  • 2.4 Crawler4J介紹19
  • 2.5 本章小結(jié)19-20
  • 第三章 系統(tǒng)關(guān)鍵算法研究20-34
  • 3.1 相關(guān)背景20-21
  • 3.2 基于語義指紋與LCS的文本去重方法21-22
  • 3.3 去重模型22
  • 3.4 特征向量生成22-25
  • 3.4.1 生成內(nèi)容特征向量22-24
  • 3.4.2 生成摘要特征向量24-25
  • 3.5 語義指紋生成25-26
  • 3.6 相似度計(jì)算26-29
  • 3.6.1 指紋相似度計(jì)算方法26-27
  • 3.6.2 內(nèi)容相似度計(jì)算方法27-29
  • 3.7 去重方法實(shí)現(xiàn)流程29-30
  • 3.8 實(shí)驗(yàn)驗(yàn)證30-33
  • 3.9 本章小結(jié)33-34
  • 第四章 系統(tǒng)需求分析與總體功能的設(shè)計(jì)34-55
  • 4.1 系統(tǒng)需求分析與系統(tǒng)目標(biāo)34-36
  • 4.1.1 功能性需求34-35
  • 4.1.2 非功能性需求35-36
  • 4.1.3 系統(tǒng)目標(biāo)36
  • 4.2 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)36-37
  • 4.3 系統(tǒng)層次結(jié)構(gòu)設(shè)計(jì)37-38
  • 4.4 系統(tǒng)功能架構(gòu)38-40
  • 4.5 系統(tǒng)流程設(shè)計(jì)40-42
  • 4.6 數(shù)據(jù)庫(kù)設(shè)計(jì)42-51
  • 4.6.1 概念模型設(shè)計(jì)42-43
  • 4.6.2 數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)設(shè)計(jì)43-45
  • 4.6.3 物理表的設(shè)計(jì)45-51
  • 4.7 主要接口設(shè)計(jì)51-53
  • 4.8 界面總體設(shè)計(jì)53-54
  • 4.8.1 界面設(shè)計(jì)原則53
  • 4.8.2 界面設(shè)計(jì)53-54
  • 4.9 本章小結(jié)54-55
  • 第五章 系統(tǒng)主要功能模塊的設(shè)計(jì)與實(shí)現(xiàn)55-77
  • 5.1 多線程爬蟲模塊55-61
  • 5.1.1 功能設(shè)計(jì)55-58
  • 5.1.2 流程設(shè)計(jì)58-60
  • 5.1.3 頁(yè)面更新檢測(cè)60
  • 5.1.4 關(guān)鍵代碼60-61
  • 5.2 主題判定模塊61-64
  • 5.2.1 功能設(shè)計(jì)61-62
  • 5.2.2 流程設(shè)計(jì)62
  • 5.2.3 算法設(shè)計(jì)62-63
  • 5.2.4 關(guān)鍵代碼63-64
  • 5.3 文本去重模塊64-69
  • 5.3.1 功能設(shè)計(jì)64
  • 5.3.2 流程設(shè)計(jì)64-65
  • 5.3.3 算法設(shè)計(jì)65
  • 5.3.4 關(guān)鍵代碼65-69
  • 5.4 信息檢索模塊69-72
  • 5.4.1 功能設(shè)計(jì)69
  • 5.4.2 構(gòu)建全文索引69-70
  • 5.4.3 信息檢索實(shí)現(xiàn)流程70-71
  • 5.4.4 關(guān)鍵代碼71-72
  • 5.5 系統(tǒng)界面設(shè)計(jì)與展示72-76
  • 5.5.1 界面整體結(jié)構(gòu)設(shè)計(jì)72
  • 5.5.2 界面展示72-76
  • 5.6 本章小結(jié)76-77
  • 第六章 實(shí)驗(yàn)及結(jié)果分析77-85
  • 6.1 實(shí)驗(yàn)環(huán)境77
  • 6.2 系統(tǒng)功能測(cè)試77-81
  • 6.3 系統(tǒng)性能測(cè)試81-84
  • 6.3.1 測(cè)試性能指標(biāo)82
  • 6.3.2 實(shí)驗(yàn)結(jié)果及評(píng)估82-84
  • 6.4 本章小結(jié)84-85
  • 第七章 總結(jié)與展望85-87
  • 7.1 論文工作總結(jié)85-86
  • 7.2 問題和展望86-87
  • 參考文獻(xiàn)87-89
  • 致謝89-90
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文90

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 沈樂平;黃維民;饒?zhí)熨F;;基于支持向量機(jī)的上市公司違規(guī)預(yù)警模型研究[J];中大管理研究;2008年02期

2 蔡冬松;靖繼鵬;;基于最小二乘支持向量機(jī)的數(shù)據(jù)挖掘應(yīng)用研究[J];情報(bào)科學(xué);2005年12期

3 陳濤;謝陽群;;基于支持向量機(jī)的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J];情報(bào)科學(xué);2006年07期

4 余傳明;張小青;陳雷;;基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報(bào)理論與實(shí)踐;2010年05期

5 王東波;蘇新寧;朱丹浩;年洪東;;基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動(dòng)分類研究[J];情報(bào)理論與實(shí)踐;2011年04期

6 夏火松;劉建;;基于VSM的文本分類挖掘算法綜述[J];情報(bào)探索;2010年09期

7 于承敏;凌海云;鄭麗萍;;數(shù)字圖書館中基于內(nèi)容的圖像檢索研究[J];情報(bào)探索;2011年04期

8 張愛麗,劉廣利,劉長(zhǎng)宇;基于SVM的多類文本分類研究[J];情報(bào)雜志;2004年09期

9 程娟;平西建;童莉;楊洋;;基于信息度量與SVM的文本圖像自動(dòng)提取技術(shù)[J];情報(bào)雜志;2006年04期

10 孫超;張玉峰;;基于SVM的企業(yè)競(jìng)爭(zhēng)情報(bào)自動(dòng)分類系統(tǒng)模型[J];情報(bào)雜志;2007年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 宋海鷹;桂衛(wèi)華;陽春華;;基于核偏最小二乘的簡(jiǎn)約最小二乘支持向量機(jī)及其應(yīng)用研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

2 顧小軍;楊世錫;錢蘇翔;;基于支持向量機(jī)的旋轉(zhuǎn)機(jī)械多類故障識(shí)別研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

3 呂蓬;柳亦兵;馬強(qiáng);魏于凡;;支持向量機(jī)在齒輪智能故障診斷中的應(yīng)用研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

4 姜明輝;袁緒川;;基于GA優(yōu)化的個(gè)人信用評(píng)估SVM模型[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

5 韓露;余正濤;鄧錦輝;章程;毛存禮;郭劍毅;;領(lǐng)域知識(shí)關(guān)系對(duì)領(lǐng)域文本分類的影響[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

6 吳靜珠;劉翠玲;孫曉容;;支持向量機(jī)在近紅外光譜檢測(cè)技術(shù)中的應(yīng)用研究[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年

7 尹鐘;張建華;;基于支持向量機(jī)方法的過程操作員功能狀態(tài)分類[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)A卷[C];2011年

8 楊坤;紀(jì)志成;;基于峰值識(shí)別的改進(jìn)SVM用電需求預(yù)測(cè)[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)B卷[C];2011年

9 晉朝勃;胡剛強(qiáng);史廣智;李玉陽;;一種采用支持向量機(jī)的水中目標(biāo)識(shí)別方法[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2011年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年

10 郭瑋;李智勇;朱晟;孫慧;;支持向量機(jī)在變壓器油溶解氣體檢測(cè)中的應(yīng)用[A];第一屆電力安全論壇優(yōu)秀論文集[C];2008年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 母麗華;煤礦安全預(yù)警系統(tǒng)的方法研究[D];哈爾濱工程大學(xué);2010年

2 朱廣平;混響干擾中的信號(hào)檢測(cè)技術(shù)研究[D];哈爾濱工程大學(xué);2009年

3 孔凡芝;引線鍵合視覺檢測(cè)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年

4 鄭大騰;柔性坐標(biāo)測(cè)量機(jī)空間誤差模型及最佳測(cè)量區(qū)研究[D];合肥工業(yè)大學(xué);2010年

5 王曉明;基于統(tǒng)計(jì)學(xué)習(xí)的模式識(shí)別幾個(gè)問題及其應(yīng)用研究[D];江南大學(xué);2010年

6 李先鋒;基于特征優(yōu)化和多特征融合的雜草識(shí)別方法研究[D];江蘇大學(xué);2010年

7 劉衛(wèi)紅;垃圾郵件檢測(cè)與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

8 汪春梅;癲癇腦電信號(hào)特征提取與自動(dòng)檢測(cè)方法研究[D];華東理工大學(xué);2011年

9 張目;高技術(shù)企業(yè)信用風(fēng)險(xiǎn)影響因素及評(píng)價(jià)方法研究[D];電子科技大學(xué);2010年

10 向國(guó)齊;支持向量回歸機(jī)代理模型設(shè)計(jì)優(yōu)化及應(yīng)用研究[D];電子科技大學(xué);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 展慧;基于多源信息融合技術(shù)的板栗分級(jí)檢測(cè)方法研究[D];華中農(nóng)業(yè)大學(xué);2010年

2 杜二玲;擬概率空間上等均值噪聲下統(tǒng)計(jì)學(xué)習(xí)理論的理論基礎(chǔ)[D];河北大學(xué);2007年

3 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年

4 安文娟;Fisher和支持向量綜合分類器[D];遼寧師范大學(xué);2010年

5 姜成玉;基于支持向量機(jī)的時(shí)間序列預(yù)測(cè)[D];遼寧師范大學(xué);2010年

6 李振;網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年

7 姜念;區(qū)間自適應(yīng)粒子群算法研究及其應(yīng)用[D];鄭州大學(xué);2010年

8 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年

9 辛保兵;既有預(yù)應(yīng)力混凝土梁橋剩余承載力評(píng)估方法研究[D];鄭州大學(xué);2010年

10 王巧立;微生物發(fā)酵過程的建模與優(yōu)化控制研究[D];鄭州大學(xué);2010年


  本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):318342

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/318342.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶54d21***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
五月综合婷婷在线伊人| 好吊视频一区二区在线| 欧美色欧美亚洲日在线| 欧美三级大黄片免费看| 激情亚洲内射一区二区三区| 男女一进一出午夜视频| 91欧美亚洲精品在线观看| 亚洲男人的天堂久久a| 欧美日韩亚洲国产av| 亚洲欧美日韩国产自拍| 欧美小黄片在线一级观看| 久一视频这里只有精品| 欧美日韩精品久久亚洲区熟妇人| 欧美av人人妻av人人爽蜜桃| 免费午夜福利不卡片在线 视频 | 久久机热频这里只精品| 国产亚洲精品俞拍视频福利区| 99日韩在线视频精品免费| 亚洲黄色在线观看免费高清| 国产精品一区二区三区日韩av| 黑人巨大精品欧美一区二区区| 国产欧美日韩不卡在线视频| 日本丰满大奶熟女一区二区| 国产精品一区欧美二区| 五月天婷亚洲天婷综合网| 99久久国产精品免费| 欧美日韩国产综合在线| 日韩色婷婷综合在线观看| 国产精品第一香蕉视频| 国产精品久久熟女吞精| 国产欧美日韩在线一区二区| 日本精品最新字幕视频播放| 国产精品一区二区视频| 日韩精品一区二区不卡| 国产精品涩涩成人一区二区三区| 美女黄色三级深夜福利| 一级片黄色一区二区三区| 亚洲夫妻性生活免费视频| 91麻豆精品欧美视频| 日本高清加勒比免费在线| 夫妻性生活动态图视频|