天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)絡爬蟲的注塑信息研究與實現(xiàn)

發(fā)布時間:2020-09-15 17:44
   這些年來,隨著互聯(lián)網(wǎng)的發(fā)展,尤其是智能手機和各種物聯(lián)網(wǎng)設備的加入,互聯(lián)網(wǎng)中的數(shù)據(jù)量也迎來了爆發(fā)式的增長。如此巨量的信息一方面豐富和方便了人們的生活,但另一方面也增加了獲取有效信息的難度。因此采用主題爬蟲技術方便快捷地收集注塑行業(yè)的相關信息,從而實現(xiàn)對注塑行業(yè)發(fā)展的監(jiān)控和預測,對于企業(yè)發(fā)展有著重要意義。本文來源于《大型注塑成型智能制造工廠》,設計和實現(xiàn)了能夠定向抓取網(wǎng)絡數(shù)據(jù)的主題爬蟲系統(tǒng)。通過閱讀大量的國內(nèi)外文獻資料,然后結合項目實際中遇到的問題,對主題爬蟲以及技術框架有了一定的了解和認識,發(fā)現(xiàn)一些對于主題爬蟲的研究中所存在的問題:1)目前還沒有對于如何選取適當?shù)某跏挤N子的研究;2)主題爬蟲的性能和召回率仍有提高空間,需要進一步研究。針對上面提出的幾個問題,通過進一步的實踐研究,本文給出了一些新的解決方法,并以此為基礎,設計實現(xiàn)了主題爬蟲系統(tǒng)。在論文后面,利用多個實驗表明了本文改進算法的效果。本文的創(chuàng)新點有以下幾個:(1)在介紹了初始種子的選取問題后,在HITS算法的基礎上,提出了一種新的改進,以此來更方便高效的選取初始種子。在本文中,結合HITS算法定義的權威度和中心度,通過它們來描述鏈接之間的連接情況,并定義了一個能夠計算候選種子好壞的公式,從而選取更好的初始種子,提高主題爬蟲的效率。在論文最后也給出了系統(tǒng)的采集結果,證明了算法改進的效果。(2)主題爬蟲通常采用概念背景圖來作為爬行策略,針對這種策略的缺點,本文給出了一種改進方法——基于綜合價值的概念背景圖的爬行策略。針對概念背景圖的構建過程,給出了一種改進方法。與此同時,將經(jīng)常被忽略的父網(wǎng)頁、鏈接上下文等因素納入了綜合考慮,定義了一種能夠預測待訪問鏈接價值的公式,以此來提前預測鏈接價值,剔除無關鏈接,加快爬蟲運行速率。在最后,給出相關實驗數(shù)據(jù),表明了采用改進后的爬行策略的主題爬蟲,無論是速度還是精準度都有很大提升。(3)結合前兩點,設計實現(xiàn)完整的主題爬蟲系統(tǒng)。本文介紹了系統(tǒng)中關鍵模塊的設計實現(xiàn)方案,并設計了相應的數(shù)據(jù)庫方案,利用Java中的爬蟲框架WebMagic實現(xiàn)了爬蟲系統(tǒng)。該爬蟲系統(tǒng)具有一定的通用性,初始種子選取策略的改進減少了大量的人工時間,爬行策略的改進提高了系統(tǒng)的速度和準確度。在最后,給出系統(tǒng)運行結果也表明爬行效率有顯著的提升。
【學位單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP391.3
【部分圖文】:

系統(tǒng)結構圖,網(wǎng)絡爬蟲,系統(tǒng)結構,網(wǎng)鏈


圖 2-1 網(wǎng)絡爬蟲系統(tǒng)結構Figure 2-1 Web crawler system structure中,不同網(wǎng)頁之間通過超鏈接聯(lián)系在一起,如果把不同的網(wǎng)鏈接就是連接它們的線,那么整個互聯(lián)網(wǎng)就可以看做一個十

系統(tǒng)結構圖,主題,系統(tǒng)結構


主題爬蟲系統(tǒng)結構

相關度,計算流程,準確率,廣泛應用


圖 2-3 相關度計算流程Figure 2-3 Flow chart of correlation calculation型量化了文檔的相關度,能夠根據(jù)值的大小快速比較方便,準確率高。因此得到了廣泛應用。

【相似文獻】

相關期刊論文 前10條

1 羅杰;;優(yōu)化主題信息及材料收集與利用的探討[J];山東教育;2016年Z2期

2 祁寧;吳齊;趙青;;面向主題信息服務的垂直搜索引擎應用研究[J];圖書館學研究;2008年09期

3 曾利沙;論旅游指南翻譯的主題信息突出策略原則[J];上海翻譯;2005年01期

4 丁國君;;小學主題信息教育的探索與實踐[J];中小學電教;2002年09期

5 唐建;洪宇;劉夢眙;姚亮;姚建民;;融合圖片主題信息的圖片描述翻譯[J];中文信息學報;2019年07期

6 陳雄;都云程;李渝勤;施水才;;基于頁面結構分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期

7 吳筱媛,鄧紅素,顧寧;基于主題信息和相關信息發(fā)現(xiàn)的元數(shù)據(jù)描述方法[J];計算機工程;2002年02期

8 田麗;;情報分析中提取主題信息核心要素的模型及方法[J];計算機與現(xiàn)代化;2018年10期

9 梁田;;個性化科研主題信息環(huán)境構建技術方案實踐[J];圖書情報工作;2012年S2期

10 羅長壽;康麗;劉國靖;;基于遺傳算法的主題信息搜索系統(tǒng)研究[J];現(xiàn)代情報;2009年03期

相關會議論文 前10條

1 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

2 黃俊;;公共圖書館主題圖書館建設實踐與思考——以江西省為例[A];中國圖書館學會年會論文集(2015年卷)[C];2015年

3 李燕;李勝陽;許志輝;朱子建;李長松;;基于本體語義的流域決策主題信息組織研究[A];大數(shù)據(jù)時代的信息化建設——2015(第三屆)中國水利信息化與數(shù)字水利技術論壇論文集[C];2015年

4 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

5 丁曉陽;王蘭成;吳彬;;基于詞頻與改進余弦相似算法的主題挖掘及索引應用研究[A];2019年中國索引學會年會暨學術研討會論文集[C];2019年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

7 刁宇峰;林鴻飛;;基于LDA模型的博客垃圾評論發(fā)現(xiàn)[A];第六屆全國信息檢索學術會議論文集[C];2010年

8 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年

9 何莉;林鴻飛;;分布式檢索中基于主題的語言模型集合選擇策略[A];2009年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2009年

10 田少娟;魏慧楠;王鐳;;基于LDA主題模型的評論熱點挖掘與手機產(chǎn)品性能分析[A];2017年(第五屆)全國大學生統(tǒng)計建模大賽獲獎論文選[C];2017年

相關博士學位論文 前3條

1 潘智勇;基于結構化主題模型的圖像分類方法研究[D];哈爾濱工業(yè)大學;2019年

2 梁曉賀;基于超網(wǎng)絡分析的微博輿情主題發(fā)現(xiàn)研究[D];中國農(nóng)業(yè)科學院;2019年

3 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應用[D];浙江大學;2017年

相關碩士學位論文 前10條

1 王純宇;融合主題預測的多輪對話回復生成[D];哈爾濱工業(yè)大學;2019年

2 楊力;基于網(wǎng)絡爬蟲的注塑信息研究與實現(xiàn)[D];廣東工業(yè)大學;2019年

3 丁偉鵬;基于主題融合的情感分類算法研究[D];西安電子科技大學;2019年

4 馮晉田;基于主題模型的無監(jiān)督方面級觀點挖掘算法研究[D];華中科技大學;2019年

5 陳虹雨;融合知識的層次主題模型研究與應用[D];華中科技大學;2019年

6 韓進賓;面向應用商店的主題爬蟲設計與實現(xiàn)[D];東南大學;2018年

7 高唱;中國安全生產(chǎn)報社主題信息服務應用示范研究[D];北京印刷學院;2019年

8 李夢穎;基于主題模型的學習方法研究及其在用戶畫像上的應用[D];北京交通大學;2019年

9 彭葉紅;基于主題模型與變分自編碼的情感對話生成技術研究[D];華中師范大學;2019年

10 蔣藝琪;基于情感分析和特征過濾的主題提取方法研究[D];華中科技大學;2019年



本文編號:2819273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2819273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶80eb3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com