天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于爬蟲技術(shù)的海洋科普網(wǎng)站的開發(fā)

發(fā)布時(shí)間:2022-01-20 12:23
  隨著互聯(lián)網(wǎng)的高速普及和發(fā)展,我國上網(wǎng)的人數(shù)的增長也十分迅速,網(wǎng)上的信息也爆炸式增多,這就導(dǎo)致了許多人在網(wǎng)上找到所需信息的效率變低。為了讓用戶在網(wǎng)上獲取信息的效率提高,也為了能夠吸引更多的人去了解關(guān)于海洋科普的知識(shí),本文開發(fā)了基于自動(dòng)爬蟲的海洋科普網(wǎng)站,為海洋科普做出貢獻(xiàn)。本網(wǎng)站需要實(shí)現(xiàn)的功能有自動(dòng)對(duì)特定網(wǎng)站的文章進(jìn)行爬蟲,同時(shí)對(duì)爬蟲的結(jié)果進(jìn)行一些簡單的處理和分類,將其存儲(chǔ)到數(shù)據(jù)庫中,并且將其在頁面中展示出來。另外網(wǎng)站還需要有對(duì)于Springer等論文數(shù)據(jù)庫的檢索功能,用戶可以在頁面中輸入需要查詢的相關(guān)約束,即可得到查詢結(jié)果。網(wǎng)站的爬蟲部分需要從對(duì)應(yīng)網(wǎng)站的網(wǎng)址入手,通過對(duì)網(wǎng)址的正則表達(dá)式分析,判斷頁面屬于文章列表頁面或者文章內(nèi)容頁面。然后需要通過xpath分析網(wǎng)頁中的內(nèi)容,將需要的內(nèi)容提取出來,存入到相應(yīng)的類中。爬蟲獲得文章需要進(jìn)行下一步的分類操作。分類首先需要將文章進(jìn)行分詞,中文分詞對(duì)比英文難度更高,需要對(duì)照相應(yīng)的詞典或者進(jìn)行語義分析。分詞的下一步操作是進(jìn)行詞袋處理和計(jì)算TF-IDF的值,這些操作都是為了將文章中關(guān)鍵詞按照一定的規(guī)則進(jìn)行提取。提取出來的關(guān)鍵詞在進(jìn)行樸素貝葉斯分類,得到相... 

【文章來源】:中國地質(zhì)大學(xué)(北京)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:78 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于爬蟲技術(shù)的海洋科普網(wǎng)站的開發(fā)


我國2008年-2018年的網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率

首頁


中國地質(zhì)大學(xué)(北京)工程碩士學(xué)位論文3論文的檢索功能可以極大的提高我們查找論文的速度,提高科研效率。如圖1-2為SpringNature搜索API首頁。圖1-2SpringerNature搜索API首頁通過自動(dòng)爬蟲,網(wǎng)站可以獲得更多的海洋科普文章,以激發(fā)更多的用戶對(duì)于海洋科學(xué)的興趣;能夠根據(jù)用戶提供的關(guān)鍵詞和其他選項(xiàng),準(zhǔn)確的提供用戶需要的論文,能夠極大的提高科研的效率。另外,將頁面做的簡潔高效,重點(diǎn)突出,操作引導(dǎo)方便,都是能夠提升用戶體驗(yàn)的關(guān)鍵要素。用戶體驗(yàn)提升可以讓網(wǎng)站被更多的用戶使用,可以讓更多的人了解最新的海洋科普知識(shí),并且可以吸引更多的人投身于海洋科學(xué)研究中。每隔固定的時(shí)間,網(wǎng)站就會(huì)自動(dòng)進(jìn)行爬蟲工作,并且會(huì)判斷爬蟲所得到的文章是否是最新的文章,如果已經(jīng)存在于數(shù)據(jù)庫中,就會(huì)進(jìn)行舍棄。這樣,用戶就可以看到新的科普文章,不會(huì)被已經(jīng)看過的文章浪費(fèi)時(shí)間。并且爬蟲會(huì)每隔固定的時(shí)間自動(dòng)運(yùn)行,既不需要維護(hù)人員耗費(fèi)大量的時(shí)間維護(hù),也不至于浪費(fèi)大量的資源去處理已經(jīng)存在的文章。間隔時(shí)間可以自由設(shè)定,既能保證文章快速更新,也會(huì)節(jié)省服務(wù)器處理資源。

示意圖,網(wǎng)站,示意圖,動(dòng)態(tài)網(wǎng)站


第1章緒論6圖1-3靜態(tài)資源網(wǎng)站示意圖動(dòng)態(tài)網(wǎng)站主要指的是,開發(fā)者將網(wǎng)站上傳到服務(wù)器之后,網(wǎng)站依舊會(huì)與后臺(tái)的數(shù)據(jù)庫以及開發(fā)者設(shè)定的程序等進(jìn)行交互。當(dāng)用戶打開網(wǎng)站,網(wǎng)站可以根據(jù)不同的用戶改變自己的樣式,并且與用戶進(jìn)行交互。當(dāng)用戶發(fā)出了指令,后臺(tái)會(huì)根據(jù)用戶的指令進(jìn)行各種操作,之后將運(yùn)行結(jié)果展示給用戶。當(dāng)網(wǎng)站的內(nèi)容發(fā)生變化時(shí),不需要重新載入網(wǎng)站,更不需要開發(fā)者重新刪除上傳新的網(wǎng)站,網(wǎng)站自身會(huì)發(fā)生相應(yīng)的變化,開發(fā)者進(jìn)行維護(hù)也不需要全部刪除進(jìn)行更新。動(dòng)態(tài)網(wǎng)站并不是單獨(dú)存在于服務(wù)器端,他會(huì)根據(jù)前端用戶的請(qǐng)求返回一個(gè)完整的網(wǎng)頁。應(yīng)該說明的是,動(dòng)態(tài)網(wǎng)站比較靜態(tài)網(wǎng)站功能更加強(qiáng)大,維護(hù)也更方便,但是訪問速度會(huì)因?yàn)楹笈_(tái)程序的復(fù)雜而變慢。開發(fā)動(dòng)態(tài)頁面最常用的語言為JavaScript語言。如圖1-4為動(dòng)態(tài)資源網(wǎng)站示意圖。圖1-4動(dòng)態(tài)資源網(wǎng)站示意圖

【參考文獻(xiàn)】:
期刊論文
[1]基于WebMagic框架的面向招聘網(wǎng)站的爬蟲技術(shù)研究[J]. 朱二莉.  信息與電腦(理論版). 2019(19)
[2]基于JavaWeb的圖書購物網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳秋玲.  電腦知識(shí)與技術(shù). 2019(16)
[3]基于HTML+CSS+JQuery的網(wǎng)站開發(fā)簡述[J]. 韋立梅,張淑榮.  電腦與電信. 2017(09)
[4]基于JavaWeb的遠(yuǎn)程庫房環(huán)境監(jiān)控系統(tǒng)[J]. 林光源,張國平,高雪蓮,陳志文,蔡盼盼.  信息技術(shù). 2017(05)
[5]一種基于WebMagic和Mahout的信息搜集與推薦系統(tǒng)[J]. 武婷婷.  軟件導(dǎo)刊. 2016(10)
[6]基于Spring Boot的web設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊家煒.  輕工科技. 2016(07)
[7]基于JavaWeb的PDF安全編輯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 胡榮磊,左珮良,蔣華.  北京電子科技學(xué)院學(xué)報(bào). 2015(02)
[8]基于JavaWeb的博客網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳琛,韓利凱.  科技廣場. 2013(08)
[9]一種基于詞袋模型的圖像優(yōu)化分類方法[J]. 趙春暉,王瑩,Masahide KANEKO.  電子與信息學(xué)報(bào). 2012(09)
[10]基于JSP的電子商務(wù)網(wǎng)站開發(fā)[J]. 聞?dòng)榔?  信息安全與技術(shù). 2011(11)

碩士論文
[1]基于MVC模式的Spring框架的應(yīng)用與研究[D]. 鄒存潔.大連海事大學(xué) 2006
[2]MVC設(shè)計(jì)模式的原理與實(shí)現(xiàn)[D]. 李霞.吉林大學(xué) 2004



本文編號(hào):3598817

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3598817.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3400c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com