當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

特定新聞門戶網(wǎng)站的信息獲取

發(fā)布時(shí)間：2017-03-30 01:03

本文關(guān)鍵詞：特定新聞門戶網(wǎng)站的信息獲取，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)的迅速發(fā)展，人們獲取信息的方式漸漸從紙制閱讀的報(bào)紙、雜志、書籍轉(zhuǎn)化為互聯(lián)網(wǎng)的電子閱讀，與此同時(shí)，各傳媒企業(yè)也逐漸把重心調(diào)整到電子傳播方式上，例如新浪、搜狐等門戶網(wǎng)站的興起，使得網(wǎng)絡(luò)的信息傳播更加復(fù)雜多樣且數(shù)量繁多，往往一個(gè)網(wǎng)頁(yè)就包含了各種類型的信息，浪費(fèi)用戶大量時(shí)間，給用戶查看新聞內(nèi)容帶來不少的麻煩。為了使用戶更方便的查閱網(wǎng)絡(luò)信息，本文設(shè)計(jì)了一個(gè)特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。在此系統(tǒng)上，我們可以提取并顯示新聞網(wǎng)站上的主要信息而避開其他類型信息（如廣告信息）的干擾，使用戶的閱讀更具目的性，便于用戶的信息閱讀。主要工作包括： 1）針對(duì)特定的新聞門戶網(wǎng)站，對(duì)該新聞信息獲取系統(tǒng)進(jìn)行總體設(shè)計(jì)。該系統(tǒng)主要三層，分別為應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)層。 2）使用網(wǎng)絡(luò)爬蟲對(duì)特定的新聞門戶網(wǎng)站進(jìn)行抓取，本文以國(guó)內(nèi)著名新聞門戶網(wǎng)站搜狐新聞為例。 3）在2）的基礎(chǔ)上，對(duì)新聞網(wǎng)頁(yè)的標(biāo)簽進(jìn)行深入分析，將抓取到的新聞網(wǎng)頁(yè)首先進(jìn)行預(yù)處理，然后建立對(duì)應(yīng)的DOM樹，，隨后進(jìn)行網(wǎng)頁(yè)解析，最終達(dá)到對(duì)新聞門戶網(wǎng)站的正文提取的目的。實(shí)驗(yàn)結(jié)果表明，該系統(tǒng)方案切實(shí)可行，初步實(shí)現(xiàn)了對(duì)特定新聞門戶網(wǎng)站的信息獲取。本文在Windows7操作系統(tǒng)下進(jìn)行，使用java作為編程語(yǔ)言，使用MyEclipse作為開發(fā)工具構(gòu)建一個(gè)特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。本系統(tǒng)是一個(gè)交互式的、動(dòng)態(tài)的、對(duì)新聞具有多處理功能的新聞門戶網(wǎng)站信息獲取系統(tǒng)，方便用戶使用。用戶可以利用該系統(tǒng)進(jìn)行搜索新聞、瀏覽新聞、查看上/下一頁(yè)新聞、查看新聞原網(wǎng)頁(yè)、清除新聞等功能。
【關(guān)鍵詞】：新聞門戶網(wǎng)站 信息獲取 網(wǎng)絡(luò)爬蟲 java語(yǔ)言
【學(xué)位授予單位】：吉林大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP393.092
【目錄】：

摘要4-5
Abstract5-10
第1章緒論10-16
1.1 研究背景和意義10-12
1.2 研究現(xiàn)狀12-13
1.3 主要研究?jī)?nèi)容13
1.4 論文結(jié)構(gòu)安排13-16
第2章相關(guān)技術(shù)16-26
2.1 網(wǎng)絡(luò)爬蟲的介紹16-19
2.1.1 URL 簡(jiǎn)介16-17
2.1.2 網(wǎng)絡(luò)爬蟲的框架17-18
2.1.3 網(wǎng)絡(luò)爬蟲的爬行策略及其原理18-19
2.2 網(wǎng)頁(yè)結(jié)構(gòu)分析與 DOM 樹19-21
2.3 信息提取21-23
2.3.1 信息提取的簡(jiǎn)介21-23
2.3.2 信息提取框架23
2.4 java 和 MyEclipse 技術(shù)23-25
2.4.1 java 的主要特性23-25
2.4.2 MyEclipse 技術(shù)25
2.5 本章小結(jié)25-26
第3章需求分析26-32
3.1 任務(wù)概述26
3.1.1 目標(biāo)26
3.1.2 用戶26
3.1.3 約束和限制26
3.2 功能性需求分析26-30
3.2.1 功能需求26-27
3.2.2 主要功能劃分27-29
3.2.3 其他功能劃分29-30
3.3 外部接口需求30
3.3.1 用戶界面30
3.3.2 接口30
3.4 非功能性需求分析30-31
3.5 本章小結(jié)31-32
第4章系統(tǒng)設(shè)計(jì)32-38
4.1 系統(tǒng)設(shè)計(jì)原則32-34
4.2 系統(tǒng)體系結(jié)構(gòu)34-35
4.3 系統(tǒng)詳細(xì)設(shè)計(jì)35-37
4.3.1 網(wǎng)頁(yè)抓取模塊35-36
4.3.2 網(wǎng)頁(yè)解析模塊36-37
4.3.3 信息管理模塊37
4.4 本章小結(jié)37-38
第5章系統(tǒng)實(shí)現(xiàn)38-47
5.1 系統(tǒng)實(shí)現(xiàn)的環(huán)境38-39
5.2 頁(yè)面布局框架39
5.3 系統(tǒng)代碼實(shí)現(xiàn)39-41
5.4 系統(tǒng)的功能模塊41-46
5.4.1 搜索模塊41-43
5.4.2 前進(jìn)和后退功能模塊43-45
5.4.3 查看原網(wǎng)頁(yè)模塊45-46
5.4.4 清除功能模塊46
5.4.5 幫助模塊46
5.5 本章小結(jié)46-47
第6章總結(jié)與展望47-49
6.1 總結(jié)47
6.2 展望47-49
參考文獻(xiàn)49-52
作者簡(jiǎn)介及在學(xué)期間所取得的科研成果52-53
致謝53

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條

1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期

2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁(yè)信息提取方法[J];計(jì)算機(jī)科學(xué);2008年03期

3 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期

4 吳夙慧;孫建軍;鄭彥寧;潘云濤;;鏈接分析研究進(jìn)展[J];情報(bào)科學(xué);2013年04期

5 馮振明;;Google核心——PageRank算法探討[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年07期

6 潘大勝;;計(jì)算機(jī)半結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)挖掘技術(shù)探析[J];武漢工業(yè)學(xué)院學(xué)報(bào);2011年04期

7 邵振凱;;網(wǎng)頁(yè)信息提取技術(shù)[J];計(jì)算機(jī)技術(shù) 與發(fā)展;2013年09期

8 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年09期

本文關(guān)鍵詞：特定新聞門戶網(wǎng)站的信息獲取，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：275829

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/275829.html

上一篇：基于TCAM的OpenFlow關(guān)鍵技術(shù)研究
下一篇：基于雙單向光閘的雙網(wǎng)安全訪問的研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定新聞門戶網(wǎng)站的信息獲取