特定新聞門戶網(wǎng)站的信息獲取
本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們獲取信息的方式漸漸從紙制閱讀的報(bào)紙、雜志、書籍轉(zhuǎn)化為互聯(lián)網(wǎng)的電子閱讀,與此同時(shí),各傳媒企業(yè)也逐漸把重心調(diào)整到電子傳播方式上,例如新浪、搜狐等門戶網(wǎng)站的興起,使得網(wǎng)絡(luò)的信息傳播更加復(fù)雜多樣且數(shù)量繁多,往往一個(gè)網(wǎng)頁(yè)就包含了各種類型的信息,浪費(fèi)用戶大量時(shí)間,給用戶查看新聞內(nèi)容帶來不少的麻煩。為了使用戶更方便的查閱網(wǎng)絡(luò)信息,本文設(shè)計(jì)了一個(gè)特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。在此系統(tǒng)上,我們可以提取并顯示新聞網(wǎng)站上的主要信息而避開其他類型信息(如廣告信息)的干擾,使用戶的閱讀更具目的性,便于用戶的信息閱讀。主要工作包括: 1)針對(duì)特定的新聞門戶網(wǎng)站,對(duì)該新聞信息獲取系統(tǒng)進(jìn)行總體設(shè)計(jì)。該系統(tǒng)主要三層,分別為應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)層。 2)使用網(wǎng)絡(luò)爬蟲對(duì)特定的新聞門戶網(wǎng)站進(jìn)行抓取,本文以國(guó)內(nèi)著名新聞門戶網(wǎng)站搜狐新聞為例。 3)在2)的基礎(chǔ)上,對(duì)新聞網(wǎng)頁(yè)的標(biāo)簽進(jìn)行深入分析,將抓取到的新聞網(wǎng)頁(yè)首先進(jìn)行預(yù)處理,然后建立對(duì)應(yīng)的DOM樹,,隨后進(jìn)行網(wǎng)頁(yè)解析,最終達(dá)到對(duì)新聞門戶網(wǎng)站的正文提取的目的。 實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)方案切實(shí)可行,初步實(shí)現(xiàn)了對(duì)特定新聞門戶網(wǎng)站的信息獲取。 本文在Windows7操作系統(tǒng)下進(jìn)行,使用java作為編程語(yǔ)言,使用MyEclipse作為開發(fā)工具構(gòu)建一個(gè)特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。本系統(tǒng)是一個(gè)交互式的、動(dòng)態(tài)的、對(duì)新聞具有多處理功能的新聞門戶網(wǎng)站信息獲取系統(tǒng),方便用戶使用。用戶可以利用該系統(tǒng)進(jìn)行搜索新聞、瀏覽新聞、查看上/下一頁(yè)新聞、查看新聞原網(wǎng)頁(yè)、清除新聞等功能。
【關(guān)鍵詞】:新聞門戶網(wǎng)站 信息獲取 網(wǎng)絡(luò)爬蟲 java語(yǔ)言
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- Abstract5-10
- 第1章 緒論10-16
- 1.1 研究背景和意義10-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 主要研究?jī)?nèi)容13
- 1.4 論文結(jié)構(gòu)安排13-16
- 第2章 相關(guān)技術(shù)16-26
- 2.1 網(wǎng)絡(luò)爬蟲的介紹16-19
- 2.1.1 URL 簡(jiǎn)介16-17
- 2.1.2 網(wǎng)絡(luò)爬蟲的框架17-18
- 2.1.3 網(wǎng)絡(luò)爬蟲的爬行策略及其原理18-19
- 2.2 網(wǎng)頁(yè)結(jié)構(gòu)分析與 DOM 樹19-21
- 2.3 信息提取21-23
- 2.3.1 信息提取的簡(jiǎn)介21-23
- 2.3.2 信息提取框架23
- 2.4 java 和 MyEclipse 技術(shù)23-25
- 2.4.1 java 的主要特性23-25
- 2.4.2 MyEclipse 技術(shù)25
- 2.5 本章小結(jié)25-26
- 第3章 需求分析26-32
- 3.1 任務(wù)概述26
- 3.1.1 目標(biāo)26
- 3.1.2 用戶26
- 3.1.3 約束和限制26
- 3.2 功能性需求分析26-30
- 3.2.1 功能需求26-27
- 3.2.2 主要功能劃分27-29
- 3.2.3 其他功能劃分29-30
- 3.3 外部接口需求30
- 3.3.1 用戶界面30
- 3.3.2 接口30
- 3.4 非功能性需求分析30-31
- 3.5 本章小結(jié)31-32
- 第4章 系統(tǒng)設(shè)計(jì)32-38
- 4.1 系統(tǒng)設(shè)計(jì)原則32-34
- 4.2 系統(tǒng)體系結(jié)構(gòu)34-35
- 4.3 系統(tǒng)詳細(xì)設(shè)計(jì)35-37
- 4.3.1 網(wǎng)頁(yè)抓取模塊35-36
- 4.3.2 網(wǎng)頁(yè)解析模塊36-37
- 4.3.3 信息管理模塊37
- 4.4 本章小結(jié)37-38
- 第5章 系統(tǒng)實(shí)現(xiàn)38-47
- 5.1 系統(tǒng)實(shí)現(xiàn)的環(huán)境38-39
- 5.2 頁(yè)面布局框架39
- 5.3 系統(tǒng)代碼實(shí)現(xiàn)39-41
- 5.4 系統(tǒng)的功能模塊41-46
- 5.4.1 搜索模塊41-43
- 5.4.2 前進(jìn)和后退功能模塊43-45
- 5.4.3 查看原網(wǎng)頁(yè)模塊45-46
- 5.4.4 清除功能模塊46
- 5.4.5 幫助模塊46
- 5.5 本章小結(jié)46-47
- 第6章 總結(jié)與展望47-49
- 6.1 總結(jié)47
- 6.2 展望47-49
- 參考文獻(xiàn)49-52
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果52-53
- 致謝53
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期
2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁(yè)信息提取方法[J];計(jì)算機(jī)科學(xué);2008年03期
3 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期
4 吳夙慧;孫建軍;鄭彥寧;潘云濤;;鏈接分析研究進(jìn)展[J];情報(bào)科學(xué);2013年04期
5 馮振明;;Google核心——PageRank算法探討[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年07期
6 潘大勝;;計(jì)算機(jī)半結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)挖掘技術(shù)探析[J];武漢工業(yè)學(xué)院學(xué)報(bào);2011年04期
7 邵振凱;;網(wǎng)頁(yè)信息提取技術(shù)[J];計(jì)算機(jī)技術(shù) 與發(fā)展;2013年09期
8 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年09期
本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。
本文編號(hào):275829
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/275829.html