特定新聞門戶網(wǎng)站的信息獲取
發(fā)布時間:2017-03-30 01:03
本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們獲取信息的方式漸漸從紙制閱讀的報紙、雜志、書籍轉(zhuǎn)化為互聯(lián)網(wǎng)的電子閱讀,與此同時,各傳媒企業(yè)也逐漸把重心調(diào)整到電子傳播方式上,例如新浪、搜狐等門戶網(wǎng)站的興起,使得網(wǎng)絡(luò)的信息傳播更加復(fù)雜多樣且數(shù)量繁多,往往一個網(wǎng)頁就包含了各種類型的信息,浪費用戶大量時間,給用戶查看新聞內(nèi)容帶來不少的麻煩。為了使用戶更方便的查閱網(wǎng)絡(luò)信息,本文設(shè)計了一個特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。在此系統(tǒng)上,我們可以提取并顯示新聞網(wǎng)站上的主要信息而避開其他類型信息(如廣告信息)的干擾,使用戶的閱讀更具目的性,便于用戶的信息閱讀。主要工作包括: 1)針對特定的新聞門戶網(wǎng)站,對該新聞信息獲取系統(tǒng)進(jìn)行總體設(shè)計。該系統(tǒng)主要三層,分別為應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)層。 2)使用網(wǎng)絡(luò)爬蟲對特定的新聞門戶網(wǎng)站進(jìn)行抓取,本文以國內(nèi)著名新聞門戶網(wǎng)站搜狐新聞為例。 3)在2)的基礎(chǔ)上,對新聞網(wǎng)頁的標(biāo)簽進(jìn)行深入分析,將抓取到的新聞網(wǎng)頁首先進(jìn)行預(yù)處理,然后建立對應(yīng)的DOM樹,,隨后進(jìn)行網(wǎng)頁解析,最終達(dá)到對新聞門戶網(wǎng)站的正文提取的目的。 實驗結(jié)果表明,該系統(tǒng)方案切實可行,初步實現(xiàn)了對特定新聞門戶網(wǎng)站的信息獲取。 本文在Windows7操作系統(tǒng)下進(jìn)行,使用java作為編程語言,使用MyEclipse作為開發(fā)工具構(gòu)建一個特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。本系統(tǒng)是一個交互式的、動態(tài)的、對新聞具有多處理功能的新聞門戶網(wǎng)站信息獲取系統(tǒng),方便用戶使用。用戶可以利用該系統(tǒng)進(jìn)行搜索新聞、瀏覽新聞、查看上/下一頁新聞、查看新聞原網(wǎng)頁、清除新聞等功能。
【關(guān)鍵詞】:新聞門戶網(wǎng)站 信息獲取 網(wǎng)絡(luò)爬蟲 java語言
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- Abstract5-10
- 第1章 緒論10-16
- 1.1 研究背景和意義10-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 主要研究內(nèi)容13
- 1.4 論文結(jié)構(gòu)安排13-16
- 第2章 相關(guān)技術(shù)16-26
- 2.1 網(wǎng)絡(luò)爬蟲的介紹16-19
- 2.1.1 URL 簡介16-17
- 2.1.2 網(wǎng)絡(luò)爬蟲的框架17-18
- 2.1.3 網(wǎng)絡(luò)爬蟲的爬行策略及其原理18-19
- 2.2 網(wǎng)頁結(jié)構(gòu)分析與 DOM 樹19-21
- 2.3 信息提取21-23
- 2.3.1 信息提取的簡介21-23
- 2.3.2 信息提取框架23
- 2.4 java 和 MyEclipse 技術(shù)23-25
- 2.4.1 java 的主要特性23-25
- 2.4.2 MyEclipse 技術(shù)25
- 2.5 本章小結(jié)25-26
- 第3章 需求分析26-32
- 3.1 任務(wù)概述26
- 3.1.1 目標(biāo)26
- 3.1.2 用戶26
- 3.1.3 約束和限制26
- 3.2 功能性需求分析26-30
- 3.2.1 功能需求26-27
- 3.2.2 主要功能劃分27-29
- 3.2.3 其他功能劃分29-30
- 3.3 外部接口需求30
- 3.3.1 用戶界面30
- 3.3.2 接口30
- 3.4 非功能性需求分析30-31
- 3.5 本章小結(jié)31-32
- 第4章 系統(tǒng)設(shè)計32-38
- 4.1 系統(tǒng)設(shè)計原則32-34
- 4.2 系統(tǒng)體系結(jié)構(gòu)34-35
- 4.3 系統(tǒng)詳細(xì)設(shè)計35-37
- 4.3.1 網(wǎng)頁抓取模塊35-36
- 4.3.2 網(wǎng)頁解析模塊36-37
- 4.3.3 信息管理模塊37
- 4.4 本章小結(jié)37-38
- 第5章 系統(tǒng)實現(xiàn)38-47
- 5.1 系統(tǒng)實現(xiàn)的環(huán)境38-39
- 5.2 頁面布局框架39
- 5.3 系統(tǒng)代碼實現(xiàn)39-41
- 5.4 系統(tǒng)的功能模塊41-46
- 5.4.1 搜索模塊41-43
- 5.4.2 前進(jìn)和后退功能模塊43-45
- 5.4.3 查看原網(wǎng)頁模塊45-46
- 5.4.4 清除功能模塊46
- 5.4.5 幫助模塊46
- 5.5 本章小結(jié)46-47
- 第6章 總結(jié)與展望47-49
- 6.1 總結(jié)47
- 6.2 展望47-49
- 參考文獻(xiàn)49-52
- 作者簡介及在學(xué)期間所取得的科研成果52-53
- 致謝53
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2005年03期
2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁信息提取方法[J];計算機科學(xué);2008年03期
3 諶志群;張國煊;;文本挖掘研究進(jìn)展[J];模式識別與人工智能;2005年01期
4 吳夙慧;孫建軍;鄭彥寧;潘云濤;;鏈接分析研究進(jìn)展[J];情報科學(xué);2013年04期
5 馮振明;;Google核心——PageRank算法探討[J];計算機技術(shù)與發(fā)展;2006年07期
6 潘大勝;;計算機半結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)挖掘技術(shù)探析[J];武漢工業(yè)學(xué)院學(xué)報;2011年04期
7 邵振凱;;網(wǎng)頁信息提取技術(shù)[J];計算機技術(shù) 與發(fā)展;2013年09期
8 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J];計算機系統(tǒng)應(yīng)用;2013年09期
本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。
本文編號:275829
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/275829.html
最近更新
教材專著