天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定新聞門戶網(wǎng)站的信息獲取

發(fā)布時間:2017-03-30 01:03

  本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們獲取信息的方式漸漸從紙制閱讀的報紙、雜志、書籍轉(zhuǎn)化為互聯(lián)網(wǎng)的電子閱讀,與此同時,各傳媒企業(yè)也逐漸把重心調(diào)整到電子傳播方式上,例如新浪、搜狐等門戶網(wǎng)站的興起,使得網(wǎng)絡(luò)的信息傳播更加復(fù)雜多樣且數(shù)量繁多,往往一個網(wǎng)頁就包含了各種類型的信息,浪費用戶大量時間,給用戶查看新聞內(nèi)容帶來不少的麻煩。為了使用戶更方便的查閱網(wǎng)絡(luò)信息,本文設(shè)計了一個特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。在此系統(tǒng)上,我們可以提取并顯示新聞網(wǎng)站上的主要信息而避開其他類型信息(如廣告信息)的干擾,使用戶的閱讀更具目的性,便于用戶的信息閱讀。主要工作包括: 1)針對特定的新聞門戶網(wǎng)站,對該新聞信息獲取系統(tǒng)進(jìn)行總體設(shè)計。該系統(tǒng)主要三層,分別為應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)層。 2)使用網(wǎng)絡(luò)爬蟲對特定的新聞門戶網(wǎng)站進(jìn)行抓取,本文以國內(nèi)著名新聞門戶網(wǎng)站搜狐新聞為例。 3)在2)的基礎(chǔ)上,對新聞網(wǎng)頁的標(biāo)簽進(jìn)行深入分析,將抓取到的新聞網(wǎng)頁首先進(jìn)行預(yù)處理,然后建立對應(yīng)的DOM樹,,隨后進(jìn)行網(wǎng)頁解析,最終達(dá)到對新聞門戶網(wǎng)站的正文提取的目的。 實驗結(jié)果表明,該系統(tǒng)方案切實可行,初步實現(xiàn)了對特定新聞門戶網(wǎng)站的信息獲取。 本文在Windows7操作系統(tǒng)下進(jìn)行,使用java作為編程語言,使用MyEclipse作為開發(fā)工具構(gòu)建一個特定新聞門戶網(wǎng)站的信息獲取系統(tǒng)。本系統(tǒng)是一個交互式的、動態(tài)的、對新聞具有多處理功能的新聞門戶網(wǎng)站信息獲取系統(tǒng),方便用戶使用。用戶可以利用該系統(tǒng)進(jìn)行搜索新聞、瀏覽新聞、查看上/下一頁新聞、查看新聞原網(wǎng)頁、清除新聞等功能。
【關(guān)鍵詞】:新聞門戶網(wǎng)站 信息獲取 網(wǎng)絡(luò)爬蟲 java語言
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 緒論10-16
  • 1.1 研究背景和意義10-12
  • 1.2 研究現(xiàn)狀12-13
  • 1.3 主要研究內(nèi)容13
  • 1.4 論文結(jié)構(gòu)安排13-16
  • 第2章 相關(guān)技術(shù)16-26
  • 2.1 網(wǎng)絡(luò)爬蟲的介紹16-19
  • 2.1.1 URL 簡介16-17
  • 2.1.2 網(wǎng)絡(luò)爬蟲的框架17-18
  • 2.1.3 網(wǎng)絡(luò)爬蟲的爬行策略及其原理18-19
  • 2.2 網(wǎng)頁結(jié)構(gòu)分析與 DOM 樹19-21
  • 2.3 信息提取21-23
  • 2.3.1 信息提取的簡介21-23
  • 2.3.2 信息提取框架23
  • 2.4 java 和 MyEclipse 技術(shù)23-25
  • 2.4.1 java 的主要特性23-25
  • 2.4.2 MyEclipse 技術(shù)25
  • 2.5 本章小結(jié)25-26
  • 第3章 需求分析26-32
  • 3.1 任務(wù)概述26
  • 3.1.1 目標(biāo)26
  • 3.1.2 用戶26
  • 3.1.3 約束和限制26
  • 3.2 功能性需求分析26-30
  • 3.2.1 功能需求26-27
  • 3.2.2 主要功能劃分27-29
  • 3.2.3 其他功能劃分29-30
  • 3.3 外部接口需求30
  • 3.3.1 用戶界面30
  • 3.3.2 接口30
  • 3.4 非功能性需求分析30-31
  • 3.5 本章小結(jié)31-32
  • 第4章 系統(tǒng)設(shè)計32-38
  • 4.1 系統(tǒng)設(shè)計原則32-34
  • 4.2 系統(tǒng)體系結(jié)構(gòu)34-35
  • 4.3 系統(tǒng)詳細(xì)設(shè)計35-37
  • 4.3.1 網(wǎng)頁抓取模塊35-36
  • 4.3.2 網(wǎng)頁解析模塊36-37
  • 4.3.3 信息管理模塊37
  • 4.4 本章小結(jié)37-38
  • 第5章 系統(tǒng)實現(xiàn)38-47
  • 5.1 系統(tǒng)實現(xiàn)的環(huán)境38-39
  • 5.2 頁面布局框架39
  • 5.3 系統(tǒng)代碼實現(xiàn)39-41
  • 5.4 系統(tǒng)的功能模塊41-46
  • 5.4.1 搜索模塊41-43
  • 5.4.2 前進(jìn)和后退功能模塊43-45
  • 5.4.3 查看原網(wǎng)頁模塊45-46
  • 5.4.4 清除功能模塊46
  • 5.4.5 幫助模塊46
  • 5.5 本章小結(jié)46-47
  • 第6章 總結(jié)與展望47-49
  • 6.1 總結(jié)47
  • 6.2 展望47-49
  • 參考文獻(xiàn)49-52
  • 作者簡介及在學(xué)期間所取得的科研成果52-53
  • 致謝53

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前8條

1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2005年03期

2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁信息提取方法[J];計算機科學(xué);2008年03期

3 諶志群;張國煊;;文本挖掘研究進(jìn)展[J];模式識別與人工智能;2005年01期

4 吳夙慧;孫建軍;鄭彥寧;潘云濤;;鏈接分析研究進(jìn)展[J];情報科學(xué);2013年04期

5 馮振明;;Google核心——PageRank算法探討[J];計算機技術(shù)與發(fā)展;2006年07期

6 潘大勝;;計算機半結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)挖掘技術(shù)探析[J];武漢工業(yè)學(xué)院學(xué)報;2011年04期

7 邵振凱;;網(wǎng)頁信息提取技術(shù)[J];計算機技術(shù) 與發(fā)展;2013年09期

8 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J];計算機系統(tǒng)應(yīng)用;2013年09期


  本文關(guān)鍵詞:特定新聞門戶網(wǎng)站的信息獲取,由筆耕文化傳播整理發(fā)布。



本文編號:275829

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/275829.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4f03***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com