基于Jsoup的通用網(wǎng)頁采集系統(tǒng)的設計與實現(xiàn)
本文關鍵詞:基于Jsoup的通用網(wǎng)頁采集系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機網(wǎng)絡的迅速發(fā)展,Internet已經(jīng)成為一個巨大的信息資源庫。在WEB海量信息處理的背景下,WEB智能信息檢索、文檔自動摘要、輿情分析等等需求應運而生。這些需求都是對互聯(lián)網(wǎng)中海量的WEB頁面的采集及分析的過程。通常情況下,這類技術都是通過網(wǎng)絡爬蟲來從網(wǎng)絡上抓取原始網(wǎng)頁的信息,而原始信息中除了用戶所感興趣的正文信息之外,還通常會包含有各種網(wǎng)絡噪音數(shù)據(jù),比如廣告鏈接、標簽信息、導航鏈接、評論等等。這些噪音數(shù)據(jù)的存在,極大地影響了網(wǎng)絡檢索的效率,也降低了人們的閱讀效率。正確、高效地在半結(jié)構(gòu)化、異構(gòu)性強的HTML源文件中提取到文章正文,在基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘、信息檢索等領域具有著重要的意義。本文描述了基于停止詞以及鏈接稠密度的父節(jié)點加權比值算法通用的網(wǎng)頁正文提取系統(tǒng)的設計與實現(xiàn)。該算法基于Jsoup文檔解析技術,通過對停止詞分析、鏈接稠密度分析技術對網(wǎng)頁進行二次信息節(jié)點篩選后,采用父節(jié)點加權比值方法得到最優(yōu)內(nèi)容子樹。本系統(tǒng)采用B/S(瀏覽器/服務器)架構(gòu),以Intellij Idea為前端界面和后端服務開發(fā)工具,以H2 SQL作為后臺數(shù)據(jù)庫管理系統(tǒng),設計出了一套符合網(wǎng)頁正文提取需求的系統(tǒng)。該系統(tǒng)的核心模塊為:文檔格式化處理模塊、文檔裁剪降噪模塊、正文節(jié)點判斷模塊、正文格式化輸出模塊。通過測試發(fā)現(xiàn),本系統(tǒng)具有對各種HTML布局的新聞正文提取任務有很高的精確度。
【關鍵詞】:網(wǎng)頁正文提取 父節(jié)點加權比值 分詞技術 鏈接稠密度 B/S架構(gòu)
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 引言9-16
- 1.1 研究背景9-10
- 1.2 國內(nèi)外現(xiàn)狀10-14
- 1.2.1 基于文檔結(jié)構(gòu)樹分析的網(wǎng)頁正文提取技術10-12
- 1.2.2 不基于文檔結(jié)構(gòu)樹分析的網(wǎng)頁正文提取技術12-14
- 1.3 主要工作內(nèi)容14-15
- 1.4 論文組織結(jié)構(gòu)15
- 1.5 本章小結(jié)15-16
- 第二章 系統(tǒng)需求分析與方案設計16-26
- 2.1 研究背景16
- 2.2 系統(tǒng)的需求分析16-20
- 2.2.1 網(wǎng)頁正文內(nèi)容提取的需求18-19
- 2.2.2 參數(shù)可配置的需求19
- 2.2.3 操作歷史可監(jiān)控的需求19
- 2.2.4 文本分詞與停止詞分析的需求19-20
- 2.3 系統(tǒng)的方案設計20-25
- 2.3.1 系統(tǒng)的網(wǎng)絡拓撲圖20-21
- 2.3.2 系統(tǒng)的軟件功能框架21
- 2.3.3 技術選型21-25
- 2.4 本章小結(jié)25-26
- 第三章 系統(tǒng)的軟件設計26-39
- 3.1 數(shù)據(jù)庫設計26-27
- 3.1.1 數(shù)據(jù)邏輯視圖26-27
- 3.1.2 數(shù)據(jù)物理視圖27
- 3.2 WEB應用設計27-29
- 3.2.1 WEB架構(gòu)設計原則27-28
- 3.2.2 WEB架構(gòu)圖28-29
- 3.3 系統(tǒng)核心模塊設計29-38
- 3.3.1 核心模塊體系結(jié)構(gòu)30-33
- 3.3.2 核心模塊劃分33-38
- 3.4 本章小結(jié)38-39
- 第四章 系統(tǒng)的軟件實現(xiàn)39-57
- 4.1 數(shù)據(jù)庫的實現(xiàn)39-41
- 4.2 WEB前端的實現(xiàn)41-48
- 4.2.1 正文提取頁面44-45
- 4.2.2 分詞頁面45-46
- 4.2.3 停止詞計算頁面46
- 4.2.4 系統(tǒng)參數(shù)設置頁面46-47
- 4.2.5 操作歷史頁面47-48
- 4.3 核心算法模塊的實現(xiàn)48-55
- 4.3.1 文檔格式化處理模塊的實現(xiàn)48-49
- 4.3.2 文檔裁剪降噪模塊的實現(xiàn)49-51
- 4.3.3 文檔正文節(jié)點判斷功能模塊的實現(xiàn)51-54
- 4.3.4 文檔正文格式化輸出功能模塊的實現(xiàn)54-55
- 4.4 本章小結(jié)55-57
- 第五章 測試與分析57-67
- 5.1 軟件的代碼級測試57-60
- 5.2 軟件的功能級測試60-64
- 5.3 軟件的性能級測試64-66
- 5.4 本章小結(jié)66-67
- 第六章 總結(jié)與展望67-69
- 6.1 全文總結(jié)67-68
- 6.2 后續(xù)工作展望68-69
- 致謝69-70
- 參考文獻70-72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設計之特性分析[J];山東省農(nóng)業(yè)管理干部學院學報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關問題研究[J];圖書館建設;2009年12期
3 蔣桂梅;;網(wǎng)頁設計的藝術性[J];電腦知識與技術;2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設計與實現(xiàn)[J];計算機光盤軟件與應用;2012年18期
8 何立波;周世波;;網(wǎng)頁設計中的藝術研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術[J];計算機應用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設計新概念[J];江西教育學院學報(自然科學);2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設計的藝術性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡應用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學;2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設計中的應用研究[D];西南交通大學;2015年
3 張W,
本文編號:252497
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/252497.html