天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-02-06 14:54
【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使得人們的閱讀模式發(fā)生了轉(zhuǎn)變,傳統(tǒng)的閱讀模式如報(bào)紙、雜志已不再是主流,更多的人傾向于更加便捷的互聯(lián)網(wǎng)閱讀。然而網(wǎng)頁不止包含了供用戶閱讀的正文信息,還有大量與正文無關(guān)的噪聲信息。Gibson等人曾做過統(tǒng)計(jì),噪聲信息占整個(gè)網(wǎng)頁版面的40%到60%;此外,互聯(lián)網(wǎng)包含大量重復(fù)網(wǎng)頁,北大天網(wǎng)搜索引擎的實(shí)驗(yàn)結(jié)果表明,4.3億的中文網(wǎng)頁經(jīng)過劃分后僅有6800萬篇是不重復(fù)的。因此,如何在海量新聞網(wǎng)頁中獲取不重復(fù)的、純粹的正文內(nèi)容,對(duì)實(shí)現(xiàn)用戶高效閱讀尤為重要。本文以國(guó)內(nèi)主流新聞網(wǎng)站為研究對(duì)象,實(shí)現(xiàn)了對(duì)新聞網(wǎng)頁正文的提取、對(duì)重復(fù)網(wǎng)頁的去除,并且設(shè)計(jì)了基于Hadoop的互聯(lián)網(wǎng)新聞閱讀系統(tǒng),其主要工作如下:1)對(duì)于噪聲信息問題,本文提出了一種基于虛詞(FW)和DOM樹結(jié)構(gòu)相似性(DTSS)的網(wǎng)頁正文提取算法。對(duì)五十個(gè)新聞網(wǎng)站進(jìn)行對(duì)比實(shí)驗(yàn),基于FW-DTSS算法的F-score在大多數(shù)情況下是高于VIPS和WPMTE的,并且對(duì)每個(gè)新聞網(wǎng)站都可以保持在96%以上,均值在99%以上,對(duì)有些網(wǎng)站則可以達(dá)到100%。2)對(duì)于重復(fù)網(wǎng)頁問題,本文提出了一種基于虛詞(FW)和BloomFilter(BF)的網(wǎng)頁去重算法。對(duì)URL集進(jìn)行對(duì)比實(shí)驗(yàn),基于FW-BF的算法對(duì)完全重復(fù)網(wǎng)頁、部分重復(fù)網(wǎng)頁、完全不重復(fù)網(wǎng)頁的F-Score均高于99%;基于FW-BF的算法與Bloom Filter、Feature code相比,F-score基本持平但對(duì)整個(gè)URL集的運(yùn)行時(shí)間最短,這三種算法運(yùn)行時(shí)間分別為44s、56s、212s。3)本文結(jié)合了FW-DTSS和FW-BF的算法,基于Hadoop平臺(tái)設(shè)計(jì)了一個(gè)實(shí)時(shí)的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)。由于每日的新聞數(shù)有限,僅選取國(guó)內(nèi)十個(gè)典型的主流新聞網(wǎng)站作為代表,該閱讀系統(tǒng)允許用戶自行訂閱其中的一個(gè)或幾個(gè),自動(dòng)完成對(duì)網(wǎng)頁正文的抓取、重復(fù)網(wǎng)頁的去除,最終反饋給用戶純粹的新聞標(biāo)題和正文。
【圖文】:

特征碼


圖 1.6 特征碼結(jié)構(gòu)網(wǎng)頁的特征串的提取通常分為兩步:首先選取網(wǎng)頁正文中能代表一個(gè)句子含義的若干字符作為特征碼,然后將選取出來的特征碼按照它們?cè)诰W(wǎng)頁中的出現(xiàn)順序拼接到一起構(gòu)成網(wǎng)頁的特征串。該方法不僅可以保證網(wǎng)頁內(nèi)容的完整性,還考慮了網(wǎng)頁不同部分的連續(xù)性。在網(wǎng)頁特征串的匹配過程中,采用的方法包括索引散列表[47]、關(guān)鍵詞組成[48]以及字頻匹配[49]等。1.2.3 Hadoop 分布式系統(tǒng)1.2.3.1 Hadoop 簡(jiǎn)介Hadoop[50-51]最早是源自于 Nutch。Nutch 是一個(gè)從互聯(lián)網(wǎng)抓取網(wǎng)頁的搜索引擎,它對(duì)抓取好的網(wǎng)頁內(nèi)容建立了索引,以便之后能更快捷準(zhǔn)確的查詢。然而互聯(lián)網(wǎng)發(fā)展的迅猛使得網(wǎng)絡(luò)數(shù)據(jù)海量增加,最終導(dǎo)致 Nutch 難以擴(kuò)展。為了解決這一問題,Google 詳細(xì)描述了自己的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),并為此存儲(chǔ)結(jié)構(gòu)提出了新的文件系統(tǒng) NDFS。之后在 2004 年,Google 又提出了 simplified data processing on large cluster[52],即 MapReduce,這是分布式計(jì)算框架的首次提出。這新概念的提出轟動(dòng)了全球引起了很多的討論,隨后 Google 確實(shí)實(shí)現(xiàn)了這一偉

文字,源碼,預(yù)處理,例子


基于 Hadoop 的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)<html><style···>···</style><head···>···</head><body><div···>文字段1</div><div><p>文字段2</p><input ··· /><p>文字<a>···</a>文字</p></div></body></html><html><body><div···><text>文字段1</text></div><div><p><text>文字段2</text></p><p><text>文字段3</text></p></div></body></html>(a) (b)圖 2.3 網(wǎng)頁源碼預(yù)處理結(jié)果
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 潘心宇;陳長(zhǎng)福;劉蓉;王美清;;基于網(wǎng)頁DOM樹節(jié)點(diǎn)路徑相似度的正文抽取[J];微型機(jī)與應(yīng)用;2016年19期

2 侯睿;吳婷婷;;命名數(shù)據(jù)網(wǎng)絡(luò)中基于多級(jí)計(jì)數(shù)Bloom過濾器的名字查找方法研究[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年03期

3 符于江;;網(wǎng)頁去重中的關(guān)鍵詞和特征串提取[J];電子技術(shù)與軟件工程;2016年17期

4 趙艷紅;李洪奇;朱麗萍;詹坤林;;基于Bloom Filter的去重方法研究[J];計(jì)算技術(shù)與自動(dòng)化;2016年01期

5 楊欽;楊沐昀;;一種基于標(biāo)點(diǎn)密度的網(wǎng)頁正文提取方法[J];智能計(jì)算機(jī)與應(yīng)用;2015年04期

6 董微;倪宏;鄧浩江;劉學(xué);;針對(duì)Web信息抽取的數(shù)據(jù)交叉定位改進(jìn)方法[J];網(wǎng)絡(luò)新媒體技術(shù);2015年04期

7 王智圣;李琪;汪靜;印鑒;;基于隱式用戶反饋數(shù)據(jù)流的實(shí)時(shí)個(gè)性化推薦[J];計(jì)算機(jī)學(xué)報(bào);2016年01期

8 楊柳青;李曉東;耿光剛;;基于布局相似性的網(wǎng)頁正文內(nèi)容提取研究[J];計(jì)算機(jī)應(yīng)用研究;2015年09期

9 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期

10 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期

相關(guān)博士學(xué)位論文 前1條

1 卜湛;在線網(wǎng)絡(luò)社會(huì)行為特征研究及其應(yīng)用[D];南京航空航天大學(xué);2014年

相關(guān)碩士學(xué)位論文 前7條

1 胡波;基于視覺語義塊的網(wǎng)頁正文提取算法研究[D];浙江大學(xué);2013年

2 壽泉;在線網(wǎng)絡(luò)用戶作者身份鑒定方法研究[D];南京航空航天大學(xué);2012年

3 劉陽;基于內(nèi)容的搜索引擎網(wǎng)頁去重研究[D];江蘇大學(xué);2010年

4 姚漫;基于文本聚類的網(wǎng)頁消重算法研究[D];北京交通大學(xué);2008年

5 張娜;電子商務(wù)環(huán)境下的個(gè)性化信息推薦服務(wù)及應(yīng)用研究[D];合肥工業(yè)大學(xué);2007年

6 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2007年

7 白廣慧;網(wǎng)頁排重技術(shù)研究及應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年

,

本文編號(hào):2576924

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2576924.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶05ba5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com