基于Hadoop的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【圖文】:
圖 1.6 特征碼結(jié)構(gòu)網(wǎng)頁的特征串的提取通常分為兩步:首先選取網(wǎng)頁正文中能代表一個(gè)句子含義的若干字符作為特征碼,然后將選取出來的特征碼按照它們?cè)诰W(wǎng)頁中的出現(xiàn)順序拼接到一起構(gòu)成網(wǎng)頁的特征串。該方法不僅可以保證網(wǎng)頁內(nèi)容的完整性,還考慮了網(wǎng)頁不同部分的連續(xù)性。在網(wǎng)頁特征串的匹配過程中,采用的方法包括索引散列表[47]、關(guān)鍵詞組成[48]以及字頻匹配[49]等。1.2.3 Hadoop 分布式系統(tǒng)1.2.3.1 Hadoop 簡(jiǎn)介Hadoop[50-51]最早是源自于 Nutch。Nutch 是一個(gè)從互聯(lián)網(wǎng)抓取網(wǎng)頁的搜索引擎,它對(duì)抓取好的網(wǎng)頁內(nèi)容建立了索引,以便之后能更快捷準(zhǔn)確的查詢。然而互聯(lián)網(wǎng)發(fā)展的迅猛使得網(wǎng)絡(luò)數(shù)據(jù)海量增加,最終導(dǎo)致 Nutch 難以擴(kuò)展。為了解決這一問題,Google 詳細(xì)描述了自己的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),并為此存儲(chǔ)結(jié)構(gòu)提出了新的文件系統(tǒng) NDFS。之后在 2004 年,Google 又提出了 simplified data processing on large cluster[52],即 MapReduce,這是分布式計(jì)算框架的首次提出。這新概念的提出轟動(dòng)了全球引起了很多的討論,隨后 Google 確實(shí)實(shí)現(xiàn)了這一偉
基于 Hadoop 的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)<html><style···>···</style><head···>···</head><body><div···>文字段1</div><div><p>文字段2</p><input ··· /><p>文字<a>···</a>文字</p></div></body></html><html><body><div···><text>文字段1</text></div><div><p><text>文字段2</text></p><p><text>文字段3</text></p></div></body></html>(a) (b)圖 2.3 網(wǎng)頁源碼預(yù)處理結(jié)果
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 潘心宇;陳長(zhǎng)福;劉蓉;王美清;;基于網(wǎng)頁DOM樹節(jié)點(diǎn)路徑相似度的正文抽取[J];微型機(jī)與應(yīng)用;2016年19期
2 侯睿;吳婷婷;;命名數(shù)據(jù)網(wǎng)絡(luò)中基于多級(jí)計(jì)數(shù)Bloom過濾器的名字查找方法研究[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年03期
3 符于江;;網(wǎng)頁去重中的關(guān)鍵詞和特征串提取[J];電子技術(shù)與軟件工程;2016年17期
4 趙艷紅;李洪奇;朱麗萍;詹坤林;;基于Bloom Filter的去重方法研究[J];計(jì)算技術(shù)與自動(dòng)化;2016年01期
5 楊欽;楊沐昀;;一種基于標(biāo)點(diǎn)密度的網(wǎng)頁正文提取方法[J];智能計(jì)算機(jī)與應(yīng)用;2015年04期
6 董微;倪宏;鄧浩江;劉學(xué);;針對(duì)Web信息抽取的數(shù)據(jù)交叉定位改進(jìn)方法[J];網(wǎng)絡(luò)新媒體技術(shù);2015年04期
7 王智圣;李琪;汪靜;印鑒;;基于隱式用戶反饋數(shù)據(jù)流的實(shí)時(shí)個(gè)性化推薦[J];計(jì)算機(jī)學(xué)報(bào);2016年01期
8 楊柳青;李曉東;耿光剛;;基于布局相似性的網(wǎng)頁正文內(nèi)容提取研究[J];計(jì)算機(jī)應(yīng)用研究;2015年09期
9 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期
10 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期
相關(guān)博士學(xué)位論文 前1條
1 卜湛;在線網(wǎng)絡(luò)社會(huì)行為特征研究及其應(yīng)用[D];南京航空航天大學(xué);2014年
相關(guān)碩士學(xué)位論文 前7條
1 胡波;基于視覺語義塊的網(wǎng)頁正文提取算法研究[D];浙江大學(xué);2013年
2 壽泉;在線網(wǎng)絡(luò)用戶作者身份鑒定方法研究[D];南京航空航天大學(xué);2012年
3 劉陽;基于內(nèi)容的搜索引擎網(wǎng)頁去重研究[D];江蘇大學(xué);2010年
4 姚漫;基于文本聚類的網(wǎng)頁消重算法研究[D];北京交通大學(xué);2008年
5 張娜;電子商務(wù)環(huán)境下的個(gè)性化信息推薦服務(wù)及應(yīng)用研究[D];合肥工業(yè)大學(xué);2007年
6 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2007年
7 白廣慧;網(wǎng)頁排重技術(shù)研究及應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
,本文編號(hào):2576924
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2576924.html