網(wǎng)頁(yè)消重技術(shù)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞: 網(wǎng)頁(yè)消重 字頻 分段 編輯距離 特征串 出處:《電子科技大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著Internet的發(fā)展及其廣泛應(yīng)用,網(wǎng)絡(luò)信息呈爆炸式增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)成為了人們獲取信息的重要來(lái)源。為了能幫助人們快速找到所需要的信息,于是便有了搜索引擎技術(shù)。方便了人們查找信息,節(jié)省了時(shí)間,已經(jīng)成為了人們經(jīng)常使用的一項(xiàng)網(wǎng)絡(luò)服務(wù)。 但是據(jù)中國(guó)互聯(lián)網(wǎng)信息中心統(tǒng)計(jì)報(bào)告顯示,重復(fù)結(jié)果太多是用戶在使用搜索引擎時(shí)遇到的主要問(wèn)題。據(jù)統(tǒng)計(jì),Internet上大約有30%左右的重復(fù)網(wǎng)頁(yè),大部分是由于轉(zhuǎn)載造成的。網(wǎng)頁(yè)重復(fù)問(wèn)題對(duì)搜索引擎帶來(lái)了一定的影響,重復(fù)網(wǎng)頁(yè)不僅浪費(fèi)了存儲(chǔ)空間,也增加了搜索引擎的處理時(shí)間。同時(shí)搜索引擎的檢索結(jié)果包含了很多內(nèi)容重復(fù)的網(wǎng)頁(yè),降低了檢索質(zhì)量,所以網(wǎng)頁(yè)消重已經(jīng)成為搜索引擎中一項(xiàng)必不可少的工作。 本文研究了網(wǎng)頁(yè)消重的起源、及其發(fā)展現(xiàn)狀,進(jìn)行了以下幾方面的研究工作: (1)高質(zhì)量的網(wǎng)頁(yè)消重都是基于網(wǎng)頁(yè)正文文本的,本文首先研究了網(wǎng)頁(yè)的內(nèi)部結(jié)構(gòu),提出了基于DOM的網(wǎng)頁(yè)正文抽取算法,通過(guò)將網(wǎng)頁(yè)分塊,聚合,過(guò)濾,得到網(wǎng)頁(yè)的正文文本,將其作為消重的對(duì)象。實(shí)驗(yàn)證明該算法具有較高的準(zhǔn)確率。 (2)設(shè)計(jì)了一個(gè)在線網(wǎng)頁(yè)消重系統(tǒng),實(shí)現(xiàn)了兩種消重算法:摘要消重和全文消重。該系統(tǒng)通過(guò)對(duì)搜索引擎的檢索結(jié)果進(jìn)行消重處理,提高了檢索質(zhì)量。 (3)提出了兩種網(wǎng)頁(yè)消重算法:基于字頻特征的消重算法和基于分段特征的消重算法。 (4)基于字頻的消重算法抽取網(wǎng)頁(yè)正文文字的字頻作為網(wǎng)頁(yè)主特征串,同時(shí)將字頻的附加信息作為網(wǎng)頁(yè)的輔特征串。算法使用編輯距離樹(shù)對(duì)特征串進(jìn)行比較,減少了兩兩比較的次數(shù),與傳統(tǒng)算法相比提高了算法效率。 (5)基于分段的消重算法將網(wǎng)頁(yè)正文分段,提取每段中最長(zhǎng)的句子作為其特征串,運(yùn)用HASH算法進(jìn)行消重。該算法的準(zhǔn)確率較高且效率非常理想。 (6)最后將上述兩種算法與基于標(biāo)點(diǎn)的消重算法從算法效率,準(zhǔn)確率,召回率三方面進(jìn)行了嚴(yán)格的比較,并分析了三種算法的缺陷和優(yōu)點(diǎn)。
[Abstract]:With the development of Internet and its wide application, the Internet has become an important source for people to obtain information. So there is search engine technology, which makes it convenient for people to find information, saves time, and has become a network service that people often use. However, according to the statistics report of the China Internet Information Center, too many duplicate results are the main problems that users encounter when using search engines. According to statistics, there are about 30% duplicate web pages on the Internet. Most of it is caused by reprinting. The problem of web page duplication has a certain impact on search engine, duplicate pages not only waste storage space, It also increases the processing time of the search engine. Meanwhile, the search results of the search engine contain a lot of duplicate pages, which reduce the search quality, so the web page weightlessness has become an essential work in the search engine. In this paper, the origin and development of web page weightlessness are studied, and the following research work is carried out:. First of all, this paper studies the internal structure of the web page, and puts forward a text extraction algorithm based on DOM. By dividing, aggregating and filtering the web page, the text of the page can be obtained. The experimental results show that the algorithm has high accuracy. 2) an online webpage weight-elimination system is designed, which realizes two weight-elimination algorithms: summary weight-elimination and full-text weight-elimination. The system improves the retrieval quality by eliminating the search results. 3) two algorithms are proposed: one is based on word frequency feature and the other is based on segment feature. 4) the word frequency of the text text is extracted as the main feature string of the web page, and the additional information of the word frequency is taken as the auxiliary feature string of the web page. The algorithm uses the edit distance tree to compare the feature string. The frequency of pairwise comparison is reduced, and the efficiency of the algorithm is improved compared with the traditional algorithm. 5) based on the segmentation algorithm, the text of the web page is segmented, the longest sentence in each segment is extracted as its feature string, and the HASH algorithm is used to eliminate the weight. The algorithm has high accuracy and high efficiency. Finally, the efficiency, accuracy and recall rate of these two algorithms are compared strictly with those based on punctuation. The defects and advantages of the three algorithms are analyzed.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 盧峰;Frontpage 98的網(wǎng)頁(yè)編輯[J];電腦技術(shù);1999年03期
2 ;Web Painter 3.0功能完整的網(wǎng)頁(yè)繪圖及動(dòng)畫(huà)處理軟件[J];電子出版;1999年01期
3 李宗宏;如何利用FrontPage Express制作主頁(yè)[J];計(jì)算機(jī)時(shí)代;1999年11期
4 ;網(wǎng)上先生——教您上網(wǎng)(四) 上網(wǎng)第四站[J];市場(chǎng)與電腦;1999年07期
5 ;站點(diǎn)掃描[J];計(jì)算機(jī)周刊;1999年17期
6 云起;信息人——你有網(wǎng)頁(yè)嗎[J];計(jì)算機(jī)周刊;1999年22期
7 李新 ,楊章遠(yuǎn) ,許志宏;在網(wǎng)頁(yè)中實(shí)現(xiàn)自定義滾動(dòng)條[J];電腦編程技巧與維護(hù);1999年10期
8 范建平;;給你的網(wǎng)頁(yè)安一個(gè)門(mén)鈴[J];軟件;2000年06期
9 張東淮;一步一步做網(wǎng)頁(yè)(二)[J];電腦技術(shù);2001年08期
10 蔡麗萍;大學(xué)圖書(shū)館網(wǎng)頁(yè)設(shè)計(jì)述評(píng)[J];山東圖書(shū)館季刊;2001年04期
相關(guān)會(huì)議論文 前10條
1 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
2 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁(yè)和超鏈的分類[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
5 孔輝;梁洪亮;辛陽(yáng);楊義先;陳林順;;一種高性能的網(wǎng)頁(yè)篡改檢測(cè)與恢復(fù)機(jī)制[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開(kāi)發(fā)應(yīng)用論文集(一)[C];2005年
7 李立宗;高鐵杠;陳蓉;陳超;;基于混沌系統(tǒng)的web信息隱藏研究與實(shí)現(xiàn)[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年
8 王玉龍;葉新銘;李秀華;;網(wǎng)頁(yè)優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
9 朱建國(guó);孫鐘德;劉婷;;地市級(jí)網(wǎng)絡(luò)管理監(jiān)控初探[A];“推進(jìn)氣象科技創(chuàng)新,,提高防災(zāi)減災(zāi)和應(yīng)對(duì)氣候變化能力”——江蘇省氣象學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集[C];2011年
10 鄭傳新;謝筱惠;;基于網(wǎng)頁(yè)技術(shù)的決策氣象服務(wù)信息系統(tǒng)[A];2002年廣西氣象電子專業(yè)技術(shù)交流會(huì)論文集[C];2002年
相關(guān)重要報(bào)紙文章 前10條
1 任悅采寫(xiě) 本報(bào)記者 方妍;照片買家說(shuō),網(wǎng)頁(yè)繁復(fù)不招喜歡[N];中國(guó)攝影報(bào);2009年
2 鳴澗;走近3D夢(mèng)幻網(wǎng)頁(yè)(3)[N];中國(guó)電腦教育報(bào);2002年
3 湖南 Ringfo;防止你的網(wǎng)頁(yè)被“偷拍”[N];電腦報(bào);2002年
4 路人甲;在網(wǎng)頁(yè)上圈圈點(diǎn)點(diǎn)[N];電腦報(bào);2004年
5 湖南 郭榮輝;網(wǎng)頁(yè)圖片保存四法[N];電子報(bào);2005年
6 鳴澗;初次握手3D網(wǎng)頁(yè)[N];中國(guó)電腦教育報(bào);2002年
7 李芳香;和網(wǎng)頁(yè)垃圾說(shuō)再見(jiàn)[N];中國(guó)電腦教育報(bào);2002年
8 馬淑芬 記者 吳岳福;寶清 率先啟動(dòng)“村村通網(wǎng)頁(yè)”工程[N];黑龍江日?qǐng)?bào);2010年
9 鳴澗;網(wǎng)頁(yè)的編輯[N];中國(guó)電腦教育報(bào);2002年
10 遼寧 張策;滾動(dòng)的字幕 滾動(dòng)的網(wǎng)頁(yè)[N];中國(guó)電腦教育報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 荊濤;面向領(lǐng)域網(wǎng)頁(yè)的語(yǔ)義標(biāo)注若干問(wèn)題研究[D];吉林大學(xué);2011年
2 覃健誠(chéng);網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
3 劉凱鵬;社會(huì)性標(biāo)注關(guān)鍵技術(shù)及其在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
4 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
5 黃小廣;港美經(jīng)濟(jì)關(guān)系研究[D];暨南大學(xué);2008年
6 劉守群;海量網(wǎng)絡(luò)視頻快速檢索關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
7 竇平安;電子商務(wù)語(yǔ)義信息共享模式[D];吉林大學(xué);2009年
8 吳瑞;模糊和粗糙環(huán)境下的網(wǎng)絡(luò)用戶瀏覽模式研究[D];天津大學(xué);2006年
9 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
10 杜阿寧;互聯(lián)網(wǎng)輿情信息挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 祁琛;網(wǎng)頁(yè)消重技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
2 孫學(xué)剛;面向奧運(yùn)的中文網(wǎng)頁(yè)信息獲取方法的初步研究[D];清華大學(xué);2004年
3 黃輝;基于LSI和SVC的網(wǎng)頁(yè)文本分類算法研究[D];長(zhǎng)沙理工大學(xué);2010年
4 張曉宇;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁(yè)過(guò)濾方法的研究[D];新疆大學(xué);2011年
5 楊碩;社交網(wǎng)頁(yè)游戲現(xiàn)象研究[D];山東藝術(shù)學(xué)院;2012年
6 王祥冰;個(gè)人網(wǎng)頁(yè)人際意義構(gòu)建的多模態(tài)分析[D];西南交通大學(xué);2012年
7 李琦;基于層次聚類和網(wǎng)頁(yè)關(guān)系的人名消歧[D];山東大學(xué);2012年
8 羅劍;數(shù)據(jù)挖掘在惡意網(wǎng)頁(yè)動(dòng)態(tài)檢測(cè)中的應(yīng)用研究[D];上海交通大學(xué);2012年
9 邱鵬;移動(dòng)終端網(wǎng)頁(yè)轉(zhuǎn)換系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2012年
10 涂濤;嵌入式瀏覽器網(wǎng)頁(yè)排版技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2004年
本文編號(hào):1540438
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1540438.html