基于統(tǒng)計的網(wǎng)頁凈化模板生成算法
本文選題:網(wǎng)頁凈化 切入點:信息提取 出處:《科學(xué)技術(shù)與工程》2013年04期
【摘要】:同一個站點的大部分網(wǎng)頁擁有幾乎相同的DOM標(biāo)簽樹,處理后的標(biāo)簽樹作為一個模板,該站點的所有網(wǎng)頁只保留這個模板中葉子節(jié)點包含的內(nèi)容,由此可以實現(xiàn)這個站點的所有網(wǎng)頁的凈化。首先對一個站點內(nèi)的一組樣本網(wǎng)頁提取內(nèi)容塊樹,針對每個樹統(tǒng)計每個標(biāo)簽節(jié)點包含的文本字?jǐn)?shù),同級節(jié)點只保留字?jǐn)?shù)最多的一個,從而生成單邊子樹UST;然后把這組UST合并,同級節(jié)點中出現(xiàn)次數(shù)最多的即為重要內(nèi)容節(jié)點,把這些節(jié)點串起來就構(gòu)成重要單邊子樹PUST;最后比對每個父節(jié)點與子節(jié)點之間的字?jǐn)?shù),當(dāng)比值超過一個閾值時則刪除子節(jié)點以下的所有節(jié)點,從而生成該站點的重要單邊子樹SPUST。這個SPUST就是該站點的網(wǎng)頁凈化模板。
[Abstract]:Most pages of the same site have almost the same DOM tag tree, the processed tag tree acts as a template, and all pages of the site retain only the content contained in the leaf node in this template. In this way, we can purify all the web pages of this site. Firstly, we extract the content block tree from a set of sample pages in a site. For each tree, we count the number of text words contained in each label node, and the peer node only retains the one with the largest number of words. Thus, the single side subtree USTs are generated, and then the UST set is merged. The most frequent occurrence in the same level nodes is the important content node, and the number of words between each parent node and the child node is compared to the number of words between each parent node and the child node by stringing these nodes together to form the important unilateral subtree UST. When the ratio exceeds a threshold, all the nodes below the child node are deleted to generate the important unilateral subtree SPUST. this SPUST is the page purification template of the site.
【作者單位】: 重慶第二師范學(xué)院網(wǎng)絡(luò)中心數(shù)學(xué)與信息工程系;重慶第二師范學(xué)院網(wǎng)絡(luò)中心財務(wù)處;重慶第二師范學(xué)院網(wǎng)絡(luò)中心教務(wù)處;
【基金】:重慶教育學(xué)院研究項目(KY201176C)資助
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前1條
1 胡飛;;基于標(biāo)記樹的Web頁面區(qū)域劃分和搜索方法[J];計算機科學(xué);2005年08期
【共引文獻】
相關(guān)期刊論文 前1條
1 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;基于結(jié)構(gòu)與內(nèi)容的網(wǎng)頁主題信息提取研究[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期
相關(guān)碩士學(xué)位論文 前1條
1 吳鵬飛;面向Web的多媒體信息提取及其教育應(yīng)用[D];山東師范大學(xué);2007年
【二級參考文獻】
相關(guān)期刊論文 前2條
1 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報;2004年01期
2 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
【相似文獻】
相關(guān)期刊論文 前10條
1 孫楠;張華偉;;一種新的用于數(shù)據(jù)挖掘工具的網(wǎng)頁凈化算法[J];鄭州輕工業(yè)學(xué)院學(xué)報(自然科學(xué)版);2011年03期
2 王曉艷;梁晉春;郭曉霞;姚穎穎;汪瑛;;基于互聯(lián)網(wǎng)的數(shù)字媒體內(nèi)容輿情分析系統(tǒng)[J];計算機系統(tǒng)應(yīng)用;2011年08期
3 馮曦曦;朱學(xué)芳;;基于Spring框架的農(nóng)業(yè)網(wǎng)站信息資源采集器設(shè)計與實現(xiàn)[J];信息化研究;2011年03期
4 殷彬;楊會志;;靈活結(jié)構(gòu)網(wǎng)頁的正文提取[J];計算機技術(shù)與發(fā)展;2011年09期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會議論文 前10條
1 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(上)[C];2009年
2 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(中)[C];2009年
3 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁內(nèi)容提取研究[A];第三屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2007)論文集[C];2007年
4 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
5 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
6 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動的WEB信息提取和集成[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
7 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
8 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
9 李德仁;;論廣義空間信息網(wǎng)格和狹義空間信息網(wǎng)格[A];中國測繪學(xué)會第八次全國會員代表大會暨2005年綜合性學(xué)術(shù)年會論文集[C];2005年
10 冷巍;;附加碼技術(shù)與口令保護[A];第二十次全國計算機安全學(xué)術(shù)交流會論文集[C];2005年
相關(guān)重要報紙文章 前2條
1 海量智能計算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計算機世界;2007年
2 王尊義, 盧湖川;基于應(yīng)用層協(xié)議進行郵件監(jiān)聽[N];計算機世界;2005年
相關(guān)博士學(xué)位論文 前1條
1 許建潮;Web挖掘中若干問題的研究[D];吉林大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 張磊;基于Internet的智能信息挖掘系統(tǒng)建模及關(guān)鍵技術(shù)研究[D];西北工業(yè)大學(xué);2003年
2 曹魯慧;遠程教育中基于語義Web的信息處理技術(shù)研究[D];山東大學(xué);2005年
3 劉慧;基于表格結(jié)構(gòu)的Web信息提取技術(shù)研究[D];燕山大學(xué);2009年
4 武瓊;基于元數(shù)據(jù)的web信息提取方法研究[D];山西大學(xué);2003年
5 邵延振;基于Web挖掘的信息提取與推薦相關(guān)研究[D];廣西師范大學(xué);2010年
6 萬樂;網(wǎng)頁的預(yù)處理技術(shù)[D];吉林大學(xué);2008年
7 孫及園;對Web網(wǎng)頁的信息提取技術(shù)的研究[D];福州大學(xué);2001年
8 齊海鳳;網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)與事件跟蹤技術(shù)研究[D];哈爾濱工程大學(xué);2008年
9 謝華;Internet網(wǎng)頁自動分類技術(shù)的研究[D];中南大學(xué);2007年
10 董素芬;Web信息顯示格式轉(zhuǎn)換技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2008年
,本文編號:1699943
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1699943.html