天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于統(tǒng)計(jì)的網(wǎng)頁(yè)凈化模板生成算法

發(fā)布時(shí)間:2018-04-02 10:21

  本文選題:網(wǎng)頁(yè)凈化 切入點(diǎn):信息提取 出處:《科學(xué)技術(shù)與工程》2013年04期


【摘要】:同一個(gè)站點(diǎn)的大部分網(wǎng)頁(yè)擁有幾乎相同的DOM標(biāo)簽樹,處理后的標(biāo)簽樹作為一個(gè)模板,該站點(diǎn)的所有網(wǎng)頁(yè)只保留這個(gè)模板中葉子節(jié)點(diǎn)包含的內(nèi)容,由此可以實(shí)現(xiàn)這個(gè)站點(diǎn)的所有網(wǎng)頁(yè)的凈化。首先對(duì)一個(gè)站點(diǎn)內(nèi)的一組樣本網(wǎng)頁(yè)提取內(nèi)容塊樹,針對(duì)每個(gè)樹統(tǒng)計(jì)每個(gè)標(biāo)簽節(jié)點(diǎn)包含的文本字?jǐn)?shù),同級(jí)節(jié)點(diǎn)只保留字?jǐn)?shù)最多的一個(gè),從而生成單邊子樹UST;然后把這組UST合并,同級(jí)節(jié)點(diǎn)中出現(xiàn)次數(shù)最多的即為重要內(nèi)容節(jié)點(diǎn),把這些節(jié)點(diǎn)串起來就構(gòu)成重要單邊子樹PUST;最后比對(duì)每個(gè)父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的字?jǐn)?shù),當(dāng)比值超過一個(gè)閾值時(shí)則刪除子節(jié)點(diǎn)以下的所有節(jié)點(diǎn),從而生成該站點(diǎn)的重要單邊子樹SPUST。這個(gè)SPUST就是該站點(diǎn)的網(wǎng)頁(yè)凈化模板。
[Abstract]:Most pages of the same site have almost the same DOM tag tree, the processed tag tree acts as a template, and all pages of the site retain only the content contained in the leaf node in this template. In this way, we can purify all the web pages of this site. Firstly, we extract the content block tree from a set of sample pages in a site. For each tree, we count the number of text words contained in each label node, and the peer node only retains the one with the largest number of words. Thus, the single side subtree USTs are generated, and then the UST set is merged. The most frequent occurrence in the same level nodes is the important content node, and the number of words between each parent node and the child node is compared to the number of words between each parent node and the child node by stringing these nodes together to form the important unilateral subtree UST. When the ratio exceeds a threshold, all the nodes below the child node are deleted to generate the important unilateral subtree SPUST. this SPUST is the page purification template of the site.
【作者單位】: 重慶第二師范學(xué)院網(wǎng)絡(luò)中心數(shù)學(xué)與信息工程系;重慶第二師范學(xué)院網(wǎng)絡(luò)中心財(cái)務(wù)處;重慶第二師范學(xué)院網(wǎng)絡(luò)中心教務(wù)處;
【基金】:重慶教育學(xué)院研究項(xiàng)目(KY201176C)資助
【分類號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 胡飛;;基于標(biāo)記樹的Web頁(yè)面區(qū)域劃分和搜索方法[J];計(jì)算機(jī)科學(xué);2005年08期

【共引文獻(xiàn)】

相關(guān)期刊論文 前1條

1 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;基于結(jié)構(gòu)與內(nèi)容的網(wǎng)頁(yè)主題信息提取研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期

相關(guān)碩士學(xué)位論文 前1條

1 吳鵬飛;面向Web的多媒體信息提取及其教育應(yīng)用[D];山東師范大學(xué);2007年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報(bào);2004年01期

2 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫楠;張華偉;;一種新的用于數(shù)據(jù)挖掘工具的網(wǎng)頁(yè)凈化算法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年03期

2 王曉艷;梁晉春;郭曉霞;姚穎穎;汪瑛;;基于互聯(lián)網(wǎng)的數(shù)字媒體內(nèi)容輿情分析系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年08期

3 馮曦曦;朱學(xué)芳;;基于Spring框架的農(nóng)業(yè)網(wǎng)站信息資源采集器設(shè)計(jì)與實(shí)現(xiàn)[J];信息化研究;2011年03期

4 殷彬;楊會(huì)志;;靈活結(jié)構(gòu)網(wǎng)頁(yè)的正文提取[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會(huì)議論文 前10條

1 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年

2 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年

3 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁(yè)內(nèi)容提取研究[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年

4 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年

5 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

6 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

7 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國(guó)高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年

8 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

9 李德仁;;論廣義空間信息網(wǎng)格和狹義空間信息網(wǎng)格[A];中國(guó)測(cè)繪學(xué)會(huì)第八次全國(guó)會(huì)員代表大會(huì)暨2005年綜合性學(xué)術(shù)年會(huì)論文集[C];2005年

10 冷巍;;附加碼技術(shù)與口令保護(hù)[A];第二十次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前2條

1 海量智能計(jì)算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年

2 王尊義, 盧湖川;基于應(yīng)用層協(xié)議進(jìn)行郵件監(jiān)聽[N];計(jì)算機(jī)世界;2005年

相關(guān)博士學(xué)位論文 前1條

1 許建潮;Web挖掘中若干問題的研究[D];吉林大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 張磊;基于Internet的智能信息挖掘系統(tǒng)建模及關(guān)鍵技術(shù)研究[D];西北工業(yè)大學(xué);2003年

2 曹魯慧;遠(yuǎn)程教育中基于語(yǔ)義Web的信息處理技術(shù)研究[D];山東大學(xué);2005年

3 劉慧;基于表格結(jié)構(gòu)的Web信息提取技術(shù)研究[D];燕山大學(xué);2009年

4 武瓊;基于元數(shù)據(jù)的web信息提取方法研究[D];山西大學(xué);2003年

5 邵延振;基于Web挖掘的信息提取與推薦相關(guān)研究[D];廣西師范大學(xué);2010年

6 萬樂;網(wǎng)頁(yè)的預(yù)處理技術(shù)[D];吉林大學(xué);2008年

7 孫及園;對(duì)Web網(wǎng)頁(yè)的信息提取技術(shù)的研究[D];福州大學(xué);2001年

8 齊海鳳;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究[D];哈爾濱工程大學(xué);2008年

9 謝華;Internet網(wǎng)頁(yè)自動(dòng)分類技術(shù)的研究[D];中南大學(xué);2007年

10 董素芬;Web信息顯示格式轉(zhuǎn)換技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2008年



本文編號(hào):1699943

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1699943.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd27f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
免费亚洲黄色在线观看| 99热中文字幕在线精品| 欧美日韩亚洲精品在线观看| 久久午夜福利精品日韩| 中文字幕日韩一区二区不卡| 亚洲国产一区精品一区二区三区色| 国产免费成人激情视频| 色婷婷亚洲精品综合网| 国语久精品在视频在线观看| 日本精品视频一二三区| 精品一区二区三区不卡少妇av| 精品国产亚洲免费91| 亚洲欧洲精品一区二区三区| 国产成人亚洲精品青草天美| 午夜精品麻豆视频91| 久久久免费精品人妻一区二区三区| 一级片黄色一区二区三区| 亚洲国产成人av毛片国产| 午夜国产精品福利在线观看| 日韩18一区二区三区| 久久99青青精品免费观看| 亚洲男女性生活免费视频| 中文字幕亚洲精品在线播放| 午夜精品国产精品久久久| 亚洲高清一区二区高清| 色婷婷中文字幕在线视频| 国产色一区二区三区精品视频| 欧美整片精品日韩综合| 日韩一级毛一欧美一级乱| 国产精品二区三区免费播放心 | 日韩精品视频高清在线观看| 中文字幕中文字幕在线十八区| 免费在线观看欧美喷水黄片| 亚洲视频在线观看免费中文字幕 | 日韩一区二区三区有码| 国产美女精品人人做人人爽| 九九热视频经典在线观看| 一区二区三区精品人妻| 99热九九在线中文字幕| 经典欧美熟女激情综合网| 国产成人午夜福利片片|