天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種改進(jìn)的樹(shù)路徑模型在網(wǎng)頁(yè)聚類中的研究

發(fā)布時(shí)間:2018-04-09 22:26

  本文選題:信息提取 切入點(diǎn):網(wǎng)頁(yè)結(jié)構(gòu) 出處:《計(jì)算機(jī)科學(xué)》2015年05期


【摘要】:相似度計(jì)算是文本挖掘的基礎(chǔ),也是信息提取過(guò)程的關(guān)鍵步驟。對(duì)于結(jié)構(gòu)復(fù)雜的網(wǎng)頁(yè),當(dāng)前基于傳統(tǒng)樹(shù)路徑模型的相似度計(jì)算方法在準(zhǔn)確性上尚不完善。傳統(tǒng)樹(shù)路徑模型未考慮路徑出現(xiàn)的先后順序,并且比較路徑相似度時(shí)用的是完全匹配,難以在不完全匹配時(shí)更精確地描述路徑之間的相似度。因此,從網(wǎng)頁(yè)結(jié)構(gòu)相似度入手,提出了一種改進(jìn)的樹(shù)路徑模型。該模型充分考慮了兄弟節(jié)點(diǎn)之間的關(guān)系、路徑位置以及路徑權(quán)重,彌補(bǔ)了傳統(tǒng)樹(shù)路徑模型無(wú)法表達(dá)文檔結(jié)構(gòu)和層次信息的缺陷。實(shí)驗(yàn)結(jié)果表明,該模型提高了識(shí)別網(wǎng)頁(yè)結(jié)構(gòu)相似性的能力,既能對(duì)結(jié)構(gòu)差別較大的網(wǎng)頁(yè)進(jìn)行良好的區(qū)分,又能較好地反映來(lái)自同一模板的網(wǎng)頁(yè)之間的差異性,同時(shí)在網(wǎng)頁(yè)聚類中具有更優(yōu)的效果。
[Abstract]:Similarity calculation is the foundation of text mining and the key step of information extraction.For the web pages with complex structure, the accuracy of the traditional tree path model is not perfect.The traditional tree path model does not consider the sequence of path appearance, and it is difficult to describe the similarity between paths more accurately when comparing path similarity with perfect matching.Therefore, an improved tree path model is proposed based on the similarity of web structure.This model fully considers the relationship between brother nodes, path position and path weight, and makes up for the defect that traditional tree path model can not express document structure and hierarchical information.The experimental results show that the model can improve the ability of recognizing the structural similarity of web pages, and can not only distinguish the pages with large structural differences, but also reflect the differences between pages from the same template.At the same time, it has better effect in web clustering.
【作者單位】: 河海大學(xué)計(jì)算機(jī)與信息學(xué)院;南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:江蘇水利科技項(xiàng)目:“智慧河流”研究及其在六合滁河管理中的應(yīng)用(2013025) 河海大學(xué)中央高;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(2009B21614)資助
【分類號(hào)】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 王志琪;王永成;;HTML文件的文本信息預(yù)處理技術(shù)[J];計(jì)算機(jī)工程;2006年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 程仁貴;;帶反向詞頻的中英文詞典的設(shè)計(jì)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年11期

2 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期

3 孫娜;吳蘭蘭;;一種節(jié)點(diǎn)加權(quán)的相似重復(fù)XML數(shù)據(jù)檢測(cè)算法[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年02期

4 陳睿嘉;康志忠;張衛(wèi)濤;;基于網(wǎng)絡(luò)爬蟲(chóng)的導(dǎo)航深度服務(wù)信息自動(dòng)采集[J];測(cè)繪工程;2015年01期

5 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹(shù)及網(wǎng)頁(yè)正文信息提取[J];計(jì)算機(jī)科學(xué);2011年04期

6 方元康;胡學(xué)鋼;夏啟壽;朱勇;;改進(jìn)的Web日志數(shù)據(jù)預(yù)處理技術(shù)[J];計(jì)算機(jī)工程;2009年10期

7 王舒;朱敏;張明;牛顥;趙瑜;;一種基于特征符號(hào)的網(wǎng)頁(yè)主題信息抽取方法[J];計(jì)算機(jī)應(yīng)用研究;2009年12期

8 錢程;陽(yáng)小蘭;;HTML到XML轉(zhuǎn)換研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年08期

9 黃武冠;朱明;尹文科;;基于DOM樹(shù)和視覺(jué)特征的網(wǎng)頁(yè)信息自動(dòng)抽取[J];計(jì)算機(jī)工程;2013年10期

10 王繼奎;李少波;;數(shù)據(jù)源敏感的多源XML數(shù)據(jù)相似度量方法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年07期

相關(guān)會(huì)議論文 前1條

1 王春元;張韜;;一種獲取網(wǎng)頁(yè)主要中文信息的方法[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年

相關(guān)博士學(xué)位論文 前5條

1 楊瑞龍;基于短語(yǔ)特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年

2 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學(xué);2009年

3 劉顯敏;XML數(shù)據(jù)實(shí)體同一性相關(guān)技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2013年

4 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

5 高直;圖像宏微觀特征偏序結(jié)構(gòu)一體化表示與相似性度量研究[D];燕山大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 張瑞雪;基于DOM樹(shù)的網(wǎng)頁(yè)相似度研究與應(yīng)用[D];大連理工大學(xué);2011年

2 劉敏;嵌入式瀏覽器網(wǎng)頁(yè)排版技術(shù)研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

3 朱慧;基于輿情分析研判的突發(fā)事件預(yù)警平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2011年

4 古沐松;基于SOA的鐵路信息化研究[D];四川師范大學(xué);2007年

5 吳新濤;基于向量空間模型的網(wǎng)頁(yè)信息過(guò)濾方法研究[D];大連理工大學(xué);2008年

6 王磊;公安網(wǎng)絡(luò)輿情分析系統(tǒng)的研究[D];北京交通大學(xué);2008年

7 艾建生;基于Web環(huán)境的遠(yuǎn)程實(shí)驗(yàn)技術(shù)研究[D];重慶大學(xué);2008年

8 楊新華;Windows CE系統(tǒng)下嵌入式WAP/Web瀏覽器的研究與實(shí)現(xiàn)[D];重慶大學(xué);2009年

9 王立建;中文web文本過(guò)濾技術(shù)研究[D];中北大學(xué);2010年

10 趙立磊;基于網(wǎng)頁(yè)去重的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2012年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 梁恩志;陸小龍;趙世平;劉曉宇;曹志華;王蕾;;二維桁架路徑模型的自動(dòng)生成算法[J];西安交通大學(xué)學(xué)報(bào);2012年05期

2 牟德一;劉金鳳;;改進(jìn)的蟻群算法在飛行路徑模型中的應(yīng)用[J];計(jì)算機(jī)工程與科學(xué);2012年06期

3 ;[J];;年期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會(huì)議論文 前3條

1 崔嘯;蔡安輝;董紀(jì)昌;;房?jī)r(jià)在不同時(shí)期貨幣政策傳導(dǎo)機(jī)制中的作用——基于熱最優(yōu)路徑模型研究[A];第十三屆中國(guó)管理科學(xué)學(xué)術(shù)年會(huì)論文集[C];2011年

2 樊霞;俞舟;;產(chǎn)學(xué)研協(xié)同創(chuàng)新有助于大學(xué)創(chuàng)新能力成長(zhǎng)嗎?——基于偏最小二乘路徑模型的實(shí)證檢驗(yàn)[A];中國(guó)系統(tǒng)工程學(xué)會(huì)第十八屆學(xué)術(shù)年會(huì)論文集——A03系統(tǒng)科學(xué)理論研究創(chuàng)新[C];2014年

3 黃德春;高敏;劉炳勝;;中國(guó)區(qū)域創(chuàng)新能力評(píng)價(jià)及變化趨勢(shì)系統(tǒng)分析——基于PLS路徑模型的實(shí)證研究[A];第六屆(2011)中國(guó)管理學(xué)年會(huì)——技術(shù)與創(chuàng)新管理分會(huì)場(chǎng)論文集[C];2011年

相關(guān)碩士學(xué)位論文 前2條

1 石晶;集體行動(dòng)雙重路徑模型的實(shí)驗(yàn)研究[D];華東師范大學(xué);2012年

2 袁先亮;大規(guī)模網(wǎng)點(diǎn)物流路徑規(guī)劃系統(tǒng)的研究與應(yīng)用[D];武漢理工大學(xué);2014年

,

本文編號(hào):1728454

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1728454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d475a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com