天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于結(jié)構(gòu)分析的網(wǎng)頁主題區(qū)域發(fā)現(xiàn)方法

發(fā)布時間:2017-12-19 05:14

  本文關(guān)鍵詞:一種基于結(jié)構(gòu)分析的網(wǎng)頁主題區(qū)域發(fā)現(xiàn)方法


  更多相關(guān)文章: 信息抽取 主題區(qū)域 文本結(jié)構(gòu)權(quán)重 去噪


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,Web數(shù)據(jù)挖掘在幫助人們獲取主題信息方面越來越具有重要意義。本研究基于樹結(jié)構(gòu),將Web網(wǎng)頁解析為標(biāo)簽樹;在樹匹配算法的基礎(chǔ)上,提出了數(shù)據(jù)區(qū)域挖掘和語義鏈接塊識別算法,實現(xiàn)了去鏈接的預(yù)處理;提出了文本結(jié)構(gòu)權(quán)重的概念,并采用文本結(jié)構(gòu)權(quán)重的計算結(jié)果發(fā)現(xiàn)主題區(qū)域,去噪后獲得主題信息。實驗表明該研究結(jié)果對新聞、博客類網(wǎng)頁具有很好的識別效果。
【作者單位】: 武漢大學(xué)計算機(jī)學(xué)院;
【分類號】:TP393.092;TP391.1
【正文快照】: 1引言種基于文本結(jié)構(gòu)權(quán)重識別主題的方法,通過對標(biāo)簽樹分網(wǎng)頁主題區(qū)域是指通常位于瀏覽者視覺中心的內(nèi)析來處理半結(jié)構(gòu)化的網(wǎng)頁,利用樹匹配方法發(fā)現(xiàn)數(shù)據(jù)區(qū)容,大多數(shù)情況下,人們只對網(wǎng)頁主題感興趣。目前出域,采用文本結(jié)構(gòu)權(quán)重方法識別主題區(qū)域,從而獲取目現(xiàn)了許多網(wǎng)頁主題提取

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2014年01期

2 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[J];計算機(jī)研究與發(fā)展;2004年10期

3 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁正文提取[J];計算機(jī)工程與應(yīng)用;2010年20期

4 黃武冠;朱明;尹文科;;基于DOM樹和視覺特征的網(wǎng)頁信息自動抽取[J];計算機(jī)工程;2013年10期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 袁鴻雁;;基于本體的HTML表格識別技術(shù)的研究[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2010年01期

2 杜茂康;李韶華;劉苗;;基于MEDL模型的HTML向XML的轉(zhuǎn)換方法[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2012年06期

3 李征宇;孫平;高春陽;;基于XML和本體的城市住宅信息集成研究[J];電腦知識與技術(shù);2013年35期

4 鄧緒斌;朱揚勇;;ReDE:一個基于正則表達(dá)式的生物數(shù)據(jù)抽取方法[J];計算機(jī)研究與發(fā)展;2005年12期

5 李石君;于俊清;歐偉杰;;基于HTML模式代數(shù)的Web信息提取方法[J];計算機(jī)研究與發(fā)展;2006年09期

6 王宇;譚松波;廖祥文;曾依靈;;基于擴(kuò)展領(lǐng)域模型的有名屬性抽取[J];計算機(jī)研究與發(fā)展;2010年09期

7 田建偉;李石君;;基于層次樹模型的Deep Web數(shù)據(jù)提取方法[J];計算機(jī)研究與發(fā)展;2011年01期

8 張瑞;李石君;;網(wǎng)上表格數(shù)據(jù)到XML的自動轉(zhuǎn)換[J];計算機(jī)工程與應(yīng)用;2007年02期

9 賈長云;程永上;;HTML表格向XML的智能轉(zhuǎn)換[J];計算機(jī)工程;2009年14期

10 張志遠(yuǎn);徐濤;馮霞;;航班信息抽取規(guī)則的自動生成技術(shù)[J];計算機(jī)工程;2011年06期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條

1 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年

2 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年

3 董永權(quán);Deep Web數(shù)據(jù)集成關(guān)鍵問題研究[D];山東大學(xué);2010年

4 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問題研究[D];山東大學(xué);2010年

5 王欣;WEB應(yīng)用系統(tǒng)安全檢測關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

6 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計算機(jī)研究與發(fā)展;2002年10期

2 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機(jī)工程與應(yīng)用;2003年22期

3 張玉芳;陳小莉;熊忠陽;;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計算機(jī)工程與應(yīng)用;2007年35期

4 孟軍;劉秋水;王秀坤;;節(jié)點頻度和語義距離相結(jié)合的網(wǎng)頁正文信息抽取[J];計算機(jī)工程與應(yīng)用;2009年01期

5 姜波;丁岳偉;;基于約束樹編輯距離與導(dǎo)航樹的信息采集[J];計算機(jī)工程;2009年14期

6 楊舟;卓林;趙朋朋;崔志明;;一種針對商品數(shù)據(jù)記錄的自動抽取方法[J];計算機(jī)工程;2010年23期

7 鄭國良;葉飛躍;林國俊;耿冬;;基于領(lǐng)域本體的主題信息采集方法[J];計算機(jī)應(yīng)用;2008年12期

8 李中原;楊守文;;基于向量空間模型的網(wǎng)頁特征權(quán)重計算改進(jìn)[J];計算機(jī)與現(xiàn)代化;2010年06期

9 喬少杰;唐常杰;陳瑜;彭京;溫粉蓮;;基于樹編輯距離的層次聚類算法[J];計算機(jī)科學(xué)與探索;2007年03期

10 聶卉;黃貴鵬;;樹編輯距離在Web信息抽取中的應(yīng)用與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2010年05期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計算機(jī)信息;2010年27期

5 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設(shè)計[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期

9 劉艷敏;劉飚;封化民;宋國森;方勇;;Web頁面主題信息抽取研究與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2006年21期

10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術(shù);2008年12期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會議(WISA2004)論文集[C];2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

2 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年

2 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢預(yù)測[D];哈爾濱工業(yè)大學(xué);2013年

3 郭程;面向多樣性檢索的子主題挖掘技術(shù)的研究[D];沈陽航空航天大學(xué);2014年

4 吳彥文;主題信息合理性、語境意義偏向性對漢語句子歧義消解的實驗研究[D];陜西師范大學(xué);2002年

5 戴興虎;基于主題的學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建[D];浙江大學(xué);2013年

6 吳曉娜;基于特征、先驗和約束的主題建模算法[D];蘇州大學(xué);2014年

7 邸亮;基于主題模型的個性化信息推薦[D];北京工業(yè)大學(xué);2014年

8 亓?xí)郧?Web挖掘中的主題模型擴(kuò)展[D];北京郵電大學(xué);2013年

9 徐楓;基于主題爬蟲的視頻教程庫的研究與設(shè)計[D];廣西大學(xué);2014年

10 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計[D];濟(jì)南大學(xué);2011年

,

本文編號:1307006

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1307006.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9d846***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com