一種基于結(jié)構(gòu)分析的網(wǎng)頁(yè)主題區(qū)域發(fā)現(xiàn)方法
本文關(guān)鍵詞:一種基于結(jié)構(gòu)分析的網(wǎng)頁(yè)主題區(qū)域發(fā)現(xiàn)方法
更多相關(guān)文章: 信息抽取 主題區(qū)域 文本結(jié)構(gòu)權(quán)重 去噪
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,Web數(shù)據(jù)挖掘在幫助人們獲取主題信息方面越來(lái)越具有重要意義。本研究基于樹(shù)結(jié)構(gòu),將Web網(wǎng)頁(yè)解析為標(biāo)簽樹(shù);在樹(shù)匹配算法的基礎(chǔ)上,提出了數(shù)據(jù)區(qū)域挖掘和語(yǔ)義鏈接塊識(shí)別算法,實(shí)現(xiàn)了去鏈接的預(yù)處理;提出了文本結(jié)構(gòu)權(quán)重的概念,并采用文本結(jié)構(gòu)權(quán)重的計(jì)算結(jié)果發(fā)現(xiàn)主題區(qū)域,去噪后獲得主題信息。實(shí)驗(yàn)表明該研究結(jié)果對(duì)新聞、博客類網(wǎng)頁(yè)具有很好的識(shí)別效果。
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 1引言種基于文本結(jié)構(gòu)權(quán)重識(shí)別主題的方法,通過(guò)對(duì)標(biāo)簽樹(shù)分網(wǎng)頁(yè)主題區(qū)域是指通常位于瀏覽者視覺(jué)中心的內(nèi)析來(lái)處理半結(jié)構(gòu)化的網(wǎng)頁(yè),利用樹(shù)匹配方法發(fā)現(xiàn)數(shù)據(jù)區(qū)容,大多數(shù)情況下,人們只對(duì)網(wǎng)頁(yè)主題感興趣。目前出域,采用文本結(jié)構(gòu)權(quán)重方法識(shí)別主題區(qū)域,從而獲取目現(xiàn)了許多網(wǎng)頁(yè)主題提取
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁(yè)主題特征項(xiàng)抽取[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年01期
2 胡東東,孟小峰;一種基于樹(shù)結(jié)構(gòu)的Web數(shù)據(jù)自動(dòng)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
3 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程與應(yīng)用;2010年20期
4 黃武冠;朱明;尹文科;;基于DOM樹(shù)和視覺(jué)特征的網(wǎng)頁(yè)信息自動(dòng)抽取[J];計(jì)算機(jī)工程;2013年10期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 袁鴻雁;;基于本體的HTML表格識(shí)別技術(shù)的研究[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期
2 杜茂康;李韶華;劉苗;;基于MEDL模型的HTML向XML的轉(zhuǎn)換方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
3 李征宇;孫平;高春陽(yáng);;基于XML和本體的城市住宅信息集成研究[J];電腦知識(shí)與技術(shù);2013年35期
4 鄧緒斌;朱揚(yáng)勇;;ReDE:一個(gè)基于正則表達(dá)式的生物數(shù)據(jù)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2005年12期
5 李石君;于俊清;歐偉杰;;基于HTML模式代數(shù)的Web信息提取方法[J];計(jì)算機(jī)研究與發(fā)展;2006年09期
6 王宇;譚松波;廖祥文;曾依靈;;基于擴(kuò)展領(lǐng)域模型的有名屬性抽取[J];計(jì)算機(jī)研究與發(fā)展;2010年09期
7 田建偉;李石君;;基于層次樹(shù)模型的Deep Web數(shù)據(jù)提取方法[J];計(jì)算機(jī)研究與發(fā)展;2011年01期
8 張瑞;李石君;;網(wǎng)上表格數(shù)據(jù)到XML的自動(dòng)轉(zhuǎn)換[J];計(jì)算機(jī)工程與應(yīng)用;2007年02期
9 賈長(zhǎng)云;程永上;;HTML表格向XML的智能轉(zhuǎn)換[J];計(jì)算機(jī)工程;2009年14期
10 張志遠(yuǎn);徐濤;馮霞;;航班信息抽取規(guī)則的自動(dòng)生成技術(shù)[J];計(jì)算機(jī)工程;2011年06期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年
2 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年
3 董永權(quán);Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D];山東大學(xué);2010年
4 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問(wèn)題研究[D];山東大學(xué);2010年
5 王欣;WEB應(yīng)用系統(tǒng)安全檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
6 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期
2 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
3 張玉芳;陳小莉;熊忠陽(yáng);;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年35期
4 孟軍;劉秋水;王秀坤;;節(jié)點(diǎn)頻度和語(yǔ)義距離相結(jié)合的網(wǎng)頁(yè)正文信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年01期
5 姜波;丁岳偉;;基于約束樹(shù)編輯距離與導(dǎo)航樹(shù)的信息采集[J];計(jì)算機(jī)工程;2009年14期
6 楊舟;卓林;趙朋朋;崔志明;;一種針對(duì)商品數(shù)據(jù)記錄的自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2010年23期
7 鄭國(guó)良;葉飛躍;林國(guó)俊;耿冬;;基于領(lǐng)域本體的主題信息采集方法[J];計(jì)算機(jī)應(yīng)用;2008年12期
8 李中原;楊守文;;基于向量空間模型的網(wǎng)頁(yè)特征權(quán)重計(jì)算改進(jìn)[J];計(jì)算機(jī)與現(xiàn)代化;2010年06期
9 喬少杰;唐常杰;陳瑜;彭京;溫粉蓮;;基于樹(shù)編輯距離的層次聚類算法[J];計(jì)算機(jī)科學(xué)與探索;2007年03期
10 聶卉;黃貴鵬;;樹(shù)編輯距離在Web信息抽取中的應(yīng)用與實(shí)現(xiàn)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2010年05期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 劉艷敏;劉飚;封化民;宋國(guó)森;方勇;;Web頁(yè)面主題信息抽取研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年21期
10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國(guó)Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
2 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年
2 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)[D];哈爾濱工業(yè)大學(xué);2013年
3 郭程;面向多樣性檢索的子主題挖掘技術(shù)的研究[D];沈陽(yáng)航空航天大學(xué);2014年
4 吳彥文;主題信息合理性、語(yǔ)境意義偏向性對(duì)漢語(yǔ)句子歧義消解的實(shí)驗(yàn)研究[D];陜西師范大學(xué);2002年
5 戴興虎;基于主題的學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建[D];浙江大學(xué);2013年
6 吳曉娜;基于特征、先驗(yàn)和約束的主題建模算法[D];蘇州大學(xué);2014年
7 邸亮;基于主題模型的個(gè)性化信息推薦[D];北京工業(yè)大學(xué);2014年
8 亓?xí)郧?Web挖掘中的主題模型擴(kuò)展[D];北京郵電大學(xué);2013年
9 徐楓;基于主題爬蟲(chóng)的視頻教程庫(kù)的研究與設(shè)計(jì)[D];廣西大學(xué);2014年
10 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計(jì)[D];濟(jì)南大學(xué);2011年
,本文編號(hào):1307006
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1307006.html