天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于結(jié)構(gòu)分析的網(wǎng)頁(yè)主題區(qū)域發(fā)現(xiàn)方法

發(fā)布時(shí)間:2017-12-19 05:14

  本文關(guān)鍵詞:一種基于結(jié)構(gòu)分析的網(wǎng)頁(yè)主題區(qū)域發(fā)現(xiàn)方法


  更多相關(guān)文章: 信息抽取 主題區(qū)域 文本結(jié)構(gòu)權(quán)重 去噪


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,Web數(shù)據(jù)挖掘在幫助人們獲取主題信息方面越來(lái)越具有重要意義。本研究基于樹(shù)結(jié)構(gòu),將Web網(wǎng)頁(yè)解析為標(biāo)簽樹(shù);在樹(shù)匹配算法的基礎(chǔ)上,提出了數(shù)據(jù)區(qū)域挖掘和語(yǔ)義鏈接塊識(shí)別算法,實(shí)現(xiàn)了去鏈接的預(yù)處理;提出了文本結(jié)構(gòu)權(quán)重的概念,并采用文本結(jié)構(gòu)權(quán)重的計(jì)算結(jié)果發(fā)現(xiàn)主題區(qū)域,去噪后獲得主題信息。實(shí)驗(yàn)表明該研究結(jié)果對(duì)新聞、博客類網(wǎng)頁(yè)具有很好的識(shí)別效果。
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 1引言種基于文本結(jié)構(gòu)權(quán)重識(shí)別主題的方法,通過(guò)對(duì)標(biāo)簽樹(shù)分網(wǎng)頁(yè)主題區(qū)域是指通常位于瀏覽者視覺(jué)中心的內(nèi)析來(lái)處理半結(jié)構(gòu)化的網(wǎng)頁(yè),利用樹(shù)匹配方法發(fā)現(xiàn)數(shù)據(jù)區(qū)容,大多數(shù)情況下,人們只對(duì)網(wǎng)頁(yè)主題感興趣。目前出域,采用文本結(jié)構(gòu)權(quán)重方法識(shí)別主題區(qū)域,從而獲取目現(xiàn)了許多網(wǎng)頁(yè)主題提取

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條

1 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁(yè)主題特征項(xiàng)抽取[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年01期

2 胡東東,孟小峰;一種基于樹(shù)結(jié)構(gòu)的Web數(shù)據(jù)自動(dòng)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

3 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程與應(yīng)用;2010年20期

4 黃武冠;朱明;尹文科;;基于DOM樹(shù)和視覺(jué)特征的網(wǎng)頁(yè)信息自動(dòng)抽取[J];計(jì)算機(jī)工程;2013年10期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 袁鴻雁;;基于本體的HTML表格識(shí)別技術(shù)的研究[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期

2 杜茂康;李韶華;劉苗;;基于MEDL模型的HTML向XML的轉(zhuǎn)換方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期

3 李征宇;孫平;高春陽(yáng);;基于XML和本體的城市住宅信息集成研究[J];電腦知識(shí)與技術(shù);2013年35期

4 鄧緒斌;朱揚(yáng)勇;;ReDE:一個(gè)基于正則表達(dá)式的生物數(shù)據(jù)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2005年12期

5 李石君;于俊清;歐偉杰;;基于HTML模式代數(shù)的Web信息提取方法[J];計(jì)算機(jī)研究與發(fā)展;2006年09期

6 王宇;譚松波;廖祥文;曾依靈;;基于擴(kuò)展領(lǐng)域模型的有名屬性抽取[J];計(jì)算機(jī)研究與發(fā)展;2010年09期

7 田建偉;李石君;;基于層次樹(shù)模型的Deep Web數(shù)據(jù)提取方法[J];計(jì)算機(jī)研究與發(fā)展;2011年01期

8 張瑞;李石君;;網(wǎng)上表格數(shù)據(jù)到XML的自動(dòng)轉(zhuǎn)換[J];計(jì)算機(jī)工程與應(yīng)用;2007年02期

9 賈長(zhǎng)云;程永上;;HTML表格向XML的智能轉(zhuǎn)換[J];計(jì)算機(jī)工程;2009年14期

10 張志遠(yuǎn);徐濤;馮霞;;航班信息抽取規(guī)則的自動(dòng)生成技術(shù)[J];計(jì)算機(jī)工程;2011年06期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條

1 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年

2 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年

3 董永權(quán);Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D];山東大學(xué);2010年

4 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問(wèn)題研究[D];山東大學(xué);2010年

5 王欣;WEB應(yīng)用系統(tǒng)安全檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

6 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期

2 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期

3 張玉芳;陳小莉;熊忠陽(yáng);;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年35期

4 孟軍;劉秋水;王秀坤;;節(jié)點(diǎn)頻度和語(yǔ)義距離相結(jié)合的網(wǎng)頁(yè)正文信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年01期

5 姜波;丁岳偉;;基于約束樹(shù)編輯距離與導(dǎo)航樹(shù)的信息采集[J];計(jì)算機(jī)工程;2009年14期

6 楊舟;卓林;趙朋朋;崔志明;;一種針對(duì)商品數(shù)據(jù)記錄的自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2010年23期

7 鄭國(guó)良;葉飛躍;林國(guó)俊;耿冬;;基于領(lǐng)域本體的主題信息采集方法[J];計(jì)算機(jī)應(yīng)用;2008年12期

8 李中原;楊守文;;基于向量空間模型的網(wǎng)頁(yè)特征權(quán)重計(jì)算改進(jìn)[J];計(jì)算機(jī)與現(xiàn)代化;2010年06期

9 喬少杰;唐常杰;陳瑜;彭京;溫粉蓮;;基于樹(shù)編輯距離的層次聚類算法[J];計(jì)算機(jī)科學(xué)與探索;2007年03期

10 聶卉;黃貴鵬;;樹(shù)編輯距離在Web信息抽取中的應(yīng)用與實(shí)現(xiàn)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2010年05期

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 劉艷敏;劉飚;封化民;宋國(guó)森;方勇;;Web頁(yè)面主題信息抽取研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年21期

10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年12期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國(guó)Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

2 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年

2 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)[D];哈爾濱工業(yè)大學(xué);2013年

3 郭程;面向多樣性檢索的子主題挖掘技術(shù)的研究[D];沈陽(yáng)航空航天大學(xué);2014年

4 吳彥文;主題信息合理性、語(yǔ)境意義偏向性對(duì)漢語(yǔ)句子歧義消解的實(shí)驗(yàn)研究[D];陜西師范大學(xué);2002年

5 戴興虎;基于主題的學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建[D];浙江大學(xué);2013年

6 吳曉娜;基于特征、先驗(yàn)和約束的主題建模算法[D];蘇州大學(xué);2014年

7 邸亮;基于主題模型的個(gè)性化信息推薦[D];北京工業(yè)大學(xué);2014年

8 亓?xí)郧?Web挖掘中的主題模型擴(kuò)展[D];北京郵電大學(xué);2013年

9 徐楓;基于主題爬蟲(chóng)的視頻教程庫(kù)的研究與設(shè)計(jì)[D];廣西大學(xué);2014年

10 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計(jì)[D];濟(jì)南大學(xué);2011年

,

本文編號(hào):1307006

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1307006.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9d846***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本欧美一区二区三区就 | 在线欧美精品二区三区| 国产中文字幕一区二区| 日韩国产亚洲一区二区三区| 久久99亚洲小姐精品综合| 亚洲高清一区二区高清| 国产精品不卡免费视频| 国产肥妇一区二区熟女精品| 日本高清视频在线观看不卡| 好吊色免费在线观看视频| 91麻豆视频国产一区二区| 亚洲国产精品一区二区毛片| 国产午夜精品久久福利| 精品视频一区二区三区不卡| 成人精品日韩专区在线观看| 日韩一级一片内射视频4k| 国产性情片一区二区三区| 欧美大胆女人的大胆人体| 插进她的身体里在线观看骚| 在线观看国产午夜福利| 欧美野外在线刺激在线观看| 亚洲精品国产福利在线| 麻豆亚州无矿码专区视频| 美女被啪的视频在线观看| 一区二区三区日韩经典| 美女被草的视频在线观看| 久草视频这里只是精品| 国产农村妇女成人精品| 国产欧美日产久久婷婷| 搡老妇女老熟女一区二区| 久久这里只精品免费福利| 久久精品伊人一区二区| 亚洲专区中文字幕在线| 日本精品免费在线观看| 成人午夜视频精品一区| 久七久精品视频黄色的| 国产亚洲不卡一区二区| 色婷婷在线视频免费播放| 91亚洲国产—区=区a| 国产91人妻精品一区二区三区 | 精产国品一二三区麻豆|