天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于DOM模型擴展的Web信息提取

發(fā)布時間:2019-08-02 08:25
【摘要】:提出了一種基于DOM模型擴展的Web信息提取方法。將Web頁面表示為DOM樹結(jié)構(gòu),對DOM樹結(jié)點進行語義擴展并計算其影響度因子,依據(jù)結(jié)點的影響度因子進行剪枝,進而提取Web頁面信息內(nèi)容。該方法不要求對網(wǎng)頁的結(jié)構(gòu)有預先認識,具有自動和通用的特點。提取結(jié)果除可以直接用于Web瀏覽外,還可用于互聯(lián)網(wǎng)數(shù)據(jù)挖掘、基于主題的搜索引擎等應用中。
[Abstract]:A Web information extraction method based on DOM model extension is proposed. The Web page is represented as DOM tree structure, the semantic extension of DOM tree node is carried out and its influence factor is calculated, and the pruning is carried out according to the influence factor of node, and then the information content of Web page is extracted. This method does not require a pre-understanding of the structure of web pages, and has the characteristics of automatic and universal. The extracted results can not only be directly used in Web browsing, but also can be used in Internet data mining, topic-based search engines and other applications.
【作者單位】: 南京信息工程大學計算機與軟件學院;
【基金】:江蘇省產(chǎn)業(yè)技術(shù)研究與開發(fā)基金項目(蘇發(fā)改高技發(fā)[2006]1106號)資助
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前3條

1 馮艷為;王成良;;基于Web部件的個性化網(wǎng)站創(chuàng)建技術(shù)[J];重慶工學院學報(自然科學版);2008年02期

2 張志剛,陳靜,李曉明;一種HTML網(wǎng)頁凈化方法[J];情報學報;2004年04期

3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

【共引文獻】

相關(guān)期刊論文 前10條

1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學學報(自然科學版);2010年06期

2 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學學報;2009年05期

3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期

4 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學學報;2011年04期

5 馮少卿;都云程;;網(wǎng)頁結(jié)構(gòu)模板生成新方法研究[J];北京機械工業(yè)學院學報;2007年03期

6 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期

7 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學學報(自然科學版);2008年02期

8 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應用;2010年06期

9 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識與技術(shù);2008年S2期

10 程基鵬;;一個網(wǎng)頁過濾改進算法的應用與實現(xiàn)[J];電腦知識與技術(shù);2009年33期

相關(guān)會議論文 前10條

1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計算機應用技術(shù)交流會論文集[C];2008年

2 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁內(nèi)容提取研究[A];第三屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2007)論文集[C];2007年

3 江濤;于洪志;李剛;;基于藏文網(wǎng)頁的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)研究[A];全國計算機安全學術(shù)交流會論文集(第二十三卷)[C];2008年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

5 時達明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學生計算語言學研討會論文集[C];2006年

6 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

7 李國華;昝紅英;;基于語句相似度的網(wǎng)頁標題抽取方法[A];第五屆全國青年計算語言學研討會論文集[C];2010年

8 李立宇;王騰蛟;唐世渭;楊冬青;劉世杰;;用語義包裝器實現(xiàn)基于語義的信息集成[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2003年

9 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年

10 蘇志華;楊冬青;唐世渭;王騰蛟;;基于結(jié)構(gòu)分析和實體識別的信息集成[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年

相關(guān)博士學位論文 前10條

1 周雪忠;文本挖掘在中醫(yī)藥中的若干應用研究[D];浙江大學;2004年

2 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學;2005年

3 鄧緒斌;面向復雜數(shù)據(jù)源的數(shù)據(jù)抽取模型和算法研究[D];復旦大學;2005年

4 張友華;面向智能服務的Web內(nèi)容計算研究與應用[D];中國科學技術(shù)大學;2006年

5 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學;2007年

6 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學;2007年

7 易明;基于Web挖掘的電子商務個性化推薦機理與方法研究[D];華中科技大學;2006年

8 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學;2007年

9 郭勇;基于語義的網(wǎng)絡(luò)知識獲取相關(guān)技術(shù)研究[D];國防科學技術(shù)大學;2007年

10 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

相關(guān)碩士學位論文 前10條

1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學;2010年

2 杜廣飛;Web應用移動化適配服務中間件的研究與實現(xiàn)[D];鄭州大學;2010年

3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學;2010年

4 王浩;NetFlow數(shù)據(jù)處理與異常檢測研究[D];哈爾濱工程大學;2010年

5 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年

6 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計和實現(xiàn)[D];蘇州大學;2010年

7 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學;2010年

8 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學;2010年

9 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學;2010年

10 王葛;Deep Web接口集成與數(shù)據(jù)標注方法研究[D];長春工業(yè)大學;2010年

【二級參考文獻】

相關(guān)期刊論文 前1條

1 張志剛,陳靜,李曉明;一種HTML網(wǎng)頁凈化方法[J];情報學報;2004年04期

【相似文獻】

相關(guān)期刊論文 前10條

1 原建偉;;基于內(nèi)容分析的數(shù)據(jù)挖掘研究[J];河北工業(yè)科技;2011年05期

2 孫清 ,張德運 ,楊軍;利用COM組件開發(fā)應用軟件的方法及實現(xiàn)[J];微電子學與計算機;2001年06期

3 白勇;;基于文檔對象模型和遠程腳本技術(shù)的動態(tài)目錄樹設(shè)計[J];重慶電力高等?茖W校學報;2003年01期

4 周宇;吳濤;;用C++語言實現(xiàn)XML文件解析的一種方案[J];光通信研究;2008年04期

5 侯錕;劉斌;;Web頁面信息抽取技術(shù)的研究[J];荊楚理工學院學報;2009年11期

6 逯鵬;XML文檔解析技術(shù)及其應用[J];鄭州大學學報(工學版);2002年04期

7 李世斌,謝慶生;應用集成中BOM及其管理的研究[J];計算機與現(xiàn)代化;2003年07期

8 侯錕;羅海龍;;Web頁面表格信息的自主抽取[J];科技廣場;2006年04期

9 和萬禮;陳應東;崔鐵軍;姚慧敏;;基于SVG的網(wǎng)絡(luò)地圖交互研究[J];海洋測繪;2006年05期

10 李偉;;基于XML+DOM4J的數(shù)據(jù)庫集成技術(shù)研究[J];電腦知識與技術(shù)(學術(shù)交流);2007年05期

相關(guān)會議論文 前10條

1 郭學軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應用[A];第十六屆全國數(shù)據(jù)庫學術(shù)會議論文集[C];1999年

2 徐慧;;基于Web的文獻數(shù)據(jù)挖掘[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2000年

3 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風病“陰陽類證”辨證規(guī)范的數(shù)據(jù)挖掘研究[A];中華醫(yī)學會第十三次全國神經(jīng)病學學術(shù)會議論文匯編[C];2010年

4 薛魯華;張楠;;聚類分析在Web數(shù)據(jù)挖掘中的應用[A];北京市第十三次統(tǒng)計科學討論會論文選編[C];2006年

5 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學會第十次全國醫(yī)學信息學術(shù)會議論文匯編[C];2004年

6 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——河南省第四屆青年學術(shù)年會論文集(下冊)[C];2004年

7 朱揚勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年

8 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風病陰陽類證辨證規(guī)范的數(shù)據(jù)挖掘研究[A];2010中國醫(yī)師協(xié)會中西醫(yī)結(jié)合醫(yī)師大會摘要集[C];2010年

9 陳濤;胡學鋼;陳秀美;;基于數(shù)據(jù)挖掘的教學質(zhì)量評價體系分析[A];全國第21屆計算機技術(shù)與應用學術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集[C];2010年

10 王星;謝邦昌;戴穩(wěn)勝;;數(shù)據(jù)挖掘在保險業(yè)中的應用[A];北京市第十二次統(tǒng)計科學討論會論文選編[C];2003年

相關(guān)重要報紙文章 前10條

1 李開宇 黃建軍 田長春;把“數(shù)據(jù)挖掘”作用發(fā)揮出來[N];中國國防報;2009年

2 華萊士;“數(shù)據(jù)挖掘”讓銀行贏利更多[N];國際金融報;2003年

3 記者 晏燕;數(shù)據(jù)挖掘讓決策者告別“拍腦袋”[N];科技日報;2006年

4 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術(shù)學院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年

5 田紅生;數(shù)據(jù)挖掘在CRM中的應用[N];中國經(jīng)濟時報;2002年

6 王廣宇;數(shù)據(jù)挖掘 加速銀行CRM一體化[N];中國計算機報;2004年

7 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年

8 張立明;數(shù)據(jù)挖掘之道[N];網(wǎng)絡(luò)世界;2003年

9 中圣信息技術(shù)有限公司 李輝;數(shù)據(jù)挖掘在CRM中的作用[N];中國計算機報;2001年

10 裴維玲;呼叫中心與數(shù)據(jù)挖掘,誰先上?[N];網(wǎng)絡(luò)世界;2001年

相關(guān)博士學位論文 前10條

1 孫麗;工藝知識管理及其若干關(guān)鍵技術(shù)研究[D];大連交通大學;2005年

2 胡志坤;復雜有色金屬熔煉過程操作模式智能優(yōu)化方法研究[D];中南大學;2005年

3 郭斯羽;動態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學;2002年

4 劉革平;基于數(shù)據(jù)挖掘的遠程學習評價研究[D];西南師范大學;2005年

5 劉寨華;基于臨床數(shù)據(jù)分析的病毒性心肌炎證候演變規(guī)律研究[D];黑龍江中醫(yī)藥大學;2006年

6 王川;基因芯片數(shù)據(jù)管理及數(shù)據(jù)挖掘[D];中國科學院研究生院(上海生命科學研究院);2004年

7 李旭升;貝葉斯網(wǎng)絡(luò)分類模型研究及其在信用評估中的應用[D];西南交通大學;2007年

8 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡集[D];華中科技大學;2006年

9 劉東升;面向連鎖零售企業(yè)的客戶關(guān)系管理模型(R-CRM)研究[D];浙江工商大學;2008年

10 余紅;網(wǎng)絡(luò)時政論壇輿論領(lǐng)袖研究[D];華中科技大學;2007年

相關(guān)碩士學位論文 前10條

1 廖賽恩;養(yǎng)生方數(shù)據(jù)挖掘分析系統(tǒng)的研制[D];湖南中醫(yī)藥大學;2010年

2 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應用[D];福建師范大學;2009年

3 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過程質(zhì)量控制中應用研究[D];上海交通大學;2009年

4 李坤然;數(shù)據(jù)挖掘在股市趨勢預測的應用研究[D];中南林業(yè)科技大學;2008年

5 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實現(xiàn)[D];西安電子科技大學;2010年

6 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務營銷中的應用[D];北京郵電大學;2010年

7 徐路;基于決策樹的數(shù)據(jù)挖掘算法的研究及其在實際中的應用[D];電子科技大學;2009年

8 劉華敏;數(shù)據(jù)挖掘在高職院校學生成績分析中的應用[D];安徽大學;2011年

9 李森;基于數(shù)據(jù)挖掘的旅游電子商務系統(tǒng)研究與實現(xiàn)[D];電子科技大學;2011年

10 梁小鷗;數(shù)據(jù)挖掘在高職教學管理中的應用[D];華南理工大學;2011年

,

本文編號:2521989

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2521989.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2bd77***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com