天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于DOM模型擴(kuò)展的Web信息提取

發(fā)布時(shí)間:2019-08-02 08:25
【摘要】:提出了一種基于DOM模型擴(kuò)展的Web信息提取方法。將Web頁面表示為DOM樹結(jié)構(gòu),對(duì)DOM樹結(jié)點(diǎn)進(jìn)行語義擴(kuò)展并計(jì)算其影響度因子,依據(jù)結(jié)點(diǎn)的影響度因子進(jìn)行剪枝,進(jìn)而提取Web頁面信息內(nèi)容。該方法不要求對(duì)網(wǎng)頁的結(jié)構(gòu)有預(yù)先認(rèn)識(shí),具有自動(dòng)和通用的特點(diǎn)。提取結(jié)果除可以直接用于Web瀏覽外,還可用于互聯(lián)網(wǎng)數(shù)據(jù)挖掘、基于主題的搜索引擎等應(yīng)用中。
[Abstract]:A Web information extraction method based on DOM model extension is proposed. The Web page is represented as DOM tree structure, the semantic extension of DOM tree node is carried out and its influence factor is calculated, and the pruning is carried out according to the influence factor of node, and then the information content of Web page is extracted. This method does not require a pre-understanding of the structure of web pages, and has the characteristics of automatic and universal. The extracted results can not only be directly used in Web browsing, but also can be used in Internet data mining, topic-based search engines and other applications.
【作者單位】: 南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院;
【基金】:江蘇省產(chǎn)業(yè)技術(shù)研究與開發(fā)基金項(xiàng)目(蘇發(fā)改高技發(fā)[2006]1106號(hào))資助
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 馮艷為;王成良;;基于Web部件的個(gè)性化網(wǎng)站創(chuàng)建技術(shù)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期

2 張志剛,陳靜,李曉明;一種HTML網(wǎng)頁凈化方法[J];情報(bào)學(xué)報(bào);2004年04期

3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

2 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期

3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期

4 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年04期

5 馮少卿;都云程;;網(wǎng)頁結(jié)構(gòu)模板生成新方法研究[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2007年03期

6 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書與情報(bào);2010年04期

7 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

8 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期

9 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識(shí)與技術(shù);2008年S2期

10 程基鵬;;一個(gè)網(wǎng)頁過濾改進(jìn)算法的應(yīng)用與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年33期

相關(guān)會(huì)議論文 前10條

1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

2 李連霞;馬軍;陳竹敏;;基于多特征的網(wǎng)頁內(nèi)容提取研究[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年

3 江濤;于洪志;李剛;;基于藏文網(wǎng)頁的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)研究[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十三卷)[C];2008年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

6 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

7 李國華;昝紅英;;基于語句相似度的網(wǎng)頁標(biāo)題抽取方法[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

8 李立宇;王騰蛟;唐世渭;楊冬青;劉世杰;;用語義包裝器實(shí)現(xiàn)基于語義的信息集成[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

9 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

10 蘇志華;楊冬青;唐世渭;王騰蛟;;基于結(jié)構(gòu)分析和實(shí)體識(shí)別的信息集成[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

相關(guān)博士學(xué)位論文 前10條

1 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

2 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年

3 鄧緒斌;面向復(fù)雜數(shù)據(jù)源的數(shù)據(jù)抽取模型和算法研究[D];復(fù)旦大學(xué);2005年

4 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

5 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

6 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年

7 易明;基于Web挖掘的電子商務(wù)個(gè)性化推薦機(jī)理與方法研究[D];華中科技大學(xué);2006年

8 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

9 郭勇;基于語義的網(wǎng)絡(luò)知識(shí)獲取相關(guān)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2007年

10 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年

2 杜廣飛;Web應(yīng)用移動(dòng)化適配服務(wù)中間件的研究與實(shí)現(xiàn)[D];鄭州大學(xué);2010年

3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

4 王浩;NetFlow數(shù)據(jù)處理與異常檢測研究[D];哈爾濱工程大學(xué);2010年

5 王樂超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

6 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年

7 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年

8 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學(xué);2010年

9 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年

10 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長春工業(yè)大學(xué);2010年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 張志剛,陳靜,李曉明;一種HTML網(wǎng)頁凈化方法[J];情報(bào)學(xué)報(bào);2004年04期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 原建偉;;基于內(nèi)容分析的數(shù)據(jù)挖掘研究[J];河北工業(yè)科技;2011年05期

2 孫清 ,張德運(yùn) ,楊軍;利用COM組件開發(fā)應(yīng)用軟件的方法及實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2001年06期

3 白勇;;基于文檔對(duì)象模型和遠(yuǎn)程腳本技術(shù)的動(dòng)態(tài)目錄樹設(shè)計(jì)[J];重慶電力高等?茖W(xué)校學(xué)報(bào);2003年01期

4 周宇;吳濤;;用C++語言實(shí)現(xiàn)XML文件解析的一種方案[J];光通信研究;2008年04期

5 侯錕;劉斌;;Web頁面信息抽取技術(shù)的研究[J];荊楚理工學(xué)院學(xué)報(bào);2009年11期

6 逯鵬;XML文檔解析技術(shù)及其應(yīng)用[J];鄭州大學(xué)學(xué)報(bào)(工學(xué)版);2002年04期

7 李世斌,謝慶生;應(yīng)用集成中BOM及其管理的研究[J];計(jì)算機(jī)與現(xiàn)代化;2003年07期

8 侯錕;羅海龍;;Web頁面表格信息的自主抽取[J];科技廣場;2006年04期

9 和萬禮;陳應(yīng)東;崔鐵軍;姚慧敏;;基于SVG的網(wǎng)絡(luò)地圖交互研究[J];海洋測繪;2006年05期

10 李偉;;基于XML+DOM4J的數(shù)據(jù)庫集成技術(shù)研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期

相關(guān)會(huì)議論文 前10條

1 郭學(xué)軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應(yīng)用[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年

2 徐慧;;基于Web的文獻(xiàn)數(shù)據(jù)挖掘[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

3 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病“陰陽類證”辨證規(guī)范的數(shù)據(jù)挖掘研究[A];中華醫(yī)學(xué)會(huì)第十三次全國神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年

4 薛魯華;張楠;;聚類分析在Web數(shù)據(jù)挖掘中的應(yīng)用[A];北京市第十三次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2006年

5 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學(xué)會(huì)第十次全國醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年

6 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——河南省第四屆青年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年

7 朱揚(yáng)勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

8 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病陰陽類證辨證規(guī)范的數(shù)據(jù)挖掘研究[A];2010中國醫(yī)師協(xié)會(huì)中西醫(yī)結(jié)合醫(yī)師大會(huì)摘要集[C];2010年

9 陳濤;胡學(xué)鋼;陳秀美;;基于數(shù)據(jù)挖掘的教學(xué)質(zhì)量評(píng)價(jià)體系分析[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

10 王星;謝邦昌;戴穩(wěn)勝;;數(shù)據(jù)挖掘在保險(xiǎn)業(yè)中的應(yīng)用[A];北京市第十二次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2003年

相關(guān)重要報(bào)紙文章 前10條

1 李開宇 黃建軍 田長春;把“數(shù)據(jù)挖掘”作用發(fā)揮出來[N];中國國防報(bào);2009年

2 華萊士;“數(shù)據(jù)挖掘”讓銀行贏利更多[N];國際金融報(bào);2003年

3 記者 晏燕;數(shù)據(jù)挖掘讓決策者告別“拍腦袋”[N];科技日?qǐng)?bào);2006年

4 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年

5 田紅生;數(shù)據(jù)挖掘在CRM中的應(yīng)用[N];中國經(jīng)濟(jì)時(shí)報(bào);2002年

6 王廣宇;數(shù)據(jù)挖掘 加速銀行CRM一體化[N];中國計(jì)算機(jī)報(bào);2004年

7 周蓉蓉;數(shù)據(jù)挖掘需要點(diǎn)想像力[N];計(jì)算機(jī)世界;2004年

8 張立明;數(shù)據(jù)挖掘之道[N];網(wǎng)絡(luò)世界;2003年

9 中圣信息技術(shù)有限公司 李輝;數(shù)據(jù)挖掘在CRM中的作用[N];中國計(jì)算機(jī)報(bào);2001年

10 裴維玲;呼叫中心與數(shù)據(jù)挖掘,誰先上?[N];網(wǎng)絡(luò)世界;2001年

相關(guān)博士學(xué)位論文 前10條

1 孫麗;工藝知識(shí)管理及其若干關(guān)鍵技術(shù)研究[D];大連交通大學(xué);2005年

2 胡志坤;復(fù)雜有色金屬熔煉過程操作模式智能優(yōu)化方法研究[D];中南大學(xué);2005年

3 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年

4 劉革平;基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)評(píng)價(jià)研究[D];西南師范大學(xué);2005年

5 劉寨華;基于臨床數(shù)據(jù)分析的病毒性心肌炎證候演變規(guī)律研究[D];黑龍江中醫(yī)藥大學(xué);2006年

6 王川;基因芯片數(shù)據(jù)管理及數(shù)據(jù)挖掘[D];中國科學(xué)院研究生院(上海生命科學(xué)研究院);2004年

7 李旭升;貝葉斯網(wǎng)絡(luò)分類模型研究及其在信用評(píng)估中的應(yīng)用[D];西南交通大學(xué);2007年

8 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡集[D];華中科技大學(xué);2006年

9 劉東升;面向連鎖零售企業(yè)的客戶關(guān)系管理模型(R-CRM)研究[D];浙江工商大學(xué);2008年

10 余紅;網(wǎng)絡(luò)時(shí)政論壇輿論領(lǐng)袖研究[D];華中科技大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 廖賽恩;養(yǎng)生方數(shù)據(jù)挖掘分析系統(tǒng)的研制[D];湖南中醫(yī)藥大學(xué);2010年

2 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應(yīng)用[D];福建師范大學(xué);2009年

3 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過程質(zhì)量控制中應(yīng)用研究[D];上海交通大學(xué);2009年

4 李坤然;數(shù)據(jù)挖掘在股市趨勢(shì)預(yù)測的應(yīng)用研究[D];中南林業(yè)科技大學(xué);2008年

5 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

6 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務(wù)營銷中的應(yīng)用[D];北京郵電大學(xué);2010年

7 徐路;基于決策樹的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用[D];電子科技大學(xué);2009年

8 劉華敏;數(shù)據(jù)挖掘在高職院校學(xué)生成績分析中的應(yīng)用[D];安徽大學(xué);2011年

9 李森;基于數(shù)據(jù)挖掘的旅游電子商務(wù)系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年

10 梁小鷗;數(shù)據(jù)挖掘在高職教學(xué)管理中的應(yīng)用[D];華南理工大學(xué);2011年

,

本文編號(hào):2521989

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2521989.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2bd77***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com