識別和抽取XM L文檔中的關(guān)系信息及其出現(xiàn)模式
本文選題:關(guān)系信息 + XML相似度 ; 參考:《清華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2005年S1期
【摘要】:W eb中存在著大量描述實(shí)體間相互關(guān)聯(lián)的信息,而目前的搜索引擎缺乏知識的處理和理解能力,無法對W eb中的關(guān)系信息進(jìn)行識別。該文以XM L作為研究對象,提出了一種XM L文檔中識別和抽取關(guān)系信息及其出現(xiàn)模式的方法。該方法按照用戶的挖掘請求搜集XM L文檔;通過計(jì)算XM L文檔的相似度來識別目標(biāo)文檔;建立用戶挖掘模式并與目標(biāo)文檔進(jìn)行模式匹配實(shí)現(xiàn)關(guān)系數(shù)據(jù)的抽取。實(shí)驗(yàn)結(jié)果表明提出的XM L相似度計(jì)算方法能較好的實(shí)現(xiàn)目標(biāo)文檔的識別,同時(shí)采用的模式表達(dá)和匹配方式也能較準(zhǔn)確地從目標(biāo)文檔中抽取出用戶所需的關(guān)系數(shù)據(jù)。
[Abstract]:There are a large number of information describing the interrelation between entities in Web, but the current search engine lacks the ability to process and understand knowledge, so it is unable to identify the relational information in Web. This paper presents a method to identify and extract relational information and its occurrence patterns in XML documents. The method collects XM1 documents according to users' mining requests; identifies target documents by calculating the similarity of XML documents; establishes user mining patterns and accomplishes relational data extraction by pattern matching with target documents. The experimental results show that the proposed XML similarity calculation method can better realize the recognition of target documents, and the schema representation and matching method can extract the relational data required by users from the target documents more accurately.
【作者單位】: 華僑大學(xué)計(jì)算機(jī)科學(xué)系 華僑大學(xué)計(jì)算機(jī)科學(xué)系
【基金】:國務(wù)院僑辦科研基金資助項(xiàng)目(03QZR5) 福建省科技計(jì)劃資助項(xiàng)目(2004I014)
【分類號】:TP311.13;
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張猛,王大玲,于戈;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
2 徐如志,錢樂秋,程建平,王淵峰,朱三元;基于XML的軟件構(gòu)件查詢匹配算法研究[J];軟件學(xué)報(bào);2003年07期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王素格;彭其偉;張武;;基于遺傳算法的自然語言參數(shù)閾值優(yōu)化方法[J];測試技術(shù)學(xué)報(bào);2006年01期
2 肖錕;陳世鴻;;基于標(biāo)注的一種積件查詢匹配算法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 索紅光;楊濤;;基于互信息的Web文檔聚類方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
4 渠成建;陳立潮;潘理虎;張英俊;謝斌紅;;基于術(shù)語編碼和樹匹配的構(gòu)件檢索方法研究[J];電腦開發(fā)與應(yīng)用;2012年09期
5 余金山;;利用XML,Tamino和CORBA的軟構(gòu)件管理與檢索技術(shù)[J];華僑大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
6 周必水;張延紅;趙敬;;基于語法樹的程序正確性驗(yàn)證模型及算法設(shè)計(jì)[J];杭州電子科技大學(xué)學(xué)報(bào);2006年01期
7 劉磊;張銀平;;一種基于描述邏輯的構(gòu)件檢索匹配算法[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2008年03期
8 何飛;蔣冬初;向繼文;;教學(xué)構(gòu)件的檢索與匹配[J];吉首大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
9 孟聞天,張維石,史金余,張秀國;一種基于刻面分類描述的軟件構(gòu)件查詢方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年12期
10 葉慶衛(wèi),汪同慶;基于二叉樹相似性檢測的變形文字識別研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
相關(guān)會議論文 前4條
1 朱治國;孫長嵩;;一個(gè)異構(gòu)構(gòu)件庫群聯(lián)合檢索模型[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會——通信與信息技術(shù)會議論文集(下)[C];2006年
2 向繼;荊繼武;高能;;一種自動搜索閾值的中文文本層次聚類方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
3 施煒;賈曉輝;鄧志凌;樂嘉錦;;構(gòu)件檢索的刻面索引研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2005年
4 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年
2 席琳;形式化方法在構(gòu)件組裝實(shí)時(shí)系統(tǒng)中的應(yīng)用研究[D];鄭州大學(xué);2012年
3 徐如志;基于復(fù)用的軟件過程改進(jìn)方法與優(yōu)化控制技術(shù)研究[D];復(fù)旦大學(xué);2004年
4 陳珂;面向批量定制的產(chǎn)品協(xié)同開發(fā)技術(shù)研究[D];四川大學(xué);2005年
5 徐德智;XML數(shù)據(jù)庫查詢及其模式集成研究[D];中南大學(xué);2004年
6 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復(fù)研究[D];北京郵電大學(xué);2006年
7 郭軍;產(chǎn)品線架構(gòu)中支持軟件復(fù)用的若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年
8 陳德華;基于對等網(wǎng)絡(luò)的分布式構(gòu)件庫系統(tǒng)若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2006年
9 常娥;古籍智能處理技術(shù)研究[D];南京農(nóng)業(yè)大學(xué);2007年
10 尹澤明;基于服務(wù)組合、支持業(yè)務(wù)質(zhì)量感知的電信業(yè)務(wù)提供若干關(guān)鍵問題研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 柯昌博;基于構(gòu)件的軟件產(chǎn)品線技術(shù)研究[D];昆明理工大學(xué);2010年
3 曲劍;可重構(gòu)路由交換平臺構(gòu)件檢索技術(shù)研究[D];解放軍信息工程大學(xué);2010年
4 王奕;元數(shù)據(jù)技術(shù)在科技資源數(shù)據(jù)庫查詢中的應(yīng)用研究[D];石家莊鐵道學(xué)院;2008年
5 曹根;基于產(chǎn)品線的構(gòu)件組裝技術(shù)的研究與應(yīng)用[D];東華大學(xué);2011年
6 宋士濤;基于本體與刻面相結(jié)合的構(gòu)件檢索研究[D];山東師范大學(xué);2011年
7 劉銘;XML相關(guān)技術(shù)研究[D];電子科技大學(xué);2011年
8 田容雨;基于軟件構(gòu)件技術(shù)的Web系統(tǒng)開發(fā)平臺的研究[D];山東大學(xué);2011年
9 李燕;基于構(gòu)件的嵌入式PLC硬件電路設(shè)計(jì)平臺的研究與設(shè)計(jì)[D];杭州電子科技大學(xué);2009年
10 沈杰;基于蟻群算法的中文文本聚類研究[D];杭州電子科技大學(xué);2009年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 常繼傳,李克勤,郭立峰,梅宏,楊芙清;青鳥系統(tǒng)中可復(fù)用軟件構(gòu)件的表示與查詢[J];電子學(xué)報(bào);2000年08期
2 蘇中,馬少平,楊強(qiáng),張宏江;基于Web-Log Mining的Web文檔聚類[J];軟件學(xué)報(bào);2002年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷慶;吳揚(yáng)揚(yáng);緱錦;;從復(fù)雜XML文檔中抽取目標(biāo)關(guān)系片段的方法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2009年01期
2 揚(yáng)抒;陳尚安;武剛;;一種基于自動WEB數(shù)據(jù)抽取生成黃頁的方法[J];微計(jì)算機(jī)信息;2010年33期
3 盧中寧;劉放美;嚴(yán)宇輝;;基于XML的密集型Web信息抽取與集成研究[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期
4 廖俊必,袁中凡,徐_g;圖像匹配中噪聲分析和預(yù)處理(英文)[J];光電工程;2002年06期
5 李德華;波形模式匹配的一種加速算法[J];信息與控制;1982年04期
6 張曉華,陳宏鈞,余四清,王卓軍;一種新型模糊控制器在加熱爐上的應(yīng)用[J];冶金自動化;1991年05期
7 唐朝京,吳自強(qiáng),王躍科,張南,周代英,王成友;一種基于改進(jìn)的SEVQ匹配算法的漢語全音節(jié)語音識別系統(tǒng)[J];國防科技大學(xué)學(xué)報(bào);1997年03期
8 應(yīng)向榮;入侵檢測(IDS)技術(shù)的發(fā)展[J];信息技術(shù)與標(biāo)準(zhǔn)化;2002年12期
9 高培煥,張大智;基于二維模式匹配的圖像檢索快速算法[J];遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期
10 馬志柔;葉屹;;一種有效的多關(guān)鍵詞詞頻統(tǒng)計(jì)方法[J];計(jì)算機(jī)工程;2006年10期
相關(guān)會議論文 前10條
1 錢穎;聶俊嵐;劉國華;郜時(shí)紅;;基于全集的復(fù)雜模式匹配[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2006年
2 孫江明;李通化;;基于模式匹配的蛋白質(zhì)結(jié)構(gòu)形狀預(yù)測[A];第十一屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
3 蔣理成;;增量數(shù)據(jù)抽取(ETL)技術(shù)[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2007年
4 謝麗聰;;基于Matchmaking方法的模式匹配[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2002年
5 譚茂金;張庚驥;石耀霖;;陣列電法測井的垂直模式匹配理論研究[A];中國地球物理學(xué)會第二十四屆年會論文集[C];2008年
6 陸忠良;蘇厚勤;;基于Oracle/Linux環(huán)境數(shù)據(jù)抽取技術(shù)的研究與實(shí)踐[A];第四屆中國軟件工程大會論文集[C];2007年
7 陳建云;王躍科;劉輝;;基于相關(guān)分析和模式匹配的多普勒頻率測量方法[A];第三次全國會員代表大會暨學(xué)術(shù)會議論文集[C];2002年
8 胡鳳國;;一個(gè)簡單人機(jī)對話系統(tǒng)的實(shí)現(xiàn)方法[A];第一屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2002年
9 朱艷;許家s,
本文編號:2057700
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2057700.html