【摘要】: 由于有著可擴(kuò)展性和自描述性等特點(diǎn),XML格式得到了越來(lái)越多的采用,其結(jié)果是產(chǎn)生了大量以XML格式表示的文檔。隨著XML文檔的大量涌現(xiàn),用戶(hù)迫切地需要對(duì)XML文檔進(jìn)行有效地查詢(xún)。但是由于XML文檔結(jié)構(gòu)比較松散,往往存在大量的文本(尤其是在以文本為中心的XML文檔中),用戶(hù)難以了解XML文檔的結(jié)構(gòu);而且XML查詢(xún)語(yǔ)言比較復(fù)雜,用戶(hù)亦難以掌握XML查詢(xún)語(yǔ)言,這使得以XML數(shù)據(jù)庫(kù)技術(shù)為代表的XML精確查詢(xún)技術(shù)不能滿(mǎn)足用戶(hù)的需求,在此背景下,信息檢索(IR)方式的XML文檔搜索由于其用戶(hù)友好性而受到了越來(lái)越多人的注意。 目前,傳統(tǒng)的信息檢索技術(shù)比較成熟,但它們主要是針對(duì)HTML文檔和文本文檔,沒(méi)有考慮XML文檔的結(jié)構(gòu)信息,無(wú)法體現(xiàn)XML信息檢索的特點(diǎn)。隨著XML文檔的急劇增長(zhǎng),傳統(tǒng)的搜索引擎已很難滿(mǎn)足用戶(hù)需求,XML信息檢索將會(huì)成為下一代搜索引擎發(fā)展的重要方向之一,也將在眾多行業(yè)如網(wǎng)絡(luò)信息檢索、數(shù)字圖書(shū)館等領(lǐng)域得到廣泛的使用。 本文研究了XML文檔搜索中的查詢(xún)處理技術(shù),研究范圍從用戶(hù)提交XML查詢(xún)開(kāi)始,到產(chǎn)生最終的檢索結(jié)果呈現(xiàn)給用戶(hù)為止,研究的問(wèn)題是對(duì)于用戶(hù)提交的XML查詢(xún),如何有效地產(chǎn)生以合適的形式表示的、有意義的檢索結(jié)果。 在處理XML文檔上的關(guān)鍵詞或者帶關(guān)鍵詞的查詢(xún)時(shí),有兩個(gè)問(wèn)題非常重要: (1)XML文檔中存在大量的標(biāo)簽,使得XML文檔形成一種樹(shù)狀結(jié)構(gòu),于是XML文檔搜索可以在一個(gè)更細(xì)的粒度上進(jìn)行,即以子樹(shù)或者結(jié)點(diǎn)為單位來(lái)匹配和返回。有效的XML文檔搜索需要對(duì)XML文檔中不同的結(jié)點(diǎn)(標(biāo)簽)有一個(gè)清晰的理解,如哪些部分更重要,應(yīng)該返回哪些部分等。 (2)XML數(shù)據(jù)模型比較復(fù)雜,XML文檔中各種信息摻雜在一起,而XML檢索表達(dá)式的表達(dá)能力相當(dāng)有限,于是當(dāng)用過(guò)于簡(jiǎn)單的表達(dá)式來(lái)查詢(xún)復(fù)雜的XML文檔時(shí),往往存在歧義和語(yǔ)義上的模糊。有效的XML文檔搜索需要對(duì)XML查詢(xún)有一個(gè)深入的理解,理解查詢(xún)的意圖,這樣才能忠實(shí)地反映出XML文檔與查詢(xún)之間的相關(guān)性。 基于這樣的出發(fā)點(diǎn),本論文將語(yǔ)義作為核心,基于XML文檔的語(yǔ)義來(lái)選擇答案結(jié)點(diǎn),通過(guò)查詢(xún)語(yǔ)義來(lái)反映XML查詢(xún)的意圖,通過(guò)查詢(xún)和結(jié)果語(yǔ)義上的相關(guān)性來(lái)對(duì)查詢(xún)結(jié)果計(jì)分,圍繞查詢(xún)語(yǔ)義來(lái)返回組織良好的檢索結(jié)果。我們認(rèn)為,這種特點(diǎn)抓住了XML信息檢索的關(guān)鍵,能夠產(chǎn)生較好的檢索效果。 具體來(lái)說(shuō),研究了以下內(nèi)容: (1)研究了XML文檔檢索中答案結(jié)點(diǎn)的語(yǔ)義推導(dǎo)問(wèn)題。在對(duì)XML文檔進(jìn)行檢索時(shí),首先遇到的一個(gè)問(wèn)題是,對(duì)于用戶(hù)給出的查詢(xún),返回什么樣的結(jié)點(diǎn)/檢索結(jié)果是符合用戶(hù)查詢(xún)意圖的。針對(duì)這一問(wèn)題,我們分析了理想答案結(jié)點(diǎn)應(yīng)滿(mǎn)足的準(zhǔn)則,以及XML文檔中的結(jié)構(gòu)信息、內(nèi)容信息和用戶(hù)查詢(xún)信息與理想答案結(jié)點(diǎn)之間的關(guān)系。提出了根據(jù)XML結(jié)點(diǎn)類(lèi)型和用戶(hù)查詢(xún)信息推導(dǎo)答案結(jié)點(diǎn)語(yǔ)義的方法。 (2)針對(duì)當(dāng)前XML文檔搜索系統(tǒng)存在的一些缺陷,研究了XML關(guān)鍵詞檢索結(jié)果的聚類(lèi)問(wèn)題,提出了一個(gè)新的聚類(lèi)方法,該方法的核心是答案結(jié)點(diǎn)與關(guān)鍵詞查詢(xún)的匹配模式。為了實(shí)現(xiàn)該聚類(lèi)方法,我們提出了兩種實(shí)現(xiàn)方法:Lazy方法和Eager方法,Eager方法能夠保證產(chǎn)生與Lazy方法相同的聚類(lèi)結(jié)果,但效率更高。還研究了聚類(lèi)產(chǎn)生的簇的排序以及簇內(nèi)部的檢索結(jié)果的排序。 (3)研究了有效的結(jié)構(gòu)與內(nèi)容檢索(Content and Structure, CAS)查詢(xún)處理問(wèn)題,分析了已有的方法面臨的問(wèn)題,即不夠靈活,有針對(duì)性地提出了一種新的CAS查詢(xún)處理方法。這種方法以?xún)?nèi)容為主,結(jié)構(gòu)為輔,能夠較好地克服當(dāng)前技術(shù)的一些問(wèn)題,并特別適用于異構(gòu)環(huán)境下的XML信息檢索。 (4)設(shè)計(jì)和開(kāi)發(fā)了一個(gè)XML文檔檢索的原型系統(tǒng)XSense,它支持關(guān)鍵詞檢索和結(jié)構(gòu)與內(nèi)容檢索。特別探索了支持XML文檔搜索的索引結(jié)構(gòu),提出了一種新的XML編碼結(jié)梅LCT編碼,圍繞LCT編碼構(gòu)建了XML結(jié)構(gòu)和內(nèi)容索引,支持各種結(jié)構(gòu)查詢(xún)和內(nèi)容查詢(xún)。 本文的創(chuàng)新性工作體現(xiàn)在: (1)提出了一種新的XML檢索的答案結(jié)點(diǎn)語(yǔ)義。一方面利用結(jié)點(diǎn)的語(yǔ)義,要求答案結(jié)點(diǎn)必須是有意義的;另一方面分析了XML查詢(xún)與查詢(xún)匹配之間的關(guān)系,要求在答案結(jié)點(diǎn)中關(guān)鍵詞匹配之間的聯(lián)系必須是有意義的。實(shí)驗(yàn)測(cè)試表明,與現(xiàn)有的答案結(jié)點(diǎn)語(yǔ)義相比,該方法能夠更好地產(chǎn)生有意義的答案結(jié)點(diǎn)。 (2)提出了一種新的面向XML文檔搜索的結(jié)果聚類(lèi)方法,以及高效的實(shí)現(xiàn)算法。這種聚類(lèi)方法的特點(diǎn)是:它可以實(shí)現(xiàn)對(duì)XML查詢(xún)的消歧,將不同語(yǔ)義的檢索結(jié)果歸類(lèi)到不同的簇中;可以大大節(jié)省用戶(hù)在瀏覽檢索結(jié)果時(shí)的無(wú)用勞動(dòng);有助于用戶(hù)更全面地理解檢索結(jié)果集,也有助于擴(kuò)展用戶(hù)興趣。大量的實(shí)驗(yàn)結(jié)果證明,這種聚類(lèi)方法是有效的,能夠產(chǎn)生有意義的聚類(lèi)結(jié)果,而且聚類(lèi)結(jié)果對(duì)于用戶(hù)而言也是有幫助的。從時(shí)間效率上看,該聚類(lèi)方法可以有效地實(shí)現(xiàn)。 (3)提出了一種新的XML結(jié)構(gòu)與內(nèi)容檢索的思路,該思路不同于其他工作的特點(diǎn)是:它采取了一種分解——檢索——合并的思路,并且在檢索中,采取以?xún)?nèi)容為主,結(jié)構(gòu)為輔的思路,使得該方法具有很好的靈活性和自適應(yīng)性。實(shí)驗(yàn)證明,該方法無(wú)論是對(duì)于同構(gòu)文檔還是異構(gòu)文檔都能取得很好的檢索結(jié)果。 通過(guò)本論文的研究,取得了一些重要的研究成果,這些成果豐富并推動(dòng)了XML信息檢索的研究,并為后續(xù)研究打下了堅(jiān)實(shí)的基礎(chǔ)。
【學(xué)位授予單位】:江西財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2010
【分類(lèi)號(hào)】:G354
【引證文獻(xiàn)】
相關(guān)博士學(xué)位論文 前2條
1 郭春芬;基于本體的工藝知識(shí)管理關(guān)鍵技術(shù)研究[D];山東科技大學(xué);2011年
2 溫延龍;XML信息檢索關(guān)鍵技術(shù)研究[D];南開(kāi)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 郜峰;基于Web的磷化工工藝安全評(píng)價(jià)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];鄭州大學(xué);2011年
2 高冉;山東省計(jì)量科學(xué)研究院計(jì)量業(yè)務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2012年
3 曹陽(yáng);廣告業(yè)務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2012年
4 張毅;中信銀行客戶(hù)債項(xiàng)評(píng)價(jià)及分類(lèi)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
5 張紅;山東工業(yè)職業(yè)學(xué)院運(yùn)輸配送業(yè)務(wù)實(shí)訓(xùn)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
6 劉曉天;工藝品訂單生產(chǎn)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
7 楊洋;中信銀行法人信貸客戶(hù)綜合評(píng)價(jià)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
8 畢競(jìng);東方電子公司人事管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
9 任永輝;臨沂市安監(jiān)局作業(yè)場(chǎng)所職業(yè)病危害申報(bào)與備案系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
10 劉偉偉;中醫(yī)藥大學(xué)附屬醫(yī)院科教管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2013年
本文編號(hào):
2719944
本文鏈接:http://sikaile.net/tushudanganlunwen/2719944.html