基于結(jié)果類型分組的XML關(guān)鍵詞查詢
本文選題:熵值賦權(quán)法 + 結(jié)果類型; 參考:《廣西師范大學(xué)》2011年碩士論文
【摘要】:隨著Internet應(yīng)用的快速發(fā)展,Web已逐漸成為一個(gè)巨大的海量信息空間。面對(duì)如此龐雜的信息資源,人們無法只憑自身能力獲取有價(jià)值的信息,而是必須借助一些外部工具來獲取,因此,Web搜索引擎隨之產(chǎn)生。它為人們從Internet中獲取所需信息發(fā)揮了極其重要的作用,但隨著信息量的急劇增加以及信息種類的日趨豐富,現(xiàn)有的Web搜索引擎已無法滿足這種日益增長的信息需求。目前在網(wǎng)絡(luò)上流行的基于關(guān)鍵字的Web搜索引擎,所返回的查詢結(jié)果都是基于HTML的整個(gè)頁面,它在包含用戶所需信息的同時(shí),還包含了許多對(duì)用戶來說沒有價(jià)值的信息,例如廣告。若使用基于XML數(shù)據(jù)的信息檢索,返回查詢結(jié)果僅僅是成千上萬個(gè)與用戶查詢目標(biāo)有關(guān)的數(shù)據(jù)片段。目前基于XML數(shù)據(jù)的信息檢索在結(jié)構(gòu)化查詢方面的工作已取得一定進(jìn)展,例如XQuery。與結(jié)構(gòu)化查詢語言相比,XML的關(guān)鍵字檢索技術(shù)的主要優(yōu)勢(shì)就是用戶不需要學(xué)習(xí)復(fù)雜的查詢語言,也不需要對(duì)XML文檔底層的數(shù)據(jù)結(jié)構(gòu)有深入的了解,用戶僅僅需要輸入與他感興趣內(nèi)容相關(guān)的關(guān)鍵字就可完成查詢。因此,基于關(guān)鍵字的XML信息檢索成為XML數(shù)據(jù)檢索的研究熱點(diǎn)之一。 本文認(rèn)為一個(gè)完整的信息檢索模型的邏輯結(jié)構(gòu)可以分為兩個(gè)部分:一個(gè)是如何獲取查詢結(jié)果,另一個(gè)是查詢結(jié)果的相似度排名。但為了能夠?qū)崿F(xiàn)上述兩部分,我們還需要一些公共基礎(chǔ)。首先,由于XML文檔結(jié)構(gòu)的獨(dú)特性,我們需要對(duì)每一個(gè)XML結(jié)點(diǎn)進(jìn)行編碼,我們要求該編碼不僅能夠唯一標(biāo)識(shí)每一個(gè)結(jié)點(diǎn),而且還能表示出結(jié)點(diǎn)與結(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系。因此,本文選取Dewey編碼對(duì)XML文檔進(jìn)行編碼。在表示XML文檔的同時(shí),還能夠完成一些簡(jiǎn)單的結(jié)點(diǎn)間運(yùn)算。其次,在實(shí)現(xiàn)搜索引擎的過程中,我們將會(huì)用到一些結(jié)點(diǎn)信息及其對(duì)應(yīng)的數(shù)據(jù)信息——倒排索引,因此需要一個(gè)適合的容器工具來存放它們?紤]到嵌入式數(shù)據(jù)庫能夠使倒排索引與應(yīng)用程序進(jìn)程進(jìn)行無縫連結(jié),本文采用了嵌入式數(shù)據(jù)庫Berkeley DB來實(shí)現(xiàn),它使得倒排索引與應(yīng)用程序運(yùn)行于同樣的地址空間中,消除了與客戶機(jī)服務(wù)器配置相關(guān)的開銷,并且應(yīng)用程序不需要事先同數(shù)據(jù)庫服務(wù)建立起網(wǎng)絡(luò)連接,而是通過內(nèi)嵌在程序中的Berkeley DB函數(shù)庫來完成對(duì)數(shù)據(jù)的保存、查詢、修改和刪除等操作。這樣一來,我們?cè)趯?shí)驗(yàn)過程中可以忽略獲取倒排索引的時(shí)間,從而削弱了倒排索引對(duì)實(shí)驗(yàn)主體的負(fù)面影響。 在獲取查詢結(jié)果方面,本文介紹了基于XML關(guān)鍵字查詢的幾個(gè)重要語義及其對(duì)應(yīng)的查詢處理算法。緊接著,通過對(duì)比分析這幾種語義對(duì)應(yīng)的查詢結(jié)果,總結(jié)它們存在的問題,本文提出了優(yōu)質(zhì)的查詢結(jié)果必須具備的三項(xiàng)規(guī)則;谶@三項(xiàng)規(guī)則,我們提出了一個(gè)新的理念、。首先,從宏觀上使用熵值賦權(quán)法確定查詢結(jié)果的類型,這使得查詢結(jié)果符合用戶的基本意圖。接著,再從微觀上對(duì)其進(jìn)行分組,保證每一個(gè)邏輯組能夠成為一個(gè)包含完整信息的查詢結(jié)果。此外,本文還設(shè)計(jì)了一組實(shí)驗(yàn),從查詢質(zhì)量以及查詢效率和穩(wěn)定性兩方面對(duì)查詢結(jié)果進(jìn)行了實(shí)驗(yàn)分析。實(shí)驗(yàn)數(shù)據(jù)表明,這三項(xiàng)規(guī)則以及熵值賦權(quán)法對(duì)查詢結(jié)果的確定具有較高的可行性。 在相關(guān)度排名方面,本文介紹了傳統(tǒng)的基于平面型文檔的相似性度量方法,它是研究基于XML相似性度量方法的基礎(chǔ);以及最新提出的基于XML的相似性度量方法,它兼顧了XML文檔的結(jié)構(gòu)特點(diǎn),但是由于該算法使用了遞歸的思想,因此在效率以及穩(wěn)定性上存在一定的缺陷。鑒于此,本文在基于平面型文檔的相似性度量方法以及邏輯組概念的基礎(chǔ)上,設(shè)計(jì)一個(gè)基于邏輯組的XML相似性度量方法。該方法不僅兼顧了XML文檔的結(jié)構(gòu)特性,還將計(jì)算規(guī)模限制在一個(gè)可控制的范圍內(nèi)。為了證明該算法的有效性,本文從排名質(zhì)量以及排名效率和穩(wěn)定性兩方面對(duì)該算法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)表明,該方法在效率及穩(wěn)定性上取得了明顯的提高。
[Abstract]:With the rapid development of Internet applications, Web has become a huge mass of information space. In the face of such a vast and complex information resources, people can not only rely on their own ability to obtain valuable information, but must use some external tools to obtain, therefore, Web search engine emerged. It can help people get from the Internet required information plays a very important role, but with the dramatic increase in the amount of information and the diverse kinds of information, the current Web search engine has been unable to meet this growing demand. At present in the network information flow for keyword based Web search engine, the query results are returned by the HTML based on the entire page, to it contains user information at the same time, also contains a lot of no value to the users of information, such as advertising. If the use of information retrieval based on XML data, return the check To inquire about the result is only tens of thousands of pieces of data related to user query target. At present, based on the structured query has made some progress in the aspects of the work of XML data in information retrieval, such as XQuery. and SQL compared to XML keyword search technology's main advantages is that the user does not need to learn complex query language, also do not need to have deep understanding of the underlying data structure of XML document, the user only need to input and he is interested in the content of the relevant keyword query can be completed. Therefore, the keyword XML information retrieval has become a research hotspot of data retrieval based on XML.
This paper considers that an integrated information retrieval model of the logical structure can be divided into two parts: one is how to obtain the query results, the other is the similarity of ranking search results. In order to achieve the above two parts, we also need some public infrastructure. Firstly, due to the unique structure of XML document, we need to encoding of each XML node, we require the encoding not only can uniquely identify each node, but also shows the structural relationship between nodes. Therefore, this paper selects the XML encoding Dewey documents. In the XML document at the same time, also can do some simple operations. Secondly between nodes in the process, the realization of the search engine, we will use some information and the corresponding node data, inverted index, so we need a suitable container to store them. Considering the embedded database can make inverted index and link seamlessly with the application process, the paper adopts the embedded database Berkeley DB, which makes the inverted index and applications run in the same address space, eliminating the associated with a client server configuration overhead, and the application does not need to advance with the establishment of database service the network connection, but embedded in the program through the Berkeley DB function library to save the data, query, modify and delete operations. In this way, we can ignore the time to obtain inverted index in the experimental process, thus weakening the negative influence on the inverted index of the subject.
In the query results, this paper introduces the query processing algorithm XML keyword query and the corresponding semantic based on several important. Then, through the comparative analysis of the query results of these semantics, summarize the existing problems, this paper presents three rules of high-quality search results must have. Based on these three rules. We propose a new idea. First, from the macroscopic entropy weighting method is used to determine the type of query results, the query results are consistent with the basic intention of users. Then, then divided the group from the micro level, to ensure that every one can become a logical group contains the complete information query results. In addition, this paper also design a set of experiments, the query results are analyzed from the search quality and the efficiency and stability of two aspects. The experimental data show that the three rule and the entropy of Fu The right method has a high feasibility to determine the result of the query.
In terms of relevance rank, this paper introduces similarity measurement of planar document based on the traditional method, it is based on the XML similarity measure method based on; and the latest proposed XML based similarity measure, which take into account the structure characteristics of XML document, but because the algorithm uses recursive thinking therefore, there are some defects in efficiency and stability. In view of this, based on planar document similarity measure method and logical groups on the basis of the concept, design a logical group of XML based on similarity measure method. This method not only considers the structural characteristics of XML documents, will also limit the size of the calculation a controlled range. In order to prove the validity of the algorithm, this paper from the ranking quality and efficiency ranking and stability of two aspects of the comparative experiment of the algorithm. The experimental data show that the The method has made a significant improvement in efficiency and stability.
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曾曉寧;藺旭東;李密生;裴彩燕;薄靜儀;;一種基于節(jié)點(diǎn)語義相關(guān)性的XML關(guān)鍵字查詢算法[J];電腦知識(shí)與技術(shù);2009年11期
2 楊曉東;朱皓;楊衛(wèi)東;施伯樂;;基于結(jié)構(gòu)語義的XML關(guān)鍵字搜索[J];計(jì)算機(jī)應(yīng)用與軟件;2009年10期
3 吳於茜;在平面設(shè)計(jì)軟件中實(shí)現(xiàn)SVG格式文檔輸出[J];計(jì)算機(jī)工程與應(yīng)用;2001年09期
4 張偉都,周海東,鐘共鳴,張素偉;面向XML的數(shù)據(jù)管理系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2001年20期
5 李天慶,張毅,張冰,胡東成;基于XML的體育數(shù)據(jù)規(guī)格化存儲(chǔ)技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2001年22期
6 張曉林;基于XML的信息組織與處理:1.XML技術(shù)體系[J];情報(bào)科學(xué);2001年08期
7 李慧,何紹華;XML在圖書館系統(tǒng)中的實(shí)現(xiàn)技術(shù)[J];現(xiàn)代圖書情報(bào)技術(shù);2001年04期
8 談春梅,段衛(wèi)華,田質(zhì)斌;標(biāo)準(zhǔn)文獻(xiàn)數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2001年06期
9 李景春,武港山,張福炎;基于轉(zhuǎn)換的光盤文檔庫數(shù)據(jù)生成和瀏覽[J];小型微型計(jì)算機(jī)系統(tǒng);2001年04期
10 周建洪,吳以群,龐引明,樓榮生;XML文件系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程與科學(xué);2001年02期
相關(guān)會(huì)議論文 前10條
1 黃靜;陸嘉恒;孟小峰;;高效的XML關(guān)鍵字查詢改寫和結(jié)果生成技術(shù)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
2 黃靜;徐俊勁;周軍鋒;孟小峰;;MLCEA:一種基于實(shí)體的XML關(guān)鍵字查詢語義[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(二)[C];2008年
3 黎玲利;王宏志;李建中;駱吉洲;;XML數(shù)據(jù)流上的TOP-K關(guān)鍵字查詢處理[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(一)[C];2008年
4 王小鋒;張新;謝敏;孟小峰;周軍鋒;;XML數(shù)據(jù)流上的關(guān)鍵字查詢[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
5 周軍鋒;孟小峰;張新;黃靜;;XML數(shù)據(jù)流上基于關(guān)鍵字的多查詢處理[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
6 方非;朱皓;楊衛(wèi)東;;基于結(jié)構(gòu)摘要的XML關(guān)鍵字檢索[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
7 李曉東;;基于安全訪問控制的XML關(guān)鍵字檢索[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
8 郭志懋;周傲英;;XML數(shù)據(jù)的在線過濾[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
9 何震瀛;李建中;王宏志;;XML數(shù)據(jù)的關(guān)系存儲(chǔ)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
10 丁峰;王煜;姚延濤;沈鈞毅;;從XML模式到數(shù)據(jù)庫模式[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 秦林;《XML完全探索》[N];中華讀書報(bào);2001年
2 本報(bào)記者 李瀛寰;XML推了網(wǎng)絡(luò)一把[N];中國計(jì)算機(jī)報(bào);2000年
3 ;分化并不能阻止XML發(fā)展[N];中國計(jì)算機(jī)報(bào);2000年
4 ;為XML標(biāo)準(zhǔn)定標(biāo)準(zhǔn)[N];中國計(jì)算機(jī)報(bào);2001年
5 IDG電訊;Microsoft、IBM共同制定XML標(biāo)準(zhǔn)[N];計(jì)算機(jī)世界;2000年
6 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(上)[N];計(jì)算機(jī)世界;2001年
7 本報(bào)記者 陸 杰;XML叢林的新秀[N];中華讀書報(bào);2002年
8 北京郵電大學(xué) 張劍;XML技術(shù)預(yù)覽[N];計(jì)算機(jī)世界;2001年
9 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(下)[N];計(jì)算機(jī)世界;2001年
10 侯青;國際電子商務(wù)XML/EDI特點(diǎn)及現(xiàn)狀[N];國際商報(bào);2001年
相關(guān)博士學(xué)位論文 前10條
1 藺旭東;基于語義的XML查詢及規(guī)范化研究[D];北京交通大學(xué);2010年
2 沈潔;基于自動(dòng)機(jī)的XML數(shù)據(jù)過濾研究[D];哈爾濱工程大學(xué);2010年
3 葉曉峰;基于XML的沖壓模具設(shè)計(jì)知識(shí)重用技術(shù)研究[D];華中科技大學(xué);2010年
4 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫規(guī)范化問題的研究[D];哈爾濱理工大學(xué);2009年
5 張晨靜;XML關(guān)鍵字過濾技術(shù)[D];復(fù)旦大學(xué);2011年
6 胡文生;XML數(shù)據(jù)流上基于窗口的查詢處理方法研究[D];武漢大學(xué);2012年
7 寧博;XML查詢模式匹配及文檔過濾技術(shù)研究[D];東北大學(xué);2009年
8 汪源;XML事務(wù)模型及并發(fā)控制研究[D];浙江大學(xué);2006年
9 許建軍;對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字搜索研究[D];復(fù)旦大學(xué);2007年
10 劉喜平;XML文檔搜索中的查詢處理技術(shù)研究[D];江西財(cái)經(jīng)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 臧紹宇;XML關(guān)鍵字查詢中包含關(guān)鍵字的最小片段問題的研究[D];山東大學(xué);2010年
2 黎軍;綜合文檔語義與用戶查詢語義的XML關(guān)鍵字查詢研究[D];西南大學(xué);2011年
3 黎玲利;XML數(shù)據(jù)流上的TOP-K關(guān)鍵字查詢處理[D];哈爾濱工業(yè)大學(xué);2010年
4 李辛;基于語義相關(guān)性的XML關(guān)鍵字查詢的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2009年
5 紀(jì)青嶺;基于實(shí)體的XML關(guān)鍵字查詢處理關(guān)鍵技術(shù)研究[D];燕山大學(xué);2011年
6 崔健;基于XML數(shù)據(jù)的關(guān)鍵字查詢算法研究[D];燕山大學(xué);2012年
7 高錦濤;基于關(guān)鍵字的XML查詢[D];山東建筑大學(xué);2012年
8 楊善勇;基于緊致片段XML關(guān)鍵字檢索研究[D];山東大學(xué);2011年
9 藍(lán)國翔;基于SLCA語義的XML關(guān)鍵字查詢處理方法研究[D];燕山大學(xué);2012年
10 朱杰;基于主題和結(jié)構(gòu)的XML網(wǎng)頁的數(shù)據(jù)抽取[D];華僑大學(xué);2005年
,本文編號(hào):1763162
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1763162.html