基于概念語義空間的語義查詢擴(kuò)展技術(shù)研究
本文關(guān)鍵詞: 查詢擴(kuò)展 語義空間 觀察窗口 加權(quán) 平均倒數(shù)排名 出處:《河南科技大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展及社會(huì)信息化的發(fā)展,信息呈爆炸式增長(zhǎng),人們對(duì)信息獲取的要求越來越高,不斷推動(dòng)信息檢索技術(shù)的發(fā)展。當(dāng)前主流商用搜索引擎仍然采用基于關(guān)鍵詞查找的方式。這種查找方式在給用戶提供一種簡(jiǎn)便查詢平臺(tái)的同時(shí),也給人們返回了大量與查詢意愿無關(guān)的垃圾結(jié)果。因此,有學(xué)者提出使用查詢擴(kuò)展的方法來解決這個(gè)問題。 查詢擴(kuò)展是在原查詢?cè)~的基礎(chǔ)上加入相似或相關(guān)的詞以克服自然語言的“二義性”問題,改進(jìn)查詢意愿的描述。傳統(tǒng)的查詢擴(kuò)展技術(shù)雖然在技術(shù)上有不斷的改進(jìn),但是仍然以單個(gè)查詢?cè)~為中心進(jìn)行擴(kuò)展,忽略了查詢概念語義之間的關(guān)聯(lián)擴(kuò)展,因而沒有充分表達(dá)和擴(kuò)展出用戶查詢意圖。近年來,語義概念查詢擴(kuò)展成為新的熱點(diǎn),就是在語義詞典/領(lǐng)域本體的基礎(chǔ)上構(gòu)建概念語義空間,從概念語義空間中提取查詢語義及其語義關(guān)聯(lián),實(shí)現(xiàn)語義概念擴(kuò)展。這種擴(kuò)展在一定意義上實(shí)現(xiàn)了語義層次的擴(kuò)展,但過于依賴完備的語義體系,導(dǎo)致許多與用戶查詢意愿不相關(guān)的詞的加入,從而容易出現(xiàn)查詢漂移的問題。 針對(duì)現(xiàn)有查詢擴(kuò)展存在擴(kuò)展詞質(zhì)量不高的問題,本課題在前人研究成果的基礎(chǔ)上,利用語義詞典和文檔集兩種擴(kuò)展源,在語義空間的基礎(chǔ)上引入統(tǒng)計(jì)模型對(duì)查詢?cè)~進(jìn)行擴(kuò)展。本文的研究工作主要包括以下幾個(gè)方面: 1.語義詞典、領(lǐng)域本體等知識(shí)體系已經(jīng)成為智能化信息檢索不可或缺的支撐工具。在傳統(tǒng)構(gòu)建語義森林的基礎(chǔ)上,提出了向上溯源查找最近公共祖先結(jié)點(diǎn)的方法,構(gòu)建出覆蓋面全、冗余度低,結(jié)構(gòu)合理的概念語義空間; 2.在對(duì)查詢擴(kuò)展進(jìn)行范圍控制的過程中,本課題提出了動(dòng)態(tài)觀察窗口加權(quán)模型,用于強(qiáng)化共現(xiàn)詞之間的關(guān)聯(lián)度。在大規(guī)模文檔集中使用動(dòng)態(tài)觀察窗口加權(quán)模型對(duì)初始查詢擴(kuò)展詞進(jìn)行訓(xùn)練,動(dòng)態(tài)設(shè)定顯著性閾值,篩選出最終的查詢擴(kuò)展詞; 3.最后,本課題利用文本檢索會(huì)議TREC(Text REtrieval Conference)提供的測(cè)試數(shù)據(jù)集設(shè)計(jì)并實(shí)現(xiàn)了實(shí)驗(yàn)系統(tǒng),將實(shí)驗(yàn)結(jié)果轉(zhuǎn)化為相應(yīng)的算法測(cè)評(píng)指標(biāo)MRR(平均倒數(shù)排名),,通過對(duì)比可得,本課題提出的結(jié)合概念語義空間與動(dòng)態(tài)觀察窗口加權(quán)模型的擴(kuò)展算法比傳統(tǒng)偽相關(guān)反饋法的擴(kuò)展效果有了較大的提高,從而提高了信息檢索質(zhì)量。 本課題實(shí)驗(yàn)數(shù)據(jù)使用TREC(2005)會(huì)議的FR (Federal Register)部分,總計(jì)395M。這些數(shù)據(jù)中包括待檢索文檔56110篇,原始的查詢文本50條與50條原始查詢文本對(duì)應(yīng)的目標(biāo)文檔號(hào)。所有實(shí)驗(yàn)數(shù)據(jù)均為來自TREC會(huì)議的標(biāo)準(zhǔn)數(shù)據(jù)集,從而保證了實(shí)驗(yàn)的客觀性。
[Abstract]:With the development of the Internet and the development of social information, the information is increasing explosively. Promote the development of information retrieval technology. Currently, the mainstream commercial search engines still use keyword lookup. This search method provides users with a simple query platform at the same time, It also returns a large number of garbage results which are independent of the query intention. Therefore, some scholars have proposed to solve this problem by using query expansion method. Query expansion is to add similar or related words to the original query words in order to overcome the ambiguity of natural language and improve the description of query will. However, the extension is still centered on a single query word, neglecting the relational extension between query concepts, so the user query intention is not fully expressed and extended. In recent years, semantic concept query extension has become a new hotspot. It is based on semantic dictionary / domain ontology to construct concept semantic space, extract query semantics and semantic association from concept semantic space, and realize semantic concept extension. However, relying too much on the complete semantic system leads to the addition of many words which are not related to the user's will to query, which is prone to the problem of query drift. In order to solve the problem that the quality of extension words is not high in the existing query expansion, based on the previous research results, this paper uses semantic dictionary and document set two extension sources. On the basis of semantic space, the statistical model is introduced to extend the query words. The research work in this paper mainly includes the following aspects:. 1. Semantic dictionary, domain ontology and other knowledge systems have become indispensable support tools for intelligent information retrieval. The concept semantic space with complete coverage, low redundancy and reasonable structure is constructed. 2. In the process of controlling the scope of query expansion, a dynamic observation window weighted model is proposed. It is used to strengthen the correlation degree between co-occurrence words. The dynamic observation window weighting model is used to train the initial query extension words in the large-scale document set the significant threshold dynamically and screen out the final query extension words. 3. Finally, the experiment system is designed and implemented by using the test data set provided by the text retrieval conference TREC(Text REtrieval Conference. The experimental results are transformed into the corresponding algorithm evaluation index (MRR), which can be obtained by comparison. The extended algorithm based on the concept semantic space and the dynamic observation window weighted model is more effective than the traditional pseudo-correlation feedback method, which improves the quality of information retrieval. In this paper, the experimental data are used in the FR / Federal Register section of the TREC-2005) conference, and a total of 395M.These data include 56110 documents to be retrieved, All experimental data are standard data set from TREC conference, which ensures the objectivity of the experiment.
【學(xué)位授予單位】:河南科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃名選;馬瑞興;蘭慧紅;;面向查詢擴(kuò)展的特征詞頻繁項(xiàng)集挖掘算法[J];現(xiàn)代圖書情報(bào)技術(shù);2011年04期
2 王水利;黃廣君;霍亞格;;基于語義分析的查詢擴(kuò)展方法[J];計(jì)算機(jī)工程;2011年16期
3 黃名選;朱家安;陳燕紅;;面向查詢擴(kuò)展的詞間正負(fù)關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年26期
4 張永興;孫四明;張峰;;基于本體的信息檢索系統(tǒng)研究[J];微計(jì)算機(jī)信息;2011年07期
5 黃名選;朱家安;馮平;;基于正負(fù)關(guān)聯(lián)規(guī)則融合的信息檢索模型[J];情報(bào)理論與實(shí)踐;2011年07期
6 周書鋒;陳杰;;基于本體的概念語義相似度計(jì)算[J];情報(bào)雜志;2011年S1期
7 張曉孿;王西鋒;;基于本體和相似圖的概念語義相似度計(jì)算[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年08期
8 顧小林;卞藝杰;浦徐進(jìn);;基于改進(jìn)KS方法的食品安全追溯信息檢索模型[J];軟科學(xué);2011年08期
9 王曉春;李慧;;面向教育的垂直搜索引擎框架及其應(yīng)用[J];電化教育研究;2011年09期
10 陳振標(biāo);;基于本體的語義檢索技術(shù)研究[J];情報(bào)探索;2011年08期
相關(guān)會(huì)議論文 前10條
1 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴(kuò)展的數(shù)字檔案檢索策略[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
2 張志強(qiáng);孟慶海;謝曉芹;;個(gè)性化的社會(huì)標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
3 陳憶群;曹瑾音;印鑒;;查詢擴(kuò)展樹:關(guān)系數(shù)據(jù)庫中的文本檢索[A];第二十三屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
4 馬云龍;林鴻飛;;基于權(quán)重標(biāo)準(zhǔn)化SimRank方法的查詢擴(kuò)展技術(shù)研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
5 周斌;劉茂福;陳建勛;;IR4QA系統(tǒng)中基于維基百科的查詢擴(kuò)展[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
6 鐘敏娟;萬常選;;基于偽反饋的XML查詢擴(kuò)展[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
7 黃名選;;基于正負(fù)關(guān)聯(lián)規(guī)則挖掘的局部反饋查詢擴(kuò)展[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
8 邵兵;關(guān)毅;王強(qiáng);王曉龍;任瑞春;;基于上下文平均互信息的問句查詢擴(kuò)展模型[A];第二屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
9 黃佳來;王立波;袁道敏;;基于語義相似度的查詢擴(kuò)展研究[A];浙江省電子學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文集[C];2008年
10 陳志瑋;肖詩斌;施水才;王昕;;一種基于HTML位置信息的查詢擴(kuò)展技術(shù)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 彭遂蒞 李濤;成都公開保險(xiǎn)營(yíng)銷員信用信息[N];中國(guó)保險(xiǎn)報(bào);2011年
相關(guān)博士學(xué)位論文 前10條
1 仲兆滿;事件本體及其在查詢擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年
2 張毅波;史文結(jié)構(gòu)化信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(軟件研究所);2001年
3 王一川;基于內(nèi)容的海量文本探索式查詢導(dǎo)引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年
4 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
5 郭勇;基于語義的網(wǎng)絡(luò)知識(shí)獲取相關(guān)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2007年
6 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
7 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年
8 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
9 劉春辰;基于本體的企業(yè)搜索優(yōu)化技術(shù)研究[D];吉林大學(xué);2012年
10 王秉卿;基于機(jī)器學(xué)習(xí)的查詢優(yōu)化研究[D];復(fù)旦大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 賈淑芳;基于用戶日志聚類的查詢擴(kuò)展[D];北京郵電大學(xué);2010年
2 王水利;基于互信息的語義查詢擴(kuò)展技術(shù)研究[D];河南科技大學(xué);2011年
3 崔琰;基于用戶興趣及術(shù)語關(guān)系的查詢擴(kuò)展方法[D];河北大學(xué);2011年
4 方勇;基于語義的信息檢索方法研究與應(yīng)用[D];浙江大學(xué);2010年
5 劉清江;同義詞在文本特征提取與查詢擴(kuò)展中的應(yīng)用[D];河北大學(xué);2010年
6 于水;專利術(shù)語知識(shí)庫的建立與應(yīng)用[D];沈陽航空工業(yè)學(xué)院;2010年
7 范丹;Web檢索中的查詢擴(kuò)展及結(jié)果聚類技術(shù)研究[D];遼寧師范大學(xué);2010年
8 周劍烽;基于語義本體的信息檢索方法的研究[D];杭州電子科技大學(xué);2010年
9 趙春輝;基于關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展[D];河南大學(xué);2011年
10 胡珍新;面向用戶的查詢擴(kuò)展研究與實(shí)現(xiàn)[D];江西師范大學(xué);2004年
本文編號(hào):1526455
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1526455.html