基于語義的網絡搜索查詢處理和查詢擴展技術研究
本文關鍵詞:基于語義的網絡搜索查詢處理和查詢擴展技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著人們對信息檢索的要求越來越高,單單依靠倒排索引和詞匹配技術的搜索引擎,在用戶輸入的查詢語句普遍比較短,不能詳細而準確描述查詢意圖的情況下,返回給用戶的結果會出現(xiàn)錯誤和遺漏問題。由此,查詢擴展、查詢推薦等成為信息檢索的研究對象和熱點。不管是使用知識庫還是分析語料庫來獲取查詢擴展詞的方法都有相應的缺陷,為此,本文提出了基于隨機游走模型的自動查詢擴展方法,同時分析了針對元搜索的自動查詢擴展方法。另外,絕大部分的研究可能忽略了一個問題,就是有時候用戶不知道應該輸入怎樣的查詢語句通過搜索引擎去獲取其想要的信息,很多情況發(fā)生的是搜索引擎并不能理解用戶查詢語句的搜索意圖。為此本文提出了基于互動百科知識的語義邏輯引導的查詢處理方法,充分利用三元組數(shù)據(jù)的特點來處理帶語義邏輯的查詢語句。本文的創(chuàng)新點包括: 1)提出了基于互動百科知識的語義邏輯引導的查詢處理方法。將互動百科網頁文檔上的結構化知識抽象為三類:實例、關系和術語,基于這三類知識之間的三元組關系,結合語義邏輯符號,幫助用戶構造更清晰的查詢語句,同時能夠處理查詢語句中的相似等一般搜索引擎不能處理的邏輯。在已實現(xiàn)的語義邏輯引導的搜索的原型系統(tǒng)上,通過用戶參與,實驗表明,使用DOM規(guī)律抓取互動百科知識的準確率達到了90%,語義邏輯引導的搜索,其Top10的文檔準確性比未引導的高出6個百分點左右。 2)提出了基于隨機游走模型的自動查詢擴展方法。結合詞語之間的詞匯和語義上的多種關聯(lián),包括大型通用語料庫和初檢Top-N文檔中的詞共現(xiàn)、同義詞、語義分類樹中的上下位關系。通過不同鏈接類型不同組合下的隨機游走算法之間,以及與偽相關的局部上下文查詢擴展方法的實驗比較,證明了結合了四種鏈接類型的隨機游走方法與未進行自動查詢擴展的情況相比,前者的綜合評估F值要比后者高出8個百分點左右,同時,與偽相關的局部上下文分析方法相比,在確保提高準確率的情況下,同時也提高了召回率,保證了信息檢索整體的穩(wěn)步提升,增強了自動查詢擴展的魯棒性。 3)在查詢多樣化方面,基于互動百科海量的語義分類知識,針對模糊的查詢語句,檢索不同語義下的文檔,對文檔分類后,借助自動摘要技術,將分類摘要和分類文檔可視化。從而幫助用戶快速找到信息。
【關鍵詞】:查詢處理 查詢擴展 語義邏輯 隨機游走 互動百科知識 搜索多樣性
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要6-8
- ABSTRACT8-13
- 第一章 緒論13-17
- 1.1 研究背景和意義13-14
- 1.2 本文的主要工作14-16
- 1.3 本文的組織結構16
- 1.4 本章小結16-17
- 第二章 國內外研究現(xiàn)狀17-34
- 2.1 自動化查詢擴展17-30
- 2.1.1 數(shù)據(jù)預處理17-18
- 2.1.2 候選詞的產生和排序18-23
- 2.1.3 擴展詞的選擇23-25
- 2.1.4 查詢語句重構25-26
- 2.1.5 自動化查詢擴展方法的分類26-28
- 2.1.6 自動化查詢擴展的關鍵問題和研究趨勢28-30
- 2.1.7 小結30
- 2.2 元搜索的自動化查詢擴展30-32
- 2.2.1 元搜索30
- 2.2.2 元搜索的自動查詢擴展30-32
- 2.2.3 小結32
- 2.3 搜索的多樣性32-33
- 2.3.1 文檔分類33
- 2.3.2 小結33
- 2.4 本章小結33-34
- 第三章 基于互動百科的語義邏輯引導的查詢處理34-44
- 3.1 相關研究34-35
- 3.2 互動百科知識35-37
- 3.3 語義邏輯引導的查詢處理37-41
- 3.3.1 語義邏輯符號37-39
- 3.3.2 語義邏輯引導的搜索39-40
- 3.3.3 短語的相似度和知識匹配40-41
- 3.4 原型系統(tǒng)實現(xiàn)和實驗分析41-43
- 3.5 本章小結43-44
- 第四章 基于隨機游走的自動查詢擴展44-51
- 4.1 隨機游走模型44-46
- 4.2 基于隨機游走模型的查詢擴展46-47
- 4.3 鏈接類47-49
- 4.4 基于隨機游走算法的查詢擴展實施49-50
- 4.4.1 查詢擴展實施流程49
- 4.4.2 構建查詢語句49-50
- 4.5 本章小結50-51
- 第五章 實驗與分析51-58
- 5.1 實驗環(huán)境和實驗數(shù)據(jù)51-53
- 5.1.1 實驗環(huán)境51
- 5.1.2 數(shù)據(jù)集51-53
- 5.1.3 實驗數(shù)據(jù)處理53
- 5.2 實驗方案53-55
- 5.2.1 評測標準53-54
- 5.2.2 偽相關的局部上下文分析查詢擴展方法54
- 5.2.3 不同鏈接類型的不同組合方案54-55
- 5.3 實驗結果與分析55-57
- 5.3.1 實驗參數(shù)設置55
- 5.3.2 實驗結果及分析55-57
- 5.4 本章小結57-58
- 第六章 基于語義擴展及關系挖掘的智能搜索引擎研究58-65
- 6.1 智能搜索引擎系統(tǒng)架構58-59
- 6.2 模塊功能59-62
- 6.2.1 搜索引擎及排名整合59
- 6.2.2 語言處理59
- 6.2.3 自動摘要59-60
- 6.2.4 查詢擴展60
- 6.2.5 關系挖掘60-61
- 6.2.6 知識支持系統(tǒng)61
- 6.2.7 Hadoop分布式系統(tǒng)61
- 6.2.8 用戶交互界面61-62
- 6.3 搜索引擎的搜索多樣性62-64
- 6.4 本章小結64-65
- 第七章 總結65-67
- 7.1 論文總結65
- 7.2 下一步工作和展望65-67
- 附錄67-68
- 參考文獻68-72
- 后記72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王明文,聶建云;基于Dempster-Shafer理論的查詢擴展模型(英文)[J];江西師范大學學報(自然科學版);2005年03期
2 章旭;石進;謝立;;基于相似性敘詞表的模糊集合模型[J];計算機科學;2008年09期
3 閉劍婷;蘇一丹;;基于潛在語義分析的跨語言查詢擴展方法[J];計算機工程;2009年10期
4 申麗平;;WordNet在查詢擴展中的應用研究[J];科技信息;2009年14期
5 張超盟;李戰(zhàn)懷;溫宗臣;;局部上下文分析剪枝概念樹的查詢擴展[J];計算機工程;2009年14期
6 李東園;白宇;蔡東風;;面向中文問答的信息檢索系統(tǒng)及評測[J];沈陽航空工業(yè)學院學報;2009年03期
7 王會進,陳超華,李清;基于動態(tài)知識庫搜索引擎的技術[J];暨南大學學報;2004年01期
8 牟力科;張蕾;張曉孿;;基于概念圖的用戶興趣查詢擴展模型的研究[J];計算機工程與應用;2008年06期
9 陳曉金;王兵;;信息檢索擴展技術研究[J];圖書情報工作;2008年12期
10 李小琳;陸汝占;;基于日志挖掘的查詢概念圖擴展[J];計算機應用與軟件;2010年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴展的數(shù)字檔案檢索策略[A];廣西計算機學會2010年學術年會論文集[C];2010年
2 張志強;孟慶海;謝曉芹;;個性化的社會標簽查詢擴展技術研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集A輯二[C];2010年
3 陳憶群;曹瑾音;印鑒;;查詢擴展樹:關系數(shù)據(jù)庫中的文本檢索[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
4 馬云龍;林鴻飛;;基于權重標準化SimRank方法的查詢擴展技術研究[A];第六屆全國信息檢索學術會議論文集[C];2010年
5 周斌;劉茂福;陳建勛;;IR4QA系統(tǒng)中基于維基百科的查詢擴展[A];第五屆全國青年計算語言學研討會論文集[C];2010年
6 鐘敏娟;萬常選;;基于偽反饋的XML查詢擴展[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年
7 黃名選;;基于正負關聯(lián)規(guī)則挖掘的局部反饋查詢擴展[A];第六屆全國信息檢索學術會議論文集[C];2010年
8 邵兵;關毅;王強;王曉龍;任瑞春;;基于上下文平均互信息的問句查詢擴展模型[A];第二屆全國學生計算語言學研討會論文集[C];2004年
9 黃佳來;王立波;袁道敏;;基于語義相似度的查詢擴展研究[A];浙江省電子學會2008年學術年會論文集[C];2008年
10 李東園;白宇;蔡東風;;基于用戶日志分析的查詢擴展研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 彭遂蒞 李濤;成都公開保險營銷員信用信息[N];中國保險報;2011年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 仲兆滿;事件本體及其在查詢擴展中的應用[D];上海大學;2011年
2 張毅波;史文結構化信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(軟件研究所);2001年
3 王俊義;正負相關反饋與查詢擴展技術的研究[D];內蒙古大學;2012年
4 王一川;基于內容的海量文本探索式查詢導引中若干關鍵技術的研究[D];北京郵電大學;2011年
5 劉向威;NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
6 林建方;詞搭配抽取及在信息檢索中的應用研究[D];哈爾濱工業(yè)大學;2010年
7 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學;2009年
8 劉春辰;基于本體的企業(yè)搜索優(yōu)化技術研究[D];吉林大學;2012年
9 王秉卿;基于機器學習的查詢優(yōu)化研究[D];復旦大學;2012年
10 胡佳妮;文本挖掘中若干關鍵問題的研究[D];北京郵電大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 賈淑芳;基于用戶日志聚類的查詢擴展[D];北京郵電大學;2010年
2 王水利;基于互信息的語義查詢擴展技術研究[D];河南科技大學;2011年
3 崔琰;基于用戶興趣及術語關系的查詢擴展方法[D];河北大學;2011年
4 方勇;基于語義的信息檢索方法研究與應用[D];浙江大學;2010年
5 劉清江;同義詞在文本特征提取與查詢擴展中的應用[D];河北大學;2010年
6 于水;專利術語知識庫的建立與應用[D];沈陽航空工業(yè)學院;2010年
7 范丹;Web檢索中的查詢擴展及結果聚類技術研究[D];遼寧師范大學;2010年
8 周劍烽;基于語義本體的信息檢索方法的研究[D];杭州電子科技大學;2010年
9 趙春輝;基于關聯(lián)規(guī)則挖掘的查詢擴展[D];河南大學;2011年
10 胡珍新;面向用戶的查詢擴展研究與實現(xiàn)[D];江西師范大學;2004年
本文關鍵詞:基于語義的網絡搜索查詢處理和查詢擴展技術研究,,由筆耕文化傳播整理發(fā)布。
本文編號:394646
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/394646.html