基于多源特征挖掘的查詢糾錯方法研究

發(fā)布時間：2017-09-16 20:22

本文關鍵詞：基于多源特征挖掘的查詢糾錯方法研究

【摘要】：搜索引擎中對用戶輸入關鍵字的檢錯、糾錯功能是提高搜索引擎檢索效率和改善用戶體驗的重要方面。搜索引擎查詢糾錯即為,用戶提交查詢請求之后,搜索引擎對其提交的字符串采用一定的算法模型進行分析,若發(fā)現(xiàn)提交的字符串中存在錯誤,則搜索引擎會根據(jù)用戶輸入的字符串并結合自然語言處理的一些方法,給出與輸入字符串相似的另外一種形式,并據(jù)此檢索信息返回給用戶。當前針對中文搜索引擎的查詢糾錯主要是基于規(guī)則的方法和基于統(tǒng)計的方法,基于規(guī)則的方法不考慮查詢串上下文信息,而基于統(tǒng)計的方法糾錯策略單一,不僅如此,在大數(shù)據(jù)時代,檢錯、糾錯沒有考慮到對海量搜索引擎日志記錄的分析、挖掘所釋放出來的日志中隱藏的巨大價值。為解決上述難題,本課題以搜索引擎查詢?nèi)罩咀鳛檎Z料結合查詢串的統(tǒng)計和特征信息建立查詢糾錯模型對用戶的輸入串進行檢錯和糾錯,通過對查詢?nèi)罩具M行分析挖掘,來對查詢糾錯模型的參數(shù)進行修正。第一部分基于統(tǒng)計和特征相結合的查詢糾錯模型,通過對查詢關鍵字中每個詞語建立候選詞條來得到查詢關鍵字的混淆集,再結合查詢串的結構特征和統(tǒng)計特征,即N-gram模型、點擊詞頻、詞形相似度、編輯距離等特征建立混淆集排序模型,利用模型從混淆集中選出最佳詞條并與原串比較對照,以此來達到查錯糾錯的目的。第二部分Bad Case挖掘模型是對第一部分提出的查詢糾錯模型的補充和優(yōu)化。通過對搜索引擎查詢?nèi)罩镜姆治鰜硗诰虿樵兗m錯過程中的Bad Case,量化并建立模型讓搜索引擎自動挖掘具有這些特征的BadCase,通過分析這些Bad Case來優(yōu)化查詢糾錯模型,提高查詢糾錯的精確度。本文主要創(chuàng)新點如下：提出了一種多源特征相結合的查詢糾錯模型,該模型綜合考慮了N-gram模型、點擊詞頻、詞形相似度、編輯距離等查詢串的結構特征和統(tǒng)計特征,提高了查詢糾錯的準確率和召回率。提出了一種Bad Case挖掘模型,通過對日志記錄的挖掘改進了查詢糾錯模型檢錯和糾錯的能力,使得糾錯的準確率和召回率更高,用戶體驗更好。實驗結果表明：本研究提出的模型在搜索引擎查詢檢索時具有較好的效果,測試集在110k時的準確率和召回率達到92.2%、95%,相對于N-gram糾錯模型準確率和召回率分別提高了13.6%、8.3%。提高了搜索引擎查詢的精確度,并改善了用戶的檢索體驗。
【關鍵詞】：查詢糾錯 混淆集 N-gram模型 Bad Case挖掘
【學位授予單位】：北方工業(yè)大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP311.13
【目錄】：

摘要3-4
Abstract4-8
第一章緒論8-13
1.1 研究背景8-9
1.2 國內(nèi)外研究現(xiàn)狀及趨勢9-10
1.3 主要研究內(nèi)容10-11
1.4 論文的組織結構11-13
第二章相關技術介紹13-19
2.1 搜索引擎概述13-16
2.1.1 搜索引擎原理13-14
2.1.2 搜索引擎的技術目標14-15
2.1.3 搜索引擎存在的問題15-16
2.2 中文查詢糾錯技術16-19
2.2.1 自然語言處理16-17
2.2.2 自然語言處理與搜索引擎17
2.2.3 中文查詢糾錯技術17-19
第三章數(shù)據(jù)處理19-22
3.1 搜索引擎查詢?nèi)罩咎幚?/span>19
3.2 詞典與語料庫19-20
3.3 訓練集20
3.4 測試集20-22
第四章查詢糾錯模型研究22-32
4.1 混淆集生成模型22-24
4.2 混淆集排序模型24-28
4.2.1 N元語法模型25-26
4.2.2 查詢詞點擊率26
4.2.3 N-gram相似度26-27
4.2.4 編輯距離27
4.2.5 混淆集排序模型的建立27-28
4.3 實驗過程及結果分析28-32
4.3.1 評測指標28
4.3.2 實驗過程及結果分析28-32
第五章 BadCase挖掘模型研究32-39
5.1 日志特征分析32-33
5.2 量化建模33-35
5.2.1 關聯(lián)關系模型34-35
5.2.2 點擊記錄模型35
5.3 實驗過程及結果分析35-39
5.3.1 實驗過程及結果35-38
5.3.2 實驗結果分析38-39
第六章系統(tǒng)的設計與實現(xiàn)39-49
6.1 系統(tǒng)架構設計39-42
6.1.1 工具介紹39-41
6.1.2 系統(tǒng)核心模塊41
6.1.3 系統(tǒng)總體設計41-42
6.2 系統(tǒng)實現(xiàn)42-49
6.2.1 Nutch抓取數(shù)據(jù)42-43
6.2.2 Solr查詢檢索服務43
6.2.3 查詢糾錯示例43-49
第七章總結與展望49-50
參考文獻50-53
在學期間的研究成果53-54
致謝54

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 ;《統(tǒng)計自然語言處理基礎》[J];中文信息學報;2005年03期

2 徐繼偉;;自然語言處理技術在生物信息學中的應用(英文)[J];生物信息學;2006年01期

3 王挺;麥范金;劉忠;;自然語言處理及其應用前景的研究[J];桂林航天工業(yè)高等專科學校學報;2006年04期

4 ;第二屆全國少數(shù)民族青年自然語言處理學術研討會召開[J];模式識別與人工智能;2008年05期

5 高精揓;蕭國政;姬東鴻;;手持嵌入式系統(tǒng)應用中的自然語言處理關鍵技術[J];長江學術;2009年02期

6 馮志偉;;自然語言處理中的一些宏觀問題之我見[J];中國外語;2009年05期

7 曹佩;;論自然語言處理[J];信息與電腦(理論版);2010年05期

8 邵澤國;;語言科學發(fā)展的新分支——自然語言處理[J];電子科技;2013年05期

9 李霞;;面向本科階段開設的“自然語言處理”課程教學研究[J];福建電腦;2013年07期

10 賀廣明;;自然語言處理的六個級別[J];情報雜志;1988年04期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 馬穎華;蘇貴洋;;基于概念的自然語言處理[A];第一屆學生計算語言學研討會論文集[C];2002年

2 李生;;哈工大自然語言處理研究進展[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

3 ;哈爾濱工業(yè)大學智能技術與自然語言處理研究室簡介[A];中國中文信息學會第六次全國會員代表大會暨成立二十五周年學術會議中文信息處理重大成果匯報展資料匯編[C];2006年

4 馮志偉;;自然語言處理中的理性主義和經(jīng)驗主義[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

5 宋柔;;自然語言處理中語言知識的基礎性地位[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

6 李文;程華良;彭耀;溫明杰;肖威清;張陳斌;陳宗海;;自然語言處理云平臺[A];系統(tǒng)仿真技術及其應用學術論文集（第15卷）[C];2014年

7 徐超;畢玉德;;面向自然語言處理的韓國語隱喻知識庫構建研究[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

8 周國棟;孔芳;朱巧明;;指代消解：國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年

9 ;SWCL-2006組織機構[A];第三屆學生計算語言學研討會論文集[C];2006年

10 張sソ，

本文編號：865224

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/865224.html

上一篇：省級公共圖書館網(wǎng)站信息資源組織情況調(diào)查及分析
下一篇：一種簡歷語義搜索系統(tǒng)的實現(xiàn)方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多源特征挖掘的查詢糾錯方法研究