查詢意圖識別的關鍵技術研究
本文關鍵詞:查詢意圖識別的關鍵技術研究
更多相關文章: 查詢意圖 查詢領域識別 意圖識別 概念體系 意圖特征模板 關鍵詞抽取
【摘要】:隨著網(wǎng)絡上信息的爆炸式增長,搜索引擎扮演著越來越重要的角色。當前的搜索引擎主要是通過計算用戶查詢和文檔的相似度來返回檢索結果的。然而基于相似度的搜索方式僅僅會返回包含查詢關鍵詞的網(wǎng)頁,而沒有對查詢背后用戶真正的需求進行識別與匹配。對于具有復雜信息需求的查詢,搜索引擎返回的搜索結果往往包含有較多不符合用戶需求的噪聲網(wǎng)頁,從而無法充分滿足用戶需求。因此,進行用戶查詢意圖識別的相關研究,深入理解用戶的查詢意圖是十分必要的。到目前為止,使用最為廣泛的意圖類別體系是Broder提出的“信息類,導航類,事務類”這三種意圖類型。本文對查詢意圖的類別進行了新的定義,新定義的意圖類別體系是基于某一特定的領域的,本文定義的查詢意圖分為三類:獲取實體的屬性值、查找某個實體的相關信息以及對某一實體的操作。本文的研究工作主要圍繞下面兩點進行:第一,通過分類的方法對查詢進行領域識別;第二,在特定領域下,對查詢的意圖類型進行識別,并抽取查詢關鍵詞,最后生成查詢意圖解析結果。查詢領域識別的問題轉化為查詢的分類問題,但是對查詢進行分類主要存在兩個問題:首先,用戶查詢的長度較短,從查詢中所能抽取到的特征比較稀疏;其次,基于機器學習的分類方法需要一定規(guī)模的訓練數(shù)據(jù),而人工地對大規(guī)模的查詢進行領域標注是不現(xiàn)實的。本文借助百度百科中的在線知識對查詢進行特征擴展,解決了查詢特征稀疏的問題;本文利用網(wǎng)頁分類導航網(wǎng)站對網(wǎng)頁URL進行領域標注,對查詢日志進行統(tǒng)計分析,得到查詢點擊URL的分布,根據(jù)URL所屬領域實現(xiàn)對查詢領域的自動標注。特定領域下查詢意圖的識別是本文研究的另一個重點。首先,本文構建了基本概念體系和領域意圖知識庫,基本概念體系不僅對通用的詞匯(比如時間、地點等)進行了概念抽象,同時也對領域內的專名詞典構筑了概念體系;領域意圖知識庫的構建需要對領域內實體、屬性、意圖特征模板進行挖掘。其次,基于基本概念體系和領域意圖知識庫,對某一領域的查詢進行意圖解析,并抽取查詢關鍵詞,生成查詢意圖解析結果。綜上,本文的貢獻度主要表現(xiàn)在:基于查詢點擊日志實現(xiàn)查詢領域類別的自動標注;借助百度百科對查詢進行特征擴展;提出新的查詢意圖的類別體系;引入了意圖特征的概念實現(xiàn)對查詢的意圖識別。最終的實驗結果表明,基于查詢擴展的查詢領域分類具有較高的準確率;同時,對特定領域下查詢意圖識別的覆蓋度較高,并且意圖解析結果具有較高的準確率和召回率。
【學位授予單位】:東北大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國圖書館學報;2013年01期
2 張曉娟;陸偉;;利用查詢重構識別查詢意圖[J];現(xiàn)代圖書情報技術;2013年01期
3 江雪;孫樂;;用戶查詢意圖切分的研究[J];計算機學報;2013年03期
4 白露;郭嘉豐;曹雷;程學旗;;基于查詢意圖的長尾查詢推薦[J];計算機學報;2013年03期
5 周之誠;;基于查詢意圖聚類的實時搜索建議[J];現(xiàn)代圖書情報技術;2011年02期
6 唐靜笑;呂學強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術;2014年01期
7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設計與實現(xiàn)[J];計算機應用研究;2002年10期
8 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學學報;2012年03期
9 伍大勇;趙世奇;劉挺;張宇;;融合多類特征的Web查詢意圖識別[J];模式識別與人工智能;2012年03期
10 吳曉暉;宋萍萍;張榮欣;;有無查詢意圖的分類與實現(xiàn)架構模型研究[J];情報科學;2009年12期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王俞霖;孫樂;黃云平;李文波;;基于規(guī)則和類型還原的用戶查詢意圖識別[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 高鶯;沈潔;陳滄;劉春陽;葉君峰;;一種基于排序學習的查詢意圖預測算法[A];第五屆全國信息檢索學術會議論文集[C];2009年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關子主題消解的悖向重排序方法研究[A];第六屆全國信息檢索學術會議論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 白鵬超;分布式搜索引擎核心技術的研究與實現(xiàn)[D];遼寧科技大學;2015年
2 張楊浩;基于搜索引擎日志的查詢意圖分類研究[D];西南大學;2016年
3 崔建青;查詢意圖識別的關鍵技術研究[D];東北大學;2014年
4 張恒慶;網(wǎng)絡用戶查詢意圖分析[D];北京工業(yè)大學;2014年
5 王井豐;基于百度百科的查詢意圖分類[D];吉林大學;2013年
6 張苗;基于用戶查詢意圖的信息檢索技術研究與實現(xiàn)方法[D];湖南大學;2013年
7 胡剛;百科知識與統(tǒng)計方法結合的查詢意圖分類[D];哈爾濱工業(yè)大學;2011年
8 陳杰;基于Web檢索的查詢意圖分類研究[D];華南理工大學;2011年
9 蔡桂秀;基于Markov網(wǎng)絡團的查詢意圖識別[D];江西師范大學;2012年
10 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學;2011年
,本文編號:1191934
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1191934.html