基于主題的查詢(xún)意圖識(shí)別研究
發(fā)布時(shí)間:2018-03-25 09:16
本文選題:查詢(xún)意圖 切入點(diǎn):查詢(xún)主題 出處:《哈爾濱工業(yè)大學(xué)》2013年博士論文
【摘要】:搜索引擎成為人們從互聯(lián)網(wǎng)上快速獲取信息的最主要途徑之一。當(dāng)前的搜索引擎主要基于關(guān)鍵字匹配的搜索模式。然而用戶(hù)輸入的查詢(xún)往往較短,導(dǎo)致查詢(xún)具有多種語(yǔ)義或包含有多個(gè)子主題;陉P(guān)鍵字匹配的搜索方式僅關(guān)注于返回包含查詢(xún)關(guān)鍵字的文檔,而忽略了對(duì)查詢(xún)背后用戶(hù)真正的信息需求的識(shí)別與匹配。對(duì)于具有復(fù)雜信息需求的查詢(xún),返回的搜索結(jié)果中包含有較多不符合用戶(hù)需要的噪聲文檔,無(wú)法充分滿(mǎn)足用戶(hù)需要。因此,開(kāi)展查詢(xún)意圖識(shí)別相關(guān)技術(shù)的研究,深入理解用戶(hù)搜索意圖是十分必要的。 查詢(xún)意圖是介于關(guān)鍵字查詢(xún)與用戶(hù)真實(shí)信息需求之間的一種中間形式,用于表示用戶(hù)的搜索目的。已有的查詢(xún)意圖理解研究集中于導(dǎo)航類(lèi)查詢(xún)的識(shí)別,即判斷查詢(xún)的搜索目的是否是找到某一特定的網(wǎng)站。然而導(dǎo)航類(lèi)查詢(xún)僅占用戶(hù)輸入的所有查詢(xún)中較小的比例,更多的查詢(xún)屬于具有較為復(fù)雜的用戶(hù)需求的信息類(lèi)查詢(xún)。針對(duì)信息類(lèi)查詢(xún)進(jìn)行全面、深層的查詢(xún)意圖理解是進(jìn)一步提高搜索引擎性能的關(guān)鍵技術(shù)。本文專(zhuān)注于信息類(lèi)查詢(xún)的意圖表示、識(shí)別與應(yīng)用。特別地,從查詢(xún)表層字符信息上升到主題層面,采取不同的主題形式來(lái)形式化地表示查詢(xún)背后的搜索意圖,從多個(gè)角度理解查詢(xún)意圖,并基于查詢(xún)意圖提供新穎的搜索服務(wù)與搜索模式。本文的主要研究?jī)?nèi)容可概括如下: (1)針對(duì)查詢(xún)歧義問(wèn)題,以主題類(lèi)別表示查詢(xún)意圖,將查詢(xún)映射到給定的主題類(lèi)別體系中,即將查詢(xún)意圖識(shí)別歸結(jié)為查詢(xún)主題分類(lèi)問(wèn)題。利用主題體系的結(jié)構(gòu)特征,能夠有效地描述查詢(xún)意圖信息,有利于用戶(hù)信息需求空間結(jié)構(gòu)的構(gòu)建。本文提出一種基于用戶(hù)自動(dòng)標(biāo)注資源的查詢(xún)主題分類(lèi)方法:利用網(wǎng)絡(luò)上人工構(gòu)建的主題網(wǎng)站目錄對(duì)網(wǎng)頁(yè)URL進(jìn)行主題標(biāo)注;基于搜索引擎的查詢(xún)?nèi)罩九c搜索結(jié)果,構(gòu)建用戶(hù)查詢(xún)與URL的關(guān)聯(lián)關(guān)系;根據(jù)URL的主題自動(dòng)地對(duì)查詢(xún)進(jìn)行主題標(biāo)注。這一過(guò)程僅需要很少的人工參與,卻可以獲得海量的有主題標(biāo)注的查詢(xún),基于有標(biāo)注的查詢(xún)得以訓(xùn)練基于統(tǒng)計(jì)的查詢(xún)分類(lèi)器。方法改善了查詢(xún)分類(lèi)缺少標(biāo)注查詢(xún)的數(shù)據(jù)稀疏問(wèn)題,不僅分類(lèi)準(zhǔn)確率高而且具有較高在線(xiàn)處理效率,可以應(yīng)用于多種查詢(xún)意圖識(shí)別相關(guān)的應(yīng)用場(chǎng)景。 (2)針對(duì)查詢(xún)寬泛?jiǎn)栴},以一組查詢(xún)子主題表示查詢(xún)意圖。查詢(xún)子主題是指表達(dá)了用戶(hù)搜索意圖的字符串短語(yǔ),如原始查詢(xún)?yōu)椤拔④洝,則“微軟研究院”或“微軟Surface”可認(rèn)為是原始查詢(xún)的子主題,其中“研究院”和“Surface”稱(chēng)作意圖短語(yǔ)表示用戶(hù)具體的信息需求。查詢(xún)子主題不依賴(lài)于預(yù)先指定的類(lèi)別體系,能夠在更細(xì)致的層面對(duì)查詢(xún)意圖進(jìn)行刻劃,是對(duì)查詢(xún)主題分類(lèi)的補(bǔ)充。查詢(xún)子主題挖掘的關(guān)鍵問(wèn)題在于如何獲得查詢(xún)子主題候選,以及如何將具有相似意圖的子主題候選有效地組織在一起。本文提出基于聚類(lèi)的查詢(xún)子主題挖掘方法,該方法主要分為4個(gè)步驟:查詢(xún)關(guān)鍵詞提取,查詢(xún)子主題候選抽取、查詢(xún)子主題候選聚類(lèi)以及查詢(xún)子主題排序。本文分析了從各個(gè)信息源中抽取的查詢(xún)子主題候選的特點(diǎn),并應(yīng)用適于任務(wù)需要的聚類(lèi)算法。實(shí)驗(yàn)表明,提出的方法獲得了比商業(yè)搜索引擎相關(guān)搜索更好的性能。 (3)針對(duì)查詢(xún)意圖與用戶(hù)相關(guān)的問(wèn)題,以用戶(hù)主題興趣表示查詢(xún)意圖,從用戶(hù)個(gè)人興趣的角度個(gè)性化地表示查詢(xún)意圖。提交同一查詢(xún)的不同用戶(hù)可能具有不同的查詢(xún)意圖,為了更準(zhǔn)確地判斷每一位用戶(hù)具體的查詢(xún)意圖需要考察用戶(hù)背景與興趣等個(gè)人信息。本文基于概率主題模型對(duì)用戶(hù)搜索歷史進(jìn)行建模,建立用戶(hù)的主題興趣模型,將用戶(hù)查詢(xún)依據(jù)其與用戶(hù)歷史興趣的相關(guān)性映射到用戶(hù)主題興趣模型之中,實(shí)現(xiàn)個(gè)性化的查詢(xún)意圖識(shí)別;趥(gè)性化的查詢(xún)意圖表示在語(yǔ)言模型的搜索框架下實(shí)現(xiàn)個(gè)性化搜索,為每一位用戶(hù)提供符合個(gè)人搜索意圖的、個(gè)性化搜索結(jié)果。據(jù)我們所知,,這是首次將基于主題模型的用戶(hù)建模與個(gè)性化搜索相結(jié)合的工作。 (4)針對(duì)當(dāng)前搜索引擎結(jié)果僅呈現(xiàn)文檔列表而非具體信息的不足,提出了基于查詢(xún)子主題的查詢(xún)摘要這一新穎的搜索模式,基于多個(gè)查詢(xún)子主題提供半結(jié)構(gòu)化的搜索結(jié)果,對(duì)查詢(xún)的多個(gè)搜索意圖進(jìn)行概括描述,試圖直接返回滿(mǎn)足用戶(hù)需求的相關(guān)信息。本文具體定義了該任務(wù)的目標(biāo)、框架和相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn),提出了基于復(fù)合查詢(xún)的主動(dòng)信息獲取與基于比較式信息挖掘的查詢(xún)子主題建模方法。該搜索模式可視為查詢(xún)子主題挖掘的具體應(yīng)用。 綜上,本文針對(duì)具有復(fù)雜信息需求的信息類(lèi)查詢(xún),從多個(gè)角度、以不同的主題方式表示和理解查詢(xún)意圖。查詢(xún)主題分類(lèi)與查詢(xún)子主題挖掘相當(dāng)于從全局用戶(hù)的視角來(lái)分析查詢(xún)意圖、構(gòu)建查詢(xún)需求結(jié)構(gòu)特征,基于用戶(hù)主題興趣表示則相當(dāng)于根據(jù)用戶(hù)信息個(gè)性化地理解查詢(xún)意圖。將查詢(xún)意圖識(shí)別的結(jié)果成功地應(yīng)用于個(gè)性化搜索和基于查詢(xún)子主題的查詢(xún)摘要等新穎的搜索模式,充分說(shuō)明對(duì)查詢(xún)意圖的深入理解,有利于提供更豐富的搜索接口和信息表示方案,提高搜索的質(zhì)量與用戶(hù)體驗(yàn)。因此,基于主題的查詢(xún)意圖識(shí)別研究對(duì)搜索引擎具有以下的促進(jìn)作用:(1)構(gòu)建用戶(hù)的信息需求結(jié)構(gòu)空間,結(jié)構(gòu)化地組織信息,有效地幫助用戶(hù)清晰地了解相關(guān)信息結(jié)構(gòu),明確自身搜索目的;(2)豐富搜索引擎的搜索模式,提高搜索質(zhì)量,準(zhǔn)確且迅速地滿(mǎn)足用戶(hù)的信息需求。希望研究中得到的初步結(jié)論與結(jié)果能夠?qū)ο嚓P(guān)方向的學(xué)者提供一定的參考作用。
[Abstract]:......
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 曾春,邢春曉,周立柱;基于內(nèi)容過(guò)濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期
本文編號(hào):1662482
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1662482.html
最近更新
教材專(zhuān)著