基于搜索引擎日志的用戶查詢意圖分類
發(fā)布時(shí)間:2021-10-30 11:32
為了搜索引擎能提供高質(zhì)量檢索,提出了一種查詢意圖自動(dòng)分類模型。該模型將用戶查詢分為咨詢、學(xué)術(shù)、資源、服務(wù)、導(dǎo)航和熱點(diǎn)6類,建立了一套查詢意圖分類體系;在傳統(tǒng)搜索引擎系統(tǒng)中加入查詢意圖處理模塊,通過對(duì)用戶查詢意圖的查詢?cè)~信息(Qi)、點(diǎn)擊URL信息(Cu)和基于某分類的URL點(diǎn)擊排序(Cr)3個(gè)分類特征進(jìn)行統(tǒng)計(jì)分析,提取其特征向量,進(jìn)而推斷出用戶查詢意圖。通過在Sogou數(shù)據(jù)集上的試驗(yàn)表明,各類信息的查詢分類效果F值均大于0.8,取得了較好的分類效果。
【文章來源】:指揮信息系統(tǒng)與技術(shù). 2019,10(02)
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1搜索引擎系統(tǒng)結(jié)構(gòu)示意圖
處理模塊進(jìn)行相關(guān)處理。查詢意圖分類是一個(gè)篩選、預(yù)處理、訓(xùn)練和最終分類的過程。Web文本分類流程如圖2所示,包括分類器訓(xùn)練和查詢意圖分類2個(gè)過程。圖2Web文本分類流程查詢意圖分類是一個(gè)通過具體指導(dǎo)進(jìn)行學(xué)習(xí)的過程。設(shè)有查詢意圖分類體系C={c1,c2,…,cm},對(duì)于用戶的每個(gè)查詢是由k個(gè)特征分量(di)和一個(gè)類別目標(biāo)分量ci組成的向量,即qi=(d1,d2,…,dk,ci),每個(gè)分量di對(duì)應(yīng)一個(gè)抽取的分類特征,根據(jù)已標(biāo)注類別的查詢訓(xùn)練數(shù)據(jù)集Q={q1,q2,…,qn}進(jìn)行訓(xùn)練學(xué)習(xí)。最終的分類器f便是根據(jù)這些特征選用某種機(jī)器學(xué)習(xí)算法獲得的。當(dāng)用戶輸入一個(gè)查詢q時(shí),選取同樣的特征提取方式,用k維特征向量表示,使用分類器f來判斷查詢q屬于C中意圖類別ci,表示為f:{q}→C。結(jié)合該方法中查詢特征向量具有一定維度的情況,本文采用SVM和最小距離分類法來完成學(xué)習(xí)分類器。1.3構(gòu)建分類體系本文分類體系根據(jù)Sogou搜索引擎日志實(shí)際情況,對(duì)Broder分類體系進(jìn)行細(xì)化,在確保該分類體系完備性同時(shí),使得該分類體系具有更優(yōu)的獨(dú)立不相關(guān)性。保留導(dǎo)航類,對(duì)信息類和事務(wù)類進(jìn)行細(xì)分,分類體系最終包括如下6類:1)咨詢類:涉及用戶想得到的建議、想法或解答等知識(shí)性查詢,如用戶通過搜索引擎輸入關(guān)鍵詞“什么是Broder分類?”,希望獲得Broder分類的知識(shí)。
com)的中文分類網(wǎng)站目錄及DMOZ目錄(www.dmoz.org)來識(shí)別這些URL的分類。分類目錄(classifieddirectory)收錄了網(wǎng)站名稱、網(wǎng)站地址和相關(guān)介紹等信息,是幫助用戶在網(wǎng)絡(luò)中尋獲信息的主題目錄。一般地,只有網(wǎng)站或網(wǎng)站中重要版塊的URL才會(huì)放到分類目錄,即分類目錄收錄的URL往往層次較少。為了解決該問題,本文采用前綴匹配方式,每次對(duì)URL尾部進(jìn)行一些刪除處理。分類目錄查詢分類功能結(jié)構(gòu)如圖3所示。圖3分類目錄查詢分類功能結(jié)構(gòu)圖3中,查詢分類過程為:先將完整的待分類URL與分類目錄中URL進(jìn)行匹配,如果該URL完全匹配,則直接使用分類目錄中對(duì)應(yīng)的主題進(jìn)行類別識(shí)別;如無法匹配,則對(duì)待分類URL后綴進(jìn)行刪減,刪掉URL串中最后一個(gè)“/”后內(nèi)容,再與分類目錄中URL匹配;反復(fù)操作,直至在分類目錄中獲得匹配,或者該URL刪掉所有“/”后在分類目錄中仍無匹配記錄。1.4.3URL點(diǎn)擊排行1個(gè)查詢可能點(diǎn)擊多個(gè)URL,1個(gè)URL也可能被多個(gè)查詢點(diǎn)擊,這些行為均記錄在查詢?nèi)罩局。多?shù)情況下,用戶會(huì)在獲得滿意結(jié)果時(shí)終止點(diǎn)擊,因此最靠后的點(diǎn)擊最接近用戶的真實(shí)意圖。除最后一次點(diǎn)擊的URL外,很難確定曾經(jīng)點(diǎn)擊的URL接近用戶真實(shí)意圖的比重,然而可以確定的是越接近查詢意圖的URL獲得的點(diǎn)擊次數(shù)越多。假設(shè)用戶共進(jìn)行了n次點(diǎn)擊,本文按如下方法進(jìn)行分類比重的劃分:前n-1次點(diǎn)擊的UR
【參考文獻(xiàn)】:
期刊論文
[1]基于維基百科的短文本相關(guān)度計(jì)算[J]. 荊琪,段利國,李愛萍,趙謙. 計(jì)算機(jī)工程. 2018(02)
[2]基于網(wǎng)絡(luò)日志的用戶查詢推薦[J]. 王靜. 河南科技. 2016(07)
[3]搜索引擎廣告用戶行為預(yù)測(cè)與特征分析[J]. 王海雷,賀一駿,俞學(xué)寧,張銘. 計(jì)算機(jī)應(yīng)用研究. 2013(05)
[4]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學(xué)報(bào). 2013(01)
[5]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計(jì)算機(jī)研究與發(fā)展. 2012(06)
[6]基于用戶查詢意圖識(shí)別的Web搜索優(yōu)化模型[J]. 楊藝,周元. 計(jì)算機(jī)科學(xué). 2012(01)
博士論文
[1]查詢意圖自動(dòng)分類與分析[D]. 張曉娟.武漢大學(xué) 2014
碩士論文
[1]基于搜索引擎日志的查詢意圖分類研究[D]. 張楊浩.西南大學(xué) 2016
本文編號(hào):3466652
【文章來源】:指揮信息系統(tǒng)與技術(shù). 2019,10(02)
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1搜索引擎系統(tǒng)結(jié)構(gòu)示意圖
處理模塊進(jìn)行相關(guān)處理。查詢意圖分類是一個(gè)篩選、預(yù)處理、訓(xùn)練和最終分類的過程。Web文本分類流程如圖2所示,包括分類器訓(xùn)練和查詢意圖分類2個(gè)過程。圖2Web文本分類流程查詢意圖分類是一個(gè)通過具體指導(dǎo)進(jìn)行學(xué)習(xí)的過程。設(shè)有查詢意圖分類體系C={c1,c2,…,cm},對(duì)于用戶的每個(gè)查詢是由k個(gè)特征分量(di)和一個(gè)類別目標(biāo)分量ci組成的向量,即qi=(d1,d2,…,dk,ci),每個(gè)分量di對(duì)應(yīng)一個(gè)抽取的分類特征,根據(jù)已標(biāo)注類別的查詢訓(xùn)練數(shù)據(jù)集Q={q1,q2,…,qn}進(jìn)行訓(xùn)練學(xué)習(xí)。最終的分類器f便是根據(jù)這些特征選用某種機(jī)器學(xué)習(xí)算法獲得的。當(dāng)用戶輸入一個(gè)查詢q時(shí),選取同樣的特征提取方式,用k維特征向量表示,使用分類器f來判斷查詢q屬于C中意圖類別ci,表示為f:{q}→C。結(jié)合該方法中查詢特征向量具有一定維度的情況,本文采用SVM和最小距離分類法來完成學(xué)習(xí)分類器。1.3構(gòu)建分類體系本文分類體系根據(jù)Sogou搜索引擎日志實(shí)際情況,對(duì)Broder分類體系進(jìn)行細(xì)化,在確保該分類體系完備性同時(shí),使得該分類體系具有更優(yōu)的獨(dú)立不相關(guān)性。保留導(dǎo)航類,對(duì)信息類和事務(wù)類進(jìn)行細(xì)分,分類體系最終包括如下6類:1)咨詢類:涉及用戶想得到的建議、想法或解答等知識(shí)性查詢,如用戶通過搜索引擎輸入關(guān)鍵詞“什么是Broder分類?”,希望獲得Broder分類的知識(shí)。
com)的中文分類網(wǎng)站目錄及DMOZ目錄(www.dmoz.org)來識(shí)別這些URL的分類。分類目錄(classifieddirectory)收錄了網(wǎng)站名稱、網(wǎng)站地址和相關(guān)介紹等信息,是幫助用戶在網(wǎng)絡(luò)中尋獲信息的主題目錄。一般地,只有網(wǎng)站或網(wǎng)站中重要版塊的URL才會(huì)放到分類目錄,即分類目錄收錄的URL往往層次較少。為了解決該問題,本文采用前綴匹配方式,每次對(duì)URL尾部進(jìn)行一些刪除處理。分類目錄查詢分類功能結(jié)構(gòu)如圖3所示。圖3分類目錄查詢分類功能結(jié)構(gòu)圖3中,查詢分類過程為:先將完整的待分類URL與分類目錄中URL進(jìn)行匹配,如果該URL完全匹配,則直接使用分類目錄中對(duì)應(yīng)的主題進(jìn)行類別識(shí)別;如無法匹配,則對(duì)待分類URL后綴進(jìn)行刪減,刪掉URL串中最后一個(gè)“/”后內(nèi)容,再與分類目錄中URL匹配;反復(fù)操作,直至在分類目錄中獲得匹配,或者該URL刪掉所有“/”后在分類目錄中仍無匹配記錄。1.4.3URL點(diǎn)擊排行1個(gè)查詢可能點(diǎn)擊多個(gè)URL,1個(gè)URL也可能被多個(gè)查詢點(diǎn)擊,這些行為均記錄在查詢?nèi)罩局。多?shù)情況下,用戶會(huì)在獲得滿意結(jié)果時(shí)終止點(diǎn)擊,因此最靠后的點(diǎn)擊最接近用戶的真實(shí)意圖。除最后一次點(diǎn)擊的URL外,很難確定曾經(jīng)點(diǎn)擊的URL接近用戶真實(shí)意圖的比重,然而可以確定的是越接近查詢意圖的URL獲得的點(diǎn)擊次數(shù)越多。假設(shè)用戶共進(jìn)行了n次點(diǎn)擊,本文按如下方法進(jìn)行分類比重的劃分:前n-1次點(diǎn)擊的UR
【參考文獻(xiàn)】:
期刊論文
[1]基于維基百科的短文本相關(guān)度計(jì)算[J]. 荊琪,段利國,李愛萍,趙謙. 計(jì)算機(jī)工程. 2018(02)
[2]基于網(wǎng)絡(luò)日志的用戶查詢推薦[J]. 王靜. 河南科技. 2016(07)
[3]搜索引擎廣告用戶行為預(yù)測(cè)與特征分析[J]. 王海雷,賀一駿,俞學(xué)寧,張銘. 計(jì)算機(jī)應(yīng)用研究. 2013(05)
[4]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學(xué)報(bào). 2013(01)
[5]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計(jì)算機(jī)研究與發(fā)展. 2012(06)
[6]基于用戶查詢意圖識(shí)別的Web搜索優(yōu)化模型[J]. 楊藝,周元. 計(jì)算機(jī)科學(xué). 2012(01)
博士論文
[1]查詢意圖自動(dòng)分類與分析[D]. 張曉娟.武漢大學(xué) 2014
碩士論文
[1]基于搜索引擎日志的查詢意圖分類研究[D]. 張楊浩.西南大學(xué) 2016
本文編號(hào):3466652
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3466652.html
最近更新
教材專著