事務(wù)類搜索意圖分類模型研究
發(fā)布時間:2019-10-29 20:11
【摘要】:本文主要是對事務(wù)類搜索意圖分類模型進(jìn)行了研究。所謂用戶搜索意圖,可以理解為用戶通過搜索希望獲取到的信息或資源,可以量化為用戶希望得到的檢索結(jié)果集。在搜索意圖分類領(lǐng)域,目前還沒有一個完全統(tǒng)一標(biāo)準(zhǔn)的分類體系。本文在Broder提出的意圖分類體系基礎(chǔ)上,參考了Rose和Levinson的意圖分類體系,對事務(wù)類搜索意圖進(jìn)行了細(xì)分。將事務(wù)類意圖細(xì)分為五個子類別,分別為下載、娛樂、交互、獲取以及購物,并對這五個子類又細(xì)分為多個具體的用戶搜索意圖類別。本文重點研究內(nèi)容是搜索意圖分類特征獲取以及模型構(gòu)建。根據(jù)分類模型構(gòu)建特征獲取來源的不同,分為事先模型和事后模型。事先模型主要是從用戶搜索Query本身獲取特征進(jìn)行建模,這些特征主要包括詞匯(Unigram)特征、多元特征(Bigram和Trigram特征)、命名實體特征(NER)信息;事后模型是從搜索Query擴(kuò)展資源來獲取相關(guān)特征。擴(kuò)展資源主要包括搜索引擎Web查詢?nèi)罩竞退阉饕孀ト〗Y(jié)果。其中,搜索引擎Web日志中可以提取URL地址片段、相關(guān)詞匯特征和用戶點擊行為等;從搜索引擎抓取結(jié)果中可以獲取特征主要包括頁面標(biāo)題(Title)以及頁面文檔中鏈接到其他頁面的詞匯或文本片段(Snippets)等。本文對上述所有特征及其組合分別進(jìn)行了實驗,實驗結(jié)果表明,基于Query內(nèi)容本身獲取的特征對絕大部分搜索意圖分類都是有效的;同時,從搜索Query擴(kuò)展資源中獲取的豐富特征對事務(wù)類搜索意圖分類也起到了很大幫助和積極作用,并且它們組合特征的分類效果更加顯著。另外,本文也對常用文本分類器作了相關(guān)介紹,并且選取最常用的三個分類器進(jìn)行了實驗效果對比。這三個分類器分別是決策樹、K-近鄰和支持向量機(jī)。結(jié)合選取的事務(wù)類搜索意圖組合特征和意圖類別分別進(jìn)行實驗,通過實驗結(jié)果對比,發(fā)現(xiàn)各個分類器分類效果不盡相同,而支持向量機(jī)分類總體效果最佳。
【圖文】:
第三步:模型分類。使用第一步己訓(xùn)練好的分類模型對待分類文本進(jìn)行分類處理,,將確定每個文本所屬分類類別。文本分類過程如圖3一1所示?.----一~-一~-一~--一一~一~--一--一~---一~~一~一-----一~~~-----一~-一~-一、--.----...l‘.-----..--口模型訓(xùn)練模型評估訓(xùn)練文本二二一’周洲州巧評反____端巍一二 二一一氣手r最荃或獲玉勺一一 一丈一德過…-文本‘…二二二洲‘、;黃征抽取盆件一認(rèn)《-__‘分類器11,夕一~一~一~-…茸了砰沂硒奮矛莊示了-{-}、_____一11荻i居n氣萬最石廠一{一一、表示l卜卜沖產(chǎn)卜卜卜﨎類分模型分類分類結(jié)界___…工一一一
本文編號:2553628
【圖文】:
第三步:模型分類。使用第一步己訓(xùn)練好的分類模型對待分類文本進(jìn)行分類處理,,將確定每個文本所屬分類類別。文本分類過程如圖3一1所示?.----一~-一~-一~--一一~一~--一--一~---一~~一~一-----一~~~-----一~-一~-一、--.----...l‘.-----..--口模型訓(xùn)練模型評估訓(xùn)練文本二二一’周洲州巧評反____端巍一二 二一一氣手r最荃或獲玉勺一一 一丈一德過…-文本‘…二二二洲‘、;黃征抽取盆件一認(rèn)《-__‘分類器11,夕一~一~一~-…茸了砰沂硒奮矛莊示了-{-}、_____一11荻i居n氣萬最石廠一{一一、表示l卜卜沖產(chǎn)卜卜卜﨎類分模型分類分類結(jié)界___…工一一一
本文編號:2553628
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2553628.html
最近更新
教材專著