天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于搜索引擎日志的查詢意圖分類研究

發(fā)布時間:2018-03-02 04:14

  本文關(guān)鍵詞: 信息搜索 分類體系 查詢意圖分類 分類特征 出處:《西南大學(xué)》2016年碩士論文 論文類型:學(xué)位論文


【摘要】:在信息資源呈爆發(fā)式增長的二十一世紀,浩瀚的網(wǎng)絡(luò)資源給用戶提供了豐富多樣的上網(wǎng)體驗。但是,對不同的用戶來說,要從如此多而雜的網(wǎng)絡(luò)資源中高效找到能滿足自己需求的信息,就變得越來越困難;對信息服務(wù)者來說,如何準確且快速地獲取所需信息,是其不斷努力的方向。搜索引擎作為用戶獲取相關(guān)信息的重要工具,能幫助用戶快速定位到互聯(lián)網(wǎng)資源,并能直接返回與其信息需求相關(guān)的文檔。但是,當(dāng)前的搜索引擎的搜索模式大都是基于關(guān)鍵字匹配的,加之用戶向搜索引擎輸入的簡短查詢存在模糊性和歧義性,使得用戶的查詢意圖在搜索引擎中不能被有效地識別。為了有效識別用戶的查詢意圖,現(xiàn)有的相關(guān)工作主要包含如何構(gòu)建分類體系以及如何在給定分類體系下進行查詢意圖分類。本文基于搜索引擎查詢?nèi)罩拘畔?對Broder分類體系進行了細化,并著重研究分類特征的分類性能。首先,考慮到搜索引擎中呈現(xiàn)的查詢信息特點,對Broder關(guān)于用戶查詢意圖分類體系中太泛化的信息類和事務(wù)類進行了細分與重新定義,利用K-means聚類,獲得了新的查詢意圖分類體系包括:導(dǎo)航類、咨詢類、資源類、服務(wù)類、熱點類。其次,為了從用戶搜索行為中推斷出用戶查詢意圖,本文選取了查詢詞信息(Qi)、點擊URL信息(Cu)和URL點擊排行(Cr)作為查詢意圖分類特征,并根據(jù)這三類特征所構(gòu)成的特征向量來判斷用戶查詢具體屬于分類體系中的哪一個類別。鑒于用戶查詢數(shù)據(jù)自身的特點,采用SVM分類器LIBSVM,利用提取的三類特征對訓(xùn)練數(shù)據(jù)集進行訓(xùn)練獲得SVM分類模型。最后,由于各類分布的不均勻性,在采用信息檢索領(lǐng)域常用的準確率和召回率指標對查詢意圖的分類效果進行評價的同時,為了使評價結(jié)果更加客觀,增加了評價指標F值。在實驗中,主要對本文提出方法的整體分類效果進行分析,另外還探討了單層面的特征對分類效果的影響。在利用測試集數(shù)據(jù)驗證分類效果的評估實驗中,取得了較高的準確率和召回率,且F值均大于0.8,說明本文方法在識別用戶查詢意圖方面具有可行性。
[Abstract]:In 21th century, when the information resources were exploding, the vast amount of network resources provided users with rich and diverse online experience. However, for different users, It is becoming increasingly difficult to find information that meets your needs efficiently from so many and diverse network resources; for information service providers, how to get the required information accurately and quickly, Search engine, as an important tool for users to obtain relevant information, can help users quickly locate Internet resources and return documents related to their information requirements directly. The search mode of the current search engine is mostly based on keyword matching, and the short query input by the user to the search engine is fuzzy and ambiguous. In order to effectively identify the user's query intention, the user's intention can not be effectively recognized in the search engine. The existing related work mainly includes how to construct the classification system and how to classify the query intention under the given classification system. Based on the search engine query log information, this paper refines the Broder classification system. First of all, considering the characteristics of query information presented in search engine, the information classes and transaction classes which are too generalized in the classification system of user's query intention in Broder are subdivided and redefined. Using K-means clustering, a new classification system of query intention is obtained, which includes: navigation class, consultation class, resource class, service class, hot spot class. Secondly, in order to infer the user's query intention from the user's search behavior, In this paper, we select the query word information, URL information and URL click rank as the classification feature of the query intention. According to the feature vectors of these three features, the user query belongs to which kind of classification system. In view of the characteristics of the user query data, The SVM classifier LIBSVM is used to train the training data set to obtain the SVM classification model by using the extracted three kinds of features. In order to make the evaluation result more objective, the F value of evaluation index is increased, while the accuracy and recall index commonly used in information retrieval field are used to evaluate the classification effect of query intention. This paper mainly analyzes the overall classification effect of the proposed method, and also discusses the influence of single-level features on the classification effect. In the experiment to verify the classification effect by using test set data, a high accuracy rate and recall rate are obtained. The F values are all greater than 0.8, which shows that this method is feasible in identifying the user's query intention.
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3

【相似文獻】

相關(guān)期刊論文 前10條

1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國圖書館學(xué)報;2013年01期

2 張曉娟;陸偉;;利用查詢重構(gòu)識別查詢意圖[J];現(xiàn)代圖書情報技術(shù);2013年01期

3 江雪;孫樂;;用戶查詢意圖切分的研究[J];計算機學(xué)報;2013年03期

4 白露;郭嘉豐;曹雷;程學(xué)旗;;基于查詢意圖的長尾查詢推薦[J];計算機學(xué)報;2013年03期

5 周之誠;;基于查詢意圖聚類的實時搜索建議[J];現(xiàn)代圖書情報技術(shù);2011年02期

6 唐靜笑;呂學(xué)強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術(shù);2014年01期

7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2002年10期

8 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學(xué)學(xué)報;2012年03期

9 伍大勇;趙世奇;劉挺;張宇;;融合多類特征的Web查詢意圖識別[J];模式識別與人工智能;2012年03期

10 吳曉暉;宋萍萍;張榮欣;;有無查詢意圖的分類與實現(xiàn)架構(gòu)模型研究[J];情報科學(xué);2009年12期

相關(guān)會議論文 前3條

1 王俞霖;孫樂;黃云平;李文波;;基于規(guī)則和類型還原的用戶查詢意圖識別[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

2 高鶯;沈潔;陳滄;劉春陽;葉君峰;;一種基于排序?qū)W習(xí)的查詢意圖預(yù)測算法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關(guān)子主題消解的悖向重排序方法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前1條

1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學(xué);2013年

相關(guān)碩士學(xué)位論文 前9條

1 張楊浩;基于搜索引擎日志的查詢意圖分類研究[D];西南大學(xué);2016年

2 張恒慶;網(wǎng)絡(luò)用戶查詢意圖分析[D];北京工業(yè)大學(xué);2014年

3 王井豐;基于百度百科的查詢意圖分類[D];吉林大學(xué);2013年

4 張苗;基于用戶查詢意圖的信息檢索技術(shù)研究與實現(xiàn)方法[D];湖南大學(xué);2013年

5 胡剛;百科知識與統(tǒng)計方法結(jié)合的查詢意圖分類[D];哈爾濱工業(yè)大學(xué);2011年

6 陳杰;基于Web檢索的查詢意圖分類研究[D];華南理工大學(xué);2011年

7 蔡桂秀;基于Markov網(wǎng)絡(luò)團的查詢意圖識別[D];江西師范大學(xué);2012年

8 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學(xué);2011年

9 華松;檢索重排序和文獻權(quán)威度判定方法研究[D];蘇州大學(xué);2012年

,

本文編號:1554956

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1554956.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6ab07***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com