天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于查詢?nèi)罩镜挠脩舨樵円鈭D檢測

發(fā)布時(shí)間:2017-08-25 13:08

  本文關(guān)鍵詞:基于查詢?nèi)罩镜挠脩舨樵円鈭D檢測


  更多相關(guān)文章: 用戶查詢 查詢擴(kuò)展 意圖檢測


【摘要】:搜索引擎已經(jīng)成為人們在網(wǎng)絡(luò)上獲取信息不可或缺的工具。隨著社會的發(fā)展和科技的更迭,搜索引擎返回的結(jié)果由剛開始的簡單字符匹配發(fā)展到現(xiàn)在的語義的相關(guān)。用戶查詢是搜索引擎接收到的來自用戶的最重要的信息,通過對用戶查詢的意圖識別,搜索引擎就能夠在用戶輸入較少的查詢關(guān)鍵詞的情況下,返回對于用戶來說最相關(guān)的結(jié)果,從而提升搜索引擎的用戶體驗(yàn)。本文以CIKM 2014 Query Intent Detection比賽為依托,詳細(xì)地介紹了目前用戶查詢意圖檢測的意義和挑戰(zhàn),并且通過對用戶搜索日志記錄的挖掘來解決用戶查詢較短、缺乏足夠的語義信息的問題。由于比賽使用的數(shù)據(jù)集經(jīng)過編碼,導(dǎo)致常用的分詞算法無法直接使用,本文采用基于k-gram和end-gram的方法提取詞項(xiàng)并使用信息增益等方法進(jìn)行了特征選擇,最終構(gòu)建詞袋模型。然后,通過計(jì)算用戶查詢對應(yīng)的文檔中每個(gè)詞項(xiàng)的TFIDF權(quán)重構(gòu)成該文檔的特征向量。最后,使用線性的支持向量機(jī)作為分類的模型。由于本次比賽共包含7個(gè)分類,并且用戶查詢有可能同時(shí)屬于兩個(gè)類別,本文使用One-Vs-Rest的策略訓(xùn)練7個(gè)二分的分類器,通過得到的概率值來預(yù)測其類別,從而解決多分類多標(biāo)記的問題。本文通過實(shí)驗(yàn)對比了各個(gè)步驟中參數(shù)的影響,并采用五折交叉驗(yàn)證的方法調(diào)整了支持向量機(jī)中的各個(gè)參數(shù)。本文介紹的方法簡單、有效、實(shí)用,從特征提取到模型訓(xùn)練,到最終類別的預(yù)測的周期很短。在近530只參賽隊(duì)伍中,最終以F1值0.9181的成績排名第六。
【關(guān)鍵詞】:用戶查詢 查詢擴(kuò)展 意圖檢測
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 緒論8-12
  • 1.1 研究背景8-9
  • 1.2 研究目的及意義9-10
  • 1.3 研究內(nèi)容10-11
  • 1.4 論文結(jié)構(gòu)安排11-12
  • 第二章 相關(guān)理論及研究12-19
  • 2.1 通用搜索和垂直搜索12
  • 2.2 國內(nèi)外研究現(xiàn)狀12-13
  • 2.3 分詞算法13-15
  • 2.3.1 基于詞典的最大匹配算法14-15
  • 2.3.2 基于機(jī)器學(xué)習(xí)序列模型的方法15
  • 2.4 詞袋模型和向量空間模型15-17
  • 2.6.1 詞項(xiàng)頻率和逆文檔頻率15-16
  • 2.6.2 TFIDF權(quán)重的其它計(jì)算方法16-17
  • 2.5 特征選擇的方法17-19
  • 2.5.1 基于頻率的特征選擇方法17-18
  • 2.5.2 基于卡方檢驗(yàn)的特征選擇方法18
  • 2.5.3 多分類問題的特征選擇方法18-19
  • 第三章 特征工程19-31
  • 3.1 問題定義19-20
  • 3.2 整體流程20-22
  • 3.3 數(shù)據(jù)預(yù)處理22-23
  • 3.4 特征提取23-31
  • 3.4.1 查詢擴(kuò)展23-26
  • 3.4.2 詞袋建立26-31
  • 第四章 模型訓(xùn)練31-39
  • 4.1 分類算法31-37
  • 4.1.1 樸素貝葉斯31-32
  • 4.1.2 邏輯回歸32-33
  • 4.1.3 支持向量機(jī)33-37
  • 4.2 其他嘗試37-39
  • 第五章 實(shí)驗(yàn)結(jié)果分析39-47
  • 5.1 數(shù)據(jù)集的介紹39-41
  • 5.2 評測方式41-42
  • 5.3 實(shí)驗(yàn)環(huán)境42
  • 5.4 結(jié)果分析42-45
  • 5.5 最終結(jié)果45-47
  • 第六章 總結(jié)與展望47-51
  • 6.1 特征工程47-50
  • 6.1.1 查詢擴(kuò)展48
  • 6.1.2 其它詞語的提取48-49
  • 6.1.3 搜索行為特征49-50
  • 6.2 模型訓(xùn)練50-51
  • 6.2.1 多標(biāo)記問題50
  • 6.2.2 模型融合50-51
  • 參考文獻(xiàn)51-53
  • 發(fā)表論文和參加科研情況說明53-54
  • 致謝54-55

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 江雪;孫樂;;用戶查詢意圖切分的研究[J];計(jì)算機(jī)學(xué)報(bào);2013年03期

2 張曉娟;陸偉;;利用查詢重構(gòu)識別查詢意圖[J];現(xiàn)代圖書情報(bào)技術(shù);2013年01期

3 伍大勇;趙世奇;劉挺;張宇;;融合多類特征的Web查詢意圖識別[J];模式識別與人工智能;2012年03期

4 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期

5 黃昌寧;中文信息處理中的分詞問題[J];語言文字應(yīng)用;1997年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學(xué);2013年

,

本文編號:736911

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/736911.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶afffb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com