天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

短文本分類在搜索引擎中的研究與應(yīng)用

發(fā)布時(shí)間:2017-07-06 05:07

  本文關(guān)鍵詞:短文本分類在搜索引擎中的研究與應(yīng)用


  更多相關(guān)文章: 短文本分類 搜索引擎 特征加權(quán) TF-IDF 偽相關(guān)反饋


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,信息量越來越豐富,人們獲取所需要的信息也越來越困難。搜索引擎作為幫助人們獲取信息的平臺,已經(jīng)成為互聯(lián)網(wǎng)中一個(gè)很重要的元素。針對用戶的搜索詞,可以挖掘出一些潛在的用戶意圖,其中根據(jù)搜索詞的分類可以得知用戶想搜索到哪個(gè)領(lǐng)域的結(jié)果,針對用戶意圖及這個(gè)領(lǐng)域的特點(diǎn)可以給用戶推薦滿足用戶需求的Web應(yīng)用,來優(yōu)化搜索結(jié)果。本文針對搜索詞進(jìn)行分類進(jìn)行研究,分析了搜索詞這樣的短文本的特點(diǎn),以及在分類時(shí)的難點(diǎn)。由于搜索詞包含的信息量太少且表達(dá)不規(guī)范,用傳統(tǒng)的精確匹配、N-Gram匹配、語義詞典擴(kuò)展等方法進(jìn)行分類都所有局限性。本文提出了一個(gè)三階段的短文本分類的解決方案來解決搜索詞分類問題:基于偽相關(guān)反饋的短文本預(yù)處理階段、短文本訓(xùn)練階段、短文本分類階段。將偽相關(guān)反饋技術(shù)運(yùn)用到短文本擴(kuò)展中,并使用排名因素計(jì)算特征權(quán)重和投票選擇分類來實(shí)現(xiàn)算法,最終將短文本分類的問題轉(zhuǎn)化為成熟的長文本分類問題,并通過實(shí)驗(yàn)對比不同短文本擴(kuò)展方法在搜索詞語料庫中的分類效果。在問題解決的過程中,對特征加權(quán)做了深入研究,以往的TF-IDF方法沒有考慮到類別信息,本文結(jié)合了類內(nèi)集中度、類間分散度改進(jìn)了TF-IDF特征加權(quán)方法,并通過實(shí)驗(yàn)去驗(yàn)證了方法的可用性。本文將短文本分類技術(shù)運(yùn)用到搜索引擎中,設(shè)計(jì)了該系統(tǒng)的整體架構(gòu)、短文本分類模塊、Web應(yīng)用系統(tǒng)架構(gòu)。詳細(xì)設(shè)計(jì)并實(shí)現(xiàn)了短文本分類模塊中的各個(gè)過程,并運(yùn)用了反饋學(xué)習(xí)分類算法來優(yōu)化分類模型。
【關(guān)鍵詞】:短文本分類 搜索引擎 特征加權(quán) TF-IDF 偽相關(guān)反饋
【學(xué)位授予單位】:東北師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 緒論8-13
  • 1.1 研究背景8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-10
  • 1.2.1 國外研究現(xiàn)狀9-10
  • 1.2.2 國內(nèi)研究現(xiàn)狀10
  • 1.3 研究目標(biāo)與方法10-11
  • 1.4 研究內(nèi)容與意義11
  • 1.5 論文的組織結(jié)構(gòu)11-13
  • 第二章 理論與技術(shù)基礎(chǔ)13-23
  • 2.1 搜索引擎13-14
  • 2.2 文本分類技術(shù)14-20
  • 2.2.1 文本分類相關(guān)概念14
  • 2.2.2 文本分類過程14-15
  • 2.2.3 文本預(yù)處理15-16
  • 2.2.4 特征選擇16-17
  • 2.2.5 特征加權(quán)17-19
  • 2.2.6 分類算法19-20
  • 2.3 短文本分類技術(shù)20-23
  • 2.3.1 短文本特點(diǎn)20-21
  • 2.3.2 短文本分類難點(diǎn)21
  • 2.3.3 短文本擴(kuò)展方法21-23
  • 第三章 基于偽相關(guān)反饋的短文本擴(kuò)展方法23-34
  • 3.1 偽相關(guān)反饋技術(shù)23
  • 3.2 基于偽相關(guān)反饋的擴(kuò)展方法23-26
  • 3.2.1 問題描述23-25
  • 3.2.2 結(jié)合排名因素計(jì)算特征權(quán)重25
  • 3.2.3 投票選擇分類過程25-26
  • 3.3 搜索引擎中短文本擴(kuò)展方法比較26-27
  • 3.4 實(shí)驗(yàn)與結(jié)果分析27-34
  • 3.4.1 實(shí)驗(yàn)環(huán)境27
  • 3.4.2 實(shí)驗(yàn)數(shù)據(jù)集27-28
  • 3.4.3 實(shí)驗(yàn)評估方法28
  • 3.4.4 實(shí)驗(yàn)評價(jià)指標(biāo)28-29
  • 3.4.5 實(shí)驗(yàn)步驟29-30
  • 3.4.6 實(shí)驗(yàn)結(jié)果與分析30-34
  • 第四章 基于分散度、集中度的文本特征加權(quán)算法34-40
  • 4.1 TF IDF算法存在的缺陷34-35
  • 4.2 基于分散度、集中度的改進(jìn)TF IDF特征加權(quán)算法35-37
  • 4.3 實(shí)驗(yàn)與結(jié)果分析37-40
  • 4.3.1 實(shí)驗(yàn)步驟37
  • 4.3.2 實(shí)驗(yàn)結(jié)果與分析37-40
  • 第五章 短文本分類在搜索引擎中的應(yīng)用40-51
  • 5.1 概述40
  • 5.2 系統(tǒng)架構(gòu)設(shè)計(jì)40-42
  • 5.2.1 系統(tǒng)整體架構(gòu)設(shè)計(jì)40-41
  • 5.2.2 Web應(yīng)用系統(tǒng)架構(gòu)設(shè)計(jì)41-42
  • 5.3 短文本分類模塊設(shè)計(jì)與實(shí)現(xiàn)42-51
  • 5.3.1 三階段搜索詞分類解決方案42-44
  • 5.3.2 黑白名單配置44
  • 5.3.3 文本預(yù)處理44-46
  • 5.3.4 特征選擇與特征加權(quán)46-48
  • 5.3.5 構(gòu)建分類器48
  • 5.3.6 反饋學(xué)習(xí)48-51
  • 第六章 總結(jié)和展望51-53
  • 6.1 工作總結(jié)51-52
  • 6.2 展望52-53
  • 參考文獻(xiàn)53-55
  • 致謝55

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 王細(xì)薇;樊興華;趙軍;;一種基于特征擴(kuò)展的中文短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2009年03期

2 王傲勝;馮巧娟;;關(guān)聯(lián)規(guī)則分類及其相關(guān)研究[J];內(nèi)江科技;2008年07期

3 王蒙;林蘭芬;王鋒;;基于偽相關(guān)反饋的短文本擴(kuò)展與分類[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2014年10期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 廖一星;文本分類及其特征降維研究[D];浙江大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條

1 劉叢山;基于Hadoop的文本分類研究[D];上海交通大學(xué);2012年

2 吳薇;大規(guī)模短文本的分類過濾方法研究[D];北京郵電大學(xué);2007年

3 張鵬招;基于X~2統(tǒng)計(jì)的中文文本分類特征選擇方法研究[D];重慶大學(xué);2008年

4 初沖;適用于手機(jī)取證的中文短文本分類方法研究與實(shí)現(xiàn)[D];北京化工大學(xué);2012年

5 范云杰;基于維基百科的中文短文本分類研究[D];西安電子科技大學(xué);2013年

6 熊大康;中文短文本分類技術(shù)的研究與實(shí)現(xiàn)[D];安徽大學(xué);2014年

,

本文編號:524806

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/524806.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7946e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com