短文本分類在搜索引擎中的研究與應(yīng)用
本文關(guān)鍵詞:短文本分類在搜索引擎中的研究與應(yīng)用
更多相關(guān)文章: 短文本分類 搜索引擎 特征加權(quán) TF-IDF 偽相關(guān)反饋
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,信息量越來越豐富,人們獲取所需要的信息也越來越困難。搜索引擎作為幫助人們獲取信息的平臺,已經(jīng)成為互聯(lián)網(wǎng)中一個(gè)很重要的元素。針對用戶的搜索詞,可以挖掘出一些潛在的用戶意圖,其中根據(jù)搜索詞的分類可以得知用戶想搜索到哪個(gè)領(lǐng)域的結(jié)果,針對用戶意圖及這個(gè)領(lǐng)域的特點(diǎn)可以給用戶推薦滿足用戶需求的Web應(yīng)用,來優(yōu)化搜索結(jié)果。本文針對搜索詞進(jìn)行分類進(jìn)行研究,分析了搜索詞這樣的短文本的特點(diǎn),以及在分類時(shí)的難點(diǎn)。由于搜索詞包含的信息量太少且表達(dá)不規(guī)范,用傳統(tǒng)的精確匹配、N-Gram匹配、語義詞典擴(kuò)展等方法進(jìn)行分類都所有局限性。本文提出了一個(gè)三階段的短文本分類的解決方案來解決搜索詞分類問題:基于偽相關(guān)反饋的短文本預(yù)處理階段、短文本訓(xùn)練階段、短文本分類階段。將偽相關(guān)反饋技術(shù)運(yùn)用到短文本擴(kuò)展中,并使用排名因素計(jì)算特征權(quán)重和投票選擇分類來實(shí)現(xiàn)算法,最終將短文本分類的問題轉(zhuǎn)化為成熟的長文本分類問題,并通過實(shí)驗(yàn)對比不同短文本擴(kuò)展方法在搜索詞語料庫中的分類效果。在問題解決的過程中,對特征加權(quán)做了深入研究,以往的TF-IDF方法沒有考慮到類別信息,本文結(jié)合了類內(nèi)集中度、類間分散度改進(jìn)了TF-IDF特征加權(quán)方法,并通過實(shí)驗(yàn)去驗(yàn)證了方法的可用性。本文將短文本分類技術(shù)運(yùn)用到搜索引擎中,設(shè)計(jì)了該系統(tǒng)的整體架構(gòu)、短文本分類模塊、Web應(yīng)用系統(tǒng)架構(gòu)。詳細(xì)設(shè)計(jì)并實(shí)現(xiàn)了短文本分類模塊中的各個(gè)過程,并運(yùn)用了反饋學(xué)習(xí)分類算法來優(yōu)化分類模型。
【關(guān)鍵詞】:短文本分類 搜索引擎 特征加權(quán) TF-IDF 偽相關(guān)反饋
【學(xué)位授予單位】:東北師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-13
- 1.1 研究背景8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.2.1 國外研究現(xiàn)狀9-10
- 1.2.2 國內(nèi)研究現(xiàn)狀10
- 1.3 研究目標(biāo)與方法10-11
- 1.4 研究內(nèi)容與意義11
- 1.5 論文的組織結(jié)構(gòu)11-13
- 第二章 理論與技術(shù)基礎(chǔ)13-23
- 2.1 搜索引擎13-14
- 2.2 文本分類技術(shù)14-20
- 2.2.1 文本分類相關(guān)概念14
- 2.2.2 文本分類過程14-15
- 2.2.3 文本預(yù)處理15-16
- 2.2.4 特征選擇16-17
- 2.2.5 特征加權(quán)17-19
- 2.2.6 分類算法19-20
- 2.3 短文本分類技術(shù)20-23
- 2.3.1 短文本特點(diǎn)20-21
- 2.3.2 短文本分類難點(diǎn)21
- 2.3.3 短文本擴(kuò)展方法21-23
- 第三章 基于偽相關(guān)反饋的短文本擴(kuò)展方法23-34
- 3.1 偽相關(guān)反饋技術(shù)23
- 3.2 基于偽相關(guān)反饋的擴(kuò)展方法23-26
- 3.2.1 問題描述23-25
- 3.2.2 結(jié)合排名因素計(jì)算特征權(quán)重25
- 3.2.3 投票選擇分類過程25-26
- 3.3 搜索引擎中短文本擴(kuò)展方法比較26-27
- 3.4 實(shí)驗(yàn)與結(jié)果分析27-34
- 3.4.1 實(shí)驗(yàn)環(huán)境27
- 3.4.2 實(shí)驗(yàn)數(shù)據(jù)集27-28
- 3.4.3 實(shí)驗(yàn)評估方法28
- 3.4.4 實(shí)驗(yàn)評價(jià)指標(biāo)28-29
- 3.4.5 實(shí)驗(yàn)步驟29-30
- 3.4.6 實(shí)驗(yàn)結(jié)果與分析30-34
- 第四章 基于分散度、集中度的文本特征加權(quán)算法34-40
- 4.1 TF IDF算法存在的缺陷34-35
- 4.2 基于分散度、集中度的改進(jìn)TF IDF特征加權(quán)算法35-37
- 4.3 實(shí)驗(yàn)與結(jié)果分析37-40
- 4.3.1 實(shí)驗(yàn)步驟37
- 4.3.2 實(shí)驗(yàn)結(jié)果與分析37-40
- 第五章 短文本分類在搜索引擎中的應(yīng)用40-51
- 5.1 概述40
- 5.2 系統(tǒng)架構(gòu)設(shè)計(jì)40-42
- 5.2.1 系統(tǒng)整體架構(gòu)設(shè)計(jì)40-41
- 5.2.2 Web應(yīng)用系統(tǒng)架構(gòu)設(shè)計(jì)41-42
- 5.3 短文本分類模塊設(shè)計(jì)與實(shí)現(xiàn)42-51
- 5.3.1 三階段搜索詞分類解決方案42-44
- 5.3.2 黑白名單配置44
- 5.3.3 文本預(yù)處理44-46
- 5.3.4 特征選擇與特征加權(quán)46-48
- 5.3.5 構(gòu)建分類器48
- 5.3.6 反饋學(xué)習(xí)48-51
- 第六章 總結(jié)和展望51-53
- 6.1 工作總結(jié)51-52
- 6.2 展望52-53
- 參考文獻(xiàn)53-55
- 致謝55
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 王細(xì)薇;樊興華;趙軍;;一種基于特征擴(kuò)展的中文短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2009年03期
2 王傲勝;馮巧娟;;關(guān)聯(lián)規(guī)則分類及其相關(guān)研究[J];內(nèi)江科技;2008年07期
3 王蒙;林蘭芬;王鋒;;基于偽相關(guān)反饋的短文本擴(kuò)展與分類[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2014年10期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 廖一星;文本分類及其特征降維研究[D];浙江大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 劉叢山;基于Hadoop的文本分類研究[D];上海交通大學(xué);2012年
2 吳薇;大規(guī)模短文本的分類過濾方法研究[D];北京郵電大學(xué);2007年
3 張鵬招;基于X~2統(tǒng)計(jì)的中文文本分類特征選擇方法研究[D];重慶大學(xué);2008年
4 初沖;適用于手機(jī)取證的中文短文本分類方法研究與實(shí)現(xiàn)[D];北京化工大學(xué);2012年
5 范云杰;基于維基百科的中文短文本分類研究[D];西安電子科技大學(xué);2013年
6 熊大康;中文短文本分類技術(shù)的研究與實(shí)現(xiàn)[D];安徽大學(xué);2014年
,本文編號:524806
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/524806.html