基于中文檢索的Web聚類算法研究
本文關(guān)鍵詞:基于中文檢索的Web聚類算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來,用戶對(duì)信息搜索的精確度和效率提出了更高要求,而傳統(tǒng)的搜索引擎存在著一定的不足。聚類檢索是對(duì)搜索引擎的返回結(jié)果聚類,然后將提取的標(biāo)簽和類簇呈現(xiàn)給用戶。用戶根據(jù)標(biāo)簽就可以直觀地獲取檢索結(jié)果的總體信息,能夠迅速定位自己想要查找的內(nèi)容,提高了用戶的查詢效率。Carrot2是一個(gè)開源的聚類搜索引擎系統(tǒng),它采用的聚類算法在Web檢索聚類方面有很強(qiáng)的代表性。文章選取Carrot2采用的K-means和Lingo算法進(jìn)行了深入研究,并針對(duì)算法的不足及存在問題做了一定的改進(jìn)。K-means是經(jīng)典的劃分聚類算法,其具有簡(jiǎn)單易懂、運(yùn)行速度快的優(yōu)點(diǎn),然而也存在著一些不足,如K值的確定、初始聚類中心的選取、易受噪音點(diǎn)和孤立點(diǎn)的影響等多個(gè)方面。文章首先結(jié)合Web檢索結(jié)果的特點(diǎn)確定了K值并選出初始聚類中心,然后用權(quán)重法代替平均法降低了噪聲數(shù)據(jù)的影響。在經(jīng)過多次試驗(yàn)后,又發(fā)現(xiàn)文檔的合理歸類問題。文章根據(jù)Web檢索結(jié)果的排名特點(diǎn),改進(jìn)了權(quán)值計(jì)算公式,使文檔歸入排名靠前的類簇中。如“華為”的檢索結(jié)果中,將文檔“華為手機(jī)大全”放入“手機(jī)”和“大全”的類簇中都不為錯(cuò),但歸入“手機(jī)”的類簇中顯然更加合適。Lingo算法是基于潛在語義索引的聚類算法。本文分析了Lingo算法中影響聚類效果的因素,通過引入位置信息和詞長(zhǎng)信息對(duì)其權(quán)值計(jì)算公式進(jìn)行了改進(jìn),以提高聚類的準(zhǔn)確率。實(shí)驗(yàn)表明,改進(jìn)后的K-means算法解決了硬聚類算法的文檔合理歸類問題,而且具有良好的聚類效果,標(biāo)簽的可讀性也較高。改進(jìn)的Lingo算法的準(zhǔn)確率也有了較大提高。
【關(guān)鍵詞】:Web檢索 聚類 K-means Lingo 特征權(quán)值
【學(xué)位授予單位】:長(zhǎng)春工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-12
- 1.1 研究背景及意義7-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
- 1.3 論文主要研究工作10-11
- 1.4 論文組織結(jié)構(gòu)11-12
- 第二章 聚類搜索引擎及其理論基礎(chǔ)12-27
- 2.1 搜索引擎系統(tǒng)的介紹12-15
- 2.2 聚類搜索引擎系統(tǒng)15-16
- 2.3 常用聚類算法16-17
- 2.4 常見降維方法17-22
- 2.4.1 線性降維方法17-20
- 2.4.2 非線性降維算法20-22
- 2.5 距離公式介紹22-25
- 2.6 經(jīng)典的Web檢索聚類方法25-27
- 第三章 改進(jìn)的K-means檢索聚類算法27-33
- 3.1 文本特征空間構(gòu)造27-29
- 3.1.1 特征詞的選取27
- 3.1.2 稀疏特征詞對(duì)聚類的影響27-29
- 3.1.3 構(gòu)造文本特征空間29
- 3.2 初始聚類中心的選取和聚類數(shù)目的確定29
- 3.3 特征權(quán)值的改進(jìn)29-30
- 3.4 測(cè)量公式的選擇30-31
- 3.5 簇質(zhì)心的更新31
- 3.6 算法步驟31-32
- 3.7 聚類標(biāo)簽的抽取32-33
- 第四章 改進(jìn)的Lingo檢索聚類算法33-37
- 4.1 Lingo算法分析33
- 4.2 特征項(xiàng)選取和特征權(quán)值的改進(jìn)33-35
- 4.3 標(biāo)簽提取及文檔聚類35
- 4.4 算法步驟35-37
- 第五章 實(shí)驗(yàn)驗(yàn)證37-42
- 5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來源37
- 5.2 實(shí)驗(yàn)結(jié)果37-40
- 5.2.1 K-means算法實(shí)驗(yàn)37-39
- 5.2.2 Lingo算法實(shí)驗(yàn)39-40
- 5.3 實(shí)驗(yàn)結(jié)果分析40-42
- 5.3.1 K-means分析40-41
- 5.3.2 Lingo分析41
- 5.3.3 綜合分析41-42
- 第六章 總結(jié)與展望42-44
- 6.1 總結(jié)42
- 6.2 展望42-44
- 致謝44-45
- 參考文獻(xiàn)45-47
- 作者簡(jiǎn)介47
- 攻讀碩士學(xué)位期間研究成果47
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 馮舜璽;;新書推薦:《算法分析導(dǎo)論》[J];計(jì)算機(jī)教育;2006年05期
2 張力,慕曉冬;計(jì)算機(jī)算法分析淺談[J];武警工程學(xué)院學(xué)報(bào);2002年04期
3 馬安光;;飛彈問題的算法分析——2003年第10期題解[J];程序員;2003年12期
4 蘇運(yùn)霖;;《算法分析導(dǎo)論》評(píng)介[J];計(jì)算機(jī)教育;2006年07期
5 朱力強(qiáng);;培養(yǎng)學(xué)生創(chuàng)新思維與能力的算法分析案例[J];計(jì)算機(jī)與信息技術(shù);2007年11期
6 汪菊琴;;幾種常見特殊方陣的算法分析與實(shí)現(xiàn)[J];無錫職業(yè)技術(shù)學(xué)院學(xué)報(bào);2009年05期
7 李涵;;“算法分析與設(shè)計(jì)”課程教學(xué)改革和實(shí)踐[J];中國(guó)電力教育;2010年16期
8 劉寧;管濤;;淺析案例教學(xué)法在算法分析與設(shè)計(jì)課程中的應(yīng)用[J];科技風(fēng);2011年07期
9 胡峰;王國(guó)胤;;“算法分析與設(shè)計(jì)”教學(xué)模式探索[J];當(dāng)代教育理論與實(shí)踐;2011年12期
10 趙娟;;淺析啟發(fā)式教學(xué)法在《算法分析與設(shè)計(jì)》課程中的應(yīng)用[J];福建電腦;2012年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 俞洋;田亞菲;;一種新的變步長(zhǎng)LMS算法及其仿真[A];通信理論與信號(hào)處理新進(jìn)展——2005年通信理論與信號(hào)處理年會(huì)論文集[C];2005年
2 周顥;劉振華;趙保華;;構(gòu)造型的D~2FA生成算法[A];中國(guó)通信學(xué)會(huì)通信軟件技術(shù)委員會(huì)2009年學(xué)術(shù)會(huì)議論文集[C];2009年
3 賴桃桃;馮少榮;張東站;;一種基于劃分和密度的快速聚類算法[A];第二十五屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(一)[C];2008年
4 劉遠(yuǎn)新;鄧飛其;羅艷輝;舒添慧;;ERP柔性平臺(tái)下物流運(yùn)輸配送系統(tǒng)算法分析[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
5 王樹西;白碩;姜吉發(fā);;模式合一的“減首去尾”算法[A];第二屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
6 王萬青;張曉輝;;改進(jìn)的A~*算法的高效實(shí)現(xiàn)[A];2009全國(guó)測(cè)繪科技信息交流會(huì)暨首屆測(cè)繪博客征文頒獎(jiǎng)?wù)撐募痆C];2009年
7 孫煥良;邱菲;劉俊嶺;朱葉麗;;IncSNN——一種基于密度的增量聚類算法[A];第二十三屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
8 韓建民;岑婷婷;于娟;;實(shí)現(xiàn)敏感屬性l-多樣性的l-MDAV算法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
9 張悅;尤楓;趙瑞蓮;;利用蟻群算法實(shí)現(xiàn)基于程序結(jié)構(gòu)的主變?cè)治鯷A];第五屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2008年
10 王旭東;劉渝;鄧振淼;;正弦波頻率估計(jì)的修正Rife算法及其FPGA實(shí)現(xiàn)[A];全國(guó)第十屆信號(hào)與信息處理、第四屆DSP應(yīng)用技術(shù)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 科文;VIXD算法分析Web異常[N];中國(guó)計(jì)算機(jī)報(bào);2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 魏哲學(xué);樣本斷點(diǎn)距離問題的算法與復(fù)雜性研究[D];山東大學(xué);2015年
2 劉春明;基于增強(qiáng)學(xué)習(xí)和車輛動(dòng)力學(xué)的高速公路自主駕駛研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
3 張敏霞;生物地理學(xué)優(yōu)化算法及其在應(yīng)急交通規(guī)劃中的應(yīng)用研究[D];浙江工業(yè)大學(xué);2015年
4 李紅;流程挖掘算法研究[D];云南大學(xué);2015年
5 盛歆漪;粒子群優(yōu)化算法及其應(yīng)用研究[D];江南大學(xué);2015年
6 黃磊;高動(dòng)態(tài)環(huán)境捷聯(lián)慣導(dǎo)信號(hào)處理及高精度姿態(tài)速度算法研究[D];南京航空航天大學(xué);2015年
7 劉新旺;多核學(xué)習(xí)算法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
8 于濱;城市公交系統(tǒng)模型與算法研究[D];大連理工大學(xué);2006年
9 曾國(guó)強(qiáng);改進(jìn)的極值優(yōu)化算法及其在組合優(yōu)化問題中的應(yīng)用研究[D];浙江大學(xué);2011年
10 肖永豪;蜂群算法及在圖像處理中的應(yīng)用研究[D];華南理工大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃廈;基于改進(jìn)蟻群算法的柔性作業(yè)車間調(diào)度問題研究[D];昆明理工大學(xué);2015年
2 李平;基于Hadoop的信息爬取與輿情檢測(cè)算法研究[D];昆明理工大學(xué);2015年
3 趙官寶;基于位表的關(guān)聯(lián)規(guī)則挖掘算法研究[D];昆明理工大學(xué);2015年
4 殷文華;移動(dòng)容遲網(wǎng)絡(luò)中基于社會(huì)感知的多播分發(fā)算法研究[D];內(nèi)蒙古大學(xué);2015年
5 徐翔燕;人工魚群優(yōu)化算法及其應(yīng)用研究[D];西南交通大學(xué);2015年
6 李德福;基于小世界模型的啟發(fā)式尋路算法研究[D];華中師范大學(xué);2015年
7 鄭海彬;一種面向MAPREDUCE的DATASHUFFLE的優(yōu)化方法[D];蘇州大學(xué);2015年
8 趙曉寒;輪換步長(zhǎng)PSO算法及SMVSC參數(shù)優(yōu)化[D];沈陽理工大學(xué);2015年
9 安豐洋;基于無線網(wǎng)絡(luò)的廣播算法研究[D];曲阜師范大學(xué);2015年
10 李智明;基于改進(jìn)FastICA算法的混合語音盲分離[D];上海交通大學(xué);2015年
本文關(guān)鍵詞:基于中文檢索的Web聚類算法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):434299
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/434299.html