天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

針對(duì)搜索結(jié)果的位圖表示及聚類算法改進(jìn)研究

發(fā)布時(shí)間:2020-10-09 08:48
   網(wǎng)絡(luò)科技和搜索技術(shù)的迅猛發(fā)展使得人們?cè)絹?lái)越多地通過互聯(lián)網(wǎng)和搜索引擎獲取信息,搜索結(jié)果種類多、排列亂是影響用戶快速獲取有效信息的重要因素。為提高用戶獲取有效信息的速度、改善用戶的搜索體驗(yàn),聚類分析技術(shù)被廣泛應(yīng)用到搜索結(jié)果中。目前,針對(duì)搜索結(jié)果聚類的大部分研究集中于聚類方式,忽略了搜索結(jié)果的表示方法對(duì)聚類效果和收斂速率的影響;此外,常用于搜索結(jié)果聚類的K-means算法的聚類效果和收斂速率受初始聚類中心影響較大,而當(dāng)前關(guān)于初始聚類中心的研究仍然存在一些不足。基于此,本文從搜索結(jié)果的表示方法和初始聚類中心的選擇兩個(gè)方面展開研究,具體完成了以下幾項(xiàng)工作:(1)針對(duì)向量空間模型存在文本相似度計(jì)算耗時(shí)以及存儲(chǔ)空間需求較大的問題,本文結(jié)合向量空間模型和布爾模型各自的優(yōu)點(diǎn)提出了基于位圖的文本表示方法表示搜索結(jié)果。該方法先用向量空間模型將搜索結(jié)果表示成特征向量,然后將特征權(quán)重轉(zhuǎn)換為對(duì)應(yīng)的布爾值,最后以位為單位存儲(chǔ)布爾值形成位圖特征向量。實(shí)驗(yàn)結(jié)果表明,本文提出的位圖文本表示方法可以有效的提高搜索結(jié)果的文本相似度計(jì)算速率,同時(shí)減少特征矩陣所需的存儲(chǔ)空間。(2)針對(duì)K-means算法隨機(jī)選擇初始聚類中心導(dǎo)致算法不可重復(fù)實(shí)現(xiàn),同時(shí)可能使算法陷入局部最優(yōu)解、減緩算法收斂速率的問題,本文提出了基于悲觀準(zhǔn)則和近鄰算法的初始聚類中心選擇算法。通過悲觀準(zhǔn)則選擇K個(gè)相距最遠(yuǎn)的數(shù)據(jù)作為備選初始聚類中心,然后尋找各個(gè)備選初始聚類中心的近鄰簇,最后以各個(gè)近鄰簇的中心作為初始聚類中心。實(shí)驗(yàn)結(jié)果表明,本文提出的基于悲觀準(zhǔn)則和近鄰算法的初始聚類中心選擇算法可以有效的提高K-means算法的聚類效果和收斂速率,同時(shí)保證了算法的穩(wěn)定性。(3)針對(duì)現(xiàn)有聚類搜索引擎產(chǎn)品存在的問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于本文研究成果的聚類搜索引擎原型系統(tǒng)。該原型系統(tǒng)實(shí)現(xiàn)了搜索結(jié)果獲取、預(yù)處理、特征表示、初始聚類中心選擇、聚類以及搜索結(jié)果展示等功能。其運(yùn)行效果表明,將本文研究成果應(yīng)用到搜索結(jié)果聚類中,能夠有效地提高用戶獲取信息的效率,改善用戶的使用體驗(yàn),同時(shí)為將來(lái)類似的聚類搜索引擎系統(tǒng)的研發(fā)提供了借鑒參考。
【學(xué)位單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:

不同參數(shù),聚類,聚類效果,特征轉(zhuǎn)換


21(c)數(shù)據(jù)集 Clustering 的聚類結(jié)果圖 2-4 不同參數(shù)下的聚類結(jié)果4 中每條曲線的交點(diǎn)為一組 α、β 得到的 DBI 值。從 yz 方向重要度 α 相同的情況下,隨著特征轉(zhuǎn)換閾值 β 的增長(zhǎng),其原因是:當(dāng) β 較小時(shí),所有特征的特征值都為 1,這會(huì)低,導(dǎo)致特征向量無(wú)法準(zhǔn)確的表示搜索結(jié)果,聚類效果必可以提高聚類效果、降低 DBI 值;但如果 β 較大,特征向征才能表達(dá),丟失了很多表示搜索結(jié)果的特征,這會(huì)使聚當(dāng) β 達(dá)到某個(gè)閾值,繼續(xù)增大 β 會(huì)降低聚類效果、增大 方向可以觀察到在特征轉(zhuǎn)換閾值 β 相同的情況下,隨著標(biāo)

不同文本,聚類,表示方法,文本表示


24(c)數(shù)據(jù)集 Clustering 的聚類耗時(shí)圖 2-6 不同文本表示方法的聚類耗時(shí)從圖 2-6 可以看出,在相同的數(shù)據(jù)集中,VSM 文本表示方法聚類耗時(shí)比 BM和 BTM 兩種文本表示方法聚類耗時(shí)長(zhǎng)。分析原因主要是 VSM 采用普通的四則混合運(yùn)算計(jì)算相似度,而 BM 和 BTM 均是采用計(jì)算速率比四則混合運(yùn)算快的布爾邏輯運(yùn)算計(jì)算相似度。從圖中還可以看出,BTM 比 BM 聚類耗時(shí)少,其中一個(gè)原因是 BTM 表示的特征向量進(jìn)行了壓縮,所以需要計(jì)算的長(zhǎng)度比 BM 少;另一個(gè)原因是 BTM 文本表示方法對(duì)搜索結(jié)果表示的更加準(zhǔn)確,這樣 K-means 算法在迭代過程中,迭代的次數(shù)會(huì)相應(yīng)減少,聚類速率相應(yīng)提高。從圖 2-6 還可以看出,隨著數(shù)據(jù)量的增大(三組數(shù)據(jù)集的數(shù)據(jù)量從小到大依

實(shí)例圖,初始聚類中心,最大距離,最小距離


圖 3-1 定義 3.3 的實(shí)例 3-1 中 A1、A2、A3屬于集合 A,B1、B2、B3屬于集合 B。為了求出 A 的最大距離,首先求出 B 中每個(gè)點(diǎn)到集合 A 的最小距離,比如 B1到集合 A 中各個(gè)點(diǎn)的距離為紅色連線段的長(zhǎng)度,其中紅色虛線度最小,即點(diǎn) B1到集合 A 的最小距離為線段 A1B1的長(zhǎng)度。同理, A 的最小距離分別為黑色虛線 A2B2、藍(lán)色虛線 A2B3線段的長(zhǎng)度,虛線段的長(zhǎng)度,找到三條虛線段長(zhǎng)度的最大值,即圖 3-1 中黑色加2。因此集合 B 到集合 A 的最大距離是點(diǎn) B2到點(diǎn) A2的距離,而 B2使集合 B 到集合 A 最大距離成立的數(shù)據(jù)點(diǎn)。 PC 算法滿足初始聚類中心第一準(zhǔn)則證明C 算法是為了滿足初始聚類中心第一準(zhǔn)則的要求提出的,為驗(yàn)證算本節(jié)需要證明 PC 算法中所有涉及到初始聚類中心選擇的步驟都滿心第一準(zhǔn)則的要求。PC 算法中包含初始聚類中心選擇的步驟有步

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 曹宇;尹剛;李翔;程榮斌;王懷民;;聚類搜索引擎研究進(jìn)展淺析[J];電腦知識(shí)與技術(shù);2011年22期

2 黃建年;侯漢清;;聚類搜索引擎探究[J];圖書館學(xué)研究;2009年01期

3 蘇建華;張燦;;聚類搜索引擎研究[J];新世紀(jì)圖書館;2009年06期

4 袁津生;程超然;;基于文本聚類搜索引擎的查詢擴(kuò)展算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期

5 王倩;;文檔聚類技術(shù)在搜索引擎中的應(yīng)用研究[J];圖書館學(xué)研究;2008年11期

6 靖培棟;田亮;;聚類在搜索引擎中的應(yīng)用[J];情報(bào)理論與實(shí)踐;2006年04期

7 盧希;;聚類搜索在電子商務(wù)中的應(yīng)用研究[J];科技信息;2012年24期

8 周鴻;朱東華;董萍萍;;聚類搜索引擎研究進(jìn)展綜述[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年05期

9 蒼宏宇;譚宗穎;;聚類搜索引擎發(fā)展現(xiàn)狀研究[J];圖書情報(bào)工作;2009年02期

10 王佳樂;;搜索引擎的文本聚類研究[J];商業(yè)經(jīng)濟(jì);2014年03期

相關(guān)會(huì)議論文 前1條

1 李斌;曲維光;陳小荷;;名詞轉(zhuǎn)喻的自動(dòng)理解[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

相關(guān)碩士學(xué)位論文 前9條

1 陳臘生;針對(duì)搜索結(jié)果的位圖表示及聚類算法改進(jìn)研究[D];武漢理工大學(xué);2018年

2 陳飛;聚類搜索引擎關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年

3 陳平;中文聚類搜索引擎中主要技術(shù)的研究[D];吉林大學(xué);2009年

4 程超然;基于文本聚類搜索引擎查詢擴(kuò)展算法的研究與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年

5 玉兆輝;基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

6 謝紅偉;基于Nutch的聚類搜索引擎的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2013年

7 羅克剛;基于自組織映射的文本聚類研究[D];哈爾濱工業(yè)大學(xué);2007年

8 戴雪梅;面向購(gòu)物的聚類搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年

9 郭峰;面向行業(yè)搜索引擎的WEB文本挖掘技術(shù)研究[D];蘭州大學(xué);2006年



本文編號(hào):2833495

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2833495.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1230f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com