針對(duì)搜索結(jié)果的位圖表示及聚類算法改進(jìn)研究
【學(xué)位單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:
21(c)數(shù)據(jù)集 Clustering 的聚類結(jié)果圖 2-4 不同參數(shù)下的聚類結(jié)果4 中每條曲線的交點(diǎn)為一組 α、β 得到的 DBI 值。從 yz 方向重要度 α 相同的情況下,隨著特征轉(zhuǎn)換閾值 β 的增長(zhǎng),其原因是:當(dāng) β 較小時(shí),所有特征的特征值都為 1,這會(huì)低,導(dǎo)致特征向量無(wú)法準(zhǔn)確的表示搜索結(jié)果,聚類效果必可以提高聚類效果、降低 DBI 值;但如果 β 較大,特征向征才能表達(dá),丟失了很多表示搜索結(jié)果的特征,這會(huì)使聚當(dāng) β 達(dá)到某個(gè)閾值,繼續(xù)增大 β 會(huì)降低聚類效果、增大 方向可以觀察到在特征轉(zhuǎn)換閾值 β 相同的情況下,隨著標(biāo)
24(c)數(shù)據(jù)集 Clustering 的聚類耗時(shí)圖 2-6 不同文本表示方法的聚類耗時(shí)從圖 2-6 可以看出,在相同的數(shù)據(jù)集中,VSM 文本表示方法聚類耗時(shí)比 BM和 BTM 兩種文本表示方法聚類耗時(shí)長(zhǎng)。分析原因主要是 VSM 采用普通的四則混合運(yùn)算計(jì)算相似度,而 BM 和 BTM 均是采用計(jì)算速率比四則混合運(yùn)算快的布爾邏輯運(yùn)算計(jì)算相似度。從圖中還可以看出,BTM 比 BM 聚類耗時(shí)少,其中一個(gè)原因是 BTM 表示的特征向量進(jìn)行了壓縮,所以需要計(jì)算的長(zhǎng)度比 BM 少;另一個(gè)原因是 BTM 文本表示方法對(duì)搜索結(jié)果表示的更加準(zhǔn)確,這樣 K-means 算法在迭代過程中,迭代的次數(shù)會(huì)相應(yīng)減少,聚類速率相應(yīng)提高。從圖 2-6 還可以看出,隨著數(shù)據(jù)量的增大(三組數(shù)據(jù)集的數(shù)據(jù)量從小到大依
圖 3-1 定義 3.3 的實(shí)例 3-1 中 A1、A2、A3屬于集合 A,B1、B2、B3屬于集合 B。為了求出 A 的最大距離,首先求出 B 中每個(gè)點(diǎn)到集合 A 的最小距離,比如 B1到集合 A 中各個(gè)點(diǎn)的距離為紅色連線段的長(zhǎng)度,其中紅色虛線度最小,即點(diǎn) B1到集合 A 的最小距離為線段 A1B1的長(zhǎng)度。同理, A 的最小距離分別為黑色虛線 A2B2、藍(lán)色虛線 A2B3線段的長(zhǎng)度,虛線段的長(zhǎng)度,找到三條虛線段長(zhǎng)度的最大值,即圖 3-1 中黑色加2。因此集合 B 到集合 A 的最大距離是點(diǎn) B2到點(diǎn) A2的距離,而 B2使集合 B 到集合 A 最大距離成立的數(shù)據(jù)點(diǎn)。 PC 算法滿足初始聚類中心第一準(zhǔn)則證明C 算法是為了滿足初始聚類中心第一準(zhǔn)則的要求提出的,為驗(yàn)證算本節(jié)需要證明 PC 算法中所有涉及到初始聚類中心選擇的步驟都滿心第一準(zhǔn)則的要求。PC 算法中包含初始聚類中心選擇的步驟有步
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曹宇;尹剛;李翔;程榮斌;王懷民;;聚類搜索引擎研究進(jìn)展淺析[J];電腦知識(shí)與技術(shù);2011年22期
2 黃建年;侯漢清;;聚類搜索引擎探究[J];圖書館學(xué)研究;2009年01期
3 蘇建華;張燦;;聚類搜索引擎研究[J];新世紀(jì)圖書館;2009年06期
4 袁津生;程超然;;基于文本聚類搜索引擎的查詢擴(kuò)展算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期
5 王倩;;文檔聚類技術(shù)在搜索引擎中的應(yīng)用研究[J];圖書館學(xué)研究;2008年11期
6 靖培棟;田亮;;聚類在搜索引擎中的應(yīng)用[J];情報(bào)理論與實(shí)踐;2006年04期
7 盧希;;聚類搜索在電子商務(wù)中的應(yīng)用研究[J];科技信息;2012年24期
8 周鴻;朱東華;董萍萍;;聚類搜索引擎研究進(jìn)展綜述[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年05期
9 蒼宏宇;譚宗穎;;聚類搜索引擎發(fā)展現(xiàn)狀研究[J];圖書情報(bào)工作;2009年02期
10 王佳樂;;搜索引擎的文本聚類研究[J];商業(yè)經(jīng)濟(jì);2014年03期
相關(guān)會(huì)議論文 前1條
1 李斌;曲維光;陳小荷;;名詞轉(zhuǎn)喻的自動(dòng)理解[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)碩士學(xué)位論文 前9條
1 陳臘生;針對(duì)搜索結(jié)果的位圖表示及聚類算法改進(jìn)研究[D];武漢理工大學(xué);2018年
2 陳飛;聚類搜索引擎關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年
3 陳平;中文聚類搜索引擎中主要技術(shù)的研究[D];吉林大學(xué);2009年
4 程超然;基于文本聚類搜索引擎查詢擴(kuò)展算法的研究與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年
5 玉兆輝;基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
6 謝紅偉;基于Nutch的聚類搜索引擎的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2013年
7 羅克剛;基于自組織映射的文本聚類研究[D];哈爾濱工業(yè)大學(xué);2007年
8 戴雪梅;面向購(gòu)物的聚類搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
9 郭峰;面向行業(yè)搜索引擎的WEB文本挖掘技術(shù)研究[D];蘭州大學(xué);2006年
本文編號(hào):2833495
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2833495.html