搜索結(jié)果的聚類研究
發(fā)布時間:2021-08-16 08:42
隨著互聯(lián)網(wǎng)技術(shù)的普及和發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)式增長。面對海量的信息,搜索引擎成為人們?nèi)粘+@取所需信息的重要工具。但是傳統(tǒng)的搜索引擎將搜索結(jié)果以線性列表的方式排列,使得用戶無法快速、準(zhǔn)確地獲得感興趣的信息。因此,使用聚類算法對搜索結(jié)果進(jìn)行聚類,可以幫助用戶快速查找到所需信息。本文在對中文分詞、特征選擇、權(quán)重計算、相似度度量等文本聚類技術(shù)進(jìn)行深入研究的基礎(chǔ)上,分析了搜索結(jié)果聚類與文本聚類之間的聯(lián)系。根據(jù)搜索結(jié)果聚類的特點,提出一種基于改進(jìn)的K-Means算法的搜索結(jié)果聚類方法;趧澐值腒-Means算法是一種被廣泛應(yīng)用的動態(tài)聚類算法,具有實現(xiàn)簡單、收斂速度快等優(yōu)點。但該算法存在一些不足使其無法適應(yīng)搜索結(jié)果聚類,比如:人工指定聚類個數(shù)、隨機(jī)生成聚類中心、對孤立點敏感、無法“軟聚類”和無法生成聚類標(biāo)簽等。針對以上K-Means算法的不足,對其進(jìn)行了改進(jìn):首先,利用基于密度的最大最小距離法發(fā)現(xiàn)初始聚類中心,即將密度最大的對象作為第一個初始聚類中心,再根據(jù)最大最小距離選擇其余的聚類中心,然后根據(jù)文本平均相似度設(shè)置參數(shù)作為終止條件,確定聚類個數(shù);其次,引入鄰居的概念,獲取初始聚類中心的鄰居,根據(jù)鄰居...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
圖 1-2 中國網(wǎng)頁數(shù)引擎的出現(xiàn)滿足了人們查找網(wǎng)絡(luò)信息的需求。搜索引擎根據(jù)用戶輸入的查上進(jìn)行搜索與查詢詞相關(guān)的內(nèi)容,然后快速地返回查詢結(jié)果供用戶選擇[2人們獲取網(wǎng)絡(luò)信息提供了極大的便利,成為信息時代不可或缺的工具。從
圖 1-3 百度搜索引擎搜索結(jié)果返回頁面查詢詞歧義性不強(qiáng)或者搜索引擎返回的結(jié)果含義明確可以很好的滿足用戶的需求。但是如果查詢詞本身具有了查詢詞的多個方面的含義,這種排列方式就會可能導(dǎo)
【參考文獻(xiàn)】:
期刊論文
[1]基于密度與最小距離的K-means算法初始中心方法[J]. 戚后林,顧磊. 計算機(jī)技術(shù)與發(fā)展. 2017(09)
[2]TF-IDF與規(guī)則相結(jié)合的中文關(guān)鍵詞自動抽取研究[J]. 牛萍,黃德根. 小型微型計算機(jī)系統(tǒng). 2016(04)
[3]網(wǎng)絡(luò)檢索結(jié)果聚類研究綜述[J]. 柏晗,成穎,柯青. 情報理論與實踐. 2015(10)
[4]一種基于最大最小距離和SSE的自適應(yīng)聚類算法[J]. 成衛(wèi)青,盧艷紅. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2015(02)
[5]一種改進(jìn)的k-means文本聚類優(yōu)化方法[J]. 王瓊. 計算機(jī)與現(xiàn)代化. 2015(03)
[6]基于劃分的聚類算法研究綜述[J]. 賈璦瑋. 電子設(shè)計工程. 2014(23)
[7]面向未登錄領(lǐng)域詞切分的中文分詞技術(shù)研究[J]. 蔡榮彥. 信息系統(tǒng)工程. 2013(11)
[8]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計算機(jī)應(yīng)用研究. 2014(03)
[9]搜索引擎技術(shù)與發(fā)展綜述[J]. 孫宏,李戴維,董旭陽,季澤旭. 計算機(jī)光盤軟件與應(yīng)用. 2012(14)
[10]基于優(yōu)化初始中心點的K-means文本聚類算法[J]. 張世博. 計算機(jī)與數(shù)字工程. 2011(10)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學(xué)技術(shù)大學(xué) 2017
[2]K-medoids聚類算法研究及其在文本聚類中的應(yīng)用[D]. 王李福.重慶理工大學(xué) 2017
[3]K-means算法的改進(jìn)及其在文本數(shù)據(jù)聚類中的應(yīng)用[D]. 王玉潔.西安科技大學(xué) 2016
[4]基于K-means算法的Web短文本聚類方法研究與應(yīng)用[D]. 張立說.齊魯工業(yè)大學(xué) 2016
[5]基于Nutch的搜索引擎排序算法的研究與實現(xiàn)[D]. 李青淋.東南大學(xué) 2016
[6]中文短文本聚類算法的研究[D]. 程楊.吉林大學(xué) 2016
[7]基于向量空間模型的文本相似度算法研究[D]. 譚靜.西南石油大學(xué) 2015
[8]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學(xué) 2013
[9]基于Nutch的聚類搜索引擎的研究與實現(xiàn)[D]. 謝紅偉.華南理工大學(xué) 2013
[10]K-Means算法研究及在文本聚類中的應(yīng)用[D]. 陳寶樓.安徽大學(xué) 2013
本文編號:3345354
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
圖 1-2 中國網(wǎng)頁數(shù)引擎的出現(xiàn)滿足了人們查找網(wǎng)絡(luò)信息的需求。搜索引擎根據(jù)用戶輸入的查上進(jìn)行搜索與查詢詞相關(guān)的內(nèi)容,然后快速地返回查詢結(jié)果供用戶選擇[2人們獲取網(wǎng)絡(luò)信息提供了極大的便利,成為信息時代不可或缺的工具。從
圖 1-3 百度搜索引擎搜索結(jié)果返回頁面查詢詞歧義性不強(qiáng)或者搜索引擎返回的結(jié)果含義明確可以很好的滿足用戶的需求。但是如果查詢詞本身具有了查詢詞的多個方面的含義,這種排列方式就會可能導(dǎo)
【參考文獻(xiàn)】:
期刊論文
[1]基于密度與最小距離的K-means算法初始中心方法[J]. 戚后林,顧磊. 計算機(jī)技術(shù)與發(fā)展. 2017(09)
[2]TF-IDF與規(guī)則相結(jié)合的中文關(guān)鍵詞自動抽取研究[J]. 牛萍,黃德根. 小型微型計算機(jī)系統(tǒng). 2016(04)
[3]網(wǎng)絡(luò)檢索結(jié)果聚類研究綜述[J]. 柏晗,成穎,柯青. 情報理論與實踐. 2015(10)
[4]一種基于最大最小距離和SSE的自適應(yīng)聚類算法[J]. 成衛(wèi)青,盧艷紅. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2015(02)
[5]一種改進(jìn)的k-means文本聚類優(yōu)化方法[J]. 王瓊. 計算機(jī)與現(xiàn)代化. 2015(03)
[6]基于劃分的聚類算法研究綜述[J]. 賈璦瑋. 電子設(shè)計工程. 2014(23)
[7]面向未登錄領(lǐng)域詞切分的中文分詞技術(shù)研究[J]. 蔡榮彥. 信息系統(tǒng)工程. 2013(11)
[8]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計算機(jī)應(yīng)用研究. 2014(03)
[9]搜索引擎技術(shù)與發(fā)展綜述[J]. 孫宏,李戴維,董旭陽,季澤旭. 計算機(jī)光盤軟件與應(yīng)用. 2012(14)
[10]基于優(yōu)化初始中心點的K-means文本聚類算法[J]. 張世博. 計算機(jī)與數(shù)字工程. 2011(10)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學(xué)技術(shù)大學(xué) 2017
[2]K-medoids聚類算法研究及其在文本聚類中的應(yīng)用[D]. 王李福.重慶理工大學(xué) 2017
[3]K-means算法的改進(jìn)及其在文本數(shù)據(jù)聚類中的應(yīng)用[D]. 王玉潔.西安科技大學(xué) 2016
[4]基于K-means算法的Web短文本聚類方法研究與應(yīng)用[D]. 張立說.齊魯工業(yè)大學(xué) 2016
[5]基于Nutch的搜索引擎排序算法的研究與實現(xiàn)[D]. 李青淋.東南大學(xué) 2016
[6]中文短文本聚類算法的研究[D]. 程楊.吉林大學(xué) 2016
[7]基于向量空間模型的文本相似度算法研究[D]. 譚靜.西南石油大學(xué) 2015
[8]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學(xué) 2013
[9]基于Nutch的聚類搜索引擎的研究與實現(xiàn)[D]. 謝紅偉.華南理工大學(xué) 2013
[10]K-Means算法研究及在文本聚類中的應(yīng)用[D]. 陳寶樓.安徽大學(xué) 2013
本文編號:3345354
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3345354.html
最近更新
教材專著