基于查詢相關(guān)性分析的檢索結(jié)果聚類算法
本文選題:檢索結(jié)果聚類 + 簇描述短語; 參考:《小型微型計(jì)算機(jī)系統(tǒng)》2011年10期
【摘要】:隨著互聯(lián)網(wǎng)的普及和網(wǎng)頁數(shù)量的飛速增長,搜索引擎已經(jīng)成為從網(wǎng)上獲取信息的首選工具.然而,目前主流的搜索引擎在響應(yīng)用戶提交的檢索請(qǐng)求時(shí),往往以較長的一維列表形式分頁展示結(jié)果,為了找到自己所需要的信息,用戶必須對(duì)該結(jié)果列表進(jìn)行耐心的瀏覽.為了進(jìn)一步提高用戶獲取信息的效率和質(zhì)量,減輕用戶的勞動(dòng)強(qiáng)度,研究者提出了對(duì)檢索結(jié)果進(jìn)行再挖掘、再組織的問題,聚類就是其中的研究熱點(diǎn)之一.本文在分析現(xiàn)有檢索結(jié)果聚類算法存在的問題的基礎(chǔ)上,提出了基于查詢相關(guān)性分析的標(biāo)簽驅(qū)動(dòng)聚類算法,該算法通過分析短語與查詢項(xiàng)的關(guān)聯(lián)程度,提取作為候選簇標(biāo)簽的短語,然后根據(jù)這些標(biāo)簽確定網(wǎng)頁摘要隸屬的候選簇,最后基于對(duì)候選簇和標(biāo)簽的評(píng)價(jià)進(jìn)行簇篩選和歸并,得到聚類結(jié)果及每個(gè)簇的標(biāo)簽.在相同環(huán)境下進(jìn)行的對(duì)比實(shí)驗(yàn)表明,所提出的算法優(yōu)于相關(guān)工作,而且需要更少的信息資源支持.
[Abstract]:With the popularity of the Internet and the rapid growth of the number of web pages, search engines have become the first choice to obtain information from the Internet. However, when the mainstream search engines respond to the requests submitted by users, they often display the results in the form of a long one-dimensional list. In order to find the information they need, the users must browse the result list patiently. In order to further improve the efficiency and quality of users' access to information and reduce the labor intensity of users, researchers put forward the problem of remining and reorganizing retrieval results, among which clustering is one of the research hotspots. On the basis of analyzing the problems existing in the existing retrieval result clustering algorithms, this paper proposes a tag-driven clustering algorithm based on query correlation analysis, which analyzes the correlation between phrases and query items. The phrases used as candidate cluster tags are extracted, and then the candidate clusters are determined according to these tags. Finally, the clustering results and the labels of each cluster are obtained by clustering and merging based on the evaluation of candidate clusters and tags. The comparison experiments in the same environment show that the proposed algorithm is superior to the related work and needs less information resources.
【作者單位】: 四川大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:G353.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張輝;謝科;龐斌;吳輝;;一種基于關(guān)鍵特征的搜索引擎結(jié)果聚類算法[J];北京航空航天大學(xué)學(xué)報(bào);2007年06期
2 陳毅恒;秦兵;宋凡;劉挺;李生;;基于ontology抽取優(yōu)化初始選擇的檢索結(jié)果聚類[J];電子學(xué)報(bào);2008年S1期
3 李紅梅;丁振國;周水生;周利華;;基于概念分組的Web搜索結(jié)果聚類算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
4 張剛;劉悅;郭嘉豐;程學(xué)旗;;一種層次化的檢索結(jié)果聚類方法[J];計(jì)算機(jī)研究與發(fā)展;2008年03期
5 張健沛,劉洋,楊靜,代坤;搜索引擎結(jié)果聚類算法研究[J];計(jì)算機(jī)工程;2004年05期
6 陳永超;劉貴全;;一種基于命名實(shí)體的搜索結(jié)果聚類算法[J];計(jì)算機(jī)工程;2009年07期
7 丁振國;孟星;;基于K-center和信息增益的Web搜索結(jié)果聚類方法[J];計(jì)算機(jī)應(yīng)用研究;2008年10期
8 駱雄武;萬小軍;楊建武;吳於茜;;基于后綴樹的Web檢索結(jié)果聚類標(biāo)簽生成方法[J];中文信息學(xué)報(bào);2009年02期
9 張?jiān)?馮博琴;;利用標(biāo)簽的層次化搜索結(jié)果聚類方法[J];西安交通大學(xué)學(xué)報(bào);2009年04期
10 黃健斌;姬紅兵;;基于模糊概念格的Web搜索結(jié)果聚類算法[J];西安電子科技大學(xué)學(xué)報(bào);2005年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 賈榮飛;金茂忠;王曉博;;基于用戶查詢?nèi)罩镜牟樵兙垲怺J];北京航空航天大學(xué)學(xué)報(bào);2010年04期
2 于洪;諶強(qiáng);;一種結(jié)合K-Means的層次化的搜索結(jié)果聚類方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
3 劉文婷;滕奇志;;后綴樹聚類在專用搜索引擎中的應(yīng)用研究與改進(jìn)[J];成都信息工程學(xué)院學(xué)報(bào);2010年03期
4 夏斌;徐彬;;基于超鏈接信息的搜索引擎檢索結(jié)果聚類方法研究[J];電腦開發(fā)與應(yīng)用;2007年05期
5 張偉哲;王佰玲;何慧;譚卓鵬;;基于異質(zhì)網(wǎng)絡(luò)的意見領(lǐng)袖社區(qū)發(fā)現(xiàn)[J];電子學(xué)報(bào);2012年10期
6 陳毅恒;秦兵;劉挺;王平;李生;;基于潛在語義索引和自組織映射網(wǎng)的檢索結(jié)果聚類方法[J];計(jì)算機(jī)研究與發(fā)展;2009年07期
7 李營;王儒敬;王大為;魏保子;;基于用戶興趣的搜索結(jié)果動(dòng)態(tài)聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年04期
8 靳宇倡;秦啟文;安俊秀;;網(wǎng)絡(luò)群體心理趨勢(shì)智能分析模型研究[J];計(jì)算機(jī)科學(xué);2010年06期
9 安俊秀;;基于服務(wù)器集群的云檢索系統(tǒng)的研究與示范[J];計(jì)算機(jī)科學(xué);2010年07期
10 劉德山;;一種改進(jìn)的基于后綴樹模型搜索結(jié)果聚類算法[J];計(jì)算機(jī)科學(xué);2011年11期
相關(guān)會(huì)議論文 前2條
1 諸平;李哲峰;;方正e-Book制作技巧優(yōu)化方案探索[A];中國高校學(xué)出版(Ⅱ)——中國高等學(xué)校自然科學(xué)學(xué)報(bào)研究會(huì)第13次年會(huì)論文集[C];2009年
2 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前5條
1 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年
3 周世兵;聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D];江南大學(xué);2011年
4 李紅梅;智能元搜索引擎關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2009年
5 陳毅恒;文本檢索結(jié)果聚類及類別標(biāo)簽抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 范丹;Web檢索中的查詢擴(kuò)展及結(jié)果聚類技術(shù)研究[D];遼寧師范大學(xué);2010年
2 吳代文;基于Lucene的二次全文檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
3 徐德;關(guān)于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2011年
4 龔凌暉;中文命名實(shí)體識(shí)別與歧義消解研究[D];復(fù)旦大學(xué);2011年
5 軒春青;基于客戶反饋的FTP搜索引擎的研究與設(shè)計(jì)[D];鄭州大學(xué);2011年
6 鄒浩;基于B/S+C/S結(jié)構(gòu)的高校圖書管理系統(tǒng)[D];電子科技大學(xué);2011年
7 俞文明;Web中文文本聚類研究[D];杭州電子科技大學(xué);2009年
8 劉龍海;基于成對(duì)約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
9 劉文靜;基于標(biāo)簽詞抽取的搜索結(jié)果聚類研究[D];北京郵電大學(xué);2012年
10 張玉新;面向?qū)n}的信息搜索與過濾技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 姚莉秀,楊杰,葉晨洲,陳念貽;用于特征篩選的最近鄰(KNN)法[J];計(jì)算機(jī)與應(yīng)用化學(xué);2001年02期
2 王志梅,張俊林,李秋山;Web檢索結(jié)果快速聚類方法的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2004年12期
3 耿玉良,陳家琪,王詠梅;中文Web檢索中聚類算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年10期
4 張?jiān)?馮博琴;麻首強(qiáng);劉連夢(mèng);;蟻群-遺傳融合的文本聚類算法[J];西安交通大學(xué)學(xué)報(bào);2007年10期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李曉莉,陳雪;基于模式識(shí)別聚類思想的PON ODN規(guī)劃設(shè)計(jì)[J];光通信技術(shù);2003年12期
2 張彩虹,王春才,顏雁;醫(yī)保決策支持系統(tǒng)中的聚類算法[J];長春理工大學(xué)學(xué)報(bào);2004年04期
3 史興鍵,李偉華,王文奇;基于優(yōu)化聚類算法的安全審計(jì)模型[J];計(jì)算機(jī)工程與應(yīng)用;2005年17期
4 周如旗;個(gè)性化數(shù)據(jù)聚類的屬性坐標(biāo)分析法[J];電腦與信息技術(shù);2005年03期
5 潘磊,吳小俊,尤媛媛;基于聚類的視頻鏡頭分割和關(guān)鍵幀提取[J];紅外與激光工程;2005年03期
6 張永梅,韓焱,張建華;一種有效聚類算法的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2005年07期
7 葉菲,羅景青;一種基于BFSN聚類的多參數(shù)綜合分選算法[J];雷達(dá)與對(duì)抗;2005年02期
8 嚴(yán)馨,周麗華,陳克平,徐廣義;一種改進(jìn)的帶障礙的基于密度和網(wǎng)格的聚類算法[J];計(jì)算機(jī)應(yīng)用;2005年08期
9 呂昱;程代杰;;基于SOM的市場(chǎng)細(xì)分研究[J];計(jì)算機(jī)科學(xué);2005年12期
10 何明;馮博琴;馬兆豐;傅向華;;一種基于高斯混合模型的無監(jiān)督粗糙聚類方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2006年02期
相關(guān)會(huì)議論文 前10條
1 魏昕路;洪志令;姜青山;;一種基于樣本縮減策略的新窗口式聚類算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
2 王守強(qiáng);朱大銘;史士英;;基于輸入點(diǎn)集求解k-Means聚類算法[A];第二十六屆中國控制會(huì)議論文集[C];2007年
3 李政濤;夏樹倩;王大玲;馮時(shí);張一飛;;一種基于語義引力及密度分布的聚類算法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 吳繼兵;李心科;;基于分治融合的混合屬性數(shù)據(jù)聚類算法研究[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年
5 李世峰;黃磊;劉昌平;;幾種聚類方法的比較[A];第八屆全國漢字識(shí)別學(xué)術(shù)會(huì)議論文集[C];2002年
6 劉洋;江志綱;丁增喜;王大玲;鮑玉斌;于戈;;一種基于圖的聚類算法GB-Cluster[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
7 鄧敏;劉啟亮;李光強(qiáng);程濤;;一種基于場(chǎng)模型的空間聚類算法[A];現(xiàn)代測(cè)量技術(shù)與地理信息系統(tǒng)科技創(chuàng)新及產(chǎn)業(yè)發(fā)展研討會(huì)論文集[C];2009年
8 逯波;王國仁;;一種有效的半監(jiān)督視頻鏡頭聚類算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
9 劉強(qiáng);林世平;;基于蟻群聚類算法的中文本體學(xué)習(xí)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
10 余琳;鄧玲;;常見聚類算法的比較以及DSS系統(tǒng)中的應(yīng)用[A];湖北省通信學(xué)會(huì)、武漢通信學(xué)會(huì)2009年學(xué)術(shù)年會(huì)論文集[C];2009年
相關(guān)重要報(bào)紙文章 前3條
1 ;視頻數(shù)據(jù)中挖“寶”[N];計(jì)算機(jī)世界;2002年
2 本報(bào)記者 趙鳳華 通訊員 戴世勇 陶春明;本科生登上全國學(xué)術(shù)會(huì)議講壇[N];科技日?qǐng)?bào);2008年
3 本報(bào)記者 于翔;多元管理防范金融風(fēng)險(xiǎn)[N];網(wǎng)絡(luò)世界;2010年
相關(guān)博士學(xué)位論文 前10條
1 萬淼;基于群智能和隨機(jī)索引的網(wǎng)絡(luò)聚類算法研究[D];北京郵電大學(xué);2011年
2 劉位龍;面向不確定性數(shù)據(jù)的聚類算法研究[D];山東師范大學(xué);2011年
3 管仁初;半監(jiān)督聚類算法的研究與應(yīng)用[D];吉林大學(xué);2010年
4 葉鎮(zhèn)清;自適應(yīng)聚類算法挖掘網(wǎng)絡(luò)模塊結(jié)構(gòu)及其在酵母蛋白作用網(wǎng)絡(luò)中的應(yīng)用[D];浙江大學(xué);2008年
5 張鴻雁;基于DNA計(jì)算的聚類算法研究[D];山東師范大學(xué);2011年
6 曹付元;面向分類數(shù)據(jù)的聚類算法研究[D];山西大學(xué);2010年
7 孫鵬崗;聚類算法研究及其在網(wǎng)絡(luò)模塊性分析中的應(yīng)用[D];西安電子科技大學(xué);2011年
8 梅娟;復(fù)雜生物網(wǎng)絡(luò)聚類分析方法[D];江南大學(xué);2010年
9 潘鴻飛;形狀特征描述及聚類算法研究[D];安徽大學(xué);2011年
10 余衛(wèi)宇;幾種圖像結(jié)構(gòu)語義模型和圖像[D];華南理工大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 卜德云;自適應(yīng)譜聚類算法的研究與應(yīng)用[D];南京航空航天大學(xué);2010年
2 石洪竺;量子進(jìn)化聚類算法研究[D];西安電子科技大學(xué);2010年
3 溫程;并行聚類算法在MapReduce上的實(shí)現(xiàn)[D];浙江大學(xué);2011年
4 張珠玉;聚類算法及其在日志數(shù)據(jù)處理中的應(yīng)用研究[D];山東師范大學(xué);2011年
5 葉沖軼;高維海量數(shù)據(jù)聯(lián)合聚類算法的研究與應(yīng)用[D];浙江工商大學(xué);2010年
6 姚毓凱;一種有效的自適應(yīng)網(wǎng)格密度聚類算法研究[D];蘭州大學(xué);2011年
7 王帆;基于優(yōu)化目標(biāo)可調(diào)控的免疫聚類算法的研究[D];太原理工大學(xué);2010年
8 李長進(jìn);基于蟻群算法的混合聚類算法研究[D];中國石油大學(xué);2010年
9 武彩麗;基于規(guī)范切和分水嶺的聚類算法研究[D];西安電子科技大學(xué);2010年
10 張立;基于新聞評(píng)論數(shù)據(jù)的K-means聚類算法的研究[D];太原理工大學(xué);2010年
,本文編號(hào):2007751
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2007751.html