網(wǎng)頁搜索結(jié)果聚類與可視化
本文選題:網(wǎng)頁聚類 切入點:后綴樹 出處:《南京大學學報(自然科學版)》2010年05期 論文類型:期刊論文
【摘要】:搜索引擎成為當今在互聯(lián)網(wǎng)上進行信息檢索最常用的工具.主流搜索引擎以與用戶查詢的相關(guān)度排序返回搜索結(jié)果,且自然語言中存在的"一義多詞"和"一詞多義"現(xiàn)象,用戶很難清楚表達他們的意圖,導致往往花費較長時間從結(jié)果列表中選擇所感興趣的話題.針對這種狀況,采用網(wǎng)頁聚類技術(shù)對標題和摘要進行聚類后,并可視化地以樹和圖的方式向用戶快速、全貌和直觀地展示搜索結(jié)果,明顯改善了用戶搜索體驗.在此基礎上設計了網(wǎng)頁聚類原型系統(tǒng)ECE(effective clustering engine),實驗結(jié)果表明該算法具有聚類結(jié)果可讀性好以及聚類準確度比較高的優(yōu)點.
[Abstract]:Search engine has become the most commonly used tool for information retrieval on the Internet nowadays. The mainstream search engine returns the search results in the order of relevance to the user query, and the phenomenon of "one meaning multi-word" and "one word polysemy" exists in natural language. It is difficult for users to express their intentions clearly, which results in a long time choosing topics of interest from the list of results. In view of this situation, web page clustering technology is used to cluster the titles and abstracts. And visually display search results to users in the form of trees and graphs, with a quick, complete and intuitive view, Based on this, a web page clustering prototype system, ECE(effective clustering engineering, is designed. The experimental results show that the algorithm has the advantages of good readability of clustering results and high clustering accuracy.
【作者單位】: 同濟大學嵌入式系統(tǒng)與服務計算教育部重點實驗室計算機科學與技術(shù)系;
【基金】:國家自然科學基金(60475019,60970061) 博士學科點專項基金(20060247039)
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前2條
1 劉遠超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學報;2006年03期
2 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
【共引文獻】
相關(guān)期刊論文 前10條
1 李廣水;宋丁全;;數(shù)據(jù)分析在森林資源調(diào)查中的應用及發(fā)展研究[J];安徽農(nóng)業(yè)科學;2009年22期
2 王安志;李明東;李超;;各種聚類算法及改進算法的研究[J];電腦知識與技術(shù);2008年25期
3 蔡坤;姜保慶;;關(guān)于文本挖掘中文本聚類算法的研究[J];福建電腦;2009年04期
4 劉云吉;施曉秋;;基于lucene的搜索引擎在Ajax中的應用[J];硅谷;2009年19期
5 陳慶枝;陳國龍;郭文忠;陳仕濤;;信息安全評估日志數(shù)據(jù)的一種混合聚類算法[J];重慶工學院學報(自然科學版);2009年10期
6 宗瑜;李明楚;江賀;;近似骨架導向的歸約聚類算法[J];電子與信息學報;2009年12期
7 鐘銳;;一種基于聚類與關(guān)聯(lián)規(guī)則算法的DDoS攻擊檢測模型[J];贛南師范學院學報;2009年06期
8 孫英娟;楊柳;何昆鳥;;屬性離散化算法研究[J];長春師范學院學報(人文社會科學版);2009年12期
9 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應用[J];長春理工大學學報(自然科學版);2010年01期
10 黃美璇;;一種基于Kmax的K-means改進算法[J];佛山科學技術(shù)學院學報(自然科學版);2010年02期
相關(guān)會議論文 前5條
1 向繼;荊繼武;高能;;一種自動搜索閾值的中文文本層次聚類方法[A];全國網(wǎng)絡與信息安全技術(shù)研討會論文集(上冊)[C];2007年
2 黃旭;朱艷琴;羅喜召;;重復串特征提取算法在不良信息檢測中的應用[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
3 劉之濤;陳清才;孟憲軍;王曉龍;;基于特征短語的網(wǎng)頁在線聚類方法[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
4 龐秀麗;馮玉強;姜維;;電子商務個性化文檔推薦技術(shù)研究[A];第十屆中國管理科學學術(shù)年會論文集[C];2008年
5 余燦玲;王麗珍;張元武;;基于網(wǎng)格密度方向的聚類簇邊緣精度加強算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
相關(guān)博士學位論文 前10條
1 周大鐲;多變量時間序列的聚類、相似查詢與異常檢測[D];天津大學;2009年
2 周文君;艦船VDR人聲識別技術(shù)研究[D];哈爾濱工程大學;2009年
3 吳楓;數(shù)據(jù)流挖掘若干關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2009年
4 張長勝;求解規(guī)劃、聚類和調(diào)度問題的混合粒子群算法研究[D];吉林大學;2009年
5 周,
本文編號:1574061
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1574061.html