基于詞間語義相關(guān)度的搜索結(jié)果聚類算法
本文關(guān)鍵詞: 搜索結(jié)果聚類 詞間語義相關(guān)度 文檔相似度 出處:《鄭州大學學報(理學版)》2009年01期 論文類型:期刊論文
【摘要】:將查詢結(jié)果根據(jù)內(nèi)容進行聚類是提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一.搜索結(jié)果聚類時只能從文檔標題和文檔片段中抽取有限信息,傳統(tǒng)聚類方法難以準確計算其相似度.提出了一種基于詞間語義相關(guān)度的搜索結(jié)果聚類算法,該算法以詞為聚類的核心,詞所出現(xiàn)的文檔為詞的屬性,根據(jù)詞在搜索結(jié)果文檔中共現(xiàn)的情況來劃分類別.該方法可以充分利用詞間的語義相關(guān)性,類別劃分后即可確定類名.實驗結(jié)果表明,對搜索結(jié)果聚類時與K-Means和STC算法相比,質(zhì)量上有所提高.
[Abstract]:The query results according to the content of the clustering is one of the key technologies to improve the quality of search engines. Search results clustering only from the title of the document and document fragments from limited information, the traditional clustering methods are difficult to accurately compute the similarity. We propose a new clustering word semantic correlation algorithm based on search results, the algorithm based on word as the core of the word clustering, document word attributes, according to the words in the search results to the present situation of document classification. This method can make full use of semantic relation between words, classification can be determined after class. The experimental results show that the search results clustering when compared with K-Means and STC algorithm. The quality should be improved.
【作者單位】: 北京石油化工學院計算機科學與工程系;
【基金】:北京市教育委員會項目,編號KM200610017007
【分類號】:TP391.1;TP18
【參考文獻】
相關(guān)期刊論文 前2條
1 劉輝林;郭來德;劉蘭哲;王光興;;中文農(nóng)業(yè)主題搜索引擎的設(shè)計與實現(xiàn)[J];鄭州大學學報(理學版);2007年02期
2 錢麗萍;汪立東;;基于中心短語及權(quán)值的相似度計算[J];鄭州大學學報(理學版);2007年02期
【共引文獻】
相關(guān)期刊論文 前9條
1 蘭富軍;李春霆;高海忠;;農(nóng)業(yè)主題垂直搜索引擎過濾技術(shù)研究[J];安徽農(nóng)業(yè)科學;2010年09期
2 張戩慧;;專業(yè)智能搜索系統(tǒng)在動物醫(yī)學領(lǐng)域中的應用[J];東北農(nóng)業(yè)大學學報;2009年09期
3 王倩;劉奕群;馬少平;茹立云;;面向搜索引擎競價排名的關(guān)鍵詞商業(yè)價值分析[J];廣西師范大學學報(自然科學版);2010年03期
4 張戩慧;王洪斌;;獸藥類科技文獻信息搜索系統(tǒng)的構(gòu)建研究[J];情報探索;2009年09期
5 阮進;袁景瑞;梁循;;互聯(lián)網(wǎng)金融新聞搜索的文本消重方法研究[J];西華大學學報(自然科學版);2008年02期
6 熊金輝;楊勇;羅海燕;王淑彥;劉怡良;;基于擴展SKOS模型的簡單農(nóng)業(yè)本體系統(tǒng)建設(shè)方法[J];沈陽農(nóng)業(yè)大學學報;2010年04期
7 鄭凱斌;黃益栓;;基于網(wǎng)頁的醫(yī)學信息搜索系統(tǒng)的分析與設(shè)計[J];醫(yī)學信息;2009年03期
8 魯?shù)潞?郟東耀;;一種改進的概念相似度計算方法[J];鄭州大學學報(理學版);2010年01期
9 張琳;胡杰;;FAQ問答系統(tǒng)句子相似度計算[J];鄭州大學學報(理學版);2010年01期
相關(guān)會議論文 前1條
1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年
相關(guān)碩士學位論文 前5條
1 范先爽;基于個性化服務(wù)的汽車信息搜索引擎的研究[D];武漢理工大學;2011年
2 張祖蓮;網(wǎng)絡(luò)點擊欺詐及預防策略的研究[D];新疆大學;2011年
3 周鵬;農(nóng)業(yè)搜索引擎系統(tǒng)的關(guān)鍵技術(shù)研究[D];首都師范大學;2009年
4 張冰;基于領(lǐng)域的信息分類和搜索技術(shù)的研究[D];濟南大學;2009年
5 劉蘭哲;企業(yè)搜索引擎中網(wǎng)頁分類技術(shù)的研究與實現(xiàn)[D];東北大學;2008年
【二級參考文獻】
相關(guān)期刊論文 前1條
1 王天江,葉衛(wèi)國,盧正鼎,李永平;基于Hyperlink和相關(guān)度發(fā)現(xiàn)Web相關(guān)文檔的研究[J];小型微型計算機系統(tǒng);2004年05期
相關(guān)會議論文 前1條
1 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
【相似文獻】
相關(guān)期刊論文 前10條
1 胡詩未;李曉峰;徐偉;;基于主題詞匹配頻數(shù)的搜索引擎結(jié)果聚類算法[J];計算機工程與科學;2011年06期
2 陳永超;劉貴全;;一種基于命名實體的搜索結(jié)果聚類算法[J];計算機工程;2009年07期
3 李興森;;后文檔管理時代的增值策略[J];軟件世界;2007年02期
4 沙蕓;張國英;孟凡亮;;基于關(guān)鍵詞提取的娛樂新聞文檔去重算法[J];廣西師范大學學報(自然科學版);2007年02期
5 林小俊;張猛;暴筱;李軍;吳璽宏;;基于概念網(wǎng)絡(luò)的短文本分類方法[J];計算機工程;2010年21期
6 劉德山;;一種改進的基于后綴樹模型搜索結(jié)果聚類算法[J];計算機科學;2011年11期
7 張云;馮博琴;;利用標簽的層次化搜索結(jié)果聚類方法[J];西安交通大學學報;2009年04期
8 章成志;;一種基于組合策略的聚類描述方法及其應用[J];情報科學;2009年07期
9 麻雪云;肖詩斌;王弘蔚;施水才;;基于關(guān)鍵名詞短語聚類的中文搜索結(jié)果聚類[J];計算機工程與應用;2009年31期
10 黃微;高俊峰;;基于概念格的Web學術(shù)信息搜索結(jié)果的二次組織[J];現(xiàn)代圖書情報技術(shù);2010年05期
相關(guān)會議論文 前9條
1 雷慶;吳揚揚;;一種基于語義信息計算XML文檔相似度的新方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
2 王洪俊;施水才;俞士汶;肖詩斌;;跨語言文檔對齊[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
3 秦鵬;李恒訓;張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
4 李斌;盧俊之;章成志;陳小荷;;基于聚類引擎的話題褒貶度計算[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年
5 徐斌;顧宏斌;;一種基于模糊分類的多分類文檔查找方法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
6 廉鑫;林偉堅;張海威;袁曉潔;;基于雙向路徑約束模型的XML文檔結(jié)構(gòu)相似性度量[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
7 汪洋;張磊;章毅;;基于短語匹配的中文Web文檔聚類算法[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議(NCIRCS-2005)論文集[C];2005年
8 楊建武;陳曉鷗;;XML文檔集的聚類研究[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
9 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
相關(guān)博士學位論文 前7條
1 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學;2012年
2 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應用[D];華南理工大學;2011年
3 宋玲;語義相似度計算及其應用研究[D];山東大學;2009年
4 魏建香;學科交叉知識發(fā)現(xiàn)及其可視化研究[D];南京大學;2010年
5 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學;2010年
6 仲兆滿;事件本體及其在查詢擴展中的應用[D];上海大學;2011年
7 武威;異質(zhì)數(shù)據(jù)相似度學習及其在網(wǎng)絡(luò)搜索中的應用[D];北京大學;2012年
相關(guān)碩士學位論文 前10條
1 黃黎;基于形式概念分析的搜索結(jié)果聚類研究[D];華中科技大學;2005年
2 趙嫣;信息檢索中結(jié)構(gòu)化文檔相關(guān)度計算方法的研究[D];山東大學;2007年
3 仇紹剛;基于元搜索的知識獲取方法與系統(tǒng)集成研究[D];大連理工大學;2009年
4 武娜;視頻搜索結(jié)果分析及其可視化方法研究與應用[D];東華大學;2010年
5 滕海明;基于語義標記樹的XML文檔聚類研究[D];浙江大學;2011年
6 秦新國;電子作業(yè)管理和作業(yè)抄襲檢測技術(shù)研究[D];南京師范大學;2007年
7 葉忠杰;基于課程知識本體的智能答疑系統(tǒng)的研究與開發(fā)[D];浙江工業(yè)大學;2007年
8 趙穎;基于Ontology的Web文本聚類研究[D];西華大學;2011年
9 周云慶;基于維基百科的搜索結(jié)果挖掘[D];上海交通大學;2011年
10 程佳;熱點新聞間關(guān)系的研究[D];上海交通大學;2011年
,本文編號:1517782
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1517782.html