基于后綴樹的Web檢索結(jié)果聚類標(biāo)簽生成方法
本文選題:計(jì)算機(jī)應(yīng)用 + 中文信息處理 ; 參考:《中文信息學(xué)報(bào)》2009年02期
【摘要】:對(duì)檢索結(jié)果進(jìn)行聚類能夠方便用戶從搜索結(jié)果中快速地找到自己需要的信息,當(dāng)前已有各種聚類方法和系統(tǒng)被廣泛使用,但是,現(xiàn)有大部分方法由于聚類標(biāo)簽的可讀性和描述性較差,難以達(dá)到預(yù)期效果。該文提出了一種新的思路,注重于如何在聚類之前就產(chǎn)生好的標(biāo)簽,在生成了標(biāo)簽的基礎(chǔ)上,再進(jìn)行檢索結(jié)果聚類。對(duì)于搜索引擎返回的結(jié)果,我們先統(tǒng)一建立一棵后綴樹,然后計(jì)算后綴樹中各個(gè)短語的得分,選取得分最高的若干短語作為候選標(biāo)簽。得到標(biāo)簽后,將搜索引擎返回的各個(gè)結(jié)果項(xiàng)分配到它所包含的標(biāo)簽對(duì)應(yīng)的分類中,形成最后的聚類。實(shí)驗(yàn)表明,我們的方法是比較有效的。
[Abstract]:Clustering the retrieval results can facilitate users to find the information they need quickly from the search results. At present, a variety of clustering methods and systems have been widely used, but,Due to the poor readability and description of clustering tags, most of the existing methods are difficult to achieve the desired results.In this paper, a new idea is proposed, which focuses on how to produce good labels before clustering, and then cluster the retrieval results on the basis of the generated tags.For the result returned by search engine, we first establish a suffix tree, then calculate the scores of each phrase in the suffix tree, and select some phrases with the highest score as candidate labels.After the label is obtained, each result item returned by the search engine is assigned to the corresponding classification of the label it contains, and the final clustering is formed.Experiments show that our method is more effective.
【作者單位】: 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所;
【基金】:國家十一五資助項(xiàng)目(2006BAH02A10) 國家863計(jì)劃資助項(xiàng)目(2008AA01Z421)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魏福官;鄭孝安;;一種基于知識(shí)的書面漢語自動(dòng)分詞方法[J];現(xiàn)代電力;1993年04期
2 龍艷花;郭武;戴禮榮;;采用支持向量機(jī)的說話者確認(rèn)中的樣本平衡[J];中文信息學(xué)報(bào);2008年03期
3 木合亞提·尼亞孜別克;古力沙吾利;;哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J];中文信息學(xué)報(bào);2010年04期
4 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計(jì)算機(jī)與數(shù)字工程;2009年03期
5 羅杰;陳力;夏德麟;王凱;;基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2006年04期
6 朱曉旭;李培峰;朱巧明;刁紅軍;;一個(gè)適用于手持設(shè)備的多層漢字輸入法模型[J];中文信息學(xué)報(bào);2006年06期
7 扎西加;珠杰;;面向信息處理的藏文分詞規(guī)范研究[J];中文信息學(xué)報(bào);2009年04期
8 干俊偉,黃德根;漢語介詞短語的自動(dòng)識(shí)別[J];中文信息學(xué)報(bào);2005年04期
9 劉云峰,齊歡,Xiang’en Hu,Zhiqiang Cai;潛在語義分析權(quán)重計(jì)算的改進(jìn)[J];中文信息學(xué)報(bào);2005年06期
10 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報(bào);2007年05期
相關(guān)會(huì)議論文 前10條
1 宋蘭;孫茂松;;中文文本全文查重的實(shí)驗(yàn)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識(shí)別與轉(zhuǎn)換[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 駱雄武;萬小軍;楊建武;吳於茜;;基于后綴樹的Web檢索結(jié)果聚類標(biāo)簽生成方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開發(fā)與應(yīng)用[A];第四屆全國臨床檢驗(yàn)學(xué)術(shù)會(huì)議論文匯編[C];2006年
5 丁力行;;2002年全國暖通空調(diào)計(jì)算機(jī)應(yīng)用研討會(huì)[A];2001年湖南省暖通空調(diào)制冷學(xué)術(shù)年會(huì)論文集[C];2001年
6 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實(shí)平臺(tái)中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
7 于平;李漢彬;高長君;;應(yīng)用ActiveX技術(shù)實(shí)現(xiàn)Surfer自動(dòng)繪制等值線圖[A];中國氣象學(xué)會(huì)2007年年會(huì)天氣預(yù)報(bào)預(yù)警和影響評(píng)估技術(shù)分會(huì)場(chǎng)論文集[C];2007年
8 何大治;謝步瀛;;基于子空間網(wǎng)絡(luò)的人員疏散模型[A];中國圖學(xué)新進(jìn)展2007——第一屆中國圖學(xué)大會(huì)暨第十屆華東六省一市工程圖學(xué)學(xué)術(shù)年會(huì)論文集[C];2007年
9 繆崢紅;周新蕾;;安全性關(guān)鍵軟件的可靠性測(cè)試與安全性分析[A];提高全民科學(xué)素質(zhì)、建設(shè)創(chuàng)新型國家——2006中國科協(xié)年會(huì)論文集(下冊(cè))[C];2006年
10 石素卿;;京郊新農(nóng)村發(fā)展電子商務(wù)的障礙與對(duì)策[A];提高全民科學(xué)素質(zhì)、建設(shè)創(chuàng)新型國家——2006中國科協(xié)年會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 卜建設(shè)、盧山;市計(jì)算機(jī)應(yīng)用學(xué)會(huì)成立[N];唐山勞動(dòng)日?qǐng)?bào);2010年
2 記者 梁捷;我國中文信息處理技術(shù)從實(shí)驗(yàn)室走向全面應(yīng)用[N];光明日?qǐng)?bào);2009年
3 姚雙云 華中師范大學(xué)語言與語言教育研究中心;虛詞知識(shí)庫:中文信息處理的基石[N];中國社會(huì)科學(xué)報(bào);2011年
4 倪光南;活力重現(xiàn)的中文信息處理[N];計(jì)算機(jī)世界;2001年
5 齊悅;速記界泰斗唐亞偉 獲中文信息處理領(lǐng)域最高科技獎(jiǎng)[N];中國質(zhì)量報(bào);2006年
6 張波 龍雨;中文信息處理國際學(xué)術(shù)會(huì)議在武漢大學(xué)召開[N];中國社會(huì)科學(xué)院院報(bào);2007年
7 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日?qǐng)?bào);2007年
8 記者 段佳;中文信息處理技術(shù)加速前行[N];大眾科技報(bào);2009年
9 本報(bào)記者 毛國兵 通訊員 嵐宇;亞偉速錄:實(shí)現(xiàn)中文信息處理產(chǎn)業(yè)化的自主品牌[N];中國貿(mào)易報(bào);2008年
10 袁欽玲;網(wǎng)吧專用計(jì)算機(jī)應(yīng)用標(biāo)準(zhǔn)出臺(tái)[N];中國計(jì)算機(jī)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 陳守強(qiáng);丁書文教授用藥規(guī)律的計(jì)算機(jī)輔助分析[D];山東中醫(yī)藥大學(xué);2005年
2 楊偉;郵運(yùn)汽車運(yùn)輸組織優(yōu)化與信息支持系統(tǒng)研究[D];西南交通大學(xué);2005年
3 宋春陽;面向信息處理的現(xiàn)代漢語“名+名”邏輯語義研究[D];上海師范大學(xué);2003年
4 由麗萍;構(gòu)建現(xiàn)代漢語框架語義知識(shí)庫技術(shù)研究[D];上海師范大學(xué);2006年
5 周衛(wèi)華;面向中文信息處理的現(xiàn)代漢語動(dòng)賓語義搭配研究[D];華中師范大學(xué);2007年
6 詹衛(wèi)東;面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[D];北京大學(xué);1999年
7 李蘇紅;基于實(shí)體模型的工程圖樣數(shù)字化設(shè)計(jì)的研究[D];吉林大學(xué);2007年
8 李曉燕;海量圖像語義分析和檢索技術(shù)研究[D];浙江大學(xué);2009年
9 劉杰;泄漏發(fā)射的信息重建與防御對(duì)策[D];浙江大學(xué);2004年
10 涂蓉;肝CT圖像分析的臨床與計(jì)算機(jī)應(yīng)用研究[D];中南大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 陶東成;基于Linux和XIM協(xié)議的中文輸入法服務(wù)器的實(shí)現(xiàn)及其應(yīng)用[D];蘇州大學(xué);2004年
2 羅忠毅;數(shù)字化中醫(yī)古籍的理想模式及其相關(guān)問題研究[D];成都中醫(yī)藥大學(xué);2005年
3 王敏;基于改進(jìn)的隱馬爾科夫模型漢語詞性標(biāo)注[D];山西大學(xué);2007年
4 黨蘭學(xué);漢字語法語義智能輸入法總體設(shè)計(jì)與部分實(shí)現(xiàn)[D];河南大學(xué);2006年
5 傅成宏;現(xiàn)代漢語兼語結(jié)構(gòu)的自動(dòng)識(shí)別[D];南京師范大學(xué);2007年
6 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年
7 曹林峰;中文文字差錯(cuò)率統(tǒng)計(jì)軟件的實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
8 劉桂梅;周有光語文改革思想研究[D];山東師范大學(xué);2005年
9 張玉華;基于碼本的輸入法評(píng)測(cè)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2005年
10 杜瑩;漢字語法語義智能輸入法核心算法及實(shí)現(xiàn)技術(shù)[D];河南大學(xué);2006年
,本文編號(hào):1735024
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1735024.html