基于最大頻繁項集的搜索引擎查詢結(jié)果聚類算法
【圖文】:
件狀態(tài)基構(gòu)造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當(dāng)前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60
件狀態(tài)基構(gòu)造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當(dāng)前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60
本文實驗比較了基于全文的MFIC算法和K-Means算法,同時比較了基于摘要的后綴樹聚類算法(STC)的聚類時間(圖3)。由于STC對網(wǎng)頁全文聚類時間太長(實驗數(shù)據(jù)顯示在10秒以上)不能用做在線聚類,在此不做詳細展示。另外由于Lin-go算法使用的是開源的Java實驗,其他算法是C++實現(xiàn),這里沒做比較。從圖中看出MFIC聚類時間優(yōu)于K-Means聚類的時間。由于MFIC聚類是基于網(wǎng)頁全文,聚類時間長于基于摘要的STC在預(yù)料之中。實驗結(jié)果表明MFIC聚類時間基本控制在2秒左右,可以滿足在線聚類需要。為了進一步提高系統(tǒng)反應(yīng),在具體應(yīng)用中可以通過設(shè)置聚類結(jié)果緩存,減少用戶等待時間。圖3 聚類算法時間對比6.3 聚類評測標(biāo)準(zhǔn)檢索結(jié)果聚類系統(tǒng)的評價不同于一般的文本聚類評價
【相似文獻】
相關(guān)期刊論文 前10條
1 ;《計算機應(yīng)用》征訂啟事[J];計算機應(yīng)用;2011年09期
2 ;《計算機應(yīng)用》征訂啟事[J];計算機工程與應(yīng)用;2011年23期
3 王華;;計算機應(yīng)用對個人社會化的影響[J];社科與經(jīng)濟信息;2000年05期
4 ;投稿須知[J];計算機應(yīng)用與軟件;2011年09期
5 ;投稿須知[J];計算機應(yīng)用與軟件;2011年08期
6 陸倩;程玉凱;;基于VC的學(xué)生教務(wù)信息管理系統(tǒng)的設(shè)計[J];軟件;2011年05期
7 崔劍;;軟件模擬在計算機應(yīng)用中的發(fā)展變革[J];硅谷;2011年16期
8 張育人;;軟件工程學(xué)在計算機專業(yè)畢業(yè)設(shè)計中的運用[J];產(chǎn)業(yè)與科技論壇;2011年07期
9 孫愷;徐曉剛;;基于WorldWind平臺的衛(wèi)星云圖模擬技術(shù)研究[J];科學(xué)技術(shù)與工程;2011年22期
10 王建華;勞金越;;計算機在質(zhì)檢管理工作中的應(yīng)用[J];中國高新技術(shù)企業(yè);2011年19期
相關(guān)會議論文 前10條
1 宋蘭;孫茂松;;中文文本全文查重的實驗研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開發(fā)與應(yīng)用[A];第四屆全國臨床檢驗學(xué)術(shù)會議論文匯編[C];2006年
4 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實平臺中的應(yīng)用[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
5 唐西隆;;用ToolBook制作多媒體課件的技巧[A];第十五屆全國圖學(xué)教育研討會暨第七屆工程制圖CAI課件演示交流會論文集[C];2006年
6 滿正行;李應(yīng)興;單廣榮;于洪志;;網(wǎng)絡(luò)應(yīng)用中實現(xiàn)藏文支持的一種方案[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
7 趙曉波;;基于即時通信的客戶服務(wù)系統(tǒng)[A];2007年中國通信學(xué)會“移動增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會論文集[C];2007年
8 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復(fù)句語言模型[A];第三屆中國智能計算大會論文集[C];2009年
9 朱新河;嚴新平;蕭漢梁;;計算機輔助油液監(jiān)測數(shù)據(jù)處理系統(tǒng)[A];第二屆全國青年摩擦學(xué)學(xué)術(shù)會議論文專輯[C];1993年
10 彭朝林;;急診分診處的計算機應(yīng)用[A];全國護理臨床研究學(xué)術(shù)交流暨專題講座會議論文會編[C];2001年
相關(guān)重要報紙文章 前10條
1 記者 梁捷;我國中文信息處理技術(shù)從實驗室走向全面應(yīng)用[N];光明日報;2009年
2 姚雙云 華中師范大學(xué)語言與語言教育研究中心;虛詞知識庫:中文信息處理的基石[N];中國社會科學(xué)報;2011年
3 張波 龍雨;中文信息處理國際學(xué)術(shù)會議在武漢大學(xué)召開[N];中國社會科學(xué)院院報;2007年
4 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日報;2007年
5 胡唯元;文字編碼新標(biāo)準(zhǔn):不再為“名”所累[N];科技日報;2006年
6 撰文 西南證券;計算機應(yīng)用服務(wù)業(yè),隨大勢而動[N];上海金融報;2008年
7 許偉;金友兵 破局國外辦公套件壟斷[N];中國企業(yè)報;2008年
8 ;浙江天宇信息技術(shù)有限公司[N];中國計算機報;2009年
9 蘭文科;淺析計算機應(yīng)用系統(tǒng)平臺建設(shè)[N];中國國門時報;2007年
10 ;教育 “一個孩子都不能少”[N];中國電腦教育報;2007年
相關(guān)博士學(xué)位論文 前9條
1 李蘇紅;基于實體模型的工程圖樣數(shù)字化設(shè)計的研究[D];吉林大學(xué);2007年
2 劉杰;泄漏發(fā)射的信息重建與防御對策[D];浙江大學(xué);2004年
3 Memon Abdul Ghafoor;[D];浙江大學(xué);2006年
4 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年
5 王建會;中文信息處理中若干關(guān)鍵技術(shù)的研究[D];復(fù)旦大學(xué);2004年
6 吳應(yīng)良;網(wǎng)絡(luò)計算中的智能信息處理方法研究[D];華南理工大學(xué);2000年
7 梁添才;基于認知機理的漢字智能造字研究[D];華南理工大學(xué);2008年
8 盧建平;基于拓撲學(xué)和統(tǒng)計學(xué)的無字庫漢字智能造字研究[D];華南理工大學(xué);2010年
9 江會星;漢語命名實體識別研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王敏;基于改進的隱馬爾科夫模型漢語詞性標(biāo)注[D];山西大學(xué);2007年
2 黨蘭學(xué);漢字語法語義智能輸入法總體設(shè)計與部分實現(xiàn)[D];河南大學(xué);2006年
3 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計與實現(xiàn)[D];吉林大學(xué);2006年
4 曹林峰;中文文字差錯率統(tǒng)計軟件的實現(xiàn)[D];西安電子科技大學(xué);2007年
5 張玉華;基于碼本的輸入法評測系統(tǒng)的設(shè)計和實現(xiàn)[D];蘇州大學(xué);2005年
6 杜瑩;漢字語法語義智能輸入法核心算法及實現(xiàn)技術(shù)[D];河南大學(xué);2006年
7 徐瑞;一個中文語義語料庫的研究與建設(shè)[D];蘇州大學(xué);2006年
8 沈威;基于渡越矩陣與語境計算模型的復(fù)句關(guān)系詞的自動標(biāo)注[D];華中師范大學(xué);2007年
9 羅麗俊;中文信息處理中若干技術(shù)的研究與實現(xiàn)[D];遼寧科技大學(xué);2008年
10 毋琳;特定領(lǐng)域問答系統(tǒng)中通用語義理解框架的設(shè)計與實現(xiàn)[D];河南大學(xué);2007年
本文編號:2801544
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2801544.html