天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

利用標(biāo)簽的層次化搜索結(jié)果聚類方法

發(fā)布時(shí)間:2019-09-04 13:16
【摘要】:為了提高搜索引擎返回結(jié)果的可瀏覽性,滿足用戶對查詢質(zhì)量的要求,提出了一種層次化搜索結(jié)果聚類方法.首先,從搜索引擎的返回結(jié)果提取出文檔集,并對每一個文檔進(jìn)行詞干化、去除停用詞等操作.然后,根據(jù)詞共現(xiàn)信息來發(fā)現(xiàn)文檔集中的頻繁2元組,再將2元組擴(kuò)展為n元組,對所有元組進(jìn)行去冗余、重要性排序,從而獲得候選聚類標(biāo)簽.最后,基于該標(biāo)簽對返回結(jié)果中的文檔進(jìn)行分配與聚集,形成層次化聚類結(jié)果.實(shí)驗(yàn)結(jié)果表明,所提方法可以通過獲得的準(zhǔn)確、可讀性較好的聚類標(biāo)簽,幫助用戶有效地瀏覽搜索引擎返回的結(jié)果.與Vivisimo、STC、Lingo算法比較,以及在多個評價(jià)指標(biāo)上的綜合實(shí)驗(yàn)結(jié)果也表明,該方法是有效的.
【圖文】:

信息圖,共現(xiàn),元組,信息


wi必須與w屬于同一個句子且句子之間的距離不超過閾值d(d>0),這樣可以得到一個共現(xiàn)的詞對,記作〈w,wi〉.由此,可以得到如圖1所示的結(jié)果.凡是在同一個句子中與w在距離d中共現(xiàn)的詞wi都將記錄下來,包括每個相對位置上的出現(xiàn)次數(shù)pji(-d≤j≤d,j≠0)、共現(xiàn)的總次數(shù)fi以及w與wi共現(xiàn)的所有句子ID(存儲在senIds中)等.圖1 針對詞w搜集的詞共現(xiàn)信息(2)過濾詞對,提取有效2元組.為了判斷〈w,wi〉是否為一個頻繁2元組,定義了詞對強(qiáng)度s =f--fσ式中-f =1n∑1≤i≤nfij σ=∑1≤i≤n(fi--f)n1/2  s顯現(xiàn)了一個詞對的共現(xiàn)頻度,適于不同詞對之間的比較,可用來過濾共現(xiàn)頻度不高的詞對.定義閾值β0

算法圖,算法


t2=0·8.2·2 實(shí)驗(yàn)結(jié)果圖2顯示了Vivisimo、Lingo、STC和本文算法的平均NMI結(jié)果.從中看到,本文算法在NMI(K=5,10,20)上的結(jié)果與Vivisimo算法相當(dāng),二者均20西 安 交 通 大 學(xué) 學(xué) 報(bào)                  第43卷 
【作者單位】: 西安交通大學(xué)電子與信息工程學(xué)院;
【基金】:國家高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2006AA01Z210)
【分類號】:TP391.1

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 吳春明;陳治;姜明;;蟻群算法中系統(tǒng)初始化及系統(tǒng)參數(shù)的研究[J];電子學(xué)報(bào);2006年08期

2 黃永青;梁昌勇;張祥德;;基于均勻設(shè)計(jì)的蟻群算法參數(shù)設(shè)定[J];控制與決策;2006年01期

3 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報(bào);2006年03期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王海云;劉金嶺;;基于查詢詞擴(kuò)展的文本檢索算法研究[J];計(jì)算機(jī)與數(shù)字工程;2011年06期

2 ;[J];;年期

3 ;[J];;年期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會議論文 前6條

1 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 李斌;盧俊之;章成志;陳小荷;;基于聚類引擎的話題褒貶度計(jì)算[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

3 張志強(qiáng);孟慶海;謝曉芹;;個性化的社會標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年

4 李鵬;王斌;石志偉;崔雅超;李恒訓(xùn);;Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

5 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

6 張耀允;王曉龍;王軒;徐睿峰;侯永帥;范士喜;;面向開放的限定領(lǐng)域的交互式問答語料分析[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

相關(guān)博士學(xué)位論文 前4條

1 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年

2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學(xué)技術(shù)大學(xué);2006年

3 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年

4 劉興林;中文詞匯知識獲取算法和語義計(jì)算研究及應(yīng)用[D];華南理工大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 黃黎;基于形式概念分析的搜索結(jié)果聚類研究[D];華中科技大學(xué);2005年

2 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年

3 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年

4 仇紹剛;基于元搜索的知識獲取方法與系統(tǒng)集成研究[D];大連理工大學(xué);2009年

5 馮運(yùn);信息檢索中的查詢算法研究[D];湖南大學(xué);2007年

6 武娜;視頻搜索結(jié)果分析及其可視化方法研究與應(yīng)用[D];東華大學(xué);2010年

7 吳春龍;宋詞風(fēng)格的計(jì)算機(jī)輔助分析研究[D];廈門大學(xué);2008年

8 趙穎;基于Ontology的Web文本聚類研究[D];西華大學(xué);2011年

9 周云慶;基于維基百科的搜索結(jié)果挖掘[D];上海交通大學(xué);2011年

10 梅筱;視頻特征及其描述詞匯的對齊研究[D];北京郵電大學(xué);2011年

,

本文編號:2531780

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2531780.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶891db***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com