利用標(biāo)簽的層次化搜索結(jié)果聚類方法
【圖文】:
wi必須與w屬于同一個句子且句子之間的距離不超過閾值d(d>0),這樣可以得到一個共現(xiàn)的詞對,記作〈w,wi〉.由此,可以得到如圖1所示的結(jié)果.凡是在同一個句子中與w在距離d中共現(xiàn)的詞wi都將記錄下來,包括每個相對位置上的出現(xiàn)次數(shù)pji(-d≤j≤d,j≠0)、共現(xiàn)的總次數(shù)fi以及w與wi共現(xiàn)的所有句子ID(存儲在senIds中)等.圖1 針對詞w搜集的詞共現(xiàn)信息(2)過濾詞對,提取有效2元組.為了判斷〈w,wi〉是否為一個頻繁2元組,定義了詞對強(qiáng)度s =f--fσ式中-f =1n∑1≤i≤nfij σ=∑1≤i≤n(fi--f)n1/2 s顯現(xiàn)了一個詞對的共現(xiàn)頻度,適于不同詞對之間的比較,可用來過濾共現(xiàn)頻度不高的詞對.定義閾值β0
t2=0·8.2·2 實(shí)驗(yàn)結(jié)果圖2顯示了Vivisimo、Lingo、STC和本文算法的平均NMI結(jié)果.從中看到,本文算法在NMI(K=5,10,20)上的結(jié)果與Vivisimo算法相當(dāng),二者均20西 安 交 通 大 學(xué) 學(xué) 報(bào) 第43卷
【作者單位】: 西安交通大學(xué)電子與信息工程學(xué)院;
【基金】:國家高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2006AA01Z210)
【分類號】:TP391.1
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 吳春明;陳治;姜明;;蟻群算法中系統(tǒng)初始化及系統(tǒng)參數(shù)的研究[J];電子學(xué)報(bào);2006年08期
2 黃永青;梁昌勇;張祥德;;基于均勻設(shè)計(jì)的蟻群算法參數(shù)設(shè)定[J];控制與決策;2006年01期
3 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報(bào);2006年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王海云;劉金嶺;;基于查詢詞擴(kuò)展的文本檢索算法研究[J];計(jì)算機(jī)與數(shù)字工程;2011年06期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會議論文 前6條
1 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 李斌;盧俊之;章成志;陳小荷;;基于聚類引擎的話題褒貶度計(jì)算[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
3 張志強(qiáng);孟慶海;謝曉芹;;個性化的社會標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年
4 李鵬;王斌;石志偉;崔雅超;李恒訓(xùn);;Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
5 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
6 張耀允;王曉龍;王軒;徐睿峰;侯永帥;范士喜;;面向開放的限定領(lǐng)域的交互式問答語料分析[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前4條
1 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年
2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學(xué)技術(shù)大學(xué);2006年
3 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
4 劉興林;中文詞匯知識獲取算法和語義計(jì)算研究及應(yīng)用[D];華南理工大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 黃黎;基于形式概念分析的搜索結(jié)果聚類研究[D];華中科技大學(xué);2005年
2 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年
3 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年
4 仇紹剛;基于元搜索的知識獲取方法與系統(tǒng)集成研究[D];大連理工大學(xué);2009年
5 馮運(yùn);信息檢索中的查詢算法研究[D];湖南大學(xué);2007年
6 武娜;視頻搜索結(jié)果分析及其可視化方法研究與應(yīng)用[D];東華大學(xué);2010年
7 吳春龍;宋詞風(fēng)格的計(jì)算機(jī)輔助分析研究[D];廈門大學(xué);2008年
8 趙穎;基于Ontology的Web文本聚類研究[D];西華大學(xué);2011年
9 周云慶;基于維基百科的搜索結(jié)果挖掘[D];上海交通大學(xué);2011年
10 梅筱;視頻特征及其描述詞匯的對齊研究[D];北京郵電大學(xué);2011年
,本文編號:2531780
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2531780.html