基于主題和特征的文本相似度算法研究
本文關(guān)鍵詞:基于主題和特征的文本相似度算法研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 文本相似度 主題 特征
【摘要】:本文提出了結(jié)合主題和各主題下關(guān)鍵特征的文本相似度算法,目的在于更準(zhǔn)確的挖掘被描述對(duì)象的近鄰對(duì)象集。本文首先介紹卡方統(tǒng)檢驗(yàn)特征統(tǒng)計(jì)法,并利用改進(jìn)的卡方檢驗(yàn),計(jì)算訓(xùn)練集中已知主題的文本的特征;而后介紹了最小編輯距離算法、余弦相似度算法和杰卡德相似系數(shù),在論證了主題對(duì)文本相似度的重要性后,又針對(duì)難提取主題的文本加以改進(jìn),最終提出了基于主題和特征的文本相似度算法;然后對(duì)各個(gè)算法在測(cè)試集上的相似度計(jì)算結(jié)果進(jìn)行分析,證明本文提出的算法在速度和精確度上明顯優(yōu)于其他算法;最后將該算法應(yīng)用于股票的概念股題材標(biāo)注上,分析結(jié)果并提出改進(jìn)空間和不足之處。
【作者單位】: 北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院;
【關(guān)鍵詞】: 數(shù)據(jù)挖掘 文本相似度 主題 特征
【分類號(hào)】:TP391.1
【正文快照】: 文本相似度的計(jì)算已經(jīng)深入到互聯(lián)網(wǎng)發(fā)展的各個(gè)領(lǐng)域;如:在QA系統(tǒng)中,快而準(zhǔn)的判斷問題之間的相似度,決定了QA系統(tǒng)回答的響應(yīng)速度和準(zhǔn)確度;在各大門戶網(wǎng)站中,文本相似度的挖掘,是用戶個(gè)性化推薦系統(tǒng)和編輯系統(tǒng)的關(guān)鍵工作。在文本分類的問題上,由于有本數(shù)量過多、描述篇幅過大或內(nèi)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄧冠男;;聚類分析中的相似度研究[J];東北電力大學(xué)學(xué)報(bào);2013年Z1期
2 張常有,王鋒君,孫林夫;基于灰色系統(tǒng)理論的工程相似度分析[J];計(jì)算機(jī)應(yīng)用;2000年S1期
3 辛穎梅;錢海峰;倪魏巍;徐冬梅;孫志揮;;關(guān)于專利類別間相似度量化方法的研究[J];科技創(chuàng)新導(dǎo)報(bào);2009年15期
4 蔣占四;陳立平;羅年猛;;最近鄰實(shí)例檢索相似度分析[J];計(jì)算機(jī)集成制造系統(tǒng);2007年06期
5 劉嘉;祁奇;陳振宇;惠成峰;;ESSK:一種計(jì)算點(diǎn)擊流相似度的新方法[J];計(jì)算機(jī)科學(xué);2012年06期
6 鄒李;杜小勇;何軍;;B3:圖間節(jié)點(diǎn)相似度分塊計(jì)算方法[J];計(jì)算機(jī)科學(xué)與探索;2010年09期
7 姚新磊;龐建民;岳峰;余勇;;基于API依賴關(guān)系的代碼相似度分析[J];計(jì)算機(jī)工程;2013年01期
8 張常有,郭增強(qiáng),牛江川;工程智能CAD中的類比轉(zhuǎn)換模型研究[J];石家莊鐵道學(xué)院學(xué)報(bào);2003年03期
9 吳海華;李紹滋;林達(dá)真;柯逍;曹冬林;;基于新型聚類算法Increase K-Means的Blog相似度分析[J];廈門大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
10 ;[J];;年期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 徐川;論文相似度分析系統(tǒng)設(shè)計(jì)[D];山東大學(xué);2012年
2 于海英;程序代碼相似度識(shí)別的研究[D];內(nèi)蒙古師范大學(xué);2006年
3 曾鵬;語(yǔ)句相似度算法研究及其在題庫(kù)開發(fā)中的應(yīng)用[D];電子科技大學(xué);2013年
4 楊健梅;基于相似度分析的數(shù)字多媒體被動(dòng)取證研究[D];福建師范大學(xué);2015年
5 程欣欣;心電信號(hào)QRS波檢測(cè)與分類研究[D];華東理工大學(xué);2011年
,本文編號(hào):953760
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/953760.html