基于改進(jìn)的softmax回歸模型的話題跟蹤算法
本文關(guān)鍵詞:基于改進(jìn)的softmax回歸模型的話題跟蹤算法
更多相關(guān)文章: 類別信息 特征權(quán)重 softmax回歸 話題跟蹤
【摘要】:話題跟蹤的目的是將新的新聞數(shù)據(jù)分配到已知話題中,對(duì)把握新聞發(fā)展趨勢(shì)和進(jìn)行輿情分析具有重要作用。本文深入分析了幾種基于向量空間模型的特征項(xiàng)權(quán)重算法,發(fā)現(xiàn)傳統(tǒng)算法沒有充分體現(xiàn)特征項(xiàng)中類別信息的作用,在此基礎(chǔ)上引入了類別區(qū)分度因子對(duì)卡方統(tǒng)計(jì)量進(jìn)行改進(jìn),給出了加入類別信息的卡方統(tǒng)計(jì)量算法,該算法能夠更準(zhǔn)確地提取出對(duì)新聞區(qū)分度較大的特征項(xiàng)。同時(shí),在特征項(xiàng)權(quán)重的框架內(nèi)對(duì)常用的softmax線性模型進(jìn)行了基于余弦假設(shè)的改進(jìn)。基于標(biāo)準(zhǔn)數(shù)據(jù)集TDT4的實(shí)驗(yàn)表明,本文給出的權(quán)重算法和分類算法均能夠提高話題跟蹤的查全率和查準(zhǔn)率。
【作者單位】: 河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;河北大學(xué)計(jì)算機(jī)教學(xué)部;河北大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院;
【關(guān)鍵詞】: 類別信息 特征權(quán)重 softmax回歸 話題跟蹤
【基金】:河北省科技計(jì)劃項(xiàng)目(13455317D,12457206D-11)
【分類號(hào)】:TP391.1
【正文快照】: 0引言近年來(lái),互聯(lián)網(wǎng)日益成為傳媒的主要手段,各大新聞網(wǎng)站都對(duì)國(guó)內(nèi)外的新聞給予及時(shí)報(bào)道,極大地方便了人們的生活,同時(shí)新聞的數(shù)據(jù)量也呈現(xiàn)出迅猛增長(zhǎng)的態(tài)勢(shì)。在此互聯(lián)網(wǎng)時(shí)代背景下,人們需要一種能夠自動(dòng)跟蹤并組織已有話題的方法。話題跟蹤技術(shù)可以使人們更準(zhǔn)確地對(duì)已知話題進(jìn)
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 徐冬冬;吳韶波;;一種基于類別描述的TF-IDF特征選擇方法的改進(jìn)[J];現(xiàn)代圖書情報(bào)技術(shù);2015年03期
2 諶志群;徐寧;王榮波;;基于主題演化圖的網(wǎng)絡(luò)論壇熱點(diǎn)跟蹤[J];情報(bào)科學(xué);2013年03期
3 洪宇;倉(cāng)玉;姚建民;周國(guó)棟;朱巧明;;話題跟蹤中靜態(tài)和動(dòng)態(tài)話題模型的核捕捉衰減[J];軟件學(xué)報(bào);2012年05期
4 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期
5 許建華 ,張學(xué)工 ,李衍達(dá);一種基于核函數(shù)的非線性感知器算法[J];計(jì)算機(jī)學(xué)報(bào);2002年07期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 羅杰;基于SVM的微博話題跟蹤方法及其應(yīng)用[D];北京理工大學(xué);2015年
2 姚海波;微博熱點(diǎn)話題檢測(cè)與趨勢(shì)預(yù)測(cè)研究[D];華南理工大學(xué);2013年
3 侯曉沖;話題檢測(cè)與跟蹤算法改進(jìn)研究[D];華中科技大學(xué);2013年
4 劉佳;面向微博的熱點(diǎn)話題發(fā)現(xiàn)及跟蹤[D];華南理工大學(xué);2012年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馬靜;何雪楓;簡(jiǎn)旭文;;動(dòng)態(tài)熱門話題的“特征詞條本體”自動(dòng)構(gòu)建與進(jìn)化研究[J];現(xiàn)代圖書情報(bào)技術(shù);2016年10期
2 張曉勇;周清清;章成志;;面向在線社交網(wǎng)絡(luò)用戶生成內(nèi)容的飲食話題發(fā)現(xiàn)研究[J];現(xiàn)代圖書情報(bào)技術(shù);2016年10期
3 姚冬冬;袁方;王煜;劉宇;;基于半監(jiān)督DPMM的新聞話題檢測(cè)[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2016年03期
4 樸乘鍇;袁方;劉宇;王煜;;基于改進(jìn)的softmax回歸模型的話題跟蹤算法[J];燕山大學(xué)學(xué)報(bào);2016年05期
5 笱程成;杜攀;劉悅;程學(xué)旗;;在線社交網(wǎng)絡(luò)中的新興話題檢測(cè)技術(shù)綜述[J];中文信息學(xué)報(bào);2016年05期
6 仇麗青;陳卓艷;丁長(zhǎng)青;劉海燕;;基于改進(jìn)LDA主題模型的社會(huì)網(wǎng)絡(luò)話題發(fā)現(xiàn)算法iMLDA[J];情報(bào)科學(xué);2016年09期
7 姚兆旭;馬靜;;面向微博話題的“主題+觀點(diǎn)”詞條抽取算法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2016年Z1期
8 劉嘉琪;齊佳音;;基于社會(huì)系統(tǒng)響應(yīng)函數(shù)的在線群體分類研究[J];電子與信息學(xué)報(bào);2016年09期
9 田偉;韓海濤;;發(fā)揮檔案元數(shù)據(jù)核心集作用 推進(jìn)“互聯(lián)網(wǎng)+檔案”建設(shè)[J];檔案;2016年06期
10 李欣雨;袁方;劉宇;李琮;;面向中文新聞話題檢測(cè)的多向量文本聚類方法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2016年02期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 馬瑩瑩;微博用戶轉(zhuǎn)發(fā)行為及情感預(yù)測(cè)研究[D];哈爾濱工業(yè)大學(xué);2015年
2 謝黎黎;基于主題模型的微博話題檢測(cè)與跟蹤研究[D];中南林業(yè)科技大學(xué);2015年
3 趙俊;社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法研究[D];鄭州大學(xué);2015年
4 公榮濤;基于演化聚類的微博熱點(diǎn)事件動(dòng)態(tài)觀點(diǎn)樹構(gòu)建方法研究[D];華南理工大學(xué);2015年
5 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
6 奚浩瀚;微博熱點(diǎn)話題感知關(guān)鍵技術(shù)的研究[D];北京交通大學(xué);2015年
7 羅杰;基于SVM的微博話題跟蹤方法及其應(yīng)用[D];北京理工大學(xué);2015年
8 張華;基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的微博輿情預(yù)測(cè)模型研究[D];華中師范大學(xué);2014年
9 李楚貞;中文微博主題層次識(shí)別方法研究[D];廣東技術(shù)師范學(xué)院;2014年
10 丁曉慶;微博熱點(diǎn)話題發(fā)現(xiàn)研究與實(shí)現(xiàn)[D];鄭州大學(xué);2014年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 覃世安;李法運(yùn);;文本分類中TF-IDF方法的改進(jìn)研究[J];現(xiàn)代圖書情報(bào)技術(shù);2013年10期
2 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報(bào)工作;2013年15期
3 雷軍程;黃同成;柳小文;;一種基于權(quán)重的文本特征選擇方法[J];計(jì)算機(jī)科學(xué);2012年07期
4 李學(xué)明;李海瑞;薛亮;何光軍;;基于信息增益與信息熵的TFIDF算法[J];計(jì)算機(jī)工程;2012年08期
5 王小華;徐寧;諶志群;;基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J];情報(bào)科學(xué);2011年11期
6 張保富;施化吉;馬素琴;;基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2011年02期
7 陳友;程學(xué)旗;楊森;;面向網(wǎng)絡(luò)論壇的高質(zhì)量主題發(fā)現(xiàn)[J];軟件學(xué)報(bào);2011年08期
8 唐果;陳宏剛;;基于BBS熱點(diǎn)主題發(fā)現(xiàn)的文本聚類方法[J];計(jì)算機(jī)工程;2010年07期
9 魯明羽;姚曉娜;魏善嶺;;基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘[J];大連海事大學(xué)學(xué)報(bào);2008年04期
10 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測(cè)[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王慧;微博話題追蹤方法研究與設(shè)計(jì)[D];北京交通大學(xué);2014年
2 王來(lái)濤;網(wǎng)絡(luò)短文本話題發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)研究[D];北京工業(yè)大學(xué);2013年
3 蘇其龍;微博新詞發(fā)現(xiàn)研究[D];哈爾濱工業(yè)大學(xué);2013年
4 邱洋;微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D];大連理工大學(xué);2013年
5 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年
6 馬雯雯;基于隱含語(yǔ)義分析的微博熱點(diǎn)話題發(fā)現(xiàn)策略[D];重慶大學(xué);2013年
7 劉彥偉;微博話題追蹤系統(tǒng)的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2013年
8 孫勵(lì);基于微博的熱點(diǎn)話題發(fā)現(xiàn)[D];北京郵電大學(xué);2013年
9 劉佳;面向微博的熱點(diǎn)話題發(fā)現(xiàn)及跟蹤[D];華南理工大學(xué);2012年
10 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學(xué);2012年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 李曉曼;王靖;;基于類別信息的監(jiān)督局部保持投影方法[J];計(jì)算機(jī)應(yīng)用;2012年02期
2 徐倩;鄧偉;;融合類別信息的二維主成分分析人臉識(shí)別算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年22期
3 劉海峰;劉守生;張學(xué)仁;蘇展;;一種基于類別信息的文本自動(dòng)分類模型[J];現(xiàn)代圖書情報(bào)技術(shù);2010年04期
4 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 李超;王會(huì)珍;朱慕華;張俐;朱靖波;;基于領(lǐng)域類別信息C-value的多詞串自動(dòng)抽取[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 楊金華;視覺感覺記憶中的類別信息研究[D];西南大學(xué);2012年
,本文編號(hào):607541
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/607541.html