基于風(fēng)險決策的文本語義分類算法
本文關(guān)鍵詞:基于風(fēng)險決策的文本語義分類算法
更多相關(guān)文章: 決策粗糙集模型 文本分類 語義 特征項 基本顯露模式
【摘要】:傳統(tǒng)的文本分類多以空間向量模型為基礎(chǔ),采用層次分類樹模型進行統(tǒng)計分析,該模型多數(shù)沒有結(jié)合特征項語義信息,因此可能產(chǎn)生大量頻繁語義模式,增加了分類路徑。結(jié)合基本顯露模式(e EP)在分類上的良好區(qū)分特性和基于最小期望風(fēng)險代價的決策粗糙集模型,提出了一種閾值優(yōu)化的文本語義分類算法TSCTO:在獲取文檔特征項頻率分布表之后,首先利用粗糙集聯(lián)合決策分布密度矩陣,計算最小閾值,提取滿足一定閾值的高頻詞;然后結(jié)合語義分析與逆向文檔頻率方法獲取基于語義類內(nèi)文檔頻率的高頻詞;采用e EP分類方法獲得最簡模式;最后利用相似性公式和《知網(wǎng)》提供的語義相關(guān)度,計算文本相似性得分,利用三支決策理論對閾值進行選擇。實驗結(jié)果表明,TSCTO算法在文本分類的性能上有一定提升。
【作者單位】: 安慶師范大學(xué)計算機與信息學(xué)院;
【關(guān)鍵詞】: 決策粗糙集模型 文本分類 語義 特征項 基本顯露模式
【基金】:安徽省高校省級自然科學(xué)研究項目(KJ2013A177) 安徽省自然科學(xué)基金資助項目(10040606Q42)~~
【分類號】:TP391.1
【正文快照】: 0引言文本分類是有效組織和處理信息的基礎(chǔ),為了能夠?qū)ξ谋具M行正確分類,常見的處理方法是將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換成易于分析和計算的結(jié)構(gòu)化文檔數(shù)據(jù),結(jié)合文本語義和結(jié)構(gòu)特點對文本進行分析和分類。一部分學(xué)者以特征項支持度作為權(quán)重,構(gòu)建空間向量模型,如彭京等[1]提出的基
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
6 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
7 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
8 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
9 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
10 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號:575355
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/575355.html