基于改進模糊語法增量式算法的文本分類方法
本文選題:文本分類 + 機器學習 ; 參考:《計算機應用研究》2017年11期
【摘要】:針對現(xiàn)有很多文本分類算法必須進行訓練—測試—再訓練的缺點以及通用模型的語法表現(xiàn)度較差等問題,提出一種改進的模糊語法算法(IFGA)。根據(jù)一些選取的文本片段建立學習模型;為了適應輕微變化,采用增量式模型,將選取的文本片段轉(zhuǎn)換到底層架構(gòu)中,形成模糊語法;利用模糊聯(lián)合操作將單個文本片段語法進行整合,并將所學習的文本片段轉(zhuǎn)換成更加一般的表示形式。與決策表算法、改進的樸素貝葉斯算法等進行了兩組對比實驗,第一個實驗結(jié)果表明,IFGA和其他機器學習算法性能并無明顯差異;第二個實驗結(jié)果說明,增量式學習算法比標準機器學習算法更加具有優(yōu)勢,其性能較平穩(wěn),數(shù)據(jù)的尺寸影響更小。提出的算法具有較低的模型重新訓練時間。
[Abstract]:In view of the shortcomings of many existing text classification algorithms which must be trained, tested and retrained, as well as the poor grammatical representation of the general model, an improved fuzzy grammar algorithm (IFGAA) is proposed. The learning model is established according to some selected text fragments, and in order to adapt to slight changes, the incremental model is adopted to convert the selected text fragments to the underlying structure to form fuzzy syntax. A fuzzy joint operation is used to integrate the grammar of a single text fragment, and the learned text fragment is converted into a more general representation. Compared with the decision table algorithm and the improved naive Bayes algorithm, the first experiment shows that there is no significant difference between the performance of IFGA and other machine learning algorithms, and the second experiment shows that, The incremental learning algorithm has more advantages than the standard machine learning algorithm, its performance is stable, and the size of the data has less influence. The proposed algorithm has lower model re-training time.
【作者單位】: 湖南環(huán)境生物職業(yè)技術學院信息技術系;南華大學計算機學院;
【基金】:國家自然科學基金資助項目(61300234) 湖南省教育科技計劃資助項目(13C243,12C1056)
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 周桂芳;盧科;岳麗華;;一種基于日志的增量式編織機制[J];計算機工程;2012年01期
2 王秀,葉東毅;基于分布約簡的獲取規(guī)則的增量式方法[J];福州大學學報(自然科學版);2005年01期
3 林俊偉;葉東毅;;基于鄰域辨識矩陣的屬性約簡增量式算法[J];計算機應用;2009年S1期
4 李斌,馬戈,孫志揮;項目集發(fā)生變化的關聯(lián)規(guī)則增量式更新算法[J];計算機應用;2004年12期
5 劉韶濤;余金山;王寧生;;一種迭代增量式的程序構(gòu)建方法[J];遼寧工程技術大學學報;2005年06期
6 黃文芝 ,倪國元;基于模糊相似系數(shù)的增量式聚類算法[J];微型機與應用;2004年10期
7 羅維;;詞語對齊的快速增量式訓練方法研究[J];北京大學學報(自然科學版);2013年01期
8 劉宗田;屬性最小約簡的增量式算法[J];電子學報;1999年11期
9 王慧芳;黃林鵬;俞晟;;一種增量式的社區(qū)發(fā)現(xiàn)算法研究[J];計算機仿真;2008年01期
10 王彥如;;一增量式關聯(lián)規(guī)則的改進算法[J];青海師范大學學報(自然科學版);2009年03期
相關會議論文 前10條
1 單莘;;一種網(wǎng)絡告警的增量式情景規(guī)則挖掘方法[A];中國通信學會第五屆學術年會論文集[C];2008年
2 王鑫;袁曉潔;李楠;;Native XML數(shù)據(jù)庫的增量式驗證[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2006年
3 程建軍;陳曉云;馬志新;;程序設計語言課程的增量式教學法改革與實踐[A];2005全國計算機程序設計類課程教學研討會論文集[C];2005年
4 陳恩紅;張振亞;王煦法;;基于神經(jīng)網(wǎng)絡的增量式數(shù)據(jù)索引機制研究[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
5 陳克利;宗成慶;王霞;;基于大規(guī)模真實文本的平衡語料分析與文本分類方法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
6 姚天f ;彭思崴;;漢語主客觀文本分類方法的研究[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
7 李月倫;李湘;常寶寶;袁毓林;;一種基于認知情景框架的文本分類方法[A];第五屆全國青年計算語言學研討會論文集[C];2010年
8 張永;陳思睿;楊志勇;;一種改進的文本分類方法的研究[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年
9 欒江;唐常杰;黃曉冬;陰小雄;廖勇;;一種增量式支持向量機文本分類模型[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年
10 陳毅恒;秦兵;劉挺;林建國;李生;;基于錯誤預測的文本分類方法[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
相關博士學位論文 前1條
1 陳春雷;面向GPGPU的并行增量式聚類算法研究[D];西北工業(yè)大學;2014年
相關碩士學位論文 前10條
1 唐琳;面向食品安全的在線新聞話題檢測技術的研究與應用[D];中山大學;2015年
2 倪國元;基于模糊聚類的增量式挖掘算法研究[D];華中科技大學;2004年
3 張晶;增量式關聯(lián)規(guī)則挖掘算法研究及其在飛行品質(zhì)監(jiān)控中的應用[D];中國民航大學;2008年
4 陳楠;基于粗集理論的增量式屬性約簡研究[D];長春理工大學;2005年
5 張長城;基于增量式低秩學習的視頻目標跟蹤[D];大連理工大學;2014年
6 郝允允;增量式數(shù)據(jù)競爭檢測[D];中國科學技術大學;2009年
7 賴桃桃;增量式屬性約簡更新算法研究[D];廈門大學;2009年
8 周永鋒;基于密度的海量數(shù)據(jù)增量式挖掘技術研究[D];中國人民解放軍國防科學技術大學;2002年
9 涂明;關聯(lián)規(guī)則增量式更新算法研究[D];合肥工業(yè)大學;2010年
10 段倩倩;面向大數(shù)據(jù)的增量式學習算法研究[D];山西財經(jīng)大學;2015年
,本文編號:1843281
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1843281.html