面向電力審計領(lǐng)域的兩階段短文本分類方法研究
發(fā)布時間:2021-06-21 23:01
為解決電力審計領(lǐng)域中將審計發(fā)現(xiàn)問題按標(biāo)準(zhǔn)問題定義進(jìn)行歸類的現(xiàn)實需求,提出了一種兩階段短文本分類方法.該方法包括粗分類和細(xì)分類兩個階段.粗分類階段通過對審計報告文本中的主觀問題定性,對國網(wǎng)電力審計問題庫文本中的審計問題的一級類目等粗粒度特征進(jìn)行模糊匹配,實現(xiàn)審計發(fā)現(xiàn)問題預(yù)分類.細(xì)分類階段通過對審計報告文本中的問題進(jìn)行描述,對國網(wǎng)電力審計問題庫文本中的審計問題的二、三級類目等細(xì)粒度屬性進(jìn)行文本特征抽取、特征向量化,并將粗分類階段的結(jié)果用于文本特征和向量化的權(quán)值調(diào)整和相似性度量的對象范圍選擇,實現(xiàn)基于非結(jié)構(gòu)化文本的審計問題分類.國網(wǎng)重慶市電力公司2016年審計發(fā)現(xiàn)問題匯總數(shù)據(jù)的實驗結(jié)果表明,該方法能夠有效提升審計問題分類性能,能為電力審計行業(yè)規(guī)范審計報告、提高審計效率提供有力支持.
【文章來源】:西南大學(xué)學(xué)報(自然科學(xué)版). 2020,42(10)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
一級分類實驗結(jié)果
對比實驗結(jié)果
本文提出的兩階段電力審計短文本分類方法包含粗粒度分類、 細(xì)粒度分類兩個階段(如圖1所示). 在第一個粗粒度分類階段, 針對粗粒度屬性進(jìn)行處理, 采用不考慮語義信息的模糊匹配方法[11], 通過字符串近似查找將審計報告中的審計問題預(yù)歸類到標(biāo)準(zhǔn)問題庫中的一級類目. 在第二個細(xì)粒度分類階段, 首先將粗粒度分類的結(jié)果用于詞頻—逆文檔詞頻(Term Frequency–Inverse Document Frequency, TF-IDF)算法[12]的文本特征項權(quán)重計算, 然后將獲得的關(guān)鍵詞權(quán)重與Word2vec方法結(jié)合進(jìn)行文本特征向量化, 最后采用余弦相似度計算審計報告中的審計問題和粗分類結(jié)果中所包含的二、 三級類目的對應(yīng)細(xì)粒度屬性的相似程度, 從而得到最終分類結(jié)果.1.1 階段一: 基于模糊匹配的粗分類
【參考文獻(xiàn)】:
期刊論文
[1]增強(qiáng)領(lǐng)域特征的電力審計文本分類方法[J]. 陳平,匡堯,胡景懿,王向陽,蔡靜. 計算機(jī)應(yīng)用. 2020(S1)
[2]短文本分類技術(shù)研究綜述[J]. 鄧丁朋,周亞建,池俊輝,李佳樂. 軟件. 2020(02)
[3]基于Word2Vec的中文短文本分類問題研究[J]. 汪靜,羅浪,王德強(qiáng). 計算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[4]面向?qū)徲嬵I(lǐng)域的短文本分類技術(shù)研究[J]. 伍洋,鐘鳴,姜艷,李石君. 微電子學(xué)與計算機(jī). 2015(01)
[5]基于兩階段學(xué)習(xí)的半監(jiān)督支持向量機(jī)分類算法[J]. 陶新民,曹盼東,宋少宇,付丹丹. 信息與控制. 2012(01)
[6]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機(jī)學(xué)報. 2011(05)
[7]基于領(lǐng)域詞語本體的短文本分類[J]. 寧亞輝,樊興華,吳渝. 計算機(jī)科學(xué). 2009(03)
[8]基于本體的概念語義相似度計算及其應(yīng)用[J]. 陳沈焰,吳軍華. 微電子學(xué)與計算機(jī). 2008(12)
[9]快速中文字符串模糊匹配算法[J]. 陳開渠,趙潔,彭志威. 中文信息學(xué)報. 2004(02)
[10]基于《〈知網(wǎng)〉》詞匯語義相關(guān)度計算的消歧方法[J]. 李生琦,田巧燕,湯承. 情報學(xué)報. 2009 (05)
本文編號:3241592
【文章來源】:西南大學(xué)學(xué)報(自然科學(xué)版). 2020,42(10)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
一級分類實驗結(jié)果
對比實驗結(jié)果
本文提出的兩階段電力審計短文本分類方法包含粗粒度分類、 細(xì)粒度分類兩個階段(如圖1所示). 在第一個粗粒度分類階段, 針對粗粒度屬性進(jìn)行處理, 采用不考慮語義信息的模糊匹配方法[11], 通過字符串近似查找將審計報告中的審計問題預(yù)歸類到標(biāo)準(zhǔn)問題庫中的一級類目. 在第二個細(xì)粒度分類階段, 首先將粗粒度分類的結(jié)果用于詞頻—逆文檔詞頻(Term Frequency–Inverse Document Frequency, TF-IDF)算法[12]的文本特征項權(quán)重計算, 然后將獲得的關(guān)鍵詞權(quán)重與Word2vec方法結(jié)合進(jìn)行文本特征向量化, 最后采用余弦相似度計算審計報告中的審計問題和粗分類結(jié)果中所包含的二、 三級類目的對應(yīng)細(xì)粒度屬性的相似程度, 從而得到最終分類結(jié)果.1.1 階段一: 基于模糊匹配的粗分類
【參考文獻(xiàn)】:
期刊論文
[1]增強(qiáng)領(lǐng)域特征的電力審計文本分類方法[J]. 陳平,匡堯,胡景懿,王向陽,蔡靜. 計算機(jī)應(yīng)用. 2020(S1)
[2]短文本分類技術(shù)研究綜述[J]. 鄧丁朋,周亞建,池俊輝,李佳樂. 軟件. 2020(02)
[3]基于Word2Vec的中文短文本分類問題研究[J]. 汪靜,羅浪,王德強(qiáng). 計算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[4]面向?qū)徲嬵I(lǐng)域的短文本分類技術(shù)研究[J]. 伍洋,鐘鳴,姜艷,李石君. 微電子學(xué)與計算機(jī). 2015(01)
[5]基于兩階段學(xué)習(xí)的半監(jiān)督支持向量機(jī)分類算法[J]. 陶新民,曹盼東,宋少宇,付丹丹. 信息與控制. 2012(01)
[6]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機(jī)學(xué)報. 2011(05)
[7]基于領(lǐng)域詞語本體的短文本分類[J]. 寧亞輝,樊興華,吳渝. 計算機(jī)科學(xué). 2009(03)
[8]基于本體的概念語義相似度計算及其應(yīng)用[J]. 陳沈焰,吳軍華. 微電子學(xué)與計算機(jī). 2008(12)
[9]快速中文字符串模糊匹配算法[J]. 陳開渠,趙潔,彭志威. 中文信息學(xué)報. 2004(02)
[10]基于《〈知網(wǎng)〉》詞匯語義相關(guān)度計算的消歧方法[J]. 李生琦,田巧燕,湯承. 情報學(xué)報. 2009 (05)
本文編號:3241592
本文鏈接:http://sikaile.net/jingjilunwen/sjlw/3241592.html
最近更新
教材專著