基于改進SVM算法的投訴文本分類研究
發(fā)布時間:2021-11-19 13:18
客戶關于企業(yè)產品和服務投訴日益增多,及時向投訴用戶進行反饋是企業(yè)保持口碑的關鍵。投訴文本的自動歸類,有利于企業(yè)提升投訴問題處理效率,提高用戶滿意度,避免客戶流失。目前,企業(yè)中投訴分類過程仍以人工鑒別為主,這種方式不僅效率低、成本高,而且受人的經驗和判斷能力的影響較大,如何準確、及時地對客戶投訴問題進行分類已成為亟需解決的問題。自然語言處理技術的出現(xiàn)使得文本的自動分類成為可能,文本建模方法和分類方法高速發(fā)展并逐步應用于實際生活,所以,對投訴文本進行分類研究有著重要的理論和實踐價值。本文首先介紹了文本預處理、文本表示方法、分類算法和集成學習的相關內容。然后對投訴文本的產生、影響以及特征進行了分析。針對投訴文本的特點,BTM能夠基于內部語料對投訴短文本進行擴展,而Doc2vec可以獲得主題模型無法獲得的語料信息,選擇BTM和Doc2vec相結合的方法對投訴文本進行表示,使得表示投訴文本的特征向量兼具詞共現(xiàn)信息、語法和語義信息,也降低了文本特征的維度,同時模型可多次更新,迭代性更強,隨著新語料集的增加,文本的特征表示越來越準確。其次在分類器方面,提出了一種結合線性核和多項式核的核函數(shù)以改進SV...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.2.1 文本表示的研究現(xiàn)狀
1.2.2 文本分類的研究現(xiàn)狀
1.2.3 集成學習及其在文本分類方面的研究現(xiàn)狀
1.3 研究內容與結構安排
1.3.1 研究內容
1.3.2 結構安排
第二章 相關理論和技術基礎
2.1 文本預處理
2.1.1 中文文本分詞
2.1.2 術語詞典構建及停用詞過濾
2.2 文本表示
2.2.1 主題模型
2.2.2 詞向量方法
2.3 文本分類
2.4 集成學習
第三章 投訴文本分析及其文本表示
3.1 投訴文本的產生及價值
3.1.1 投訴文本的產生
3.1.2 投訴文本的價值
3.2 投訴文本的分析
3.2.1 投訴文本特征分析
3.2.2 投訴文本建模的關鍵問題
3.3 投訴文本建模
3.3.1 基于BTM的文本建模
3.3.2 基于Doc2vec的文本建模
3.3.3 基于BTM和 Doc2vec的文本建模
第四章 基于改進 SVM 的投訴文本集成分類
4.1 支持向量機與多分類
4.1.1 支持向量機
4.1.2 多分類方法
4.2 采用混合核的SVM改進
4.2.1 混合核函數(shù)
4.2.2 軟間隔和懲罰值
4.3 基于改進SVM的投訴文本集成分類
4.3.1 原始輸入的構建
4.3.2 集成分類框架
4.3.3 投訴文本的分類流程
第五章 實驗研究
5.1 實驗環(huán)境
5.2 實驗數(shù)據(jù)準備及處理
5.2.1 數(shù)據(jù)準備
5.2.2 數(shù)據(jù)處理
5.3 實驗設計及評價體系
5.3.1 實驗設計
5.3.2 評價指標
5.4 實證及結果分析
5.4.1 核函數(shù)比較實驗
5.4.2 分類對比實驗
5.4.3 參數(shù)影響實驗
5.4.4 實驗結論
第六章 總結與展望
6.1 總結
6.2 工作展望
參考文獻
攻讀碩士學位期間的學術活動及成果情況
【參考文獻】:
期刊論文
[1]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計算機科學. 2018(12)
[2]集成學習方法:研究綜述[J]. 徐繼偉,楊云. 云南大學學報(自然科學版). 2018(06)
[3]基于多示例學習框架的專利文本分類方法研究[J]. 包翔,劉桂鋒,楊國立. 情報理論與實踐. 2018(11)
[4]一種結合深度學習和集成學習的情感分析模型[J]. 金志剛,韓玥,朱琦. 哈爾濱工業(yè)大學學報. 2018(11)
[5]集成學習之隨機森林算法綜述[J]. 王奕森,夏樹濤. 信息通信技術. 2018(01)
[6]CNN-ELM混合短文本分類模型[J]. 韓眾和,夏戰(zhàn)國,楊婷. 計算機應用研究. 2019(03)
[7]基于文本挖掘和自動分類的法院裁判決策支持系統(tǒng)設計[J]. 朱青,衛(wèi)柯臻,丁蘭琳,黎建強. 中國管理科學. 2018(01)
[8]基于互信息的加權樸素貝葉斯文本分類算法[J]. 武建軍,李昌兵. 計算機系統(tǒng)應用. 2017(07)
[9]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會芳,董翠翠,陳長松. 農業(yè)機械學報. 2017(10)
[10]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
碩士論文
[1]基于機器學習的文本分類研究與實現(xiàn)[D]. 王振.南京郵電大學 2018
[2]基于并行SVM算法的中文文本分類方法研究[D]. 尹旭東.吉林大學 2018
[3]基于主題模型的汽車專利文本主題挖掘與應用研究[D]. 王龍飛.合肥工業(yè)大學 2018
[4]基于主題模型的汽車評論話題演化研究[D]. 張衛(wèi)春.合肥工業(yè)大學 2017
本文編號:3505123
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.2.1 文本表示的研究現(xiàn)狀
1.2.2 文本分類的研究現(xiàn)狀
1.2.3 集成學習及其在文本分類方面的研究現(xiàn)狀
1.3 研究內容與結構安排
1.3.1 研究內容
1.3.2 結構安排
第二章 相關理論和技術基礎
2.1 文本預處理
2.1.1 中文文本分詞
2.1.2 術語詞典構建及停用詞過濾
2.2 文本表示
2.2.1 主題模型
2.2.2 詞向量方法
2.3 文本分類
2.4 集成學習
第三章 投訴文本分析及其文本表示
3.1 投訴文本的產生及價值
3.1.1 投訴文本的產生
3.1.2 投訴文本的價值
3.2 投訴文本的分析
3.2.1 投訴文本特征分析
3.2.2 投訴文本建模的關鍵問題
3.3 投訴文本建模
3.3.1 基于BTM的文本建模
3.3.2 基于Doc2vec的文本建模
3.3.3 基于BTM和 Doc2vec的文本建模
第四章 基于改進 SVM 的投訴文本集成分類
4.1 支持向量機與多分類
4.1.1 支持向量機
4.1.2 多分類方法
4.2 采用混合核的SVM改進
4.2.1 混合核函數(shù)
4.2.2 軟間隔和懲罰值
4.3 基于改進SVM的投訴文本集成分類
4.3.1 原始輸入的構建
4.3.2 集成分類框架
4.3.3 投訴文本的分類流程
第五章 實驗研究
5.1 實驗環(huán)境
5.2 實驗數(shù)據(jù)準備及處理
5.2.1 數(shù)據(jù)準備
5.2.2 數(shù)據(jù)處理
5.3 實驗設計及評價體系
5.3.1 實驗設計
5.3.2 評價指標
5.4 實證及結果分析
5.4.1 核函數(shù)比較實驗
5.4.2 分類對比實驗
5.4.3 參數(shù)影響實驗
5.4.4 實驗結論
第六章 總結與展望
6.1 總結
6.2 工作展望
參考文獻
攻讀碩士學位期間的學術活動及成果情況
【參考文獻】:
期刊論文
[1]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計算機科學. 2018(12)
[2]集成學習方法:研究綜述[J]. 徐繼偉,楊云. 云南大學學報(自然科學版). 2018(06)
[3]基于多示例學習框架的專利文本分類方法研究[J]. 包翔,劉桂鋒,楊國立. 情報理論與實踐. 2018(11)
[4]一種結合深度學習和集成學習的情感分析模型[J]. 金志剛,韓玥,朱琦. 哈爾濱工業(yè)大學學報. 2018(11)
[5]集成學習之隨機森林算法綜述[J]. 王奕森,夏樹濤. 信息通信技術. 2018(01)
[6]CNN-ELM混合短文本分類模型[J]. 韓眾和,夏戰(zhàn)國,楊婷. 計算機應用研究. 2019(03)
[7]基于文本挖掘和自動分類的法院裁判決策支持系統(tǒng)設計[J]. 朱青,衛(wèi)柯臻,丁蘭琳,黎建強. 中國管理科學. 2018(01)
[8]基于互信息的加權樸素貝葉斯文本分類算法[J]. 武建軍,李昌兵. 計算機系統(tǒng)應用. 2017(07)
[9]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會芳,董翠翠,陳長松. 農業(yè)機械學報. 2017(10)
[10]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
碩士論文
[1]基于機器學習的文本分類研究與實現(xiàn)[D]. 王振.南京郵電大學 2018
[2]基于并行SVM算法的中文文本分類方法研究[D]. 尹旭東.吉林大學 2018
[3]基于主題模型的汽車專利文本主題挖掘與應用研究[D]. 王龍飛.合肥工業(yè)大學 2018
[4]基于主題模型的汽車評論話題演化研究[D]. 張衛(wèi)春.合肥工業(yè)大學 2017
本文編號:3505123
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3505123.html
最近更新
教材專著