基于SVM的中職學(xué)生作文評分系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-10-07 06:01
結(jié)合機器學(xué)習(xí)和文本分類技術(shù),研究了基于支持向量機(SVM)的中等職業(yè)學(xué)校作文評分系統(tǒng)。使用爬蟲技術(shù)大規(guī)模爬取中職學(xué)生作文集作為訓(xùn)練和測試集,進行中文分詞、去除停用詞和TF-IDF算法特征向量化,閾值過濾低價值詞語,降低SVM算法的復(fù)雜度,將訓(xùn)練集的特征向量和標(biāo)記數(shù)據(jù)輸入SVM多分類模型進行訓(xùn)練,選取最優(yōu)作文分類模型。分類模型來預(yù)測或判斷未知級別的學(xué)生作文,給出相應(yīng)評分等級。實驗結(jié)果表明,該系統(tǒng)能夠有效地分類作文等級,具有一定推廣應(yīng)用價值。
【文章來源】:信息技術(shù). 2020,44(06)
【文章頁數(shù)】:5 頁
【部分圖文】:
SVM分類原理圖
由以上的分析可知,SVM被提出是用于解決二元分類問題,但實際的分類問題傾向于多分類應(yīng)用[9]。多分類問題,通常是指多類分類器由多種支持向量的兩種分類組成。在實際的應(yīng)用過程中,將SVM應(yīng)用于多分類問題主要有兩種方法,第一種是基于兩種支持向量機分類器擴展多分類支持向量機分類器,另一種方法是將更多分類問題逐步減少到兩種類別。后者可分為一對多(1-v-r SVMs)和一對一(1-v-1 SVMs)的方法,它們的區(qū)別在于:一對一法采用在任意兩類樣本之間構(gòu)造一個SVM分類器,如果訓(xùn)練樣本中存在k個類別,則需要構(gòu)造k(k-1)/2個SVM分類器,對于輸入的測試樣本,計算出來的該樣本所屬最大概率的類別即為該測試樣本的分類;一對多法只需要對于k個類別的樣本數(shù)據(jù)構(gòu)造出k個SVM分類器,初始情況下將某類樣本歸為一類,剩下的樣本為另一類,然后再對另一類樣本進行二分類操作,直至達到k個類別為止,對于輸入的測試樣本,具有最大分類概率值的類別即為該測試樣本的類別[10]。在實驗過程中,本文采用的是一對多法,如圖2所示,即將所有樣本視為一個完整的二分法問題,并且根據(jù)爬行標(biāo)簽“cp_rating rating4”將爬取的數(shù)據(jù)分為三類——“優(yōu)秀”,“良好”,“差”,初始狀態(tài)下將訓(xùn)練集樣本分為一類,然后就可以按照分層的方法構(gòu)造三個SVM分類器,分別對應(yīng)“優(yōu)秀”、“良好”和“差”三個不同的類別,評估模型的效果,從中選取最好的訓(xùn)練模型。待模型訓(xùn)練穩(wěn)定后,就可以用驗證集進行驗證,對預(yù)測集進行分類[11]。
實驗中采用的Python提供的SVM分類類庫Scikit-Learn作為實現(xiàn)SVM的工具。通過3.2節(jié)的運算,可以將每篇文章的特征提取出來,表示成一個列表,使用多分類的SVM算法訓(xùn)練模型,并使用該模型來預(yù)測測試集或作文,將文章特征值列表與其對應(yīng)的評級值進行匹配;赟VM的中職學(xué)生作文評分系統(tǒng)的整體流程圖,如圖3所示。本文設(shè)計的作文評分系統(tǒng)采用C/S架構(gòu)進行開發(fā),使用pyqt5進行前端界面的編寫。用戶可以注冊、登錄本系統(tǒng),在用戶登錄成功后,系統(tǒng)界面提供了兩種功能,一種是組合視圖,另一種是組成等級,組成視圖可以使用戶能夠查看數(shù)據(jù)庫中的訓(xùn)練集學(xué)生作文,提取的特征和評分結(jié)果。組成等級功能允許用戶自己輸入或直接導(dǎo)入學(xué)生作文,使用評分分類模型,得到對學(xué)生作文的評價,作為輔助教師人員評判作文的一個參考。
【參考文獻】:
期刊論文
[1]基于支持向量機的語音情感識別算法研究[J]. 劉明珠,李曉琴,陳洪恒. 哈爾濱理工大學(xué)學(xué)報. 2019(04)
[2]改進SVM分類和稀疏表示的圖像混合去噪算法[J]. 趙蒙娜,李東興,趙宗超,蔡亞南,吳秀東. 小型微型計算機系統(tǒng). 2019(07)
[3]機器學(xué)習(xí)方法在儲層分類中的應(yīng)用[J]. 干磊,何東博,郭建林,孟凡坤. 數(shù)學(xué)的實踐與認識. 2019(13)
[4]基于SVM與DOM重心半徑模型的Web正文提取[J]. 易國洪,代瑜,馮智莉,黎慧源. 計算機工程. 2019(06)
[5]基于EMD和LSSVM組合模型的交通流量預(yù)測[J]. 連義平. 電子設(shè)計工程. 2019(11)
[6]基于支持向量機模型的復(fù)雜非線性系統(tǒng)試驗不確定度評定方法[J]. 朱大業(yè),丁曉紅,王神龍,王海華,余慧杰. 機械工程學(xué)報. 2018(08)
[7]基于模糊二范數(shù)二次曲面支持向量機的信用評分研究[J]. 何楊,李洪心. 統(tǒng)計與決策. 2018(05)
碩士論文
[1]基于多核學(xué)習(xí)的支持向量機方法研究[D]. 張嬌陽.北京建筑大學(xué) 2019
[2]基于改進SVM算法的大規(guī)模中文網(wǎng)站分類系統(tǒng)實現(xiàn)[D]. 張?zhí)熹?北京郵電大學(xué) 2019
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的綠色信貸信用評價研究[D]. 唐亦瑋.上海師范大學(xué) 2019
[4]基于支持向量機的并行文本分類方法研究[D]. 馮占芳.遼寧工業(yè)大學(xué) 2019
[5]基于SVD與SVM混合推薦的電影推薦系統(tǒng)的研究[D]. 薄慧麗.太原理工大學(xué) 2017
本文編號:3421489
【文章來源】:信息技術(shù). 2020,44(06)
【文章頁數(shù)】:5 頁
【部分圖文】:
SVM分類原理圖
由以上的分析可知,SVM被提出是用于解決二元分類問題,但實際的分類問題傾向于多分類應(yīng)用[9]。多分類問題,通常是指多類分類器由多種支持向量的兩種分類組成。在實際的應(yīng)用過程中,將SVM應(yīng)用于多分類問題主要有兩種方法,第一種是基于兩種支持向量機分類器擴展多分類支持向量機分類器,另一種方法是將更多分類問題逐步減少到兩種類別。后者可分為一對多(1-v-r SVMs)和一對一(1-v-1 SVMs)的方法,它們的區(qū)別在于:一對一法采用在任意兩類樣本之間構(gòu)造一個SVM分類器,如果訓(xùn)練樣本中存在k個類別,則需要構(gòu)造k(k-1)/2個SVM分類器,對于輸入的測試樣本,計算出來的該樣本所屬最大概率的類別即為該測試樣本的分類;一對多法只需要對于k個類別的樣本數(shù)據(jù)構(gòu)造出k個SVM分類器,初始情況下將某類樣本歸為一類,剩下的樣本為另一類,然后再對另一類樣本進行二分類操作,直至達到k個類別為止,對于輸入的測試樣本,具有最大分類概率值的類別即為該測試樣本的類別[10]。在實驗過程中,本文采用的是一對多法,如圖2所示,即將所有樣本視為一個完整的二分法問題,并且根據(jù)爬行標(biāo)簽“cp_rating rating4”將爬取的數(shù)據(jù)分為三類——“優(yōu)秀”,“良好”,“差”,初始狀態(tài)下將訓(xùn)練集樣本分為一類,然后就可以按照分層的方法構(gòu)造三個SVM分類器,分別對應(yīng)“優(yōu)秀”、“良好”和“差”三個不同的類別,評估模型的效果,從中選取最好的訓(xùn)練模型。待模型訓(xùn)練穩(wěn)定后,就可以用驗證集進行驗證,對預(yù)測集進行分類[11]。
實驗中采用的Python提供的SVM分類類庫Scikit-Learn作為實現(xiàn)SVM的工具。通過3.2節(jié)的運算,可以將每篇文章的特征提取出來,表示成一個列表,使用多分類的SVM算法訓(xùn)練模型,并使用該模型來預(yù)測測試集或作文,將文章特征值列表與其對應(yīng)的評級值進行匹配;赟VM的中職學(xué)生作文評分系統(tǒng)的整體流程圖,如圖3所示。本文設(shè)計的作文評分系統(tǒng)采用C/S架構(gòu)進行開發(fā),使用pyqt5進行前端界面的編寫。用戶可以注冊、登錄本系統(tǒng),在用戶登錄成功后,系統(tǒng)界面提供了兩種功能,一種是組合視圖,另一種是組成等級,組成視圖可以使用戶能夠查看數(shù)據(jù)庫中的訓(xùn)練集學(xué)生作文,提取的特征和評分結(jié)果。組成等級功能允許用戶自己輸入或直接導(dǎo)入學(xué)生作文,使用評分分類模型,得到對學(xué)生作文的評價,作為輔助教師人員評判作文的一個參考。
【參考文獻】:
期刊論文
[1]基于支持向量機的語音情感識別算法研究[J]. 劉明珠,李曉琴,陳洪恒. 哈爾濱理工大學(xué)學(xué)報. 2019(04)
[2]改進SVM分類和稀疏表示的圖像混合去噪算法[J]. 趙蒙娜,李東興,趙宗超,蔡亞南,吳秀東. 小型微型計算機系統(tǒng). 2019(07)
[3]機器學(xué)習(xí)方法在儲層分類中的應(yīng)用[J]. 干磊,何東博,郭建林,孟凡坤. 數(shù)學(xué)的實踐與認識. 2019(13)
[4]基于SVM與DOM重心半徑模型的Web正文提取[J]. 易國洪,代瑜,馮智莉,黎慧源. 計算機工程. 2019(06)
[5]基于EMD和LSSVM組合模型的交通流量預(yù)測[J]. 連義平. 電子設(shè)計工程. 2019(11)
[6]基于支持向量機模型的復(fù)雜非線性系統(tǒng)試驗不確定度評定方法[J]. 朱大業(yè),丁曉紅,王神龍,王海華,余慧杰. 機械工程學(xué)報. 2018(08)
[7]基于模糊二范數(shù)二次曲面支持向量機的信用評分研究[J]. 何楊,李洪心. 統(tǒng)計與決策. 2018(05)
碩士論文
[1]基于多核學(xué)習(xí)的支持向量機方法研究[D]. 張嬌陽.北京建筑大學(xué) 2019
[2]基于改進SVM算法的大規(guī)模中文網(wǎng)站分類系統(tǒng)實現(xiàn)[D]. 張?zhí)熹?北京郵電大學(xué) 2019
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的綠色信貸信用評價研究[D]. 唐亦瑋.上海師范大學(xué) 2019
[4]基于支持向量機的并行文本分類方法研究[D]. 馮占芳.遼寧工業(yè)大學(xué) 2019
[5]基于SVD與SVM混合推薦的電影推薦系統(tǒng)的研究[D]. 薄慧麗.太原理工大學(xué) 2017
本文編號:3421489
本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/3421489.html
最近更新
教材專著