HSK作文切題指標(biāo)的計量研究
發(fā)布時間:2022-05-05 19:44
HSK是來華留學(xué)生所需要參加的漢語水平考試,當(dāng)前對HSK作文評分自動化的需求逐步上升,而在作文自動評分中,切題指標(biāo)是影響分?jǐn)?shù)的重要指標(biāo)。切題指標(biāo)用來描述作者寫作的文章與題目所設(shè)定主題的相符程度;贖SK作文數(shù)據(jù)集進(jìn)行研究,通過提取文章的關(guān)鍵詞,計算其與對應(yīng)題目詞的相似度來得到這一指標(biāo)。將4種文章關(guān)鍵詞提取方法 (LDA、TextRank、TF-IDF和H-point)和兩種相似度計算方法 (基于Word2vec的詞向量法和基于JS散度的主題分布相似性法)組合得出8種計算切題指標(biāo)分?jǐn)?shù)的方法,并通過切題指標(biāo)分?jǐn)?shù)與文章總分的相關(guān)系數(shù)來評估方法的合理性。實(shí)驗(yàn)結(jié)果表明,在這8種方法中,TextRank+主題分布相似性法計算出來的切題指標(biāo)分?jǐn)?shù)與實(shí)際總分的相關(guān)系數(shù)表現(xiàn)最佳,得出的切題指標(biāo)分?jǐn)?shù)最為合理。
【文章頁數(shù)】:3 頁
【文章目錄】:
1 概述
2 相關(guān)技術(shù)與定義
2.1 關(guān)鍵詞提取方法[1]
2.1.1 TextRank
2.1.2 TF-IDF
2.1.3 LDA[2]
2.1.4 H-point
2.2 相似性計算方法
2.2.1 詞向量法[3]
2.2.2 主題分布相似性法[4]
2.3 評估方法———相關(guān)系數(shù)法
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集
3.2 LDA模型訓(xùn)練
3.3 實(shí)驗(yàn)設(shè)計
3.4 實(shí)驗(yàn)結(jié)果
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強(qiáng),崔榮一,趙亞慧. 計算機(jī)應(yīng)用研究. 2019(02)
[2]LDA主題模型[J]. 鄒曉輝,孫靜. 智能計算機(jī)與應(yīng)用. 2014(05)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機(jī)科學(xué). 2013(12)
[4]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機(jī)學(xué)報. 2008(10)
碩士論文
[1]中文關(guān)鍵詞提取技術(shù)[D]. 梁偉明.上海交通大學(xué) 2010
本文編號:3650892
【文章頁數(shù)】:3 頁
【文章目錄】:
1 概述
2 相關(guān)技術(shù)與定義
2.1 關(guān)鍵詞提取方法[1]
2.1.1 TextRank
2.1.2 TF-IDF
2.1.3 LDA[2]
2.1.4 H-point
2.2 相似性計算方法
2.2.1 詞向量法[3]
2.2.2 主題分布相似性法[4]
2.3 評估方法———相關(guān)系數(shù)法
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集
3.2 LDA模型訓(xùn)練
3.3 實(shí)驗(yàn)設(shè)計
3.4 實(shí)驗(yàn)結(jié)果
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強(qiáng),崔榮一,趙亞慧. 計算機(jī)應(yīng)用研究. 2019(02)
[2]LDA主題模型[J]. 鄒曉輝,孫靜. 智能計算機(jī)與應(yīng)用. 2014(05)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機(jī)科學(xué). 2013(12)
[4]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機(jī)學(xué)報. 2008(10)
碩士論文
[1]中文關(guān)鍵詞提取技術(shù)[D]. 梁偉明.上海交通大學(xué) 2010
本文編號:3650892
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3650892.html
最近更新
教材專著