中文現(xiàn)代小說的作者識別研究
發(fā)布時(shí)間:2021-10-08 12:32
中文現(xiàn)代小說的作者識別實(shí)際上一種文本分類問題,即根據(jù)作者寫作風(fēng)格進(jìn)行分類,從而識別出未知作品所歸屬的作者。筆者選擇基于五四運(yùn)動時(shí)期的現(xiàn)代小說作為研究對象,是因?yàn)槲逅臅r(shí)期作品的時(shí)代跨度小,作者筆鋒相近,通過對作者文風(fēng)相近的文章進(jìn)行分類,可以達(dá)到文本分類中按照作者進(jìn)行分類的最好效果。文本分類的主要流程是獲取數(shù)據(jù)、文本預(yù)處理、特征提取、設(shè)計(jì)程序模型、使用程序模型、預(yù)測結(jié)果。筆者所做的工作如下:首先是獲取數(shù)據(jù),使用爬蟲技術(shù)從網(wǎng)絡(luò)爬取數(shù)據(jù),本文項(xiàng)目語言選擇Python,使用Scrapy框架爬取數(shù)據(jù)。筆者選擇7名作者共164篇文章,并按照8:2的比率分成訓(xùn)練集和測試集。文本預(yù)處理部分包括數(shù)據(jù)清洗、分詞、文本表示等。從網(wǎng)絡(luò)爬取的數(shù)據(jù)包含很多Html語句和空行等,首先清除掉;之后利用Jieba分詞工具進(jìn)行中文分詞處理,分詞后的文本中包含16萬個(gè)詞匯,屬于非結(jié)構(gòu)化的自然語言,想要機(jī)器可以識別,需要表示成結(jié)構(gòu)化的機(jī)器語言,即文本表示;文本表示出筆者使用詞袋模型,把所有詞語表示成機(jī)器可以識別的數(shù)字語言,比如139863、52411等。為了達(dá)到文本分類的更好效果,筆者使用TFIDF進(jìn)行特征提取。根據(jù)本文按照作...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:44 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究領(lǐng)域
1.2 研究背景及意義
1.3 國內(nèi)外研究現(xiàn)狀
1.4 課題論文結(jié)構(gòu)
2 作者識別系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)功能設(shè)計(jì)
2.2 系統(tǒng)功能改進(jìn)點(diǎn)
2.3 軟件環(huán)境
2.4 項(xiàng)目布局
2.5 本章小結(jié)
3 作者識別系統(tǒng)實(shí)現(xiàn)
3.1 獲取數(shù)據(jù)
3.2 文本預(yù)處理
3.2.1 中文分詞
3.2.2 文本表示
3.3 特征提取
3.3.1 TFIDF基本原理
3.3.2 TFIDF改進(jìn)
3.4 生成分類模型
3.5 本章小節(jié)
4 作者識別系統(tǒng)優(yōu)化
4.1 模型參數(shù)調(diào)優(yōu)
4.1.1 樸素貝葉斯
4.1.2 支持向量機(jī)
4.1.3 邏輯回歸
4.1.4 K近鄰
4.1.5 隨機(jī)森林
4.1.6 神經(jīng)網(wǎng)絡(luò)
4.1.7 參數(shù)調(diào)優(yōu)后結(jié)果
4.2 調(diào)整TFIDF值
4.3 本章小節(jié)
5 作者識別系統(tǒng)測試
5.1 變換數(shù)據(jù)集測試
5.2 進(jìn)一步工作
5.2.1 作者寫作風(fēng)格相似度量化
5.2.2 對未知作者按寫作風(fēng)格分類判定
5.3 本章小節(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
碩士論文
[1]中文作者識別方法研究[D]. 萬晶.湖南大學(xué) 2012
[2]基于圖結(jié)構(gòu)的中文文本聚類方法研究[D]. 劉巧鳳.大連理工大學(xué) 2009
[3]漢語文本作者識別方法的研究與實(shí)現(xiàn)[D]. 張劍.上海交通大學(xué) 2007
本文編號:3424167
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:44 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究領(lǐng)域
1.2 研究背景及意義
1.3 國內(nèi)外研究現(xiàn)狀
1.4 課題論文結(jié)構(gòu)
2 作者識別系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)功能設(shè)計(jì)
2.2 系統(tǒng)功能改進(jìn)點(diǎn)
2.3 軟件環(huán)境
2.4 項(xiàng)目布局
2.5 本章小結(jié)
3 作者識別系統(tǒng)實(shí)現(xiàn)
3.1 獲取數(shù)據(jù)
3.2 文本預(yù)處理
3.2.1 中文分詞
3.2.2 文本表示
3.3 特征提取
3.3.1 TFIDF基本原理
3.3.2 TFIDF改進(jìn)
3.4 生成分類模型
3.5 本章小節(jié)
4 作者識別系統(tǒng)優(yōu)化
4.1 模型參數(shù)調(diào)優(yōu)
4.1.1 樸素貝葉斯
4.1.2 支持向量機(jī)
4.1.3 邏輯回歸
4.1.4 K近鄰
4.1.5 隨機(jī)森林
4.1.6 神經(jīng)網(wǎng)絡(luò)
4.1.7 參數(shù)調(diào)優(yōu)后結(jié)果
4.2 調(diào)整TFIDF值
4.3 本章小節(jié)
5 作者識別系統(tǒng)測試
5.1 變換數(shù)據(jù)集測試
5.2 進(jìn)一步工作
5.2.1 作者寫作風(fēng)格相似度量化
5.2.2 對未知作者按寫作風(fēng)格分類判定
5.3 本章小節(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
碩士論文
[1]中文作者識別方法研究[D]. 萬晶.湖南大學(xué) 2012
[2]基于圖結(jié)構(gòu)的中文文本聚類方法研究[D]. 劉巧鳳.大連理工大學(xué) 2009
[3]漢語文本作者識別方法的研究與實(shí)現(xiàn)[D]. 張劍.上海交通大學(xué) 2007
本文編號:3424167
本文鏈接:http://sikaile.net/gudaiwenxuelunwen/3424167.html
教材專著