基于監(jiān)督學習的寫作風格建模方法研究
本文關(guān)鍵詞:基于監(jiān)督學習的寫作風格建模方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著移動互聯(lián)網(wǎng)技術(shù)快速發(fā)展,人類依賴計算機從事的工作越來越多,也越需要計算機能夠智能地理解和處理海量的自然語言信息。在自然語言處理中,個人言語、作品風格分析是計算語言學的經(jīng)典的研究工作,也是難以得到突破的研究。寫作風格是一個主觀性的描述,目前還沒有一個嚴謹?shù)臄?shù)學模型能夠表達寫作風格。本課題的研究思路是結(jié)合語言學對寫作風格定義和可計算方式,用形式化的數(shù)學模型表達,然后機器學習的方法進行實驗佐證,通過實驗反過來修改理論,最終得到一個比較嚴謹?shù)臄?shù)學表達。從這個研究思路出發(fā),本課題首先查閱國內(nèi)外文獻,結(jié)合前人工作與風格理論,用數(shù)學符號形式定義了文章的寫作風格,并擴展如何用機器學習算法學習寫作風格的定義。定義寫作風格模型后,提出了整體總體的建模方案,而且針對建模過程中的關(guān)鍵問題,本課題進行展開詳細說明。為了驗證模型和建模的有效性,本課題展開了寫作風格特征提取分析、刻畫以及識別研究。在寫作風格特征提取刻畫研究中,提出了聚類分析來自動提取風格特征,然后使用四分位差統(tǒng)計法來刻畫寫作風格,最后的實驗結(jié)果驗證了寫作風格的定義。在寫作風格識別中,使用了支持向量機算法來建立寫作風格分類器,實驗結(jié)果證明特征并不是越多越好,經(jīng)過自動提取優(yōu)化的特征集會提升識別準確。為了對比及改善支持向量機算法,提出了兩種基于集成學習算法的寫作風格識別方法,實驗結(jié)果證明提出的兩種方法可以提高識別的準確率。
【關(guān)鍵詞】:計算機語言 機器學習 寫作風格 模型 監(jiān)督學習
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP18
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-19
- 1.1 引言12
- 1.2 研究背景和意義12-13
- 1.2.1 研究背景12-13
- 1.2.2 研究意義13
- 1.3 “寫作風格”描述定義13-14
- 1.4 國內(nèi)外研究現(xiàn)狀14-16
- 1.5 研究工作16-17
- 1.5.1 問題綜述16-17
- 1.5.2 主要工作17
- 1.6 本文內(nèi)容與結(jié)構(gòu)17-19
- 第2章 寫作風格建模19-38
- 2.1 引言19
- 2.2 寫作風格模型定義19-24
- 2.2.1 寫作風格模型定義19-21
- 2.2.2 寫作風格建模總體方案21-24
- 2.3 特征提取選擇24-34
- 2.3.1 特征提取25-32
- 2.3.2 特征選擇32-34
- 2.4 模型訓練和評估34-37
- 2.4.1 學習訓練34-36
- 2.4.2 測試和評價36-37
- 2.5 本章小結(jié)37-38
- 第3章 寫作風格刻畫與識別38-60
- 3.1 引言38
- 3.2 基于聚類分析的寫作風格刻畫38-42
- 3.2.1 聚類分析38-39
- 3.2.2 寫作風格刻畫39-42
- 3.3 基于支持向量機的寫作風格識別42-49
- 3.3.1 線性支持向量機42-43
- 3.3.2 多類支持向量機分類43-44
- 3.3.3 支持向量機的寫作分類器訓練44-48
- 3.3.4 性能評估48-49
- 3.4 實驗設(shè)計及分析49-59
- 3.4.1 實驗環(huán)境49-50
- 3.4.2 寫作風格特征提取和刻畫50-56
- 3.4.3 SVM算法的寫作風格識別56-59
- 3.5 本章小結(jié)59-60
- 第4章 基于集成學習的寫作風格識別60-75
- 4.1 引言60-61
- 4.2 基于SVM-KNN組合算法的寫作風格識別61-65
- 4.2.1 鄰近算法61-62
- 4.2.2 SVM-KNN組合算法62-63
- 4.2.3 基于SVM-KNN算法的分類器訓練63-65
- 4.3 基于元學習策略的層疊泛化方法的寫作風格識別65-70
- 4.3.1 相關(guān)的監(jiān)督學習算法理論65-67
- 4.3.2 元學習策略的疊層泛化模型67-69
- 4.3.3 基于多元線性回歸的的元分類器訓練69-70
- 4.4 實驗設(shè)計及分析70-73
- 4.4.1 實驗環(huán)境70-71
- 4.4.2 實驗設(shè)計71-72
- 4.4.3 不同學習算法訓練的分類器性能對比72-73
- 4.5 本章小結(jié)73-75
- 第5章 總結(jié)與展望75-77
- 5.1 課題總結(jié)75-76
- 5.1.1 研究結(jié)論75-76
- 5.1.2 研究不足點76
- 5.2 研究展望76-77
- 參考文獻77-80
- 致謝80-81
- 附錄Ⅰ 詞性標注表81-83
- 附錄Ⅱ 實驗數(shù)據(jù)輸入的數(shù)據(jù)格式83
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 鄭保衛(wèi);風格即其人——試論馬克思和恩格斯的寫作風格與人格特征[J];新聞與寫作;1995年12期
2 張景勇;怎樣寫活經(jīng)濟報道──淺談?wù)矅鴺薪?jīng)濟報道的寫作風格[J];新聞與寫作;1999年01期
3 ;參賽要求[J];電腦愛好者;1998年20期
4 李翩影;;都市報深度報道現(xiàn)狀研究——以《南方都市報》為例[J];新聞世界;2014年07期
5 蔡華東;再談新聞寫作風格[J];新聞前哨;2002年11期
6 張凱;張明允;;基于SVM的《紅樓夢》寫作風格研究[J];貴陽學院學報(自然科學版);2011年01期
7 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 孫曉明;馬少平;;基于寫作風格的作者識別[A];輝煌二十年——中國中文信息學會二十周年學術(shù)會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 豐縣李寨初級中學 張業(yè)永;閱讀興趣對寫作風格的影響[N];江蘇教育報;2010年
2 郭增彬;編輯應(yīng)尊重作者的寫作風格[N];中華新聞報;2004年
3 賀安敬;做一個聰明的失敗者[N];中國石油報;2002年
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 陳得福;基于監(jiān)督學習的寫作風格建模方法研究[D];浙江大學;2016年
2 朱牧;基于寫作風格特征的論文剽竊檢查優(yōu)化方法研究[D];復旦大學;2011年
本文關(guān)鍵詞:基于監(jiān)督學習的寫作風格建模方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:362141
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/362141.html