基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究

發(fā)布時(shí)間：2017-08-15 03:19

本文關(guān)鍵詞：基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究

【摘要】：隨著Internet的發(fā)展,網(wǎng)絡(luò)上的信息越來越多,人們往往通過向搜索引擎提交查詢,然后搜索引擎能夠返回與用戶的查詢最相關(guān)的結(jié)果。然而人們的閱讀水平與理解能力不盡相同,如何為用戶找到適合其閱讀的網(wǎng)頁文本成為一個(gè)重要的課題,而文本的可讀性預(yù)測(cè)在這一過程中扮演著重要的角色。因此,如何準(zhǔn)確地預(yù)測(cè)文本的可讀性具有十分重要的意義。文本的可讀性預(yù)測(cè)指的是度量文本的閱讀難度,這在多個(gè)領(lǐng)域中都有應(yīng)用,如語言教育,信息檢索和文本簡(jiǎn)化。迄今為止使用最多的方法是可讀性公式,這些公式一般是基于一些簡(jiǎn)單的特征通過線性回歸模型建立的。近期的研究使用了機(jī)器學(xué)習(xí)技術(shù),并且受益于自然語言處理技術(shù)等其他領(lǐng)域的發(fā)展,一些新的復(fù)雜的特征得以被利用。這些新的可讀性預(yù)測(cè)方法表現(xiàn)出對(duì)經(jīng)典可讀性公式的優(yōu)越性。然而可讀性公式的這種表現(xiàn)很有可能是由于使用的特征有限,并且它們是基于特定的訓(xùn)練語料庫建立的。本文總結(jié)并分析了現(xiàn)有的可讀性研究成果,提出了基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法,然后通過一系列的實(shí)證研究來評(píng)估該方法的有效性。現(xiàn)將本文的主要貢獻(xiàn)概括如下：1.綜述了文本可讀性預(yù)測(cè)問題的研究進(jìn)展。首先對(duì)文本可讀性預(yù)測(cè)問題進(jìn)行了介紹,包括文本可讀性的基本概念,以及可讀性預(yù)測(cè)的問題定義。然后總結(jié)了現(xiàn)有的文本可讀性預(yù)測(cè)方法,并將其分為四類進(jìn)行了介紹,包括基于傳統(tǒng)的文本特征的可讀性公式方法、基于認(rèn)知理論的方法、基于單詞統(tǒng)計(jì)的語言模型方法和基于復(fù)雜特征與機(jī)器學(xué)習(xí)的方法。2.提出了基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法。首先對(duì)本文提出的基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的動(dòng)機(jī)進(jìn)行了介紹,接著闡述了該方法的框架,并從中文特征計(jì)算、特征選擇和線性回歸模型三個(gè)方面對(duì)該框架進(jìn)行了介紹,最后介紹了該方法的設(shè)計(jì)與實(shí)現(xiàn)。3.展開了對(duì)基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的實(shí)證研究。為了評(píng)估本文中提出的基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的有效性,我們首先提出兩個(gè)主要的研究問題。接著對(duì)實(shí)驗(yàn)用的數(shù)據(jù)集進(jìn)行介紹。然后介紹實(shí)驗(yàn)設(shè)計(jì)部分,包括實(shí)驗(yàn)設(shè)置和所使用的性能評(píng)價(jià)指標(biāo)。最后通過分析實(shí)驗(yàn)結(jié)果,驗(yàn)證本文提出方法的有效性。
【關(guān)鍵詞】：可讀性預(yù)測(cè) 中文文本 線性回歸模型 特征選擇 可讀性公式
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP391.1;O212.1
【目錄】：

摘要4-6
Abstract6-10
第一章緒論10-16
1.1 背景和意義10-12
1.2 可讀性研究的發(fā)展歷史12-14
1.3 本文的主要工作14-15
1.4 本文的組織結(jié)構(gòu)15-16
第二章文本可讀性預(yù)測(cè)問題的介紹16-32
2.1 文本可讀性預(yù)測(cè)的概述16
2.2 現(xiàn)有可讀性預(yù)測(cè)研究方法的總結(jié)16-28
2.2.1 基于傳統(tǒng)的文本特征的可讀性公式方法17-19
2.2.2 基于認(rèn)知理論的方法19-23
2.2.3 基于單詞統(tǒng)計(jì)的語言模型方法23-25
2.2.4 基于復(fù)雜特征與機(jī)器學(xué)習(xí)的方法25-28
2.3 特征選擇28-30
2.4 本章小結(jié)30-32
第三章基于線性回歸模型與特征選擇的可讀性預(yù)測(cè)方法32-46
3.1 方法的動(dòng)機(jī)32-33
3.2 方法的框架33
3.3 中文特征計(jì)算33-38
3.3.1 數(shù)據(jù)預(yù)處理34
3.3.2 分詞和詞性標(biāo)注34-35
3.3.3 語法分析35
3.3.4 計(jì)算得到的中文可讀性特征35-38
3.4 特征選擇38-41
3.4.1 基于排序的特征選擇38-40
3.4.2 考慮冗余的特征選擇40-41
3.4.3 考慮組合特征的特征選擇41
3.5 線性回歸模型41-42
3.6 方法的設(shè)計(jì)與實(shí)現(xiàn)42-44
3.6.1 方法的設(shè)計(jì)42-43
3.6.2 方法的實(shí)現(xiàn)43-44
3.7 本章小結(jié)44-46
第四章實(shí)證研究46-60
4.1 研究問題46
4.2 數(shù)據(jù)集46-47
4.3 實(shí)驗(yàn)設(shè)計(jì)47-48
4.3.1 實(shí)驗(yàn)設(shè)置47-48
4.3.2 評(píng)價(jià)指標(biāo)48
4.4 實(shí)驗(yàn)結(jié)果分析48-58
4.4.1 基于設(shè)計(jì)特征的線性回歸模型vs SVR49-52
4.4.2 基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的研究52-58
4.5 本章小結(jié)58-60
第五章總結(jié)與展望60-64
5.1 總結(jié)60-61
5.2 展望61-64
致謝64-66
參考文獻(xiàn)66-72
攻讀碩士學(xué)位期間發(fā)表論文及參與項(xiàng)目情況72-73

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫前2條

1 黃敏;;漢語特質(zhì)與中文新聞易讀性公式研究[J];新聞與傳播研究;2010年04期

2 王蕾;;可讀性公式的內(nèi)涵及研究范式——兼議對(duì)外漢語可讀性公式的研究任務(wù)[J];語言教學(xué)與研究;2008年06期

，

本文編號(hào)：676018

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/yysx/676018.html

上一篇：基于演化算子的幾類多項(xiàng)式漸近行為的研究
下一篇：狀態(tài)飽和系統(tǒng)的H_∞控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究