基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究
發(fā)布時(shí)間:2017-08-15 03:19
本文關(guān)鍵詞:基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究
更多相關(guān)文章: 可讀性預(yù)測(cè) 中文文本 線性回歸模型 特征選擇 可讀性公式
【摘要】:隨著Internet的發(fā)展,網(wǎng)絡(luò)上的信息越來越多,人們往往通過向搜索引擎提交查詢,然后搜索引擎能夠返回與用戶的查詢最相關(guān)的結(jié)果。然而人們的閱讀水平與理解能力不盡相同,如何為用戶找到適合其閱讀的網(wǎng)頁文本成為一個(gè)重要的課題,而文本的可讀性預(yù)測(cè)在這一過程中扮演著重要的角色。因此,如何準(zhǔn)確地預(yù)測(cè)文本的可讀性具有十分重要的意義。文本的可讀性預(yù)測(cè)指的是度量文本的閱讀難度,這在多個(gè)領(lǐng)域中都有應(yīng)用,如語言教育,信息檢索和文本簡(jiǎn)化。迄今為止使用最多的方法是可讀性公式,這些公式一般是基于一些簡(jiǎn)單的特征通過線性回歸模型建立的。近期的研究使用了機(jī)器學(xué)習(xí)技術(shù),并且受益于自然語言處理技術(shù)等其他領(lǐng)域的發(fā)展,一些新的復(fù)雜的特征得以被利用。這些新的可讀性預(yù)測(cè)方法表現(xiàn)出對(duì)經(jīng)典可讀性公式的優(yōu)越性。然而可讀性公式的這種表現(xiàn)很有可能是由于使用的特征有限,并且它們是基于特定的訓(xùn)練語料庫建立的。本文總結(jié)并分析了現(xiàn)有的可讀性研究成果,提出了基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法,然后通過一系列的實(shí)證研究來評(píng)估該方法的有效性。現(xiàn)將本文的主要貢獻(xiàn)概括如下:1.綜述了文本可讀性預(yù)測(cè)問題的研究進(jìn)展。首先對(duì)文本可讀性預(yù)測(cè)問題進(jìn)行了介紹,包括文本可讀性的基本概念,以及可讀性預(yù)測(cè)的問題定義。然后總結(jié)了現(xiàn)有的文本可讀性預(yù)測(cè)方法,并將其分為四類進(jìn)行了介紹,包括基于傳統(tǒng)的文本特征的可讀性公式方法、基于認(rèn)知理論的方法、基于單詞統(tǒng)計(jì)的語言模型方法和基于復(fù)雜特征與機(jī)器學(xué)習(xí)的方法。2.提出了基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法。首先對(duì)本文提出的基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的動(dòng)機(jī)進(jìn)行了介紹,接著闡述了該方法的框架,并從中文特征計(jì)算、特征選擇和線性回歸模型三個(gè)方面對(duì)該框架進(jìn)行了介紹,最后介紹了該方法的設(shè)計(jì)與實(shí)現(xiàn)。3.展開了對(duì)基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的實(shí)證研究。為了評(píng)估本文中提出的基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的有效性,我們首先提出兩個(gè)主要的研究問題。接著對(duì)實(shí)驗(yàn)用的數(shù)據(jù)集進(jìn)行介紹。然后介紹實(shí)驗(yàn)設(shè)計(jì)部分,包括實(shí)驗(yàn)設(shè)置和所使用的性能評(píng)價(jià)指標(biāo)。最后通過分析實(shí)驗(yàn)結(jié)果,驗(yàn)證本文提出方法的有效性。
【關(guān)鍵詞】:可讀性預(yù)測(cè) 中文文本 線性回歸模型 特征選擇 可讀性公式
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;O212.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第一章 緒論10-16
- 1.1 背景和意義10-12
- 1.2 可讀性研究的發(fā)展歷史12-14
- 1.3 本文的主要工作14-15
- 1.4 本文的組織結(jié)構(gòu)15-16
- 第二章 文本可讀性預(yù)測(cè)問題的介紹16-32
- 2.1 文本可讀性預(yù)測(cè)的概述16
- 2.2 現(xiàn)有可讀性預(yù)測(cè)研究方法的總結(jié)16-28
- 2.2.1 基于傳統(tǒng)的文本特征的可讀性公式方法17-19
- 2.2.2 基于認(rèn)知理論的方法19-23
- 2.2.3 基于單詞統(tǒng)計(jì)的語言模型方法23-25
- 2.2.4 基于復(fù)雜特征與機(jī)器學(xué)習(xí)的方法25-28
- 2.3 特征選擇28-30
- 2.4 本章小結(jié)30-32
- 第三章 基于線性回歸模型與特征選擇的可讀性預(yù)測(cè)方法32-46
- 3.1 方法的動(dòng)機(jī)32-33
- 3.2 方法的框架33
- 3.3 中文特征計(jì)算33-38
- 3.3.1 數(shù)據(jù)預(yù)處理34
- 3.3.2 分詞和詞性標(biāo)注34-35
- 3.3.3 語法分析35
- 3.3.4 計(jì)算得到的中文可讀性特征35-38
- 3.4 特征選擇38-41
- 3.4.1 基于排序的特征選擇38-40
- 3.4.2 考慮冗余的特征選擇40-41
- 3.4.3 考慮組合特征的特征選擇41
- 3.5 線性回歸模型41-42
- 3.6 方法的設(shè)計(jì)與實(shí)現(xiàn)42-44
- 3.6.1 方法的設(shè)計(jì)42-43
- 3.6.2 方法的實(shí)現(xiàn)43-44
- 3.7 本章小結(jié)44-46
- 第四章 實(shí)證研究46-60
- 4.1 研究問題46
- 4.2 數(shù)據(jù)集46-47
- 4.3 實(shí)驗(yàn)設(shè)計(jì)47-48
- 4.3.1 實(shí)驗(yàn)設(shè)置47-48
- 4.3.2 評(píng)價(jià)指標(biāo)48
- 4.4 實(shí)驗(yàn)結(jié)果分析48-58
- 4.4.1 基于設(shè)計(jì)特征的線性回歸模型vs SVR49-52
- 4.4.2 基于線性回歸與特征選擇的中文文本可讀性預(yù)測(cè)方法的研究52-58
- 4.5 本章小結(jié)58-60
- 第五章 總結(jié)與展望60-64
- 5.1 總結(jié)60-61
- 5.2 展望61-64
- 致謝64-66
- 參考文獻(xiàn)66-72
- 攻讀碩士學(xué)位期間發(fā)表論文及參與項(xiàng)目情況72-73
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前2條
1 黃敏;;漢語特質(zhì)與中文新聞易讀性公式研究[J];新聞與傳播研究;2010年04期
2 王蕾;;可讀性公式的內(nèi)涵及研究范式——兼議對(duì)外漢語可讀性公式的研究任務(wù)[J];語言教學(xué)與研究;2008年06期
,本文編號(hào):676018
本文鏈接:http://sikaile.net/kejilunwen/yysx/676018.html
最近更新
教材專著