漢語文本可讀性特征體系構(gòu)建和效度驗證
發(fā)布時間:2023-05-20 09:34
本文研究如何利用漢語文本的語言特征對文本的可讀性進行分析。首先從漢字、詞匯、句法和篇章四個層面出發(fā),構(gòu)建了一個預(yù)測漢語文本可讀性的多層面、多維度特征體系,該特征體系包含13個維度共104項指標。然后以12個年級的語文教材語料庫為基礎(chǔ),通過建立機器學習模型考察不同層面、不同維度語言特征的預(yù)測能力。實驗結(jié)果顯示:漢字、詞匯、句法和篇章四個層面中,基于詞匯層面特征的模型準確率最高,基于篇章層面特征的模型準確率最低;13個維度中,預(yù)測準確率最高的前5個維度依次為漢字熟悉度、漢字多樣性、詞匯多樣性、短語句法結(jié)構(gòu)復雜度和詞匯熟悉度。我們還發(fā)現(xiàn),四個層面語言特征對低難度文本的預(yù)測能力均最強。
【文章頁數(shù)】:17 頁
【文章目錄】:
一引言
二漢語文本可讀性特征體系的構(gòu)建
2.1漢字層面
2.2詞匯層面
2.3句法層面
2.4篇章層面
三漢語文本可讀性特征體系的效度驗證
3.1方法
3.1.1語料庫
3.1.2特征抽取和模型構(gòu)建
3.2結(jié)果
3.2.1漢字、詞匯、句法和篇章層面特征及其組合的預(yù)測準確率
3.2.2四個層面下各維度特征的預(yù)測準確率
3.2.3總模型和四個層面特征模型在不同級別文本上的預(yù)測準確率
四討論
4.1漢字、詞匯、句法和篇章特征對漢語文本可讀性的預(yù)測能力
4.2不同層面語言特征的預(yù)測作用與文本可讀性級別的關(guān)系
五結(jié)語
本文編號:3820877
【文章頁數(shù)】:17 頁
【文章目錄】:
一引言
二漢語文本可讀性特征體系的構(gòu)建
2.1漢字層面
2.2詞匯層面
2.3句法層面
2.4篇章層面
三漢語文本可讀性特征體系的效度驗證
3.1方法
3.1.1語料庫
3.1.2特征抽取和模型構(gòu)建
3.2結(jié)果
3.2.1漢字、詞匯、句法和篇章層面特征及其組合的預(yù)測準確率
3.2.2四個層面下各維度特征的預(yù)測準確率
3.2.3總模型和四個層面特征模型在不同級別文本上的預(yù)測準確率
四討論
4.1漢字、詞匯、句法和篇章特征對漢語文本可讀性的預(yù)測能力
4.2不同層面語言特征的預(yù)測作用與文本可讀性級別的關(guān)系
五結(jié)語
本文編號:3820877
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3820877.html
最近更新
教材專著