基于HSK動態(tài)作文語料庫的留學生作文詞熵統(tǒng)計分析
發(fā)布時間:2020-04-02 08:52
【摘要】:索緒爾指出,語言是一種社會現(xiàn)象,是一種表達觀念的符號系統(tǒng)。在漢語作為第二語言的教學過程中,我們發(fā)現(xiàn)漢語水平較低的學習者掌握的詞匯數(shù)量有限,寫作中使用詞匯范圍小,而中高級的學習者一般不受常用詞的限制,往往使用的詞匯更多樣。這種語言文本中符號的使用與信息量有關,信息熵的計算可以應用于任何類型的頻率分布。本論文以北京語言大學“HSK動態(tài)作文語料庫”為研究基礎,從語言的信息屬性出發(fā),結合計量語言學、信息論、協(xié)同語言學等指導理論和觀點,運用書面漢語“詞熵”的原理和計算方法,對經(jīng)過分詞、標注詞性的中介語熟語料進行詞頻、詞熵統(tǒng)計分析。本研究從熵的角度考察了留學生作文在“國別”和“體裁”兩方面詞匯使用的共性與差異,并在此基礎上從詞匯計量研究層面的詞匯多樣性、詞匯重復率、詞匯獨特性和高頻詞等方面對留學生作文詞匯使用情況進行了描述分析。統(tǒng)計結果顯示,詞熵在不同國別和不同體裁的留學生作文之間有的存在顯著性差異,有的不存在差異。其中(1)日、韓兩國籍作文詞熵不存在顯著性差異,其余國籍詞熵均存在顯著性差異;(2)記敘文體與議論文體詞熵不存在顯著性差異,書信文體與記敘、議論文體均存在顯著性差異。通過其他詞匯測量指標進一步發(fā)現(xiàn),文本的詞熵存在顯著性差異,則兩個文本的詞匯使用豐富度上也存在差異;文本詞熵不存在顯著性差異,則文本的詞匯使用情況也相差不大。本研究的意義在于,首次從信息熵的角度,并分別從寫作者的國別和寫作體裁兩個方面對二語習得語料庫統(tǒng)計分析。最終發(fā)現(xiàn),詞熵所反映出來的詞匯使用程度以及文本詞熵的共性與差異,在二語習得者使用詞匯過程中也可以體現(xiàn)出來,也就是基于詞熵的二語習得的文本研究是可行的,這也為漢語詞匯的習得研究提供新的角度和思路。
【圖文】:
作文語料的選取過程圖
十組語料的不同國籍的作文詞匯TTR和H的統(tǒng)計比較圖
【學位授予單位】:華僑大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:H195
本文編號:2611730
【圖文】:
作文語料的選取過程圖
十組語料的不同國籍的作文詞匯TTR和H的統(tǒng)計比較圖
【學位授予單位】:華僑大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:H195
【參考文獻】
相關期刊論文 前10條
1 馬燕;;基于相對熵的作品作者判定方法[J];文教資料;2014年31期
2 劉海濤;黃偉;;計量語言學的現(xiàn)狀、理論與方法[J];浙江大學學報(人文社會科學版);2012年02期
3 李秀珍;;熵與文學[J];文學教育(下);2010年05期
4 塞麥提·麥麥提敏;塞麥提·麥麥提敏;塞麥提·麥麥提敏;;基于統(tǒng)計的維吾爾文信息熵的估計[J];電腦知識與技術;2009年04期
5 邵璐;;信息熵與文學翻譯中模糊話語的量度——從《達芬奇密碼》的源文本與目標文本選例[J];四川外語學院學報;2008年05期
6 鄒鈴聲;;外國學生漢語語音習得中的熵現(xiàn)象及化石化現(xiàn)象[J];貴州大學學報(社會科學版);2006年04期
7 范鳳祥;;輪機英語詞匯的量化特征[J];大連海事大學學報(社會科學版);2006年02期
8 崔剛,盛永梅;語料庫中語料的標注[J];清華大學學報(哲學社會科學版);2000年01期
9 馮志偉;;漢字的極限熵[J];中文信息;1996年02期
10 高定國,鐘毅平,曾鈴娟;字頻影響常用漢字認知速度的實驗研究[J];心理科學;1995年04期
相關博士學位論文 前1條
1 徐先蓬;漢語的熵及其在語言本體研究中的應用[D];山東大學;2013年
,本文編號:2611730
本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/2611730.html