基于語(yǔ)料庫(kù)的漢語(yǔ)歷時(shí)高頻詞對(duì)比研究
本文關(guān)鍵詞:基于語(yǔ)料庫(kù)的漢語(yǔ)歷時(shí)高頻詞對(duì)比研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:詞頻統(tǒng)計(jì)是一種詞匯分析研究方法,通過(guò)統(tǒng)計(jì)一定容量的語(yǔ)料庫(kù)中每個(gè)詞出現(xiàn)的次數(shù),計(jì)算得到它們出現(xiàn)的頻率,用以了解用詞規(guī)律。詞頻統(tǒng)計(jì)在語(yǔ)言學(xué)、情報(bào)學(xué)、信息學(xué)和文獻(xiàn)計(jì)量學(xué)等領(lǐng)域都有所運(yùn)用。而在詞頻統(tǒng)計(jì)中,高頻詞是尤為重要的一類(lèi)詞。高頻詞是指在實(shí)際生活中使用頻繁的一類(lèi)詞,它對(duì)于了解一種語(yǔ)言的使用和發(fā)展有著重要作用,具有一定的研究?jī)r(jià)值。本文所做工作,主要是根據(jù)不同的時(shí)間段建立不同的語(yǔ)料庫(kù),通過(guò)統(tǒng)計(jì)不同時(shí)間段語(yǔ)料庫(kù)中的高頻詞,對(duì)比分析高頻詞的使用和發(fā)展情況,了解漢語(yǔ)發(fā)展的規(guī)律,并且嘗試解釋高頻詞使用情況的個(gè)別差異,以驗(yàn)證漢語(yǔ)發(fā)展的延續(xù)性和傳承性,從而進(jìn)一步揭示中文詞頻歷時(shí)分布機(jī)理。文本一共分為六章:第一章為緒論,主要介紹了國(guó)內(nèi)外關(guān)于語(yǔ)料庫(kù)和詞頻研究的現(xiàn)狀,簡(jiǎn)單介紹了本文的選題緣由、研究目的、意義、研究方法和研究思路以及文章組織結(jié)構(gòu)。第二章主要介紹了漢語(yǔ)詞語(yǔ)切分,包括它的基本定義,切分的重難點(diǎn)以及主要算法。同時(shí),介紹了評(píng)價(jià)切分效果的三個(gè)標(biāo)準(zhǔn):正確率,召回率,F指標(biāo),并以此為標(biāo)準(zhǔn)證明本文選擇使用的分詞軟件準(zhǔn)確性較高,具有可操作性。第三章主要介紹了如何實(shí)現(xiàn)詞頻統(tǒng)計(jì),由于本文所使用的漢語(yǔ)語(yǔ)料庫(kù)具有一定的時(shí)間跨度,根據(jù)漢語(yǔ)發(fā)展的規(guī)律將語(yǔ)料庫(kù)分為兩個(gè)時(shí)間段,根據(jù)兩者的不同情況,使用不同的詞頻統(tǒng)計(jì)方法。第一個(gè)時(shí)間段為先秦到宋代,文言詞多以單音節(jié)形式出現(xiàn),字即是詞,該時(shí)段中語(yǔ)料使用MyZiCiFrep字詞頻率統(tǒng)計(jì)工具,該統(tǒng)計(jì)工具能自動(dòng)統(tǒng)計(jì)語(yǔ)料庫(kù)中每個(gè)字出現(xiàn)的次數(shù)并且按頻次的大小輸出結(jié)果。第二個(gè)時(shí)間段為明清及明清以后,雙音節(jié)詞使用率提高,該時(shí)間段語(yǔ)料使用程序算法來(lái)統(tǒng)計(jì)詞頻,同時(shí)也通過(guò)算法來(lái)實(shí)現(xiàn)詞頻排序。本章最后介紹了本文所使用的相關(guān)詞頻算法。第四章是本論文的重點(diǎn),也是本文的主要部分。本章首先簡(jiǎn)要介紹了本文語(yǔ)料庫(kù)的語(yǔ)料來(lái)源,全部語(yǔ)料根據(jù)作品時(shí)期的順序,分成先秦,兩漢,魏晉南北朝,唐,宋,明清等六個(gè)不同的部分。選擇TONP方法來(lái)確定本文高頻詞低頻詞分界。然后分析了從先秦到宋代的數(shù)據(jù),制成一張?jiān)~頻對(duì)比表,通過(guò)全距對(duì)比和方差對(duì)比等方法發(fā)現(xiàn)大部分的高頻詞在語(yǔ)言發(fā)展中較穩(wěn)定,波動(dòng)較小。最后加入明清數(shù)據(jù),對(duì)比從先秦到明清的高頻詞,利用EXCEL自帶的數(shù)據(jù)分析工具中的“方差分析”,分析得出高頻詞序號(hào)與時(shí)間段的關(guān)聯(lián)較小的結(jié)論,說(shuō)明大部分高頻詞不會(huì)隨著時(shí)間的變化有較大的變化,這也就能證明語(yǔ)言的發(fā)展具有一定的傳承性和延續(xù)性,高頻詞的使用情況具有一定的相似性。第五章主要將英語(yǔ)和漢語(yǔ)兩種不同的語(yǔ)種做了個(gè)簡(jiǎn)單的相關(guān)分析,發(fā)現(xiàn)英漢使用率前1000個(gè)詞之間存在著一定的線性關(guān)系,兩者之間有一定的正相關(guān)性,從而驗(yàn)證了語(yǔ)言的發(fā)展具有一定的相似性和共同點(diǎn)。第六章為總結(jié)與展望,總結(jié)了本論文的主要內(nèi)容結(jié)論,并指出本文中存在的不足以及對(duì)將來(lái)的進(jìn)一步研究的展望。
【關(guān)鍵詞】:語(yǔ)料庫(kù) 漢語(yǔ) 高頻詞 詞頻
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:H13
【目錄】:
- 摘要3-5
- Abstract5-10
- 第一章 緒論10-17
- 第一節(jié) 寫(xiě)作緣由10
- 第二節(jié) 相關(guān)研究簡(jiǎn)述10-14
- (一) 關(guān)于語(yǔ)料庫(kù)的研究現(xiàn)狀10-12
- (二) 關(guān)于漢語(yǔ)詞頻統(tǒng)計(jì)的研究現(xiàn)狀12-14
- 第三節(jié) 論文研究的目的、意義和研究方法14-15
- (一) 研究的目的和意義14
- (二) 研究的方法及研究思路14-15
- 第四節(jié) 論文的組織結(jié)構(gòu)15-17
- 第二章 漢語(yǔ)詞語(yǔ)切分17-24
- 第一節(jié) 漢語(yǔ)詞語(yǔ)切分的定義及重要性17-18
- 第二節(jié) 漢語(yǔ)詞語(yǔ)切分的算法18
- 第三節(jié) 漢語(yǔ)詞語(yǔ)切分的技術(shù)難點(diǎn)18-20
- (一) 歧義識(shí)別18-19
- (二) 未登錄詞識(shí)別19-20
- 第四節(jié) 漢語(yǔ)詞語(yǔ)切分軟件評(píng)測(cè)20-23
- (一) 評(píng)測(cè)標(biāo)準(zhǔn)20-21
- (二) 實(shí)驗(yàn)及測(cè)評(píng)結(jié)果21-23
- 第五節(jié) 小結(jié)23-24
- 第三章 詞頻統(tǒng)計(jì)24-32
- 第一節(jié) 先秦到宋代詞頻統(tǒng)計(jì)24
- 第二節(jié) 明清以及明清之后詞頻統(tǒng)計(jì)24-31
- (一) 統(tǒng)計(jì)詞頻的算法25-29
- (二) 詞頻排序算法29-31
- 第三節(jié) 小結(jié)31-32
- 第四章 漢語(yǔ)歷時(shí)詞頻對(duì)比分析實(shí)驗(yàn)32-54
- 第一節(jié) 語(yǔ)料庫(kù)語(yǔ)料說(shuō)明32-33
- 第二節(jié) 數(shù)據(jù)統(tǒng)計(jì)33-50
- (一) 先秦到宋代數(shù)據(jù)33-47
- (二) 明清時(shí)期數(shù)據(jù)47-50
- 第三節(jié) 漢語(yǔ)歷時(shí)詞頻對(duì)比50-53
- (一) 實(shí)驗(yàn)數(shù)據(jù)選取原則50-51
- (二) 數(shù)據(jù)分析51-53
- 第四節(jié) 小結(jié)53-54
- 第五章 英漢詞頻對(duì)比54-68
- 第一節(jié) 實(shí)驗(yàn)數(shù)據(jù)54-58
- 第二節(jié) 數(shù)據(jù)分析58-66
- (一) 利用序號(hào)差分析數(shù)據(jù)58-61
- (二) 利用相關(guān)分析分析數(shù)據(jù)61-66
- 第三節(jié) 小結(jié)66-68
- 第六章 總結(jié)與展望68-71
- 第一節(jié) 本文研究總結(jié)68-69
- 第二節(jié) 不足和展望69-71
- 參考文獻(xiàn)71-74
- 致謝74-75
- 攻讀碩士學(xué)位期間發(fā)表的論文75
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 羅黎麗;;五周歲兒童高頻詞的個(gè)案和群案比較研究[J];大家;2012年05期
2 畢淑敏;;教養(yǎng)的證據(jù)[J];刊授黨校;2009年02期
3 岳立靜;錢(qián)曾怡;;口語(yǔ)高頻詞比較的方言分區(qū)意義[J];文史哲;2012年03期
4 畢淑敏;;教養(yǎng)的證據(jù)[J];成才之路;2008年25期
5 王保平;;你“爽”嗎? 我很“郁悶”![J];會(huì)計(jì)之友(中旬刊);2007年06期
6 趙予;;語(yǔ)義遷移假設(shè)下的高頻詞非核心義項(xiàng)習(xí)得研究[J];西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào);2011年03期
7 馬園藝;;高職高專(zhuān)新生高頻詞表學(xué)習(xí)效果研究[J];英語(yǔ)廣場(chǎng)(學(xué)術(shù)研究);2013年03期
8 曹津源,楚女;生命的舞蹈[J];中學(xué)生讀寫(xiě);2005年04期
9 佚名;生命的高度[J];中學(xué)生讀寫(xiě);2005年04期
10 史春柳;;英語(yǔ)高頻詞的搭配習(xí)得研究[J];牡丹江教育學(xué)院學(xué)報(bào);2009年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 高海洋;;北京話(huà)高頻詞使用狀況分析[A];中國(guó)社會(huì)語(yǔ)言學(xué)(2013年第1期)[C];2003年
2 劉榮;王麗娟;張志平;劉健文;胡竟偉;;面向特定領(lǐng)域的多字詞表達(dá)式的提取[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 記者 劉敏 侯大偉 趙仁偉;高頻詞“公平”,勾勒深化改革走向[N];新華每日電訊;2013年
2 歐甸丘;“老板跑路”成高頻詞 企業(yè)如何健康成長(zhǎng)引關(guān)注[N];企業(yè)家日?qǐng)?bào);2014年
3 孟然;《歷史轉(zhuǎn)折中的鄧小平》三個(gè)高頻詞[N];組織人事報(bào);2014年
4 本報(bào)記者 楊祖榮邋錢(qián)曉虎;“高頻詞”背后的深情關(guān)注[N];解放軍報(bào);2008年
5 陳志龍;“高頻詞”點(diǎn)出的新思維[N];新華日?qǐng)?bào);2006年
6 本報(bào)記者 高淵采集;兩會(huì)高頻詞[N];人民日?qǐng)?bào);2003年
7 朱艷冰 趙兵 曹陽(yáng)葵;創(chuàng)新:成就報(bào)道的“活力突破口”[N];中華新聞報(bào);2002年
8 本報(bào)記者 賀駿;阿里加速打造云計(jì)算生態(tài)圈 阿里云成IPO后第一高頻詞[N];證券日?qǐng)?bào);2014年
9 本報(bào)記者 朱殿勇 王屹立 趙力文 陳小平;關(guān)愛(ài)民生 傾情百姓[N];河南日?qǐng)?bào);2006年
10 李亮 李力軒 本報(bào)記者 辛士紅;別拿“模糊詞匯”打馬虎眼[N];解放軍報(bào);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 高榛英;《人民日?qǐng)?bào)》國(guó)慶社論(1978-2014)話(huà)語(yǔ)變遷研究[D];河北大學(xué);2015年
2 劉曉麗;《人民日?qǐng)?bào)》社論詞匯統(tǒng)計(jì)與分析[D];廣西師范學(xué)院;2015年
3 董競(jìng);用高頻詞提高小學(xué)生英語(yǔ)閱讀能力的實(shí)踐研究[D];浙江大學(xué);2016年
4 程玨;基于語(yǔ)料庫(kù)的漢語(yǔ)歷時(shí)高頻詞對(duì)比研究[D];安徽大學(xué);2016年
5 金羅成;從高頻詞看中國(guó)義務(wù)教育課程政策的變遷(1978-2010)[D];寧波大學(xué);2013年
6 任日方;大學(xué)生英語(yǔ)演講中高頻詞的研究[D];湖南大學(xué);2011年
7 廖良敏;基于語(yǔ)料庫(kù)的《政府工作報(bào)告》高頻詞英譯實(shí)證研究[D];湖南師范大學(xué);2013年
8 夏忠燕;二語(yǔ)核心概念共享詞的表征質(zhì)量對(duì)其在漢英翻譯中詞匯提取的影響[D];揚(yáng)州大學(xué);2010年
本文關(guān)鍵詞:基于語(yǔ)料庫(kù)的漢語(yǔ)歷時(shí)高頻詞對(duì)比研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):288484
本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/288484.html