基于搭配的現(xiàn)代漢語兩詞結(jié)構獨立使用研究
發(fā)布時間:2017-12-01 22:18
本文關鍵詞:基于搭配的現(xiàn)代漢語兩詞結(jié)構獨立使用研究
更多相關文章: 詞語搭配 詞頻統(tǒng)計 兩詞結(jié)構 獨立使用
【摘要】:本文先用詞頻統(tǒng)計的方法,統(tǒng)計所有可能獨立使用的兩詞結(jié)構,通過閾值確定能夠獨立使用的兩詞結(jié)構,再隨機抽取其中部分與現(xiàn)代漢語常見短語進行比較,研究兩詞結(jié)構的構成規(guī)則、功能,判斷兩詞結(jié)構能獨立成句的類型。 本文的研究工作共分為五章展開論述: 第一章主要介紹了“搭配”的概念以及國內(nèi)外有關有關搭配的實驗研究,為本文的研究奠定基礎,同時簡要闡述了論文研究的目的、意義、研究方法與組織結(jié)構。 第二章分別介紹了中文分詞與詞性標注的相關情況,包括定義、方法和面臨的困難,并基于本文研究的實際,建立適合下文實驗的詞性標注集。最后通過分詞與標注測評,檢驗本文使用的分詞軟件與詞性標注軟件的正確率,驗證其可靠性。 第三章通過測試語料實驗確定合適的閾值,以獲取能獨立使用的兩詞結(jié)構,為下一步大規(guī)模語料實驗做好準備。本章首先將所有在兩個中文標點之間的兩詞結(jié)構全部抽取出來,并假設這些兩詞結(jié)構都能夠獨立使用,統(tǒng)計其獨立使用的次數(shù)、在全文中出現(xiàn)的總次數(shù)和兩詞在全文中單獨出現(xiàn)的次數(shù),建立詞表Fre1、 Fre2和Fre3。接著通過測試一劃分高低頻區(qū)并選擇高頻區(qū)兩詞結(jié)構,通過測試二(Frel/Fre2的比值判斷某個兩詞結(jié)構在全文中共現(xiàn)是否偶然)和測試三(互信息值判斷兩詞內(nèi)部是否具有連接性及連接強度)共同設定閾值,排除不能獨立使用的兩詞結(jié)構。 第四章為大規(guī)模語料實驗,通過將實驗獲得的數(shù)據(jù)和現(xiàn)代漢語常見短語進行對比,判斷獲得的兩詞結(jié)構的構成規(guī)則和功能,從詞語搭配的角度看哪些類型的兩詞結(jié)構能夠獨立成句。由于漢語詞組(短語)的和句子的構造原則基本一致,我們研究兩詞結(jié)構的組合規(guī)則和功能,將對我們分析兩詞句有所幫助。首先我們沿用測試語料實驗中設定的閾值篩選高頻區(qū)數(shù)據(jù),獲得最終的實驗結(jié)果,隨機抽取其中1000個兩詞結(jié)構進行手動分析,先與現(xiàn)代漢語常見十種短語的構成規(guī)則表進行對比,觀察兩詞結(jié)構的所屬結(jié)構,再與現(xiàn)代漢語短語功能功能表對比,觀察兩詞結(jié)構的所屬功能,最后論及能夠立成句的兩詞結(jié)構的類型。 第五章為結(jié)語,對本文所做的實驗和結(jié)論進行總結(jié),提出了本文客觀存在的問題,并對未來可以開展的工作進行展望。
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:H146
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 邢公畹;語詞搭配問題是不是語法問題?[J];安徽師大學報(哲學社會科學版);1978年04期
2 齊波;王成良;;現(xiàn)代漢語短語的機器識別[J];重慶工學院學報(自然科學版);2007年12期
3 孫宏林,俞士汶;淺層句法分析方法概述[J];當代語言學;2000年02期
4 馮志偉;基于短語結(jié)構語法的自動句法分析方法[J];當代語言學;2000年02期
5 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
6 鄧耀臣;詞語搭配研究中的統(tǒng)計方法[J];大連海事大學學報(社會科學版);2003年04期
7 孫鐵利;劉延吉;;中文分詞技術的研究現(xiàn)狀與困難[J];信息技術;2009年07期
8 程書秋;;現(xiàn)代漢語短語使用情況的優(yōu)先序列考察[J];漢語學報;2012年02期
9 林杏光;詞語搭配的性質(zhì)與研究[J];漢語學習;1990年01期
10 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應用;2008年10期
,本文編號:1242661
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/1242661.html