《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析

發(fā)布時間：2017-08-29 06:17

本文關(guān)鍵詞：《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析

【摘要】：古籍中存在著十分豐富的異文現(xiàn)象,異文的存在對于校勘學(xué)、文字學(xué)、詞匯學(xué)、語法學(xué)、訓(xùn)詁學(xué)等方面的研究都有重要作用。其中,同事異文是異文的一個特例,指描述同樣歷史事件的不同文字。然而,由于古籍文本數(shù)據(jù)的浩繁,傳統(tǒng)的使用人力手工查找異文(包括同事異文)的辦法在數(shù)量和質(zhì)量上都已無法滿足進(jìn)一步研究的需要,因此亟待借助計算語言學(xué)方法解決這一問題。基于此,本文以《左傳》和《史記》為實驗語料,利用并改進(jìn)編輯距離句子相似度計算算法,進(jìn)行同事異文的自動識別及分析,其具體內(nèi)容包括： 1.在古籍異文研究方面,對非版本異文的研究現(xiàn)狀做了介紹,并指出人工查找同事異文的繁雜困難之處,因而提出利用計算語言學(xué)方法中的句子相似度計算算法,對同事異文進(jìn)行自動發(fā)現(xiàn)。 2.在漢語句子相似度計算方面,總結(jié)了國內(nèi)外不同種句子相似度計算方法,并指出古漢語句子相似度計算的難點(diǎn)所在,同時重點(diǎn)介紹了編輯距離方法的計算原理,研究現(xiàn)狀和算法本身存在的主要問題。 3.在同事異文自動發(fā)現(xiàn)方面,本文首先基于經(jīng)典編輯距離算法對實驗語料進(jìn)行了同事異文自動發(fā)現(xiàn),實驗結(jié)果并不理想。由此,本文設(shè)計了一種結(jié)合改進(jìn)編輯距離以及事件信息標(biāo)注的計算算法,對實驗語料進(jìn)行了再次實驗,實驗結(jié)果大幅改善。其中,實驗的主要改進(jìn)是,在編輯距離算法內(nèi)部改進(jìn)了編輯操作、字詞操作的權(quán)重設(shè)置,在編輯距離算法外部,利用人名、地名及年份數(shù)據(jù)庫對語料進(jìn)行了人物、地點(diǎn)、時間的事件信息標(biāo)注,并加權(quán)結(jié)合兩方面結(jié)果進(jìn)行最終的句子相似度計算。最后,本文對《左傳》《史記》同事異文自動發(fā)現(xiàn)結(jié)果進(jìn)行了分類整理和簡要分析,并以此為依據(jù),考察了兩部文獻(xiàn)的語言特色及同事異文自動識別的主要缺陷,為今后更大規(guī)模的古漢語文獻(xiàn)深度處理和自動挖掘進(jìn)行了初步嘗試。
【關(guān)鍵詞】：句子相似度 同事異文識別 編輯距離 改進(jìn)操作權(quán)重 事件信息標(biāo)注
【學(xué)位授予單位】：南京師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：H087
【目錄】：

摘要3-4
ABSTRACT4-9
第一章緒論9-17
1.1 課題來源9-11
1.1.1 同事異文的定義9
1.1.2 同事異文的檢索技術(shù)9-10
1.1.3 本文的實驗語料來源10-11
1.2 研究意義11-12
1.2.1 探究古籍本身的�？币饬x11
1.2.2 語言學(xué)研究的訓(xùn)詁意義11-12
1.2.3 古籍?dāng)?shù)字化處理的時代意義12
1.3 研究現(xiàn)狀12-15
1.3.1 古籍非版本異文的研究現(xiàn)狀12-14
1.3.2 句子相似度計算的研究現(xiàn)狀14-15
1.4 研究內(nèi)容15-16
1.5 組織結(jié)構(gòu)16-17
第二章漢語句子相似度算法研究17-26
2.1 句子相似度定義17
2.2 漢語句子相似度計算難點(diǎn)17-19
2.2.1 漢語句子信息處理難點(diǎn)18
2.2.2 古代漢語語料處理難點(diǎn)18-19
2.3 常用的漢語句子相似度算法19-23
2.3.1 基于向量空間模型的TF-IDF方法19-20
2.3.2 基于語義特征的語義詞典方法20-21
2.3.3 基于句法特征的依存樹方法21-22
2.3.4 算法比較22-23
2.4 編輯距離算法研究23-26
2.4.1 算法簡介23
2.4.2 算法現(xiàn)狀23-25
2.4.3 存在的主要問題25-26
第三章基于經(jīng)典編輯距離算法的同事異文發(fā)現(xiàn)26-41
3.1 實驗語料介紹26
3.2 實驗語料預(yù)處理及分析26-31
3.2.1 斷句處理26-27
3.2.2 句珠對抽取27-29
3.2.3 句珠對抽取原則29-30
3.2.4 句珠對分布特點(diǎn)30-31
3.3 經(jīng)典編輯距離閾值計算算法31-35
3.3.1 實驗流程31-32
3.3.2 算法實驗32-34
3.3.3 實驗結(jié)果分析34-35
3.4 經(jīng)典編輯距離語義相似度計算算法35-41
3.4.1 相似度轉(zhuǎn)換35-36
3.4.2 實驗流程36
3.4.3 算法實驗36-38
3.4.4 實驗結(jié)果分析38-41
第四章基于改進(jìn)編輯距離算法及事件信息標(biāo)注的同事異文發(fā)現(xiàn)41-54
4.1 改進(jìn)操作權(quán)重的編輯距離算法41-46
4.1.1 編輯操作基礎(chǔ)權(quán)重設(shè)置41-42
4.1.2 字詞操作單元權(quán)重設(shè)置42-44
4.1.3 改進(jìn)算法實驗44-46
4.1.4 實驗結(jié)果分析46
4.2 事件信息標(biāo)注46-49
4.2.1 事件信息標(biāo)注定義46-47
4.2.2 事件信息數(shù)據(jù)庫47-48
4.2.3 標(biāo)注實驗48-49
4.2.4 存在的問題49
4.3 基于改進(jìn)編輯距離算法以及事件信息標(biāo)注的同事異文發(fā)現(xiàn)49-54
4.3.1 改進(jìn)編輯距離語義相似度公式50
4.3.2 改進(jìn)算法實驗50-52
4.3.3 實驗結(jié)果分析52-54
第五章同事異文自動識別結(jié)果分析54-60
5.1 同事異文自動識別的幾種類型54-57
5.1.1 用字層面54-55
5.1.2 用詞層面55-56
5.1.3 用句層面56-57
5.2 《左傳》和《史記》的語言風(fēng)格分析57-58
5.2.1 《左傳》的省用現(xiàn)象57
5.2.2 《史記》復(fù)音詞的增多57-58
5.2.3 《史記》的語義復(fù)現(xiàn)現(xiàn)象58
5.3 本文工作的不足之處58-60
5.3.1 操作權(quán)重閾值比較主觀58-59
5.3.2 大量噪聲數(shù)據(jù)難以剔除59
5.3.3 事件信息標(biāo)注沒有消歧59-60
總結(jié)與展望60-61
附錄61-63
參考文獻(xiàn)63-66
致謝66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 羅舒;;《三朝北盟會編》異文類型研究[J];編輯之友;2012年04期

2 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報;2003年06期

3 楊曉;;《左傳》語言特點(diǎn)的探討[J];大眾文藝;2010年13期

4 趙巾幗;徐德智;羅慶云;;漢語句子相似度計算方法比對之研究[J];福建電腦;2007年10期

5 王彥坤;;略論古書異文的應(yīng)用[J];暨南學(xué)報(哲學(xué)社會科學(xué));1987年01期

6 趙臻;吳寧;宋盼盼;;基于多特征融合的句子語義相似度計算[J];計算機(jī)工程;2012年01期

7 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J];計算機(jī)應(yīng)用;2009年02期

8 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機(jī)應(yīng)用;2009年S1期

9 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計算機(jī)與數(shù)字工程;2012年03期

10 李彬,劉挺,秦兵,李生;基于語義依存的漢語句子相似度計算[J];計算機(jī)應(yīng)用研究;2003年12期

，

本文編號：751743

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/hanyulw/751743.html

上一篇：普通話發(fā)音評估性能改進(jìn)
下一篇：國家實力、國際貨幣和國際語言的相關(guān)性研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析