《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析
本文關(guān)鍵詞:《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析
更多相關(guān)文章: 句子相似度 同事異文識別 編輯距離 改進(jìn)操作權(quán)重 事件信息標(biāo)注
【摘要】:古籍中存在著十分豐富的異文現(xiàn)象,異文的存在對于校勘學(xué)、文字學(xué)、詞匯學(xué)、語法學(xué)、訓(xùn)詁學(xué)等方面的研究都有重要作用。其中,同事異文是異文的一個特例,指描述同樣歷史事件的不同文字。然而,由于古籍文本數(shù)據(jù)的浩繁,傳統(tǒng)的使用人力手工查找異文(包括同事異文)的辦法在數(shù)量和質(zhì)量上都已無法滿足進(jìn)一步研究的需要,因此亟待借助計算語言學(xué)方法解決這一問題。 基于此,本文以《左傳》和《史記》為實驗語料,利用并改進(jìn)編輯距離句子相似度計算算法,進(jìn)行同事異文的自動識別及分析,其具體內(nèi)容包括: 1.在古籍異文研究方面,對非版本異文的研究現(xiàn)狀做了介紹,并指出人工查找同事異文的繁雜困難之處,因而提出利用計算語言學(xué)方法中的句子相似度計算算法,對同事異文進(jìn)行自動發(fā)現(xiàn)。 2.在漢語句子相似度計算方面,總結(jié)了國內(nèi)外不同種句子相似度計算方法,并指出古漢語句子相似度計算的難點(diǎn)所在,同時重點(diǎn)介紹了編輯距離方法的計算原理,研究現(xiàn)狀和算法本身存在的主要問題。 3.在同事異文自動發(fā)現(xiàn)方面,本文首先基于經(jīng)典編輯距離算法對實驗語料進(jìn)行了同事異文自動發(fā)現(xiàn),實驗結(jié)果并不理想。由此,本文設(shè)計了一種結(jié)合改進(jìn)編輯距離以及事件信息標(biāo)注的計算算法,對實驗語料進(jìn)行了再次實驗,實驗結(jié)果大幅改善。其中,實驗的主要改進(jìn)是,在編輯距離算法內(nèi)部改進(jìn)了編輯操作、字詞操作的權(quán)重設(shè)置,在編輯距離算法外部,利用人名、地名及年份數(shù)據(jù)庫對語料進(jìn)行了人物、地點(diǎn)、時間的事件信息標(biāo)注,并加權(quán)結(jié)合兩方面結(jié)果進(jìn)行最終的句子相似度計算。 最后,本文對《左傳》《史記》同事異文自動發(fā)現(xiàn)結(jié)果進(jìn)行了分類整理和簡要分析,并以此為依據(jù),考察了兩部文獻(xiàn)的語言特色及同事異文自動識別的主要缺陷,為今后更大規(guī)模的古漢語文獻(xiàn)深度處理和自動挖掘進(jìn)行了初步嘗試。
【關(guān)鍵詞】:句子相似度 同事異文識別 編輯距離 改進(jìn)操作權(quán)重 事件信息標(biāo)注
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:H087
【目錄】:
- 摘要3-4
- ABSTRACT4-9
- 第一章 緒論9-17
- 1.1 課題來源9-11
- 1.1.1 同事異文的定義9
- 1.1.2 同事異文的檢索技術(shù)9-10
- 1.1.3 本文的實驗語料來源10-11
- 1.2 研究意義11-12
- 1.2.1 探究古籍本身的?币饬x11
- 1.2.2 語言學(xué)研究的訓(xùn)詁意義11-12
- 1.2.3 古籍?dāng)?shù)字化處理的時代意義12
- 1.3 研究現(xiàn)狀12-15
- 1.3.1 古籍非版本異文的研究現(xiàn)狀12-14
- 1.3.2 句子相似度計算的研究現(xiàn)狀14-15
- 1.4 研究內(nèi)容15-16
- 1.5 組織結(jié)構(gòu)16-17
- 第二章 漢語句子相似度算法研究17-26
- 2.1 句子相似度定義17
- 2.2 漢語句子相似度計算難點(diǎn)17-19
- 2.2.1 漢語句子信息處理難點(diǎn)18
- 2.2.2 古代漢語語料處理難點(diǎn)18-19
- 2.3 常用的漢語句子相似度算法19-23
- 2.3.1 基于向量空間模型的TF-IDF方法19-20
- 2.3.2 基于語義特征的語義詞典方法20-21
- 2.3.3 基于句法特征的依存樹方法21-22
- 2.3.4 算法比較22-23
- 2.4 編輯距離算法研究23-26
- 2.4.1 算法簡介23
- 2.4.2 算法現(xiàn)狀23-25
- 2.4.3 存在的主要問題25-26
- 第三章 基于經(jīng)典編輯距離算法的同事異文發(fā)現(xiàn)26-41
- 3.1 實驗語料介紹26
- 3.2 實驗語料預(yù)處理及分析26-31
- 3.2.1 斷句處理26-27
- 3.2.2 句珠對抽取27-29
- 3.2.3 句珠對抽取原則29-30
- 3.2.4 句珠對分布特點(diǎn)30-31
- 3.3 經(jīng)典編輯距離閾值計算算法31-35
- 3.3.1 實驗流程31-32
- 3.3.2 算法實驗32-34
- 3.3.3 實驗結(jié)果分析34-35
- 3.4 經(jīng)典編輯距離語義相似度計算算法35-41
- 3.4.1 相似度轉(zhuǎn)換35-36
- 3.4.2 實驗流程36
- 3.4.3 算法實驗36-38
- 3.4.4 實驗結(jié)果分析38-41
- 第四章 基于改進(jìn)編輯距離算法及事件信息標(biāo)注的同事異文發(fā)現(xiàn)41-54
- 4.1 改進(jìn)操作權(quán)重的編輯距離算法41-46
- 4.1.1 編輯操作基礎(chǔ)權(quán)重設(shè)置41-42
- 4.1.2 字詞操作單元權(quán)重設(shè)置42-44
- 4.1.3 改進(jìn)算法實驗44-46
- 4.1.4 實驗結(jié)果分析46
- 4.2 事件信息標(biāo)注46-49
- 4.2.1 事件信息標(biāo)注定義46-47
- 4.2.2 事件信息數(shù)據(jù)庫47-48
- 4.2.3 標(biāo)注實驗48-49
- 4.2.4 存在的問題49
- 4.3 基于改進(jìn)編輯距離算法以及事件信息標(biāo)注的同事異文發(fā)現(xiàn)49-54
- 4.3.1 改進(jìn)編輯距離語義相似度公式50
- 4.3.2 改進(jìn)算法實驗50-52
- 4.3.3 實驗結(jié)果分析52-54
- 第五章 同事異文自動識別結(jié)果分析54-60
- 5.1 同事異文自動識別的幾種類型54-57
- 5.1.1 用字層面54-55
- 5.1.2 用詞層面55-56
- 5.1.3 用句層面56-57
- 5.2 《左傳》和《史記》的語言風(fēng)格分析57-58
- 5.2.1 《左傳》的省用現(xiàn)象57
- 5.2.2 《史記》復(fù)音詞的增多57-58
- 5.2.3 《史記》的語義復(fù)現(xiàn)現(xiàn)象58
- 5.3 本文工作的不足之處58-60
- 5.3.1 操作權(quán)重閾值比較主觀58-59
- 5.3.2 大量噪聲數(shù)據(jù)難以剔除59
- 5.3.3 事件信息標(biāo)注沒有消歧59-60
- 總結(jié)與展望60-61
- 附錄61-63
- 參考文獻(xiàn)63-66
- 致謝66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 羅舒;;《三朝北盟會編》異文類型研究[J];編輯之友;2012年04期
2 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報;2003年06期
3 楊曉;;《左傳》語言特點(diǎn)的探討[J];大眾文藝;2010年13期
4 趙巾幗;徐德智;羅慶云;;漢語句子相似度計算方法比對之研究[J];福建電腦;2007年10期
5 王彥坤;;略論古書異文的應(yīng)用[J];暨南學(xué)報(哲學(xué)社會科學(xué));1987年01期
6 趙臻;吳寧;宋盼盼;;基于多特征融合的句子語義相似度計算[J];計算機(jī)工程;2012年01期
7 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J];計算機(jī)應(yīng)用;2009年02期
8 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機(jī)應(yīng)用;2009年S1期
9 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計算機(jī)與數(shù)字工程;2012年03期
10 李彬,劉挺,秦兵,李生;基于語義依存的漢語句子相似度計算[J];計算機(jī)應(yīng)用研究;2003年12期
,本文編號:751743
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/751743.html