天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析

發(fā)布時間:2017-08-29 06:17

  本文關(guān)鍵詞:《左傳》《史記》同事異文自動發(fā)現(xiàn)及分析


  更多相關(guān)文章: 句子相似度 同事異文識別 編輯距離 改進(jìn)操作權(quán)重 事件信息標(biāo)注


【摘要】:古籍中存在著十分豐富的異文現(xiàn)象,異文的存在對于校勘學(xué)、文字學(xué)、詞匯學(xué)、語法學(xué)、訓(xùn)詁學(xué)等方面的研究都有重要作用。其中,同事異文是異文的一個特例,指描述同樣歷史事件的不同文字。然而,由于古籍文本數(shù)據(jù)的浩繁,傳統(tǒng)的使用人力手工查找異文(包括同事異文)的辦法在數(shù)量和質(zhì)量上都已無法滿足進(jìn)一步研究的需要,因此亟待借助計算語言學(xué)方法解決這一問題。 基于此,本文以《左傳》和《史記》為實驗語料,利用并改進(jìn)編輯距離句子相似度計算算法,進(jìn)行同事異文的自動識別及分析,其具體內(nèi)容包括: 1.在古籍異文研究方面,對非版本異文的研究現(xiàn)狀做了介紹,并指出人工查找同事異文的繁雜困難之處,因而提出利用計算語言學(xué)方法中的句子相似度計算算法,對同事異文進(jìn)行自動發(fā)現(xiàn)。 2.在漢語句子相似度計算方面,總結(jié)了國內(nèi)外不同種句子相似度計算方法,并指出古漢語句子相似度計算的難點(diǎn)所在,同時重點(diǎn)介紹了編輯距離方法的計算原理,研究現(xiàn)狀和算法本身存在的主要問題。 3.在同事異文自動發(fā)現(xiàn)方面,本文首先基于經(jīng)典編輯距離算法對實驗語料進(jìn)行了同事異文自動發(fā)現(xiàn),實驗結(jié)果并不理想。由此,本文設(shè)計了一種結(jié)合改進(jìn)編輯距離以及事件信息標(biāo)注的計算算法,對實驗語料進(jìn)行了再次實驗,實驗結(jié)果大幅改善。其中,實驗的主要改進(jìn)是,在編輯距離算法內(nèi)部改進(jìn)了編輯操作、字詞操作的權(quán)重設(shè)置,在編輯距離算法外部,利用人名、地名及年份數(shù)據(jù)庫對語料進(jìn)行了人物、地點(diǎn)、時間的事件信息標(biāo)注,并加權(quán)結(jié)合兩方面結(jié)果進(jìn)行最終的句子相似度計算。 最后,本文對《左傳》《史記》同事異文自動發(fā)現(xiàn)結(jié)果進(jìn)行了分類整理和簡要分析,并以此為依據(jù),考察了兩部文獻(xiàn)的語言特色及同事異文自動識別的主要缺陷,為今后更大規(guī)模的古漢語文獻(xiàn)深度處理和自動挖掘進(jìn)行了初步嘗試。
【關(guān)鍵詞】:句子相似度 同事異文識別 編輯距離 改進(jìn)操作權(quán)重 事件信息標(biāo)注
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:H087
【目錄】:
  • 摘要3-4
  • ABSTRACT4-9
  • 第一章 緒論9-17
  • 1.1 課題來源9-11
  • 1.1.1 同事異文的定義9
  • 1.1.2 同事異文的檢索技術(shù)9-10
  • 1.1.3 本文的實驗語料來源10-11
  • 1.2 研究意義11-12
  • 1.2.1 探究古籍本身的?币饬x11
  • 1.2.2 語言學(xué)研究的訓(xùn)詁意義11-12
  • 1.2.3 古籍?dāng)?shù)字化處理的時代意義12
  • 1.3 研究現(xiàn)狀12-15
  • 1.3.1 古籍非版本異文的研究現(xiàn)狀12-14
  • 1.3.2 句子相似度計算的研究現(xiàn)狀14-15
  • 1.4 研究內(nèi)容15-16
  • 1.5 組織結(jié)構(gòu)16-17
  • 第二章 漢語句子相似度算法研究17-26
  • 2.1 句子相似度定義17
  • 2.2 漢語句子相似度計算難點(diǎn)17-19
  • 2.2.1 漢語句子信息處理難點(diǎn)18
  • 2.2.2 古代漢語語料處理難點(diǎn)18-19
  • 2.3 常用的漢語句子相似度算法19-23
  • 2.3.1 基于向量空間模型的TF-IDF方法19-20
  • 2.3.2 基于語義特征的語義詞典方法20-21
  • 2.3.3 基于句法特征的依存樹方法21-22
  • 2.3.4 算法比較22-23
  • 2.4 編輯距離算法研究23-26
  • 2.4.1 算法簡介23
  • 2.4.2 算法現(xiàn)狀23-25
  • 2.4.3 存在的主要問題25-26
  • 第三章 基于經(jīng)典編輯距離算法的同事異文發(fā)現(xiàn)26-41
  • 3.1 實驗語料介紹26
  • 3.2 實驗語料預(yù)處理及分析26-31
  • 3.2.1 斷句處理26-27
  • 3.2.2 句珠對抽取27-29
  • 3.2.3 句珠對抽取原則29-30
  • 3.2.4 句珠對分布特點(diǎn)30-31
  • 3.3 經(jīng)典編輯距離閾值計算算法31-35
  • 3.3.1 實驗流程31-32
  • 3.3.2 算法實驗32-34
  • 3.3.3 實驗結(jié)果分析34-35
  • 3.4 經(jīng)典編輯距離語義相似度計算算法35-41
  • 3.4.1 相似度轉(zhuǎn)換35-36
  • 3.4.2 實驗流程36
  • 3.4.3 算法實驗36-38
  • 3.4.4 實驗結(jié)果分析38-41
  • 第四章 基于改進(jìn)編輯距離算法及事件信息標(biāo)注的同事異文發(fā)現(xiàn)41-54
  • 4.1 改進(jìn)操作權(quán)重的編輯距離算法41-46
  • 4.1.1 編輯操作基礎(chǔ)權(quán)重設(shè)置41-42
  • 4.1.2 字詞操作單元權(quán)重設(shè)置42-44
  • 4.1.3 改進(jìn)算法實驗44-46
  • 4.1.4 實驗結(jié)果分析46
  • 4.2 事件信息標(biāo)注46-49
  • 4.2.1 事件信息標(biāo)注定義46-47
  • 4.2.2 事件信息數(shù)據(jù)庫47-48
  • 4.2.3 標(biāo)注實驗48-49
  • 4.2.4 存在的問題49
  • 4.3 基于改進(jìn)編輯距離算法以及事件信息標(biāo)注的同事異文發(fā)現(xiàn)49-54
  • 4.3.1 改進(jìn)編輯距離語義相似度公式50
  • 4.3.2 改進(jìn)算法實驗50-52
  • 4.3.3 實驗結(jié)果分析52-54
  • 第五章 同事異文自動識別結(jié)果分析54-60
  • 5.1 同事異文自動識別的幾種類型54-57
  • 5.1.1 用字層面54-55
  • 5.1.2 用詞層面55-56
  • 5.1.3 用句層面56-57
  • 5.2 《左傳》和《史記》的語言風(fēng)格分析57-58
  • 5.2.1 《左傳》的省用現(xiàn)象57
  • 5.2.2 《史記》復(fù)音詞的增多57-58
  • 5.2.3 《史記》的語義復(fù)現(xiàn)現(xiàn)象58
  • 5.3 本文工作的不足之處58-60
  • 5.3.1 操作權(quán)重閾值比較主觀58-59
  • 5.3.2 大量噪聲數(shù)據(jù)難以剔除59
  • 5.3.3 事件信息標(biāo)注沒有消歧59-60
  • 總結(jié)與展望60-61
  • 附錄61-63
  • 參考文獻(xiàn)63-66
  • 致謝66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 羅舒;;《三朝北盟會編》異文類型研究[J];編輯之友;2012年04期

2 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報;2003年06期

3 楊曉;;《左傳》語言特點(diǎn)的探討[J];大眾文藝;2010年13期

4 趙巾幗;徐德智;羅慶云;;漢語句子相似度計算方法比對之研究[J];福建電腦;2007年10期

5 王彥坤;;略論古書異文的應(yīng)用[J];暨南學(xué)報(哲學(xué)社會科學(xué));1987年01期

6 趙臻;吳寧;宋盼盼;;基于多特征融合的句子語義相似度計算[J];計算機(jī)工程;2012年01期

7 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J];計算機(jī)應(yīng)用;2009年02期

8 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機(jī)應(yīng)用;2009年S1期

9 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計算機(jī)與數(shù)字工程;2012年03期

10 李彬,劉挺,秦兵,李生;基于語義依存的漢語句子相似度計算[J];計算機(jī)應(yīng)用研究;2003年12期

,

本文編號:751743

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/751743.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e668***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com