天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

圖情檔術語自動提取研究

發(fā)布時間:2021-12-11 01:52
  國內(nèi)開展的術語自動提取方面的研究都未以期刊論文的摘要為語料,而摘要作為一篇期刊論文概要性的陳述,其中包含了大量該學科領域內(nèi)的術語,應當作為開展術語自動提取研究的重要語料。因此,本文希望通過對圖書、情報和檔案學領域內(nèi)的期刊論文摘要,分別利用互信息和條件隨機場模型進行術語自動提取方面的研究。本文首先介紹了研究的背景和意義,總結了術語自動提取的研究現(xiàn)狀,明確了研究的基礎,并給出了全文的框架結構。在第二章的部分介紹了術語的相關概念,以及術語的特征,包括領域特征和結構特征等等。然后本文對術語的表現(xiàn)特征、同義術語以及術語前后界進行統(tǒng)計分析。術語的表現(xiàn)特征中包括術語詞頻、術語詞性序列以及術語詞性詞頻;同義術語是通過利用編輯距離的方法統(tǒng)計得出;術語的前后界是通過統(tǒng)計出現(xiàn)在術語之前或者之后的詞而得到。這些對術語特征的考察一方面為從語言學角度量化的研究術語內(nèi)部提供了數(shù)據(jù),另一方面也為之后的實驗提供了語言學的知識。接著開展了基于互信息的術語自動提取方面的研究,介紹了互信息理論以及預處理的過程,實驗主要是以二元詞和三元詞為考察對象,依據(jù)互信息計算公式,計算詞語內(nèi)部的關聯(lián)程度,并設定不同的閾值,對結果進行統(tǒng)計。... 

【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:50 頁

【學位級別】:碩士

【部分圖文】:

圖情檔術語自動提取研究


關鍵詞合計頻次比例圖

趨勢圖,準確率,互信息,趨勢圖


著閩值的降低,準確率在不斷提升,在閉值為3.17的情況下,提取的準確率為58.555%,比在閉值為10的情況下高出了13%。整體上也如之前的實驗結果,呈現(xiàn)了線性的趨勢,如圖4.1所示,說明大多數(shù)術語的互信息值并不會很高,而22

線性,隨機場,中文,條件


CRFs定義了Y的條件概率分布p(Y}X),條件隨機場模型通過不斷訓練的方法使得P(Ylx)最大l3]。它是一種無向圖的模型,其最普遍的和最簡單的展現(xiàn)形式是線性CRFs,即圖中的每個節(jié)點之間組成線性的結構,如圖5.1所示。Y-Y2姚Yn_YnX-X2X3Xn_Xn圖5.1線性CRFs圖,于江德,樊孝忠,尹繼豪.基于條件隨機場的中文科研論文信息抽取陰.華南理工大學學報,2007.9(9):90一94.2鄧滾,包宏.基于條件隨機場的中文自動文摘系統(tǒng)IJ].西安石油大學學報,2009.l(l):96一99.,洪銘材,張闊,唐杰,李涓子.基于條件隨機場 (CRFs)的中文詞性標注方法IJ].計算機科學,2006:148一151.4遲呈英,于長遠,戰(zhàn)學剛.基于條件隨機場的中文分詞方法[J].情報雜志

【參考文獻】:
期刊論文
[1]基于條件隨機場的介賓結構自動識別[J]. 朱丹浩,王東波,謝靖.  現(xiàn)代圖書情報技術. 2010(Z1)
[2]采用CRF技術的軍事情報術語自動抽取研究[J]. 賈美英,楊炳儒,鄭德權,楊靖.  計算機工程與應用. 2009(32)
[3]基于機器學習的文本分類技術的研究[J]. 何國輝,吳禮發(fā).  計算機與現(xiàn)代化. 2009(08)
[4]基于機器學習的本體匹配的研究[J]. 蘇意玲.  福建電腦. 2009(08)
[5]基于機器學習的Web文本分類技術及算法[J]. 金春霞,周海巖.  長春工業(yè)大學學報(自然科學版). 2009(03)
[6]基于條件隨機場的中文命名實體識別研究[J]. 許曉麗,盧志茂,張格森.  中國新技術新產(chǎn)品. 2009(02)
[7]基于條件隨機場的中文自動文摘系統(tǒng)[J]. 鄧箴,包宏.  西安石油大學學報(自然科學版). 2009(01)
[8]基于條件隨機場的中文分詞方法[J]. 遲呈英,于長遠,戰(zhàn)學剛.  情報雜志. 2008(05)
[9]術語抽取技術研究[J]. 張文靜,梁穎紅.  信息技術. 2008(03)
[10]HMM和CRFs在信息抽取應用中的比較研究[J]. 王昊,鄧三鴻.  現(xiàn)代圖書情報技術. 2007(12)

碩士論文
[1]術語自動抽取技術研究[D]. 張二艷.哈爾濱工業(yè)大學 2009
[2]特定領域術語自動抽取方法的研究[D]. 馬志斌.哈爾濱工業(yè)大學 2009
[3]關鍵詞抽取的研究與實現(xiàn)[D]. 羅準辰.國防科學技術大學 2008
[4]有標記聯(lián)合結構的自動識別[D]. 王東波.南京師范大學 2008
[5]術語自動抽取技術的研究與應用[D]. 劉豹.沈陽航空工業(yè)學院 2008
[6]中文術語自動抽取相關方法研究[D]. 張勇.華中師范大學 2006
[7]術語自動抽取系統(tǒng)的設計及關鍵技術研究[D]. 劉建舟.華中師范大學 2004



本文編號:3533793

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3533793.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1a1f9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com