基于MLN的開放式信息抽取技術的研究與應用
發(fā)布時間:2024-02-24 02:50
專利是科技文獻的重要組成部分,包含了大量科學研究和技術創(chuàng)新的知識。然而,這些知識主要由無結構化的自然語言描述。導致了這種知識很難被計算機計算與理解。信息抽取技術由此應運而生,能夠映射無結構或半結構知識為結構化知識。因此,對其進行的研究是件很有意義的工作。 雖然信息抽取相關研究已經(jīng)有20多年的歷史,但傳統(tǒng)的方法可擴展性差,表現(xiàn)在:人工干預度大、領域相關度高和規(guī)則匹配復雜等。正因為這一瓶頸,信息抽取研究正從傳統(tǒng)的限定類別、限定領域信息抽取任務發(fā)展到開放類別、開放領域信息抽取。 開放式信息抽取在以英語為代表的西方語言中取得了重大進展,但對于漢語的研究顯得相對不足。為此,該文主要針對中文專利進行了兩項研究: 第一,在專利雙語摘要的基礎上,進行了基于馬爾科夫邏輯網(wǎng)的中文最大名詞短語識別方法的研究。利用三類信息來識別最大名詞短語的邊界:句子自身的信息、遷移的特征信息和雙語信息。實驗表明:雙語信息能夠較好地輔助動詞的識別,該方法最大名詞短語識別的F值可達83.27%,相比目前最優(yōu)越的伯克利句法分析器的識別結果提升了23.36%,而且該方法簡單可維護。 第二,在帶有分層組塊的最大名詞短語基礎上,研究了...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3908399
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖4.2賓州樹庫閾值性能分布圖
“……與MNP[通信網(wǎng)絡]相連……”,同理,從該詞開始,直到“的”,則不為分隔符,如,“……MNP[與輸入內容相對應的元數(shù)據(jù)別出來的MNP長度為1,則過濾。!isSeg(i1-1)Λ!isSeg(i1+1)=>!isSeg(i1)isSeg(i1-1)=>i....
圖4.3專利樹庫閾值性能分布圖
斷過句的24,485篇章中均勻采樣220句進行人工標注,作為測試old被用來最終界定是否為分隔符,大于該閾值的是分隔符。為了模型(包含全部公式)的影響,本文針對遷移的兩種樹庫,設定位,按步長0.01測試,結果如圖4.2和4.3所示。圖4.2賓州樹庫閾值....
圖5.2取閾值高的情況錯誤所占比同時將錯誤較大的1%選取進行人工標注
的應對非線性可分問題。所以本文以支持向量機為底層模型,采用自動獲取訓練語料。該算法一個關鍵的問題是閾值的選取。使用50m,實驗發(fā)現(xiàn)取打分前12%的錯誤較低。結果如圖5.2所示。
圖5.3取閾值低的情況錯誤所占比過濾不滿足假設的實體對后,剩下未標注的有8539對
系統(tǒng)界面見附錄II。系統(tǒng)流程圖如圖5.1所示。圖5.1系統(tǒng)流程圖5.3開放式實體關系抽取方法5.3.1中文開放式實體關系抽取問題定義OERE輸出的形式為三元組t=(ei,rij,ej),i≠j,其中ei和ej代表語義實體的字符串,rij代表兩個實體之間....
本文編號:3908399
本文鏈接:http://sikaile.net/shekelunwen/ljx/3908399.html
最近更新
教材專著