天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于NLP的專(zhuān)業(yè)領(lǐng)域文檔語(yǔ)義標(biāo)注方法研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-03-05 01:11
  隨著計(jì)算機(jī)的普及和信息社會(huì)的高速發(fā)展,網(wǎng)絡(luò)上的資源數(shù)量以幾何級(jí)數(shù)遞增。在當(dāng)今的知識(shí)的表現(xiàn)形式中,文檔表現(xiàn)仍然是一個(gè)主流方式,包括書(shū)籍以及計(jì)算機(jī)上各種格式的文件。如何以一種快速高效的方式從這些大量的非結(jié)構(gòu)化的文檔中獲取自己需要的知識(shí),已經(jīng)成為了當(dāng)下研究的熱點(diǎn)之一。隨著語(yǔ)義網(wǎng)相關(guān)概念的興起,人們對(duì)于知識(shí)的獲取的研究不單單只是針對(duì)于文檔本身,而已經(jīng)開(kāi)始轉(zhuǎn)向于文檔內(nèi)容的語(yǔ)義。現(xiàn)有的語(yǔ)義標(biāo)注方法有很多,但是很多方法都依賴(lài)于現(xiàn)有的本體庫(kù)(WordNet等),并且只用到一般性的概念進(jìn)行標(biāo)注,缺乏領(lǐng)域支持。針對(duì)于現(xiàn)有的語(yǔ)義標(biāo)注方法的不足,本文以電影領(lǐng)域?yàn)檠芯繉?duì)象,提出了一種基于自然語(yǔ)言處理的領(lǐng)域語(yǔ)義標(biāo)注方法并實(shí)現(xiàn)了原型系統(tǒng)。該方法主要分為兩大部分:第一部分是基于自然語(yǔ)言處理方法的領(lǐng)域本體庫(kù)的構(gòu)建,第二部分是基于自建領(lǐng)域本體庫(kù)的語(yǔ)義標(biāo)注。領(lǐng)域本體庫(kù)的構(gòu)建主要分為語(yǔ)義的模型構(gòu)建、三元組抽取、規(guī)范化表述形成三個(gè)部分。語(yǔ)義模型的構(gòu)建主要是根據(jù)語(yǔ)料構(gòu)建領(lǐng)域本體庫(kù),為后面所有的工作提供支持;在三元組抽取的過(guò)程中,主要用到了基于依存句法分析與基于規(guī)則的方法相結(jié)合的方法——在依存句法分析的基礎(chǔ)之上,結(jié)合需求,指定模式... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:83 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于NLP的專(zhuān)業(yè)領(lǐng)域文檔語(yǔ)義標(biāo)注方法研究與實(shí)現(xiàn)


影評(píng)中關(guān)鍵詞詞頻率

電影,基本模型,本體


圖 3-6 電影相關(guān)本體基本模型圖通過(guò)圖 3-6 可以清楚的觀察到類(lèi)與類(lèi)之間的關(guān)系。經(jīng)過(guò) 3.2.1 和 3.2.2 兩小節(jié)中的模型構(gòu)建以及三元組關(guān)系抽取分析后,根據(jù) OWL-Lite 規(guī)范,將電影《西虹市首富》對(duì)象(部分)轉(zhuǎn)化生成符合 RDF 的 XML 文件進(jìn)行存儲(chǔ),如下面代碼所示:電影存儲(chǔ)規(guī)范展示:<owl:ObjectProperty rdf:id = “hasActor”>#屬性、共用<owl:ObjectProperty rdf:id = “hasLeadRole”><owl:DataProperty rdf:id=”film_name”>…<FilmObject rdf:about = “西虹市首富”>#具體實(shí)例<has_Basic>#基本語(yǔ)義<filmName rdf: datatype = "&xsd;string”>西虹市首富</filmName><length rdf: datatype = "&xsd;string”>片長(zhǎng)</length>

網(wǎng)絡(luò)爬蟲(chóng)


: factory. getOWLObjectPropertyAssertionAxiom, factory. getOWLClassAssertionAxio對(duì)象屬性和實(shí)例關(guān)聯(lián),類(lèi)與實(shí)例關(guān)聯(lián): manager.saveOntology(onto,IRI.creat(new filename));//生成本地本體文件通過(guò)上述的代碼,將 Result.list 的數(shù)據(jù)打印出來(lái),并生成 OWL 本體描述文9 領(lǐng)域語(yǔ)義標(biāo)注原型系統(tǒng)效果展示整個(gè)語(yǔ)義標(biāo)注的核心是后臺(tái)設(shè)計(jì)與實(shí)現(xiàn),即數(shù)據(jù)爬取模塊,數(shù)據(jù)預(yù)處理模域本體構(gòu)建模塊,相似度計(jì)算模塊,標(biāo)注生成模塊。此外,利用簡(jiǎn)單的前臺(tái)各個(gè)模塊功能進(jìn)行展示。9.1 網(wǎng)絡(luò)爬蟲(chóng)爬蟲(chóng)主要是數(shù)據(jù)集的收集,主要是對(duì)電影的基本信息以及語(yǔ)料進(jìn)行獲取,本信息中一個(gè)概念,對(duì)應(yīng)一個(gè)值。對(duì)劇情簡(jiǎn)介以及影評(píng)語(yǔ)料抽取后放在另一庫(kù)表里面并用外鍵 film_id 與之關(guān)聯(lián),爬蟲(chóng)運(yùn)行的具體結(jié)果如圖 4-9 所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于自主學(xué)習(xí)規(guī)則的中文物種描述文本的語(yǔ)義標(biāo)注研究[J]. 段宇鋒,黑珍珍,鞠菲,崔紅.  現(xiàn)代圖書(shū)情報(bào)技術(shù). 2012(05)
[2]基于本體的文檔語(yǔ)義標(biāo)注改進(jìn)方法[J]. 陳葉旺,李文,彭鑫,趙文耘.  東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(06)
[3]網(wǎng)絡(luò)標(biāo)注的主要方法概述[J]. 張瑜,李景,孟憲學(xué),蘇曉路.  圖書(shū)情報(bào)工作. 2008(01)
[4]頂層本體比較及評(píng)估[J]. 賈君枝,劉艷玲.  情報(bào)理論與實(shí)踐. 2007(03)
[5]人工智能發(fā)展綜述[J]. 田金萍.  科技廣場(chǎng). 2007(01)
[6]中文概念詞典的結(jié)構(gòu)[J]. 于江生,俞士汶.  中文信息學(xué)報(bào). 2002(04)

博士論文
[1]面向領(lǐng)域網(wǎng)頁(yè)的語(yǔ)義標(biāo)注若干問(wèn)題研究[D]. 荊濤.吉林大學(xué) 2011

碩士論文
[1]結(jié)合WordNet的領(lǐng)域語(yǔ)義標(biāo)注研究[D]. 熊榮東.重慶大學(xué) 2011



本文編號(hào):3064291

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3064291.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)453fb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com