基于NLP的專業(yè)領(lǐng)域文檔語義標(biāo)注方法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-05 01:11
隨著計(jì)算機(jī)的普及和信息社會(huì)的高速發(fā)展,網(wǎng)絡(luò)上的資源數(shù)量以幾何級(jí)數(shù)遞增。在當(dāng)今的知識(shí)的表現(xiàn)形式中,文檔表現(xiàn)仍然是一個(gè)主流方式,包括書籍以及計(jì)算機(jī)上各種格式的文件。如何以一種快速高效的方式從這些大量的非結(jié)構(gòu)化的文檔中獲取自己需要的知識(shí),已經(jīng)成為了當(dāng)下研究的熱點(diǎn)之一。隨著語義網(wǎng)相關(guān)概念的興起,人們對(duì)于知識(shí)的獲取的研究不單單只是針對(duì)于文檔本身,而已經(jīng)開始轉(zhuǎn)向于文檔內(nèi)容的語義,F(xiàn)有的語義標(biāo)注方法有很多,但是很多方法都依賴于現(xiàn)有的本體庫(WordNet等),并且只用到一般性的概念進(jìn)行標(biāo)注,缺乏領(lǐng)域支持。針對(duì)于現(xiàn)有的語義標(biāo)注方法的不足,本文以電影領(lǐng)域?yàn)檠芯繉?duì)象,提出了一種基于自然語言處理的領(lǐng)域語義標(biāo)注方法并實(shí)現(xiàn)了原型系統(tǒng)。該方法主要分為兩大部分:第一部分是基于自然語言處理方法的領(lǐng)域本體庫的構(gòu)建,第二部分是基于自建領(lǐng)域本體庫的語義標(biāo)注。領(lǐng)域本體庫的構(gòu)建主要分為語義的模型構(gòu)建、三元組抽取、規(guī)范化表述形成三個(gè)部分。語義模型的構(gòu)建主要是根據(jù)語料構(gòu)建領(lǐng)域本體庫,為后面所有的工作提供支持;在三元組抽取的過程中,主要用到了基于依存句法分析與基于規(guī)則的方法相結(jié)合的方法——在依存句法分析的基礎(chǔ)之上,結(jié)合需求,指定模式...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
影評(píng)中關(guān)鍵詞詞頻率
圖 3-6 電影相關(guān)本體基本模型圖通過圖 3-6 可以清楚的觀察到類與類之間的關(guān)系。經(jīng)過 3.2.1 和 3.2.2 兩小節(jié)中的模型構(gòu)建以及三元組關(guān)系抽取分析后,根據(jù) OWL-Lite 規(guī)范,將電影《西虹市首富》對(duì)象(部分)轉(zhuǎn)化生成符合 RDF 的 XML 文件進(jìn)行存儲(chǔ),如下面代碼所示:電影存儲(chǔ)規(guī)范展示:<owl:ObjectProperty rdf:id = “hasActor”>#屬性、共用<owl:ObjectProperty rdf:id = “hasLeadRole”><owl:DataProperty rdf:id=”film_name”>…<FilmObject rdf:about = “西虹市首富”>#具體實(shí)例<has_Basic>#基本語義<filmName rdf: datatype = "&xsd;string”>西虹市首富</filmName><length rdf: datatype = "&xsd;string”>片長</length>
: factory. getOWLObjectPropertyAssertionAxiom, factory. getOWLClassAssertionAxio對(duì)象屬性和實(shí)例關(guān)聯(lián),類與實(shí)例關(guān)聯(lián): manager.saveOntology(onto,IRI.creat(new filename));//生成本地本體文件通過上述的代碼,將 Result.list 的數(shù)據(jù)打印出來,并生成 OWL 本體描述文9 領(lǐng)域語義標(biāo)注原型系統(tǒng)效果展示整個(gè)語義標(biāo)注的核心是后臺(tái)設(shè)計(jì)與實(shí)現(xiàn),即數(shù)據(jù)爬取模塊,數(shù)據(jù)預(yù)處理模域本體構(gòu)建模塊,相似度計(jì)算模塊,標(biāo)注生成模塊。此外,利用簡單的前臺(tái)各個(gè)模塊功能進(jìn)行展示。9.1 網(wǎng)絡(luò)爬蟲爬蟲主要是數(shù)據(jù)集的收集,主要是對(duì)電影的基本信息以及語料進(jìn)行獲取,本信息中一個(gè)概念,對(duì)應(yīng)一個(gè)值。對(duì)劇情簡介以及影評(píng)語料抽取后放在另一庫表里面并用外鍵 film_id 與之關(guān)聯(lián),爬蟲運(yùn)行的具體結(jié)果如圖 4-9 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于自主學(xué)習(xí)規(guī)則的中文物種描述文本的語義標(biāo)注研究[J]. 段宇鋒,黑珍珍,鞠菲,崔紅. 現(xiàn)代圖書情報(bào)技術(shù). 2012(05)
[2]基于本體的文檔語義標(biāo)注改進(jìn)方法[J]. 陳葉旺,李文,彭鑫,趙文耘. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(06)
[3]網(wǎng)絡(luò)標(biāo)注的主要方法概述[J]. 張瑜,李景,孟憲學(xué),蘇曉路. 圖書情報(bào)工作. 2008(01)
[4]頂層本體比較及評(píng)估[J]. 賈君枝,劉艷玲. 情報(bào)理論與實(shí)踐. 2007(03)
[5]人工智能發(fā)展綜述[J]. 田金萍. 科技廣場. 2007(01)
[6]中文概念詞典的結(jié)構(gòu)[J]. 于江生,俞士汶. 中文信息學(xué)報(bào). 2002(04)
博士論文
[1]面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D]. 荊濤.吉林大學(xué) 2011
碩士論文
[1]結(jié)合WordNet的領(lǐng)域語義標(biāo)注研究[D]. 熊榮東.重慶大學(xué) 2011
本文編號(hào):3064291
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
影評(píng)中關(guān)鍵詞詞頻率
圖 3-6 電影相關(guān)本體基本模型圖通過圖 3-6 可以清楚的觀察到類與類之間的關(guān)系。經(jīng)過 3.2.1 和 3.2.2 兩小節(jié)中的模型構(gòu)建以及三元組關(guān)系抽取分析后,根據(jù) OWL-Lite 規(guī)范,將電影《西虹市首富》對(duì)象(部分)轉(zhuǎn)化生成符合 RDF 的 XML 文件進(jìn)行存儲(chǔ),如下面代碼所示:電影存儲(chǔ)規(guī)范展示:<owl:ObjectProperty rdf:id = “hasActor”>#屬性、共用<owl:ObjectProperty rdf:id = “hasLeadRole”><owl:DataProperty rdf:id=”film_name”>…<FilmObject rdf:about = “西虹市首富”>#具體實(shí)例<has_Basic>#基本語義<filmName rdf: datatype = "&xsd;string”>西虹市首富</filmName><length rdf: datatype = "&xsd;string”>片長</length>
: factory. getOWLObjectPropertyAssertionAxiom, factory. getOWLClassAssertionAxio對(duì)象屬性和實(shí)例關(guān)聯(lián),類與實(shí)例關(guān)聯(lián): manager.saveOntology(onto,IRI.creat(new filename));//生成本地本體文件通過上述的代碼,將 Result.list 的數(shù)據(jù)打印出來,并生成 OWL 本體描述文9 領(lǐng)域語義標(biāo)注原型系統(tǒng)效果展示整個(gè)語義標(biāo)注的核心是后臺(tái)設(shè)計(jì)與實(shí)現(xiàn),即數(shù)據(jù)爬取模塊,數(shù)據(jù)預(yù)處理模域本體構(gòu)建模塊,相似度計(jì)算模塊,標(biāo)注生成模塊。此外,利用簡單的前臺(tái)各個(gè)模塊功能進(jìn)行展示。9.1 網(wǎng)絡(luò)爬蟲爬蟲主要是數(shù)據(jù)集的收集,主要是對(duì)電影的基本信息以及語料進(jìn)行獲取,本信息中一個(gè)概念,對(duì)應(yīng)一個(gè)值。對(duì)劇情簡介以及影評(píng)語料抽取后放在另一庫表里面并用外鍵 film_id 與之關(guān)聯(lián),爬蟲運(yùn)行的具體結(jié)果如圖 4-9 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于自主學(xué)習(xí)規(guī)則的中文物種描述文本的語義標(biāo)注研究[J]. 段宇鋒,黑珍珍,鞠菲,崔紅. 現(xiàn)代圖書情報(bào)技術(shù). 2012(05)
[2]基于本體的文檔語義標(biāo)注改進(jìn)方法[J]. 陳葉旺,李文,彭鑫,趙文耘. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(06)
[3]網(wǎng)絡(luò)標(biāo)注的主要方法概述[J]. 張瑜,李景,孟憲學(xué),蘇曉路. 圖書情報(bào)工作. 2008(01)
[4]頂層本體比較及評(píng)估[J]. 賈君枝,劉艷玲. 情報(bào)理論與實(shí)踐. 2007(03)
[5]人工智能發(fā)展綜述[J]. 田金萍. 科技廣場. 2007(01)
[6]中文概念詞典的結(jié)構(gòu)[J]. 于江生,俞士汶. 中文信息學(xué)報(bào). 2002(04)
博士論文
[1]面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D]. 荊濤.吉林大學(xué) 2011
碩士論文
[1]結(jié)合WordNet的領(lǐng)域語義標(biāo)注研究[D]. 熊榮東.重慶大學(xué) 2011
本文編號(hào):3064291
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3064291.html
最近更新
教材專著