非結(jié)構(gòu)化文本上領(lǐng)域本體的抽取
發(fā)布時(shí)間:2021-03-21 23:31
隨著大數(shù)據(jù)和人工智能時(shí)代的到來,數(shù)據(jù)成為了各行業(yè)的首要關(guān)注點(diǎn),而傳統(tǒng)的領(lǐng)域本體構(gòu)建技術(shù)多數(shù)基于結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取,忽略了非結(jié)構(gòu)化數(shù)據(jù)中可能包含的重要信息;其次,從中文文本中抽取本體的關(guān)鍵是術(shù)語抽取,而傳統(tǒng)的詞向量構(gòu)建算法TF-IDF和word2vec需要重復(fù)遍歷語料庫,耗時(shí)高、雜質(zhì)多,且不考慮術(shù)語的全文復(fù)現(xiàn)度和共現(xiàn)度,導(dǎo)致查準(zhǔn)率和查全率較低;再次,中文術(shù)語從非結(jié)構(gòu)化走向結(jié)構(gòu)化需要進(jìn)行概念性驗(yàn)證和結(jié)構(gòu)化表示;最后,本體作為一種共享概念模型的形式化表示,應(yīng)當(dāng)具有較強(qiáng)的主動(dòng)學(xué)習(xí)能力。針對(duì)上述問題,本文采用CKIP概念結(jié)構(gòu)樹,省略了人工標(biāo)注;采用Wikipedia Extractor從維基百科中抽取多領(lǐng)域的文本數(shù)據(jù),用wiki百科的定義數(shù)據(jù)作為偏移修正;在提出建立中文語料庫的構(gòu)建原則后,采用CKIP系統(tǒng)構(gòu)建術(shù)語的概念結(jié)構(gòu)樹、進(jìn)行文本預(yù)處理中的詞法句法分析,制定3個(gè)基于語言形態(tài)和概念結(jié)構(gòu)的參數(shù)WPOS、WTV、WTC,提出一種無監(jiān)督的自組織映射SOM的術(shù)語抽取算法;本文從內(nèi)涵、外延、同義詞識(shí)別幾個(gè)方面對(duì)術(shù)語進(jìn)行概念驗(yàn)證,進(jìn)一步簡化概念結(jié)構(gòu)樹,進(jìn)行語義消歧和冗余去除;使用規(guī)則匹配和后...
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.5術(shù)語抽取的準(zhǔn)確率??Fig.2.5?Accuracy?of?Terminology?Extraction??
?非結(jié)構(gòu)化文本上領(lǐng)域本體的抽取???根據(jù)抽取數(shù)據(jù)結(jié)果,術(shù)語抽取比較圖如圖5.1所示:??0.8??????0?6616??0.6?廠]?D?5271?—?—?-4^^—??L?l?^__網(wǎng)?顯?^??0.4??0.2??、?ft?W?^??0???????I?..丨????査準(zhǔn)率?查全率?F值?査準(zhǔn)率?査全率?F值??TF-IDF?本文抽取結(jié)果??圖5.1術(shù)語抽取結(jié)果比較圖??Fig.5.1?Comparison?Graph?of?Terminology?Extraction?Result??從圖5.1可以看出,本文提出的基于三種度量參數(shù)Wa、妒^、砂Vc和SOM聚類的??相似度計(jì)算的術(shù)語抽取算法,在查準(zhǔn)率和查全率的性能上,要優(yōu)于常用的TF-IDF方法。??5.2中文領(lǐng)域概念抽取實(shí)驗(yàn)??5.2.?1數(shù)據(jù)集??實(shí)驗(yàn)硬件環(huán)境為:CPU雙核主頻2.60GHZ+6G內(nèi)存+Windows系統(tǒng)。本文的實(shí)驗(yàn)數(shù)??據(jù)集來自于WikipediaExtractor獲取的wiki.txt文本數(shù)據(jù),包括足球、自然災(zāi)害的正文內(nèi)??容,該數(shù)據(jù)集下有7536千篇正文內(nèi)容,以.txt格式給出。??為了完成概念的內(nèi)涵驗(yàn)證和外延驗(yàn)證,本文分別抓。鳎椋耄榘倏粕系母拍疃x內(nèi)容、??wiki上概念的詞語延伸文本,對(duì)793個(gè)術(shù)語進(jìn)行概念性驗(yàn)證。??5.?2.?2評(píng)價(jià)標(biāo)準(zhǔn)??概念的內(nèi)涵驗(yàn)證:爬蟲獲取的維基百科的概念定義內(nèi)容。本文得到的部分結(jié)果集,??如表5.2所示:??表5.2內(nèi)涵驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)表??Tab.?5.2?Intension?Testing??內(nèi)涵驗(yàn)證值?Wm?內(nèi)涵驗(yàn)證值
【參考文獻(xiàn)】:
期刊論文
[1]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[2]國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J]. 岳麗欣,劉文云. 情報(bào)理論與實(shí)踐. 2016(08)
[3]一種基于模糊Petri網(wǎng)的雙向并行推理算法[J]. 王慧英,樂曉波,周愷卿. 計(jì)算機(jī)工程. 2014(03)
[4]語義Web中對(duì)象共指的消解研究[J]. 胡偉,柏文陽,瞿裕忠. 軟件學(xué)報(bào). 2012(07)
[5]利用上下位關(guān)系的中文短文本分類[J]. 王盛,樊興華,陳現(xiàn)麟. 計(jì)算機(jī)應(yīng)用. 2010(03)
博士論文
[1]基于遺傳規(guī)劃和集成學(xué)習(xí)的Web Spam檢測關(guān)鍵技術(shù)研究[D]. 牛小飛.山東大學(xué) 2012
[2]基于本體的自適應(yīng)Web信息抽取方法研究[D]. 李傳席.中國科學(xué)技術(shù)大學(xué) 2012
[3]基于Web的本體學(xué)習(xí)研究[D]. 傅魁.武漢理工大學(xué) 2007
[4]基于Web的通用本體學(xué)習(xí)研究[D]. 劉柏嵩.浙江大學(xué) 2007
碩士論文
[1]基于領(lǐng)域本體的信息檢索研究[D]. 廖軍.中南大學(xué) 2007
本文編號(hào):3093694
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.5術(shù)語抽取的準(zhǔn)確率??Fig.2.5?Accuracy?of?Terminology?Extraction??
?非結(jié)構(gòu)化文本上領(lǐng)域本體的抽取???根據(jù)抽取數(shù)據(jù)結(jié)果,術(shù)語抽取比較圖如圖5.1所示:??0.8??????0?6616??0.6?廠]?D?5271?—?—?-4^^—??L?l?^__網(wǎng)?顯?^??0.4??0.2??、?ft?W?^??0???????I?..丨????査準(zhǔn)率?查全率?F值?査準(zhǔn)率?査全率?F值??TF-IDF?本文抽取結(jié)果??圖5.1術(shù)語抽取結(jié)果比較圖??Fig.5.1?Comparison?Graph?of?Terminology?Extraction?Result??從圖5.1可以看出,本文提出的基于三種度量參數(shù)Wa、妒^、砂Vc和SOM聚類的??相似度計(jì)算的術(shù)語抽取算法,在查準(zhǔn)率和查全率的性能上,要優(yōu)于常用的TF-IDF方法。??5.2中文領(lǐng)域概念抽取實(shí)驗(yàn)??5.2.?1數(shù)據(jù)集??實(shí)驗(yàn)硬件環(huán)境為:CPU雙核主頻2.60GHZ+6G內(nèi)存+Windows系統(tǒng)。本文的實(shí)驗(yàn)數(shù)??據(jù)集來自于WikipediaExtractor獲取的wiki.txt文本數(shù)據(jù),包括足球、自然災(zāi)害的正文內(nèi)??容,該數(shù)據(jù)集下有7536千篇正文內(nèi)容,以.txt格式給出。??為了完成概念的內(nèi)涵驗(yàn)證和外延驗(yàn)證,本文分別抓。鳎椋耄榘倏粕系母拍疃x內(nèi)容、??wiki上概念的詞語延伸文本,對(duì)793個(gè)術(shù)語進(jìn)行概念性驗(yàn)證。??5.?2.?2評(píng)價(jià)標(biāo)準(zhǔn)??概念的內(nèi)涵驗(yàn)證:爬蟲獲取的維基百科的概念定義內(nèi)容。本文得到的部分結(jié)果集,??如表5.2所示:??表5.2內(nèi)涵驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)表??Tab.?5.2?Intension?Testing??內(nèi)涵驗(yàn)證值?Wm?內(nèi)涵驗(yàn)證值
【參考文獻(xiàn)】:
期刊論文
[1]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[2]國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J]. 岳麗欣,劉文云. 情報(bào)理論與實(shí)踐. 2016(08)
[3]一種基于模糊Petri網(wǎng)的雙向并行推理算法[J]. 王慧英,樂曉波,周愷卿. 計(jì)算機(jī)工程. 2014(03)
[4]語義Web中對(duì)象共指的消解研究[J]. 胡偉,柏文陽,瞿裕忠. 軟件學(xué)報(bào). 2012(07)
[5]利用上下位關(guān)系的中文短文本分類[J]. 王盛,樊興華,陳現(xiàn)麟. 計(jì)算機(jī)應(yīng)用. 2010(03)
博士論文
[1]基于遺傳規(guī)劃和集成學(xué)習(xí)的Web Spam檢測關(guān)鍵技術(shù)研究[D]. 牛小飛.山東大學(xué) 2012
[2]基于本體的自適應(yīng)Web信息抽取方法研究[D]. 李傳席.中國科學(xué)技術(shù)大學(xué) 2012
[3]基于Web的本體學(xué)習(xí)研究[D]. 傅魁.武漢理工大學(xué) 2007
[4]基于Web的通用本體學(xué)習(xí)研究[D]. 劉柏嵩.浙江大學(xué) 2007
碩士論文
[1]基于領(lǐng)域本體的信息檢索研究[D]. 廖軍.中南大學(xué) 2007
本文編號(hào):3093694
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3093694.html
最近更新
教材專著