基于圖書(shū)的概念上下位關(guān)系和多側(cè)面定義的抽取
本文關(guān)鍵詞:基于圖書(shū)的概念上下位關(guān)系和多側(cè)面定義的抽取
更多相關(guān)文章: 上下位關(guān)系 多側(cè)面定義 分類(lèi)體系 知識(shí)庫(kù) 數(shù)字圖書(shū)館
【摘要】:近年來(lái),知識(shí)庫(kù)在信息檢索、文本理解等方面顯得越發(fā)至關(guān)重要,但是如何為任意領(lǐng)域構(gòu)建一個(gè)大規(guī)模知識(shí)庫(kù)仍是一件非常有挑戰(zhàn)性的工作。幸運(yùn)的是,已有大量的圖書(shū)在數(shù)字圖書(shū)館中被數(shù)字化,比如,CADAL數(shù)字圖書(shū)館近十年來(lái)已經(jīng)數(shù)字化了260多萬(wàn)冊(cè)圖書(shū),這些圖書(shū)中蘊(yùn)含著大量的知識(shí)。如果我們可以直接從大量的圖書(shū)中學(xué)習(xí)出概念間的上下位關(guān)系和概念的定義,這將會(huì)對(duì)知識(shí)庫(kù)構(gòu)建產(chǎn)生很大的幫助。 在本文中,我們提出了一種基于圖書(shū)構(gòu)建知識(shí)庫(kù)的方法,能從大量的圖書(shū)中分析挖掘出概念的分類(lèi)體系以及多側(cè)面定義。分類(lèi)體系主要基于圖書(shū)目錄關(guān)系從中抽取出的上下位關(guān)系和并列關(guān)系,通過(guò)概念驗(yàn)證、條件過(guò)濾以及排序等步驟來(lái)構(gòu)建。多側(cè)面定義則是:首先通過(guò)基于圖書(shū)目錄的搜索引擎從圖書(shū)中抽取出候選定義,然后再對(duì)候選定義進(jìn)行聚類(lèi)和排序以找出多側(cè)面定義。 通過(guò)上述方法,我們可以完全基于數(shù)字圖書(shū)館中海量的圖書(shū)來(lái)構(gòu)建知識(shí)庫(kù)。該方法在CADAL數(shù)字圖書(shū)館的百萬(wàn)冊(cè)圖書(shū)中進(jìn)行了實(shí)踐,實(shí)驗(yàn)結(jié)果表明我們的方法是行之有效的。
【關(guān)鍵詞】:上下位關(guān)系 多側(cè)面定義 分類(lèi)體系 知識(shí)庫(kù) 數(shù)字圖書(shū)館
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-11
- 第1章 緒論11-16
- 1.1 課題背景11-14
- 1.2 本文組織結(jié)構(gòu)14-15
- 1.3 本章小結(jié)15-16
- 第2章 國(guó)內(nèi)外研究現(xiàn)狀16-27
- 2.1 現(xiàn)有的上下位關(guān)系抽取的方法16-22
- 2.1.1 基于模式的方法16-19
- 2.1.2 基于分布特征的方法19
- 2.1.3 基于半結(jié)構(gòu)化或者結(jié)構(gòu)化內(nèi)容的方法19-21
- 2.1.4 基于異構(gòu)證據(jù)的集成的方法21
- 2.1.5 基于眾包的方法21-22
- 2.2 現(xiàn)有的定義抽取的方法22-23
- 2.2.1 基于模式的方法23
- 2.2.2 基于機(jī)器學(xué)習(xí)的方法23
- 2.3 自然語(yǔ)言處理工具23-24
- 2.3.1 FudanNLP23-24
- 2.4 知識(shí)圖譜上的聚類(lèi)算法24-25
- 2.4.1 AP聚類(lèi)24-25
- 2.5 對(duì)知識(shí)圖譜的存儲(chǔ)25-26
- 2.5.1 圖數(shù)據(jù)庫(kù)Neo4j25-26
- 2.6 本章小結(jié)26-27
- 第3章 基于圖書(shū)目錄抽取概念的上下位關(guān)系27-42
- 3.1 基于圖書(shū)目錄構(gòu)建知識(shí)圖譜的概述27-28
- 3.2 知識(shí)圖譜中概念的生成28-34
- 3.2.1 對(duì)章節(jié)名處理產(chǎn)生候選概念28-34
- 3.3 利用并列關(guān)系對(duì)上下位關(guān)系進(jìn)行增量補(bǔ)充34-39
- 3.3.1 強(qiáng)弱并列關(guān)系的區(qū)分34-35
- 3.3.2 知識(shí)節(jié)點(diǎn)間相關(guān)度35-36
- 3.3.3 利用并列關(guān)系進(jìn)行補(bǔ)充36-39
- 3.4 利用目錄子結(jié)構(gòu)對(duì)上下位關(guān)系進(jìn)行增量補(bǔ)充39
- 3.5 對(duì)知識(shí)圖譜中的上下位關(guān)系進(jìn)行清洗合并39-40
- 3.6 使用圖數(shù)據(jù)庫(kù)Neo4j進(jìn)行存儲(chǔ)并提供對(duì)外服務(wù)40-41
- 3.7 本章小結(jié)41-42
- 第4章 基于圖書(shū)的抽取概念的多側(cè)面定義42-47
- 4.1 概念定義的概述42-43
- 4.2 定義性句子的抽取43-44
- 4.3 對(duì)候選定義進(jìn)行聚類(lèi)并產(chǎn)生多側(cè)面的定義44-46
- 4.3.1 對(duì)候選定義進(jìn)行特征抽取和相似度的計(jì)算44-46
- 4.4 本章小結(jié)46-47
- 第5章 實(shí)驗(yàn)47-56
- 5.1 數(shù)據(jù)集的分布情況47-48
- 5.2 分類(lèi)體系構(gòu)建的評(píng)估48-52
- 5.3 定義抽取的評(píng)估52-55
- 5.4 本章小結(jié)55-56
- 第6章 總結(jié)與展望56-57
- 6.1 總結(jié)56
- 6.2 展望56-57
- 參考文獻(xiàn)57-62
- 攻讀碩士學(xué)位期間主要的研究成果62-63
- 致謝63-64
- 作者簡(jiǎn)歷64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 邱莉榕;翁_g;趙小兵;;藏文語(yǔ)義本體中的上下位關(guān)系模式匹配算法[J];中文信息學(xué)報(bào);2011年04期
2 王盛;樊興華;陳現(xiàn)麟;;利用上下位關(guān)系的中文短文本分類(lèi)[J];計(jì)算機(jī)應(yīng)用;2010年03期
3 王迎春;蔡?hào)|風(fēng);葉娜;;基于實(shí)體-屬性框架的領(lǐng)域知識(shí)庫(kù)構(gòu)建[J];沈陽(yáng)航空航天大學(xué)學(xué)報(bào);2011年02期
4 張巍;于洋;游宏梁;;面向詞匯知識(shí)庫(kù)自動(dòng)構(gòu)建的概念術(shù)語(yǔ)關(guān)系識(shí)別[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年11期
5 劉磊;曹存根;王海濤;陳威;;一種基于“是一個(gè)”模式的下位概念獲取方法[J];計(jì)算機(jī)科學(xué);2006年09期
6 李寶敏;張娜;;語(yǔ)義智能檢索在果品領(lǐng)域的應(yīng)用[J];西安工業(yè)大學(xué)學(xué)報(bào);2008年03期
7 劉磊;曹存根;張春霞;田國(guó)剛;;概念空間中上下位關(guān)系的意義識(shí)別研究[J];計(jì)算機(jī)學(xué)報(bào);2009年08期
8 周明鑒;來(lái)函照登[J];編輯學(xué)刊;2001年05期
9 陳杰;蔣祖華;;領(lǐng)域本體的概念相似度計(jì)算[J];計(jì)算機(jī)工程與應(yīng)用;2006年33期
10 張娜;張星;;基于本體的語(yǔ)義智能檢索系統(tǒng)研究[J];平頂山工學(xué)院學(xué)報(bào);2007年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 胡永偉;穗志方;李奇;;小規(guī)模語(yǔ)料中術(shù)語(yǔ)概念關(guān)系的提取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
2 徐惠;高志強(qiáng);陸青健;朱萬(wàn)穎;;ORIGO:一種基于數(shù)字化圖書(shū)館資源的本體學(xué)習(xí)方法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 李姣;朱小燕;;生物文獻(xiàn)的本體建模及其在語(yǔ)義查詢(xún)中的應(yīng)用[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
4 陳慧清;林世平;;基于知網(wǎng)和模式自舉的概念間分類(lèi)關(guān)系獲取方法[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
5 馬永騰;亢世勇;;新編同義詞詞林語(yǔ)義分類(lèi)體系[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
6 趙磊;閻艷;王鋒;;基于本體的坦克裝甲車(chē)輛工藝知識(shí)庫(kù)的建立[A];先進(jìn)制造技術(shù)高層論壇暨第六屆制造業(yè)自動(dòng)化與信息化技術(shù)研討會(huì)論文集[C];2007年
7 徐超;畢玉德;;面向自然語(yǔ)言處理的韓國(guó)語(yǔ)隱喻知識(shí)庫(kù)構(gòu)建研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 白宇;于水;葉娜;蔡?hào)|風(fēng);任曉娜;;一種基于語(yǔ)境的詞語(yǔ)相似度計(jì)算方法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
9 王紅玲;呂強(qiáng);徐瑞;;一種基于知網(wǎng)的中文語(yǔ)義相關(guān)度計(jì)算模型[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
10 廖光忠;黃澤鑫;;基于HowNet語(yǔ)義算法的研究[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 黃楠森;怎樣認(rèn)識(shí)毛澤東關(guān)于“自由”的定義[N];北京日?qǐng)?bào);2002年
2 人行宜春市中心支行 丁朝暉;“其他組織”的定義做出司法解釋[N];金融時(shí)報(bào);2001年
3 記者 高原;誰(shuí)來(lái)定義恐怖主義[N];新華每日電訊;2002年
4 林櫻;概念的定義和語(yǔ)言的科學(xué)性[N];云南經(jīng)濟(jì)日?qǐng)?bào);2002年
5 江蘇興化市大垛鎮(zhèn)板橋高級(jí)中學(xué) 湯曉夏 江蘇宜興市外國(guó)語(yǔ)學(xué)校 蔣玉娟;“健康”定義新解[N];中國(guó)體育報(bào);2002年
6 海海龍;定義品牌的競(jìng)爭(zhēng)性框架[N];中國(guó)機(jī)電日?qǐng)?bào);2002年
7 喬哲;定義信息高效管理[N];國(guó)際商報(bào);2001年
8 馮青;“金字塔”定義利潤(rùn)等級(jí)[N];中華建筑報(bào);2002年
9 鄧力;掰一掰“統(tǒng)計(jì)”這個(gè)詞[N];中國(guó)信息報(bào);2010年
10 本報(bào)記者 甘霖來(lái);IBM定義服務(wù)器的未來(lái)[N];中國(guó)計(jì)算機(jī)報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李庭波;森林資源經(jīng)營(yíng)決策本體知識(shí)庫(kù)技術(shù)研究及應(yīng)用[D];福建農(nóng)林大學(xué);2009年
2 鐘美;基于Web的空間本體構(gòu)建方法研究[D];武漢大學(xué);2010年
3 買(mǎi)琳燕;從歌德到索爾·貝婁的成長(zhǎng)小說(shuō)研究[D];吉林大學(xué);2008年
4 葉芳;改進(jìn)德?tīng)柗疲―elphi)法研究亞健康的描述性定義及評(píng)價(jià)標(biāo)準(zhǔn)[D];中國(guó)協(xié)和醫(yī)科大學(xué);2008年
5 由麗萍;構(gòu)建現(xiàn)代漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)技術(shù)研究[D];上海師范大學(xué);2006年
6 邵軍航;委婉語(yǔ)研究[D];上海外國(guó)語(yǔ)大學(xué);2007年
7 侯榮國(guó);復(fù)合式長(zhǎng)壽命路面結(jié)構(gòu)研究[D];長(zhǎng)安大學(xué);2008年
8 張奇;細(xì)顆粒度情感傾向分析若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2008年
9 牟冬梅;數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)策略及其應(yīng)用研究[D];吉林大學(xué);2009年
10 姬偉;面向業(yè)務(wù)的空間信息服務(wù)應(yīng)用開(kāi)發(fā)體系鏈[D];中國(guó)地質(zhì)大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張萌;基于圖書(shū)的概念上下位關(guān)系和多側(cè)面定義的抽取[D];浙江大學(xué);2014年
2 蔣年樹(shù);領(lǐng)域本體概念上下位關(guān)系的抽取及組織研究[D];昆明理工大學(xué);2013年
3 王海雄;領(lǐng)域本體中的術(shù)語(yǔ)和上下位、同位關(guān)系抽取的研究[D];昆明理工大學(xué);2011年
4 湯青;本體概念及概念間關(guān)系抽取方法研究[D];北京信息科技大學(xué);2013年
5 潘俊峰;面向開(kāi)放域信息抽取的關(guān)系知識(shí)庫(kù)建立[D];上海交通大學(xué);2013年
6 董潤(rùn)芝;文本中場(chǎng)景識(shí)別的研究與分析[D];哈爾濱工業(yè)大學(xué);2010年
7 張?jiān)l(fā);基于本體的船舶領(lǐng)域知識(shí)獲取研究[D];大連海事大學(xué);2010年
8 王俊華;基于文本的半監(jiān)督領(lǐng)域本體構(gòu)建[D];吉林大學(xué);2010年
9 王旭剛;業(yè)務(wù)流程本體知識(shí)庫(kù)的研究與設(shè)計(jì)[D];山東大學(xué);2011年
10 王迎春;基于實(shí)體—屬性框架的航空領(lǐng)域知識(shí)庫(kù)的構(gòu)建及應(yīng)用[D];沈陽(yáng)航空航天大學(xué);2011年
,本文編號(hào):1132630
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1132630.html