基于本體的語(yǔ)義索引技術(shù)研究
本文關(guān)鍵詞:基于本體的語(yǔ)義索引技術(shù)研究
更多相關(guān)文章: 語(yǔ)義索引 本體概念樹(shù) 本體 索引分類 向量空間模型
【摘要】:隨著互聯(lián)網(wǎng)數(shù)據(jù)的海量增長(zhǎng),盡管用戶可以借助搜索引擎獲取信息,但是越來(lái)越難準(zhǔn)確獲取到自己想要的數(shù)據(jù)。借助搜索引擎獲取數(shù)據(jù)的方法是,搜索引擎在互聯(lián)網(wǎng)上抓取數(shù)據(jù),為抓來(lái)的數(shù)據(jù)建立索引,在用戶需要時(shí)根據(jù)用戶輸入的查詢語(yǔ)句查詢索引,配對(duì)后返回結(jié)果。索引扮演了重要角色。傳統(tǒng)的索引是基于詞匯的,缺乏語(yǔ)義,由于一詞多義和多詞一義等情況,使得查詢結(jié)果的準(zhǔn)確率和召回率不盡人意。為解決這些問(wèn)題,不少學(xué)者提出很多解決方案,如隱語(yǔ)義索引、文本標(biāo)引等。但是,這些方法零散,缺乏完整的整體思想。為此作者提出一個(gè)整體方案:先將倒排索引根據(jù)關(guān)鍵字對(duì)應(yīng)的概念分類,生成概念索引。另外設(shè)計(jì)一套概念索引的存儲(chǔ)機(jī)制。具體如下:首先獲取傳統(tǒng)的倒排索引,建立詞項(xiàng)和網(wǎng)頁(yè)文檔的映射關(guān)系(詞項(xiàng)→網(wǎng)頁(yè)表)。然后對(duì)其深度加工,通過(guò)詞項(xiàng)-實(shí)體表獲取詞項(xiàng)對(duì)應(yīng)的概念列表。通過(guò)空間向量模型獲取概念列表的特征向量矩陣和網(wǎng)頁(yè)表各網(wǎng)頁(yè)的特征項(xiàng),并且對(duì)網(wǎng)頁(yè)特征進(jìn)行降維處理,生成網(wǎng)頁(yè)列表的特征向量矩陣。計(jì)算概念列表的特征向量矩陣和網(wǎng)頁(yè)列表網(wǎng)頁(yè)的特征向量矩陣的相關(guān)性,分析結(jié)果,獲取各概念和各網(wǎng)頁(yè)的相關(guān)性,然后將網(wǎng)頁(yè)劃分到最相關(guān)的概念分類下,形成概念索引記錄(概念→網(wǎng)頁(yè)表)。最后合并相同概念索引記錄,形成完整的語(yǔ)義倒排文件。邏輯上解決了語(yǔ)義索引問(wèn)題。接下去的問(wèn)題是語(yǔ)義索引的物理存儲(chǔ)管理問(wèn)題。如果采用順序存儲(chǔ)的方式,這個(gè)對(duì)于查詢效率來(lái)說(shuō)是不可忍受的,所以需要設(shè)計(jì)一種良好的存儲(chǔ)結(jié)構(gòu)組織,加快其檢索效率。為了解決這個(gè)問(wèn)題,本文為語(yǔ)義索引設(shè)計(jì)了一套存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)--語(yǔ)義索引樹(shù)。它是通過(guò)結(jié)合本體概念的“is-a”關(guān)系建立的本體概念樹(shù)和概念索引而建立的。語(yǔ)義索引樹(shù)由三部分組成:本體概念樹(shù)、實(shí)例-索引表和語(yǔ)義倒排文件。它將概念索引文件根據(jù)概念分成很多個(gè)小的概念索引文件,通過(guò)查詢這棵樹(shù),可以迅速地定位到小的語(yǔ)義倒排文件。作者的主要貢獻(xiàn)是:1.提出和設(shè)計(jì)了語(yǔ)義索引獲取的方法,給出了相應(yīng)算法。實(shí)驗(yàn)證明其獲取效果準(zhǔn)確率有了很大的提高。2.設(shè)計(jì)了語(yǔ)義索引的存儲(chǔ)結(jié)構(gòu),實(shí)驗(yàn)證明其平均查詢效率高,相較其他的索引效率也有很大的優(yōu)勢(shì)。
【關(guān)鍵詞】:語(yǔ)義索引 本體概念樹(shù) 本體 索引分類 向量空間模型
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要6-8
- ABSTRACT8-12
- 圖表目錄12-13
- 第一章 緒論13-17
- 1.1 研究背景及意義13-14
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-15
- 1.3 論文研究?jī)?nèi)容15-16
- 1.4 文章組織結(jié)構(gòu)16-17
- 第二章 相關(guān)工作17-25
- 2.1 隱語(yǔ)義索引17-18
- 2.2 語(yǔ)義標(biāo)記索引18
- 2.3 本體介紹18-19
- 2.4 分類算法19-21
- 2.4.1 K-近鄰算法20
- 2.4.2 支持向量機(jī)20
- 2.4.3 Two-Stage分類算法20-21
- 2.5 倒排索引21-23
- 2.6 相關(guān)性計(jì)算算法23-24
- 2.7 本章小結(jié)24-25
- 第三章 分類倒排索引算法25-36
- 3.1 算法簡(jiǎn)介25-26
- 3.2 算法詳細(xì)介紹26-32
- 3.2.1 倒排索引結(jié)構(gòu)說(shuō)明27-28
- 3.2.2 概念集合特征矩陣提取28-29
- 3.2.3 Web網(wǎng)頁(yè)集特征矩陣提取29-30
- 3.2.4 概念和文檔相似度計(jì)算30-31
- 3.2.5 將分類的索引按照概念組合31-32
- 3.3 舉例32-33
- 3.4 Two-Stage分類算法和VSM倒排索引分類算法實(shí)驗(yàn)結(jié)果對(duì)比33-35
- 3.5 本章小結(jié)35-36
- 第四章 語(yǔ)義索引結(jié)構(gòu)設(shè)計(jì)36-48
- 4.1 本體概念樹(shù)38-40
- 4.1.1 本體樹(shù)形存儲(chǔ)結(jié)構(gòu)38-39
- 4.1.2 本體概念樹(shù)結(jié)點(diǎn)結(jié)構(gòu)39-40
- 4.2 索引結(jié)構(gòu)40-41
- 4.3 語(yǔ)義索引算法41-43
- 4.4 語(yǔ)義索引結(jié)構(gòu)設(shè)計(jì)過(guò)程43-45
- 4.5 語(yǔ)義倒排索引查詢效率實(shí)驗(yàn)45-47
- 4.6 本章小結(jié)47-48
- 第五章 語(yǔ)義搜索系統(tǒng)總體設(shè)計(jì)48-57
- 5.1 系統(tǒng)整體架構(gòu)48-49
- 5.2 系統(tǒng)詳細(xì)介紹49-55
- 5.2.1 數(shù)據(jù)抓取模塊50-51
- 5.2.2 倒排索引模塊51-52
- 5.2.3 知識(shí)支持系統(tǒng)52-54
- 5.2.4 索引改造模塊54
- 5.2.5 語(yǔ)義索引模塊54
- 5.2.6 用戶模塊54-55
- 5.2.7 語(yǔ)言處理模塊55
- 5.3 其他組件55-56
- 5.3.1 中文分詞55-56
- 5.3.2 詞義排歧模塊56
- 5.4 本章小結(jié)56-57
- 第六章 結(jié)語(yǔ)57-59
- 6.1 總結(jié)57
- 6.2 未來(lái)工作展望57-59
- 參考文獻(xiàn)59-62
- 附錄 作者攻讀碩士學(xué)位期間發(fā)表的文章62-63
- 致謝63
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;本期廣告商索引表[J];電子與電腦;2000年01期
2 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年02期
3 ;本期廣告商索引表[J];電子與電腦;2000年02期
4 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年04期
5 ;本期廣告商索引表[J];電子與電腦;2000年04期
6 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;2000年11期
7 ;本期廣告商索引表[J];電子與電腦;2000年11期
8 涂建國(guó);索引工作芻議[J];圖書(shū)館;1996年04期
9 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年05期
10 ;本期編輯內(nèi)容產(chǎn)品索引表[J];電子與電腦;1999年08期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 石瑋峰;楊冬青;唐世渭;關(guān)濤;;COBASE的索引管理技術(shù)[A];第十二屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1994年
2 王彥祥;王廣林;;“索引之星”的研制和索引編制[A];2004年辭書(shū)與數(shù)字化研討會(huì)論文集[C];2004年
3 王曉輝;王柏;;通過(guò)有效使用索引優(yōu)化Oracle應(yīng)用系統(tǒng)性能[A];第九屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2004年
4 孫云峰;陳渝;史元春;張寶鵬;張曦;江文峰;;基于高精度室內(nèi)定位系統(tǒng)的移動(dòng)物體軌跡索引[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
5 王先勝;喬健;汪衛(wèi);何震瀛;;AX-Tree:基于RDBMS的粒度自適應(yīng)XML數(shù)據(jù)索引[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
6 邵雄凱;盧炎生;程學(xué)先;;用建立本地廣播索引表的方法改善移動(dòng)客戶機(jī)的性能[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
7 薛巍;李維佳;穆飛;舒繼武;;PDPI:一種面向多核的可擴(kuò)展并行索引算法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
8 王鵬飛;洪曉光;;基于XML大文檔的動(dòng)態(tài)索引[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 楊彬;洪曉光;;基于XML大文檔的動(dòng)態(tài)索引[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年
10 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 裘宗燕;輕松做索引[N];中華讀書(shū)報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開(kāi)大學(xué);2012年
2 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
3 余利華;分布式數(shù)據(jù)存儲(chǔ)和處理的若干技術(shù)研究[D];浙江大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王健;DWMS中索引選擇策略的研究與實(shí)現(xiàn)[D];東華大學(xué);2010年
2 胡玉樂(lè);列存儲(chǔ)DWMS中的索引關(guān)鍵技術(shù)研究[D];東華大學(xué);2011年
3 張慧;一種基于位立方體的XML索引方式[D];山東大學(xué);2007年
4 王學(xué);面向SaaS應(yīng)用交付平臺(tái)的多租戶數(shù)據(jù)索引研究[D];山東大學(xué);2012年
5 石有滴;XML索引關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
6 張雁;面向全文檢索的在線索引關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
7 陳堅(jiān)強(qiáng);DB2數(shù)據(jù)庫(kù)索引性能調(diào)整與優(yōu)化[D];上海交通大學(xué);2011年
8 葛付江;面向動(dòng)態(tài)文檔集的大規(guī)模文本索引構(gòu)建技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2008年
9 劉亦韜;基于壓縮全文自索引的分布式索引技術(shù)研究[D];杭州電子科技大學(xué);2015年
10 肖袁;基于索引的XML查詢技術(shù)研究[D];南京師范大學(xué);2007年
,本文編號(hào):1060631
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1060631.html