基于本體的垂直搜索引擎分類索引模型設(shè)計(jì)
發(fā)布時(shí)間:2021-04-13 06:21
為了改善基于關(guān)鍵詞的垂直搜索引擎查全率低和相關(guān)排序效果不佳的缺點(diǎn),提出了基于本體的垂直搜索引擎分類索引模型。設(shè)計(jì)了一種基于領(lǐng)域本體的分類體系,實(shí)現(xiàn)了基于該分類體系的細(xì)粒度文本分類,并將分類信息寫入索引,增加了索引的語義信息。在lucene原有索引結(jié)構(gòu)的基礎(chǔ)上,重新設(shè)計(jì)了索引的邏輯結(jié)構(gòu)和物理結(jié)構(gòu),使類別信息和關(guān)鍵詞信息合理融合,形成分類索引。最后提出針對該索引的檢索算法,并舉例驗(yàn)證了該模型的有效性。
【文章來源】:計(jì)算機(jī)工程與設(shè)計(jì). 2010,31(23)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
三級類目
步驟 9 if(count< )步驟 1~步驟 8;else合并索引到索引數(shù)據(jù)庫中;End3 檢索分類索引數(shù)據(jù)庫在經(jīng)過索引生成模塊的操作后,類別信息和其它需要被索引的信息已經(jīng)寫入分類索引數(shù)據(jù)庫。一種好的索引機(jī)制需要與之匹配的檢索算法相結(jié)合才能達(dá)到事半功倍的效果。本文設(shè)計(jì)了一種檢索算法,針對分類索引進(jìn)行檢索,通過該檢索算法來驗(yàn)證分類索引數(shù)據(jù)庫的性能。檢索過程如圖 5 所示。物理結(jié)構(gòu)
可用性較差;第 2 種方式真正實(shí)現(xiàn)了分類索引,但是在對索引進(jìn)行更新操作時(shí),性能不佳。本文在綜合考慮索引的膨脹率、生成和更新效率和檢索效率的基礎(chǔ)上提出了如圖 4 所示的物理結(jié)構(gòu),它在lucene物理結(jié)構(gòu)中引入了用于專門存儲類別信息的文件.cat;同時(shí)將邏輯結(jié)構(gòu)中涉及到的對照關(guān)系以類別信息、關(guān)鍵詞信息和文檔信息相結(jié)合的方式融合在多個(gè)物理文件中形成一個(gè)統(tǒng)一整體,從而達(dá)到利于更新和檢索的目的。圖 4 給出了物理文件的存儲內(nèi)容以及彼此之間的關(guān)系。. fnm 文件主要存儲域名的相關(guān)信息,本文中域定義與 lucene中的域定義相同,都包括域名和域值兩部分,每個(gè)文檔對象包含一個(gè)或多個(gè)不同命名的域;.dic文件主要存儲域值的相關(guān)信息,如標(biāo)題、內(nèi)容等;.dfc文件是物理文件中充當(dāng)對照關(guān)系的文件,包括指向 .dtf 文件(文檔頻率文件)和 .cat 文件(類別文件)的指針;.dtp 文件存儲每個(gè)關(guān)鍵詞在文檔中的位置。除了圖中所畫的文件外,物理結(jié)構(gòu)的設(shè)計(jì)中還包括記錄刪除記錄的文件 .del 和為了加快訪問而建立起來的文件。上述物理結(jié)構(gòu)的設(shè)計(jì)把文檔和類別信息充分的關(guān)聯(lián)起來
【參考文獻(xiàn)】:
期刊論文
[1]基于本體的文本分類方法[J]. 張穎,王文杰,史忠植. 計(jì)算機(jī)仿真. 2009(05)
[2]本體論研究綜述[J]. 李善平,尹奇韡,胡玉杰,郭鳴,付相君. 計(jì)算機(jī)研究與發(fā)展. 2004(07)
[3]基于概念的Web信息檢索[J]. 袁占亭,張愛民,張秋余. 計(jì)算機(jī)工程與應(yīng)用. 2003(36)
碩士論文
[1]化工專業(yè)搜索引擎索引技術(shù)的研究與實(shí)現(xiàn)[D]. 譚旻.北京化工大學(xué) 2008
[2]專業(yè)搜索引擎的數(shù)據(jù)存儲研究[D]. 陳小峰.南京師范大學(xué) 2007
本文編號:3134788
【文章來源】:計(jì)算機(jī)工程與設(shè)計(jì). 2010,31(23)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
三級類目
步驟 9 if(count< )步驟 1~步驟 8;else合并索引到索引數(shù)據(jù)庫中;End3 檢索分類索引數(shù)據(jù)庫在經(jīng)過索引生成模塊的操作后,類別信息和其它需要被索引的信息已經(jīng)寫入分類索引數(shù)據(jù)庫。一種好的索引機(jī)制需要與之匹配的檢索算法相結(jié)合才能達(dá)到事半功倍的效果。本文設(shè)計(jì)了一種檢索算法,針對分類索引進(jìn)行檢索,通過該檢索算法來驗(yàn)證分類索引數(shù)據(jù)庫的性能。檢索過程如圖 5 所示。物理結(jié)構(gòu)
可用性較差;第 2 種方式真正實(shí)現(xiàn)了分類索引,但是在對索引進(jìn)行更新操作時(shí),性能不佳。本文在綜合考慮索引的膨脹率、生成和更新效率和檢索效率的基礎(chǔ)上提出了如圖 4 所示的物理結(jié)構(gòu),它在lucene物理結(jié)構(gòu)中引入了用于專門存儲類別信息的文件.cat;同時(shí)將邏輯結(jié)構(gòu)中涉及到的對照關(guān)系以類別信息、關(guān)鍵詞信息和文檔信息相結(jié)合的方式融合在多個(gè)物理文件中形成一個(gè)統(tǒng)一整體,從而達(dá)到利于更新和檢索的目的。圖 4 給出了物理文件的存儲內(nèi)容以及彼此之間的關(guān)系。. fnm 文件主要存儲域名的相關(guān)信息,本文中域定義與 lucene中的域定義相同,都包括域名和域值兩部分,每個(gè)文檔對象包含一個(gè)或多個(gè)不同命名的域;.dic文件主要存儲域值的相關(guān)信息,如標(biāo)題、內(nèi)容等;.dfc文件是物理文件中充當(dāng)對照關(guān)系的文件,包括指向 .dtf 文件(文檔頻率文件)和 .cat 文件(類別文件)的指針;.dtp 文件存儲每個(gè)關(guān)鍵詞在文檔中的位置。除了圖中所畫的文件外,物理結(jié)構(gòu)的設(shè)計(jì)中還包括記錄刪除記錄的文件 .del 和為了加快訪問而建立起來的文件。上述物理結(jié)構(gòu)的設(shè)計(jì)把文檔和類別信息充分的關(guān)聯(lián)起來
【參考文獻(xiàn)】:
期刊論文
[1]基于本體的文本分類方法[J]. 張穎,王文杰,史忠植. 計(jì)算機(jī)仿真. 2009(05)
[2]本體論研究綜述[J]. 李善平,尹奇韡,胡玉杰,郭鳴,付相君. 計(jì)算機(jī)研究與發(fā)展. 2004(07)
[3]基于概念的Web信息檢索[J]. 袁占亭,張愛民,張秋余. 計(jì)算機(jī)工程與應(yīng)用. 2003(36)
碩士論文
[1]化工專業(yè)搜索引擎索引技術(shù)的研究與實(shí)現(xiàn)[D]. 譚旻.北京化工大學(xué) 2008
[2]專業(yè)搜索引擎的數(shù)據(jù)存儲研究[D]. 陳小峰.南京師范大學(xué) 2007
本文編號:3134788
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3134788.html
最近更新
教材專著