面向垂直領(lǐng)域的中文檢索系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)
發(fā)布時(shí)間:2022-02-11 15:01
通用型檢索系統(tǒng)并不針對特定領(lǐng)域進(jìn)行檢索,可以滿足內(nèi)容沒有特別限制的檢索需求,其特點(diǎn)是內(nèi)容廣、信息量大但針對性不強(qiáng),查詢不夠精確,內(nèi)容深度不夠。而面向垂直領(lǐng)域的檢索系統(tǒng)是針對某一特定領(lǐng)域、特定人群或特定需求,從信息收集、索引構(gòu)建到信息檢索都有明確指向性,能滿足用戶對信息準(zhǔn)確性及信息挖掘深度的需求。本文在限定領(lǐng)域內(nèi)以倒排索引技術(shù)為依據(jù),探討了全文檢索的索引構(gòu)建原理及其相關(guān)技術(shù),同時(shí)引入了中科院中文分詞系統(tǒng)并制定了相應(yīng)分詞規(guī)則,聯(lián)合全文檢索引擎Solr實(shí)現(xiàn)了中文文獻(xiàn)全文檢索。在充分分析用戶需求基礎(chǔ)上,對爬取信息進(jìn)行系列預(yù)處理后,分別完成了數(shù)據(jù)庫及相關(guān)接口的設(shè)計(jì),創(chuàng)建了一個(gè)面向特定領(lǐng)域的專題數(shù)據(jù)庫及全文檢索系統(tǒng),為垂直領(lǐng)域的檢索提供了解決方案,具有較高的實(shí)用價(jià)值。
【文章來源】:武漢工程大學(xué)湖北省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
建立索引過程圖
圖 2.2 數(shù)據(jù)分詞過程2. 中文分詞由于中英文的不同,分詞器還分為英文分詞、中文分詞以及停用詞等。英文分詞的主要流程是,輸入文本 → 關(guān)鍵詞切分 → 去除停用詞 → 形態(tài)還原并轉(zhuǎn)為小寫。其中,形態(tài)還原是去除單詞詞尾的形態(tài)變化,將其還原為詞的原型,例如,worked → work,studies → study。中文分詞相對于其他的語言分詞而言比較復(fù)雜,因?yàn)橐粋(gè)詞并非簡單的字組成,在所處位置不同,就可能產(chǎn)生不同的理解和意義。例如在“鞋子和服裝”里面的“和服”就非一個(gè)詞。如果是中文,對其分類通有三種,分別是單字分詞、二分法分詞、詞典分詞[10]。文本中經(jīng)常會(huì)出現(xiàn)很多相同的詞,而且這些詞的含義往往都是不太重要的,比如英文的“the,of,in”,中文的“的,了”,還有標(biāo)點(diǎn)
其中單詞詞典內(nèi)記載著單詞信息和倒排列表的指針信息。倒排列表:倒排列表主要記錄的是包含單詞的所有文檔及其在文檔里面的位置,一條記錄即為一個(gè)倒排項(xiàng)(Posting)。通過倒排列表可知文檔含有具體單詞信息。倒排文件:全部單詞的倒排列表通常按照一定的順序保存在磁盤的文件里面,也就是倒排文件。它是一種存儲(chǔ)倒排索引的物理文件。搜索引擎中倒排索引大概流程框架[12]:用戶在搜索引擎搜索框輸入查詢詞進(jìn)行搜索時(shí),搜索引擎會(huì)對查詢詞進(jìn)行切詞以及近義詞匹配等操作,根據(jù)原始查詢詞得到一系列的單詞列表。然后根據(jù)搜索引擎內(nèi)部的字典來查詢每個(gè)單詞對應(yīng)的倒排列表,以尋找內(nèi)容中存在該單詞的網(wǎng)頁或文檔。最后搜索引擎根據(jù)特定的網(wǎng)頁排序算法將查詢到的網(wǎng)頁進(jìn)行排序,繼而將搜索結(jié)果展示給用戶。圖 2.4 為倒排索引的主要流程框架。
【參考文獻(xiàn)】:
期刊論文
[1]基于領(lǐng)域本體知識(shí)庫的語義檢索研究[J]. 楊清琳,錢文標(biāo),楊曉雷. 山東工業(yè)技術(shù). 2018(04)
[2]基于深度學(xué)習(xí)的自動(dòng)文摘句排序方法[J]. 何凱霖,丁曉峰. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(12)
[3]基于聚類與語義相似分析的多文本自動(dòng)摘要方法[J]. 杜秀英. 情報(bào)雜志. 2017(06)
[4]搜索引擎分塊索引技術(shù)研究[J]. 田海龍,繆新穎. 電腦編程技巧與維護(hù). 2017(11)
[5]面向文獻(xiàn)主題自動(dòng)標(biāo)引的通用概念表建設(shè)[J]. 李軍蓮,王序文,夏光輝,冀玉靜. 情報(bào)理論與實(shí)踐. 2017(04)
[6]知識(shí)圖譜中實(shí)體相似度計(jì)算研究[J]. 李陽,高大啟. 中文信息學(xué)報(bào). 2017(01)
[7]數(shù)字文本自動(dòng)分類中特征語義關(guān)聯(lián)及加權(quán)策略研究綜述與展望[J]. 李湘東,巴志超,高凡. 現(xiàn)代圖書情報(bào)技術(shù). 2016(09)
[8]基于引文上下文的學(xué)術(shù)文本自動(dòng)摘要技術(shù)研究[J]. 陳海華,黃永,張炯,陸偉. 數(shù)字圖書館論壇. 2016(08)
[9]一種基于模糊信息熵的協(xié)同過濾推薦方法[J]. 林耀進(jìn),張佳,林夢雷,王娟. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2016(05)
[10]基于句群的自動(dòng)文摘方法[J]. 王榮波,張璐瑤,李杰,黃孝喜,周昌樂. 計(jì)算機(jī)應(yīng)用. 2016(S1)
碩士論文
[1]面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 陳歡.華中師范大學(xué) 2014
[2]一種基于語義的服務(wù)標(biāo)識(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王士博.北京交通大學(xué) 2009
[3]基于云計(jì)算的語義搜索引擎研究[D]. 張建梁.復(fù)旦大學(xué) 2009
[4]迭代算法在ICT中的應(yīng)用研究及幾何失真的標(biāo)定[D]. 趙鳳勇.大連理工大學(xué) 2005
本文編號(hào):3620486
【文章來源】:武漢工程大學(xué)湖北省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
建立索引過程圖
圖 2.2 數(shù)據(jù)分詞過程2. 中文分詞由于中英文的不同,分詞器還分為英文分詞、中文分詞以及停用詞等。英文分詞的主要流程是,輸入文本 → 關(guān)鍵詞切分 → 去除停用詞 → 形態(tài)還原并轉(zhuǎn)為小寫。其中,形態(tài)還原是去除單詞詞尾的形態(tài)變化,將其還原為詞的原型,例如,worked → work,studies → study。中文分詞相對于其他的語言分詞而言比較復(fù)雜,因?yàn)橐粋(gè)詞并非簡單的字組成,在所處位置不同,就可能產(chǎn)生不同的理解和意義。例如在“鞋子和服裝”里面的“和服”就非一個(gè)詞。如果是中文,對其分類通有三種,分別是單字分詞、二分法分詞、詞典分詞[10]。文本中經(jīng)常會(huì)出現(xiàn)很多相同的詞,而且這些詞的含義往往都是不太重要的,比如英文的“the,of,in”,中文的“的,了”,還有標(biāo)點(diǎn)
其中單詞詞典內(nèi)記載著單詞信息和倒排列表的指針信息。倒排列表:倒排列表主要記錄的是包含單詞的所有文檔及其在文檔里面的位置,一條記錄即為一個(gè)倒排項(xiàng)(Posting)。通過倒排列表可知文檔含有具體單詞信息。倒排文件:全部單詞的倒排列表通常按照一定的順序保存在磁盤的文件里面,也就是倒排文件。它是一種存儲(chǔ)倒排索引的物理文件。搜索引擎中倒排索引大概流程框架[12]:用戶在搜索引擎搜索框輸入查詢詞進(jìn)行搜索時(shí),搜索引擎會(huì)對查詢詞進(jìn)行切詞以及近義詞匹配等操作,根據(jù)原始查詢詞得到一系列的單詞列表。然后根據(jù)搜索引擎內(nèi)部的字典來查詢每個(gè)單詞對應(yīng)的倒排列表,以尋找內(nèi)容中存在該單詞的網(wǎng)頁或文檔。最后搜索引擎根據(jù)特定的網(wǎng)頁排序算法將查詢到的網(wǎng)頁進(jìn)行排序,繼而將搜索結(jié)果展示給用戶。圖 2.4 為倒排索引的主要流程框架。
【參考文獻(xiàn)】:
期刊論文
[1]基于領(lǐng)域本體知識(shí)庫的語義檢索研究[J]. 楊清琳,錢文標(biāo),楊曉雷. 山東工業(yè)技術(shù). 2018(04)
[2]基于深度學(xué)習(xí)的自動(dòng)文摘句排序方法[J]. 何凱霖,丁曉峰. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(12)
[3]基于聚類與語義相似分析的多文本自動(dòng)摘要方法[J]. 杜秀英. 情報(bào)雜志. 2017(06)
[4]搜索引擎分塊索引技術(shù)研究[J]. 田海龍,繆新穎. 電腦編程技巧與維護(hù). 2017(11)
[5]面向文獻(xiàn)主題自動(dòng)標(biāo)引的通用概念表建設(shè)[J]. 李軍蓮,王序文,夏光輝,冀玉靜. 情報(bào)理論與實(shí)踐. 2017(04)
[6]知識(shí)圖譜中實(shí)體相似度計(jì)算研究[J]. 李陽,高大啟. 中文信息學(xué)報(bào). 2017(01)
[7]數(shù)字文本自動(dòng)分類中特征語義關(guān)聯(lián)及加權(quán)策略研究綜述與展望[J]. 李湘東,巴志超,高凡. 現(xiàn)代圖書情報(bào)技術(shù). 2016(09)
[8]基于引文上下文的學(xué)術(shù)文本自動(dòng)摘要技術(shù)研究[J]. 陳海華,黃永,張炯,陸偉. 數(shù)字圖書館論壇. 2016(08)
[9]一種基于模糊信息熵的協(xié)同過濾推薦方法[J]. 林耀進(jìn),張佳,林夢雷,王娟. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2016(05)
[10]基于句群的自動(dòng)文摘方法[J]. 王榮波,張璐瑤,李杰,黃孝喜,周昌樂. 計(jì)算機(jī)應(yīng)用. 2016(S1)
碩士論文
[1]面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 陳歡.華中師范大學(xué) 2014
[2]一種基于語義的服務(wù)標(biāo)識(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王士博.北京交通大學(xué) 2009
[3]基于云計(jì)算的語義搜索引擎研究[D]. 張建梁.復(fù)旦大學(xué) 2009
[4]迭代算法在ICT中的應(yīng)用研究及幾何失真的標(biāo)定[D]. 趙鳳勇.大連理工大學(xué) 2005
本文編號(hào):3620486
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3620486.html
最近更新
教材專著