面向垂直領域的中文檢索系統(tǒng)的設計及實現(xiàn)

發(fā)布時間：2022-02-11 15:01

　　通用型檢索系統(tǒng)并不針對特定領域進行檢索,可以滿足內(nèi)容沒有特別限制的檢索需求,其特點是內(nèi)容廣、信息量大但針對性不強,查詢不夠精確,內(nèi)容深度不夠。而面向垂直領域的檢索系統(tǒng)是針對某一特定領域、特定人群或特定需求,從信息收集、索引構建到信息檢索都有明確指向性,能滿足用戶對信息準確性及信息挖掘深度的需求。本文在限定領域內(nèi)以倒排索引技術為依據(jù),探討了全文檢索的索引構建原理及其相關技術,同時引入了中科院中文分詞系統(tǒng)并制定了相應分詞規(guī)則,聯(lián)合全文檢索引擎Solr實現(xiàn)了中文文獻全文檢索。在充分分析用戶需求基礎上,對爬取信息進行系列預處理后,分別完成了數(shù)據(jù)庫及相關接口的設計,創(chuàng)建了一個面向特定領域的專題數(shù)據(jù)庫及全文檢索系統(tǒng),為垂直領域的檢索提供了解決方案,具有較高的實用價值。

【文章來源】：武漢工程大學湖北省

【文章頁數(shù)】：62 頁

【學位級別】：碩士

【部分圖文】：

建立索引過程圖

過程圖,數(shù)據(jù),過程,中文分詞

圖 2.2 數(shù)據(jù)分詞過程2. 中文分詞由于中英文的不同，分詞器還分為英文分詞、中文分詞以及停用詞等。英文分詞的主要流程是，輸入文本 → 關鍵詞切分 → 去除停用詞 → 形態(tài)還原并轉(zhuǎn)為小寫。其中，形態(tài)還原是去除單詞詞尾的形態(tài)變化，將其還原為詞的原型，例如，worked → work，studies → study。中文分詞相對于其他的語言分詞而言比較復雜，因為一個詞并非簡單的字組成，在所處位置不同，就可能產(chǎn)生不同的理解和意義。例如在“鞋子和服裝”里面的“和服”就非一個詞。如果是中文，對其分類通有三種，分別是單字分詞、二分法分詞、詞典分詞[10]。文本中經(jīng)常會出現(xiàn)很多相同的詞，而且這些詞的含義往往都是不太重要的，比如英文的“the，of，in”，中文的“的，了”，還有標點

框架圖,倒排索引,框架,步驟

其中單詞詞典內(nèi)記載著單詞信息和倒排列表的指針信息。倒排列表：倒排列表主要記錄的是包含單詞的所有文檔及其在文檔里面的位置，一條記錄即為一個倒排項（Posting）。通過倒排列表可知文檔含有具體單詞信息。倒排文件：全部單詞的倒排列表通常按照一定的順序保存在磁盤的文件里面，也就是倒排文件。它是一種存儲倒排索引的物理文件。搜索引擎中倒排索引大概流程框架[12]：用戶在搜索引擎搜索框輸入查詢詞進行搜索時，搜索引擎會對查詢詞進行切詞以及近義詞匹配等操作，根據(jù)原始查詢詞得到一系列的單詞列表。然后根據(jù)搜索引擎內(nèi)部的字典來查詢每個單詞對應的倒排列表，以尋找內(nèi)容中存在該單詞的網(wǎng)頁或文檔。最后搜索引擎根據(jù)特定的網(wǎng)頁排序算法將查詢到的網(wǎng)頁進行排序，繼而將搜索結果展示給用戶。圖 2.4 為倒排索引的主要流程框架。

【參考文獻】：
期刊論文
[1]基于領域本體知識庫的語義檢索研究[J]. 楊清琳,錢文標,楊曉雷.  山東工業(yè)技術. 2018(04)
[2]基于深度學習的自動文摘句排序方法[J]. 何凱霖,丁曉峰.  計算機工程與設計. 2017(12)
[3]基于聚類與語義相似分析的多文本自動摘要方法[J]. 杜秀英.  情報雜志. 2017(06)
[4]搜索引擎分塊索引技術研究[J]. 田海龍,繆新穎.  電腦編程技巧與維護. 2017(11)
[5]面向文獻主題自動標引的通用概念表建設[J]. 李軍蓮,王序文,夏光輝,冀玉靜.  情報理論與實踐. 2017(04)
[6]知識圖譜中實體相似度計算研究[J]. 李陽,高大啟.  中文信息學報. 2017(01)
[7]數(shù)字文本自動分類中特征語義關聯(lián)及加權策略研究綜述與展望[J]. 李湘東,巴志超,高凡.  現(xiàn)代圖書情報技術. 2016(09)
[8]基于引文上下文的學術文本自動摘要技術研究[J]. 陳海華,黃永,張炯,陸偉.  數(shù)字圖書館論壇. 2016(08)
[9]一種基于模糊信息熵的協(xié)同過濾推薦方法[J]. 林耀進,張佳,林夢雷,王娟.  山東大學學報(工學版). 2016(05)
[10]基于句群的自動文摘方法[J]. 王榮波,張璐瑤,李杰,黃孝喜,周昌樂.  計算機應用. 2016(S1)

碩士論文
[1]面向垂直搜索引擎的聚焦網(wǎng)絡爬蟲關鍵技術研究與實現(xiàn)[D]. 陳歡.華中師范大學 2014
[2]一種基于語義的服務標識搜索引擎的設計與實現(xiàn)[D]. 王士博.北京交通大學 2009
[3]基于云計算的語義搜索引擎研究[D]. 張建梁.復旦大學 2009
[4]迭代算法在ICT中的應用研究及幾何失真的標定[D]. 趙鳳勇.大連理工大學 2005

本文編號：3620486

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3620486.html

上一篇：航空企業(yè)網(wǎng)絡輿情監(jiān)測與研判的方式方法研究
下一篇：基于改進遺傳算法的系統(tǒng)級故障診斷研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向垂直領域的中文檢索系統(tǒng)的設計及實現(xiàn)