基于深度學習的文本檢索系統(tǒng)的設計與實現

發(fā)布時間：2021-09-03 14:25

　　隨著互聯網數據量的增加,不同的文本檢索系統(tǒng)應用到了不同的產品當中。同時,數據量的增加使得神經網絡與深度學習技術得到的長足的發(fā)展。但現有的文本檢索系統(tǒng)卻很少應用深度學習技術。因此本論文設計并實現了文本檢索系統(tǒng),用戶可以通過本系統(tǒng)搜索文本,獲取與自己目標最相近的一些文本。本論文以文本檢索以及文本檢索中的深度學習算法為主要研究內容,并使用分布式操作系統(tǒng)構建了文本檢索系統(tǒng),論文完成了一下三方面的工作:使用基于Master/Slave架構的分布式爬蟲爬取數據,并對爬取的數據進行數據清洗。并根據爬取的數據構建模型樣本,并將構建的模型樣本與TREC數據集進行合并。為了提升深度文本匹配效果,本論文研究了多種深度學習模型,并著重描述了兩種通用文本匹配模型:基于單語義特征抽取的孿生語義網絡模型與直接進行語義建模的空間金字塔模型。同時根據這兩種模型提出新的語義網絡模型:基于孿生語義網絡模型和空間金字塔模型的融合模型,該模型將孿生語義網絡模型與空間金字塔模型抽取出的新特征進行融合。實驗表明,以MAP值作為評價指標,使用該模型進行文本檢索,能夠比傳統(tǒng)檢索方法效果好8%以上,比現有的深度學習算法高3%以上。本文設...

【文章來源】：北京郵電大學北京市 211工程院校教育部直屬院校

【文章頁數】：65 頁

【學位級別】：碩士

【部分圖文】：

圖２－１文本檢索系統(tǒng)??２．１．２倒排索引??

相關分布,系統(tǒng)檢索,文檔集

圖２－２檢索相關分布??到的與用戶查詢相關的文檔集合，Ｂ合，Ｃ表示未檢索到的與用戶查詢相詢無關的文檔集合。早期常用的評測用來表示檢索出來的相關文檔總數Ｐｒｅｃｉｓｉｏｎ），用來表示檢索出來的相示的是精確率與召回率的調和平均？?系統(tǒng)檢索到的相關文件數?ａｌｌ?＝?＝?－相關文件數?４．．?系統(tǒng)檢索到的相關文件數ｓｉｏｎ?＝?＝?系統(tǒng)返回的文件綜述?１?２?＊?Ｐｒｅｃｉｓｉｏｎ?＊?Ｒ１?．?１?Ｐｒｅｃｉｓｉｏｎ?＋?Ｒｅｃｃｉｓｉｏｎ?＋?Ｒｅｃａｌｌ）??

分布式文件系統(tǒng),生態(tài)系統(tǒng)

Ｈａｄｏｏｐ生態(tài)系統(tǒng)系列有很多，有底層的ＨＤＦＳ分布式文件系統(tǒng)，有基于??Ｈａｄｏｏｐ的類似關系型數據庫的Ｈｉｖｅ，也有基于Ｈａｄｏｏｐ的內存計算框架Ｓｐａｒｋ，??還有分布式數據庫Ｈｂａｓｅ等等，Ｈａｄｏｏｐ生態(tài)系統(tǒng)如圖２－３所示。??Ａｍｂａｒｉ??（安裝部署工具》??■?Ｉ??霸Ｈｉｖｅ?Ｐｉｇ?Ｈｉｖｅ２?Ｐｉｇ２?Ｓｈａｒｋ?…??圓關�！牛妫妫欤椤瓐A??／孓Ｉ?ＢＳｔＳＴＩＩ?ＫｊＪ??國■?ｎｍｍｉｉｉｉｉ?ＳＴ??＇＾８１—ｉ?闕??ＨＩ??圖２－３?Ｈａｄｏｏｐ生態(tài)系統(tǒng)??２．４．２分布式文件系統(tǒng)ＨＤＦＳ??ＨＤＦＳ?（ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅＦｉｌｅ?Ｓｙｓｔｅｍ，分布式文件系統(tǒng)）是一個被設計運行??于商業(yè)硬件上的分布式文件系統(tǒng)。它與現有的分布式文件系統(tǒng)有許多相似之處，??但與其他分布式文件系統(tǒng)的區(qū)別是顯著的。ＨＤＦＳ具有高度的容錯性，可部署在??低成本硬件上。ＨＤＦＳ提供對應用程序數據的高吞吐量訪問，適用于需要訪問大??型數據集的應用程序。ＨＤＦＳ放寬了一些ＰＯＳＩＸ標準，以實現對文件系統(tǒng)數據??的流式訪問。ＨＤＦＳ最初的誕生是作為Ａｐａｃｈｅ?Ｎｕｔｃｈ?Ｗｅｂ搜索引擎項目的基礎??設施構建的，ＨＤＦＳ現在己經成為了?Ａｐａｃｈｅ?Ｈａｄｏｏｐ的子項目。??２．４．３并行處理框架ＭａｐＲｅｄｕｃｅ??Ｈａｄｏｏｐ?ＭａｐＲｅｄｕｃｅ是一個易于編寫應用程序的軟件框架，它以可靠、容錯??的方式在大規(guī)模商業(yè)集群上（數百到數千個節(jié)點）并行化處理大規(guī)模數據。??一個ＭａｐＲｅｄｕｃｅ任務分成兩步：分為Ｍａｐ和Ｒｅｄｕｃｅ

【參考文獻】：
期刊論文
[1]面向短文本分析的分布式表示模型[J]. 梁吉業(yè),喬潔,曹付元,劉曉琳.  計算機研究與發(fā)展. 2018(08)
[2]深度學習研究綜述[J]. 尹寶才,王文通,王立春.  北京工業(yè)大學學報. 2015(01)
[3]個性化推薦系統(tǒng)的研究進展[J]. 劉建國,周濤,汪秉宏.  自然科學進展. 2009(01)
[4]Web結構挖掘及HITS算法分析[J]. 黃英銘.  計算機與現代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 楊建武,陳曉鷗.  計算機工程. 2005(05)
[6]三種檢索模型的比較分析研究——布爾、概率、向量空間模型[J]. 王娟琴.  情報科學. 1998(03)
[7]RNN神經網絡的應用研究[J]. 朱群雄,孫鋒.  北京化工大學學報(自然科學版). 1998(01)
[8]概率檢索模型[J]. 景玉峰,王能琴,劉琪.  現代圖書情報技術. 1987(01)

本文編號：3381281

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3381281.html

上一篇：高校網絡輿情監(jiān)控系統(tǒng)設計與實現
下一篇：基于逆向工程及機器學習的Android應用漏洞檢測技術研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的文本檢索系統(tǒng)的設計與實現