天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學習的文本檢索系統(tǒng)的設計與實現

發(fā)布時間:2021-09-03 14:25
  隨著互聯網數據量的增加,不同的文本檢索系統(tǒng)應用到了不同的產品當中。同時,數據量的增加使得神經網絡與深度學習技術得到的長足的發(fā)展。但現有的文本檢索系統(tǒng)卻很少應用深度學習技術。因此本論文設計并實現了文本檢索系統(tǒng),用戶可以通過本系統(tǒng)搜索文本,獲取與自己目標最相近的一些文本。本論文以文本檢索以及文本檢索中的深度學習算法為主要研究內容,并使用分布式操作系統(tǒng)構建了文本檢索系統(tǒng),論文完成了一下三方面的工作:使用基于Master/Slave架構的分布式爬蟲爬取數據,并對爬取的數據進行數據清洗。并根據爬取的數據構建模型樣本,并將構建的模型樣本與TREC數據集進行合并。為了提升深度文本匹配效果,本論文研究了多種深度學習模型,并著重描述了兩種通用文本匹配模型:基于單語義特征抽取的孿生語義網絡模型與直接進行語義建模的空間金字塔模型。同時根據這兩種模型提出新的語義網絡模型:基于孿生語義網絡模型和空間金字塔模型的融合模型,該模型將孿生語義網絡模型與空間金字塔模型抽取出的新特征進行融合。實驗表明,以MAP值作為評價指標,使用該模型進行文本檢索,能夠比傳統(tǒng)檢索方法效果好8%以上,比現有的深度學習算法高3%以上。本文設... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數】:65 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的文本檢索系統(tǒng)的設計與實現


圖2-1文本檢索系統(tǒng)??2.1.2倒排索引??

相關分布,系統(tǒng)檢索,文檔集


圖2-2檢索相關分布??到的與用戶查詢相關的文檔集合,B合,C表示未檢索到的與用戶查詢相詢無關的文檔集合。早期常用的評測用來表示檢索出來的相關文檔總數Precision),用來表示檢索出來的相示的是精確率與召回率的調和平均??系統(tǒng)檢索到的相關文件數?all?=?=?-相關文件數?4..?系統(tǒng)檢索到的相關文件數sion?=?=?系統(tǒng)返回的文件綜述?1?2?*?Precision?*?R1?.?1?Precision?+?Reccision?+?Recall)??

分布式文件系統(tǒng),生態(tài)系統(tǒng)


Hadoop生態(tài)系統(tǒng)系列有很多,有底層的HDFS分布式文件系統(tǒng),有基于??Hadoop的類似關系型數據庫的Hive,也有基于Hadoop的內存計算框架Spark,??還有分布式數據庫Hbase等等,Hadoop生態(tài)系統(tǒng)如圖2-3所示。??Ambari??(安裝部署工具》??■?I??霸Hive?Pig?Hive2?Pig2?Shark?…??圓關!牛妫妫欤椤瓐A??/孓I?BStSTII?KjJ??國■?nmmiiiii?ST??'^81—i?闕??HI??圖2-3?Hadoop生態(tài)系統(tǒng)??2.4.2分布式文件系統(tǒng)HDFS??HDFS?(HadoopDistributeFile?System,分布式文件系統(tǒng))是一個被設計運行??于商業(yè)硬件上的分布式文件系統(tǒng)。它與現有的分布式文件系統(tǒng)有許多相似之處,??但與其他分布式文件系統(tǒng)的區(qū)別是顯著的。HDFS具有高度的容錯性,可部署在??低成本硬件上。HDFS提供對應用程序數據的高吞吐量訪問,適用于需要訪問大??型數據集的應用程序。HDFS放寬了一些POSIX標準,以實現對文件系統(tǒng)數據??的流式訪問。HDFS最初的誕生是作為Apache?Nutch?Web搜索引擎項目的基礎??設施構建的,HDFS現在己經成為了?Apache?Hadoop的子項目。??2.4.3并行處理框架MapReduce??Hadoop?MapReduce是一個易于編寫應用程序的軟件框架,它以可靠、容錯??的方式在大規(guī)模商業(yè)集群上(數百到數千個節(jié)點)并行化處理大規(guī)模數據。??一個MapReduce任務分成兩步:分為Map和Reduce

【參考文獻】:
期刊論文
[1]面向短文本分析的分布式表示模型[J]. 梁吉業(yè),喬潔,曹付元,劉曉琳.  計算機研究與發(fā)展. 2018(08)
[2]深度學習研究綜述[J]. 尹寶才,王文通,王立春.  北京工業(yè)大學學報. 2015(01)
[3]個性化推薦系統(tǒng)的研究進展[J]. 劉建國,周濤,汪秉宏.  自然科學進展. 2009(01)
[4]Web結構挖掘及HITS算法分析[J]. 黃英銘.  計算機與現代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 楊建武,陳曉鷗.  計算機工程. 2005(05)
[6]三種檢索模型的比較分析研究——布爾、概率、向量空間模型[J]. 王娟琴.  情報科學. 1998(03)
[7]RNN神經網絡的應用研究[J]. 朱群雄,孫鋒.  北京化工大學學報(自然科學版). 1998(01)
[8]概率檢索模型[J]. 景玉峰,王能琴,劉琪.  現代圖書情報技術. 1987(01)



本文編號:3381281

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3381281.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b6f9b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com