基于深度學(xué)習(xí)的文本檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-09-03 14:25
隨著互聯(lián)網(wǎng)數(shù)據(jù)量的增加,不同的文本檢索系統(tǒng)應(yīng)用到了不同的產(chǎn)品當(dāng)中。同時(shí),數(shù)據(jù)量的增加使得神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)技術(shù)得到的長(zhǎng)足的發(fā)展。但現(xiàn)有的文本檢索系統(tǒng)卻很少應(yīng)用深度學(xué)習(xí)技術(shù)。因此本論文設(shè)計(jì)并實(shí)現(xiàn)了文本檢索系統(tǒng),用戶可以通過本系統(tǒng)搜索文本,獲取與自己目標(biāo)最相近的一些文本。本論文以文本檢索以及文本檢索中的深度學(xué)習(xí)算法為主要研究?jī)?nèi)容,并使用分布式操作系統(tǒng)構(gòu)建了文本檢索系統(tǒng),論文完成了一下三方面的工作:使用基于Master/Slave架構(gòu)的分布式爬蟲爬取數(shù)據(jù),并對(duì)爬取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。并根據(jù)爬取的數(shù)據(jù)構(gòu)建模型樣本,并將構(gòu)建的模型樣本與TREC數(shù)據(jù)集進(jìn)行合并。為了提升深度文本匹配效果,本論文研究了多種深度學(xué)習(xí)模型,并著重描述了兩種通用文本匹配模型:基于單語義特征抽取的孿生語義網(wǎng)絡(luò)模型與直接進(jìn)行語義建模的空間金字塔模型。同時(shí)根據(jù)這兩種模型提出新的語義網(wǎng)絡(luò)模型:基于孿生語義網(wǎng)絡(luò)模型和空間金字塔模型的融合模型,該模型將孿生語義網(wǎng)絡(luò)模型與空間金字塔模型抽取出的新特征進(jìn)行融合。實(shí)驗(yàn)表明,以MAP值作為評(píng)價(jià)指標(biāo),使用該模型進(jìn)行文本檢索,能夠比傳統(tǒng)檢索方法效果好8%以上,比現(xiàn)有的深度學(xué)習(xí)算法高3%以上。本文設(shè)...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1文本檢索系統(tǒng)??2.1.2倒排索引??
圖2-2檢索相關(guān)分布??到的與用戶查詢相關(guān)的文檔集合,B合,C表示未檢索到的與用戶查詢相詢無關(guān)的文檔集合。早期常用的評(píng)測(cè)用來表示檢索出來的相關(guān)文檔總數(shù)Precision),用來表示檢索出來的相示的是精確率與召回率的調(diào)和平均??系統(tǒng)檢索到的相關(guān)文件數(shù)?all?=?=?-相關(guān)文件數(shù)?4..?系統(tǒng)檢索到的相關(guān)文件數(shù)sion?=?=?系統(tǒng)返回的文件綜述?1?2?*?Precision?*?R1?.?1?Precision?+?Reccision?+?Recall)??
Hadoop生態(tài)系統(tǒng)系列有很多,有底層的HDFS分布式文件系統(tǒng),有基于??Hadoop的類似關(guān)系型數(shù)據(jù)庫的Hive,也有基于Hadoop的內(nèi)存計(jì)算框架Spark,??還有分布式數(shù)據(jù)庫Hbase等等,Hadoop生態(tài)系統(tǒng)如圖2-3所示。??Ambari??(安裝部署工具》??■?I??霸Hive?Pig?Hive2?Pig2?Shark?…??圓關(guān)。—Effli…圓??/孓I?BStSTII?KjJ??國(guó)■?nmmiiiii?ST??'^81—i?闕??HI??圖2-3?Hadoop生態(tài)系統(tǒng)??2.4.2分布式文件系統(tǒng)HDFS??HDFS?(HadoopDistributeFile?System,分布式文件系統(tǒng))是一個(gè)被設(shè)計(jì)運(yùn)行??于商業(yè)硬件上的分布式文件系統(tǒng)。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處,??但與其他分布式文件系統(tǒng)的區(qū)別是顯著的。HDFS具有高度的容錯(cuò)性,可部署在??低成本硬件上。HDFS提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,適用于需要訪問大??型數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了一些POSIX標(biāo)準(zhǔn),以實(shí)現(xiàn)對(duì)文件系統(tǒng)數(shù)據(jù)??的流式訪問。HDFS最初的誕生是作為Apache?Nutch?Web搜索引擎項(xiàng)目的基礎(chǔ)??設(shè)施構(gòu)建的,HDFS現(xiàn)在己經(jīng)成為了?Apache?Hadoop的子項(xiàng)目。??2.4.3并行處理框架MapReduce??Hadoop?MapReduce是一個(gè)易于編寫應(yīng)用程序的軟件框架,它以可靠、容錯(cuò)??的方式在大規(guī)模商業(yè)集群上(數(shù)百到數(shù)千個(gè)節(jié)點(diǎn))并行化處理大規(guī)模數(shù)據(jù)。??一個(gè)MapReduce任務(wù)分成兩步:分為Map和Reduce
【參考文獻(xiàn)】:
期刊論文
[1]面向短文本分析的分布式表示模型[J]. 梁吉業(yè),喬潔,曹付元,劉曉琳. 計(jì)算機(jī)研究與發(fā)展. 2018(08)
[2]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報(bào). 2015(01)
[3]個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J]. 劉建國(guó),周濤,汪秉宏. 自然科學(xué)進(jìn)展. 2009(01)
[4]Web結(jié)構(gòu)挖掘及HITS算法分析[J]. 黃英銘. 計(jì)算機(jī)與現(xiàn)代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 楊建武,陳曉鷗. 計(jì)算機(jī)工程. 2005(05)
[6]三種檢索模型的比較分析研究——布爾、概率、向量空間模型[J]. 王娟琴. 情報(bào)科學(xué). 1998(03)
[7]RNN神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究[J]. 朱群雄,孫鋒. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 1998(01)
[8]概率檢索模型[J]. 景玉峰,王能琴,劉琪. 現(xiàn)代圖書情報(bào)技術(shù). 1987(01)
本文編號(hào):3381281
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1文本檢索系統(tǒng)??2.1.2倒排索引??
圖2-2檢索相關(guān)分布??到的與用戶查詢相關(guān)的文檔集合,B合,C表示未檢索到的與用戶查詢相詢無關(guān)的文檔集合。早期常用的評(píng)測(cè)用來表示檢索出來的相關(guān)文檔總數(shù)Precision),用來表示檢索出來的相示的是精確率與召回率的調(diào)和平均??系統(tǒng)檢索到的相關(guān)文件數(shù)?all?=?=?-相關(guān)文件數(shù)?4..?系統(tǒng)檢索到的相關(guān)文件數(shù)sion?=?=?系統(tǒng)返回的文件綜述?1?2?*?Precision?*?R1?.?1?Precision?+?Reccision?+?Recall)??
Hadoop生態(tài)系統(tǒng)系列有很多,有底層的HDFS分布式文件系統(tǒng),有基于??Hadoop的類似關(guān)系型數(shù)據(jù)庫的Hive,也有基于Hadoop的內(nèi)存計(jì)算框架Spark,??還有分布式數(shù)據(jù)庫Hbase等等,Hadoop生態(tài)系統(tǒng)如圖2-3所示。??Ambari??(安裝部署工具》??■?I??霸Hive?Pig?Hive2?Pig2?Shark?…??圓關(guān)。—Effli…圓??/孓I?BStSTII?KjJ??國(guó)■?nmmiiiii?ST??'^81—i?闕??HI??圖2-3?Hadoop生態(tài)系統(tǒng)??2.4.2分布式文件系統(tǒng)HDFS??HDFS?(HadoopDistributeFile?System,分布式文件系統(tǒng))是一個(gè)被設(shè)計(jì)運(yùn)行??于商業(yè)硬件上的分布式文件系統(tǒng)。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處,??但與其他分布式文件系統(tǒng)的區(qū)別是顯著的。HDFS具有高度的容錯(cuò)性,可部署在??低成本硬件上。HDFS提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,適用于需要訪問大??型數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了一些POSIX標(biāo)準(zhǔn),以實(shí)現(xiàn)對(duì)文件系統(tǒng)數(shù)據(jù)??的流式訪問。HDFS最初的誕生是作為Apache?Nutch?Web搜索引擎項(xiàng)目的基礎(chǔ)??設(shè)施構(gòu)建的,HDFS現(xiàn)在己經(jīng)成為了?Apache?Hadoop的子項(xiàng)目。??2.4.3并行處理框架MapReduce??Hadoop?MapReduce是一個(gè)易于編寫應(yīng)用程序的軟件框架,它以可靠、容錯(cuò)??的方式在大規(guī)模商業(yè)集群上(數(shù)百到數(shù)千個(gè)節(jié)點(diǎn))并行化處理大規(guī)模數(shù)據(jù)。??一個(gè)MapReduce任務(wù)分成兩步:分為Map和Reduce
【參考文獻(xiàn)】:
期刊論文
[1]面向短文本分析的分布式表示模型[J]. 梁吉業(yè),喬潔,曹付元,劉曉琳. 計(jì)算機(jī)研究與發(fā)展. 2018(08)
[2]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報(bào). 2015(01)
[3]個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J]. 劉建國(guó),周濤,汪秉宏. 自然科學(xué)進(jìn)展. 2009(01)
[4]Web結(jié)構(gòu)挖掘及HITS算法分析[J]. 黃英銘. 計(jì)算機(jī)與現(xiàn)代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 楊建武,陳曉鷗. 計(jì)算機(jī)工程. 2005(05)
[6]三種檢索模型的比較分析研究——布爾、概率、向量空間模型[J]. 王娟琴. 情報(bào)科學(xué). 1998(03)
[7]RNN神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究[J]. 朱群雄,孫鋒. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 1998(01)
[8]概率檢索模型[J]. 景玉峰,王能琴,劉琪. 現(xiàn)代圖書情報(bào)技術(shù). 1987(01)
本文編號(hào):3381281
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3381281.html
最近更新
教材專著