天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向微信內(nèi)容的全文信息檢索技術(shù)研究

發(fā)布時間:2020-06-15 11:26
【摘要】:隨著移動互聯(lián)網(wǎng)的快速發(fā)展,現(xiàn)有近1千萬人注冊了微信公眾號,這些公眾號已推送了數(shù)億萬計的微信文章。然而,目前針對如何挖掘使用大規(guī)模微信文章數(shù)據(jù)的研究較少。全文信息檢索技術(shù)能夠協(xié)助用戶從海量的文章中找到他們想要的相關(guān)信息,基于此,本文研究了如何使用全文信息檢索技術(shù)為用戶提供高質(zhì)量的微信內(nèi)容。論文首先闡述了信息檢索的關(guān)鍵技術(shù)。為了給用戶提供高質(zhì)量的微信文章,本文充分挖掘微信文章的特征,使用點贊數(shù),閱讀數(shù)等特征定義了微信文章的流行度;使用微信公眾號的統(tǒng)計數(shù)據(jù),比如該公眾號所發(fā)布文章的日均閱讀數(shù)等,定義了微信公眾號的影響力;本文結(jié)合微信文章的流行度和微信公眾號的影響力定義了微信文章的影響力,并結(jié)合Lucene的搜索排序算法,設(shè)計了一種新的適用于微信內(nèi)容檢索的文檔相關(guān)度排序算法。本文并做實驗對比了BM25算法、Lucene的排序算法和本文提出的文檔相關(guān)度排序算法,驗證了本文的算法獲得的檢索效果最好。本文系統(tǒng)地比較分析了常用的五種查詢擴展方法,包括全局分析、局部分析、基于關(guān)聯(lián)規(guī)則、基于用戶查詢?nèi)罩竞突谡Z義概念的查詢擴展,總結(jié)了它們各自的優(yōu)缺點。同時,本文使用詞向量技術(shù)和文檔主題模型算法設(shè)計了新的查詢擴展方法應(yīng)用于微信內(nèi)容的檢索。本文并做了實驗比較本文提出的多種查詢擴展方法,證明疊加式查詢擴展方法LDA+Word2Vec對原查詢擴展的效果最好。論文基于Lucene搜索引擎,設(shè)計并實現(xiàn)了面向微信內(nèi)容的全文信息檢索系統(tǒng),該系統(tǒng)為用戶提供了上傳文件并建立索引、搜索微信文章、搜索微信公眾號和展示微信公眾號詳情信息等服務(wù)。最后,論文總結(jié)了在實現(xiàn)面向微信內(nèi)容的全文信息檢索系統(tǒng)中所用到的技術(shù),并對接下來的研究進行了展望。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
【圖文】:

搜索引擎,工作原理


第一章 緒 論 華東師范大學(xué)研究生碩士學(xué)位論文的程序)、為抓取的數(shù)據(jù)建立索引的索引器、檢索索引內(nèi)容的檢索器和用戶可以輸入查詢信息的用戶接口 (UI: User Interface)。搜索引擎是為用戶提供查詢服務(wù)的工具,其使用計算機技術(shù)在整個互聯(lián)網(wǎng)上抓取網(wǎng)頁并建立索引,以幫助用戶快速搜索信息。它的實現(xiàn)過程如圖 1.1 所示。

工作流程圖,全文搜索,引擎,工作流程


圖 2.1: 全文搜索引擎的工作流程它通過一種專業(yè)的計算機程序 (俗稱爬蟲:Spider) 無時無刻地從開放的網(wǎng)絡(luò)尋和抓取網(wǎng)頁內(nèi)容,并對內(nèi)容進行壓縮處理,然后進行存儲,在搜索者輸入查息后,會在索引庫中查找與用戶查詢相匹配的記錄信息,最后將檢索到的相關(guān)經(jīng)過特定的排序算法處理后返回給用戶。壓縮存儲在數(shù)據(jù)庫中的數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)都是有固定格式且長度有限, 可以理解為行數(shù)據(jù), 存儲在數(shù)據(jù)庫里, 其可以數(shù)據(jù)庫二維表結(jié)構(gòu)來邏輯表達實現(xiàn),如貨幣、數(shù)值、日期和字符等;非結(jié)構(gòu)化,這種數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相反,長度不固定、并且格式多樣化,如網(wǎng)頁、圖音、論文等。常見的數(shù)據(jù)庫系統(tǒng)大都屬于關(guān)系型數(shù)據(jù)庫,這種數(shù)據(jù)庫主要是用索結(jié)構(gòu)化數(shù)據(jù),主要原因是相比較檢索非結(jié)構(gòu)化數(shù)據(jù),技術(shù)實現(xiàn)簡單。以數(shù)值

【參考文獻】

相關(guān)期刊論文 前5條

1 劉興林;;信息檢索多樣化排序算法研究綜述[J];中國科技信息;2014年16期

2 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學(xué);2013年12期

3 高煒;張超;梁立;;信息檢索排序算法研究綜述[J];信息技術(shù);2009年06期

4 林國俊;葉飛躍;耿冬;鄭國良;;基于語義的概念查詢擴展[J];計算機工程與設(shè)計;2009年06期

5 崔航,文繼榮,李敏強;基于用戶日志的查詢擴展統(tǒng)計模型[J];軟件學(xué)報;2003年09期

相關(guān)碩士學(xué)位論文 前3條

1 李維銀;基于有監(jiān)督學(xué)習(xí)的查詢擴展技術(shù)研究[D];北京理工大學(xué);2015年

2 燕澤權(quán);基于主題模型的查詢擴展技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年

3 殷東元;基于Lucene的Discuz站內(nèi)檢索設(shè)計與實現(xiàn)[D];南昌大學(xué);2014年



本文編號:2714349

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2714349.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶820e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com