天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于主題排序與推薦的智能全文檢索系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-08-11 07:21
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,各個(gè)門戶站點(diǎn)井噴式爆發(fā),網(wǎng)絡(luò)數(shù)據(jù)呈爆炸式增長(zhǎng)。從信息過(guò)載時(shí)代進(jìn)入信息爆炸時(shí)代,人們從海量數(shù)據(jù)信息和門戶站點(diǎn)中檢索獲取自己需要知識(shí)的需求愈加迫切。對(duì)于個(gè)人來(lái)說(shuō),如何從海量的信息中快速、準(zhǔn)確地搜尋到目的信息頁(yè)面是關(guān)鍵;對(duì)于各個(gè)擁有龐大數(shù)量頁(yè)面的網(wǎng)站站點(diǎn)來(lái)說(shuō),如何快速構(gòu)建一個(gè)準(zhǔn)確化、個(gè)性化的檢索系統(tǒng)成為當(dāng)務(wù)之急。本論文在上述背景下,跟據(jù)信息檢索的實(shí)際需求情況,提出了一種基于主題排序與推薦的智能全文檢索系統(tǒng)。本文的主要工作內(nèi)容有如下幾點(diǎn):第一,對(duì)系統(tǒng)的研究背景、目的及意義進(jìn)行分析,介紹了國(guó)內(nèi)外全文搜索引擎和排序技術(shù)的發(fā)展現(xiàn)狀。同時(shí)對(duì)本全文搜索引擎系統(tǒng)具體架構(gòu)和推薦模型建模進(jìn)行了分析,明確了業(yè)務(wù)需求和流程,并提出構(gòu)建本智能化全文搜索引擎的具體流程。第二,本文將系統(tǒng)分為了四層模塊結(jié)構(gòu)實(shí)現(xiàn),首先針對(duì)檢索結(jié)果進(jìn)行排序,運(yùn)用距離頻度相關(guān)算法和LDA主題模型進(jìn)行內(nèi)容匹配,使用PageRank算法計(jì)算鏈接重要度,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)和用戶日志對(duì)排序進(jìn)行反饋學(xué)習(xí)與優(yōu)化。最后使用幾種算法結(jié)果的加權(quán)進(jìn)行綜合排序,使檢索結(jié)果更加合理。同時(shí)對(duì)個(gè)性化推薦的理論技術(shù)進(jìn)行探究,結(jié)合主題分析與檢索系統(tǒng)的特點(diǎn),提出了基于主題的混合推薦算法HRT。發(fā)掘用戶主要偏好主題與潛在偏好主題,并采用兩種方式相結(jié)合的混合推薦,也可以有效地解決推薦算法在搜索引擎應(yīng)用中的冷啟動(dòng)問(wèn)題。最后,系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),主要采用Python進(jìn)行各個(gè)模塊的實(shí)現(xiàn),同時(shí)設(shè)計(jì)有出錯(cuò)設(shè)計(jì)和提供多套方案供系統(tǒng)穩(wěn)定運(yùn)行。詳細(xì)分析了系統(tǒng)各功能的實(shí)現(xiàn)效果以及結(jié)果指標(biāo),并運(yùn)用黑盒測(cè)試方法和LoadRunner負(fù)載測(cè)試工具對(duì)系統(tǒng)進(jìn)行了測(cè)試。各項(xiàng)結(jié)果表明,該系統(tǒng)基本達(dá)到了智能檢索的需求。此外,本系統(tǒng)模塊化的設(shè)計(jì)與靈活的優(yōu)化算法組合為用戶提供合理頁(yè)面排序,并在實(shí)際功能的基礎(chǔ)上保證了系統(tǒng)的穩(wěn)定性,準(zhǔn)確性與智能化以及高可擴(kuò)展性,幫助用戶從海量信息中最方便快速地找到自己需要的信息。有效地解決了用戶智能信息檢索問(wèn)題和網(wǎng)站站點(diǎn)快速個(gè)性化部署的需求。
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【圖文】:

網(wǎng)站


如何快速構(gòu)建一個(gè)準(zhǔn)確化、個(gè)性化的檢索系統(tǒng)成為迫切要解決的問(wèn)題。隨著深度神經(jīng)網(wǎng)絡(luò)和文本主題技術(shù)的成熟使機(jī)器自動(dòng)從信息中提取信息和學(xué)到人們的偏好,從而進(jìn)行自主學(xué)習(xí)成為可能,傳統(tǒng)意義上的的搜索引擎已經(jīng)足不了人們對(duì)于搜索頁(yè)面的主題化和個(gè)性化偏好的需求。因此一個(gè)能實(shí)現(xiàn)快部署的智能學(xué)習(xí)頁(yè)面內(nèi)容信息的全文搜索引擎在人們?nèi)粘I顚W(xué)習(xí)中有著重的現(xiàn)實(shí)意義。.1 研究背景及意義隨著因特網(wǎng)的迅猛發(fā)展,大量的網(wǎng)站如雨后春筍般出現(xiàn),網(wǎng)絡(luò)信息大量增。根據(jù)第 41 次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì)數(shù)據(jù)顯示[1],截至 2017 12 月,中國(guó)網(wǎng)站的數(shù)量為 533 萬(wàn)個(gè),半年增長(zhǎng) 4.8% 。海量信息數(shù)據(jù)的涌入便利人們生活的同時(shí),也必然會(huì)導(dǎo)致信息過(guò)載(information overload)問(wèn)題—人們?cè)诖罅康、質(zhì)量參差不齊的數(shù)據(jù)中找到自己需要搜尋的數(shù)據(jù),如同大海針。2012-2017 年中國(guó)網(wǎng)站數(shù)量如圖 1.1 所示。

搜索引擎,使用率,增長(zhǎng)率,互聯(lián)網(wǎng)


1 緒論搜索引擎(Search Engine)正是為了解決這種信息過(guò)載問(wèn)題而出現(xiàn)的技術(shù)。它運(yùn)用一定的策略使人們可以根據(jù)自己的需要在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)知識(shí)信息,并對(duì)信息進(jìn)行采集、提取和有序地組織,從而起到信息檢索的目的。毫無(wú)疑問(wèn),搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)中獲取信息的最重要手段之一。作為基礎(chǔ)應(yīng)用,搜索引擎在人們的互聯(lián)網(wǎng)生活中一直占據(jù)著重要地位,用戶規(guī)模穩(wěn)定增長(zhǎng),使用率保持高位[2]。據(jù)統(tǒng)計(jì),截至 2015 年 6 月,我國(guó)搜索引擎使用數(shù)到達(dá) 5.36 億,占網(wǎng)民數(shù)量的 80.3%,是網(wǎng)民第三大應(yīng)用。中國(guó)用戶搜索引擎用戶規(guī)模、半年增長(zhǎng)率與使用率如圖 1.2 所示。

過(guò)程圖,文檔生成,主題,過(guò)程


夠在批量文檔中發(fā)現(xiàn)其隱含主題分布的生語(yǔ)料的特征知識(shí)發(fā)現(xiàn)與語(yǔ)義挖掘,被廣泛取和信息檢索等領(lǐng)域。LDA 由概率隱性語(yǔ)alysis, pLSA)改進(jìn)而來(lái),能夠更真實(shí)地描類和檢索,現(xiàn)已成為信息抽取、挖掘分成模型是一種“文檔-主題-詞”的三層貝葉斯概隱含主題詞的混合,文本中的詞匯代表,為文本主題建模的方法是將主題視為隨機(jī)混合[26],從而按照概率分布進(jìn)行隨大規(guī)模文檔集或語(yǔ)料庫(kù)中潛在的主題信息.1 所示。

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 陶永才;李俊艷;石磊;衛(wèi)琳;;基于地理位置的個(gè)性化新聞混合推薦研究[J];小型微型計(jì)算機(jī)系統(tǒng);2016年05期

2 張才瓊;;現(xiàn)有搜索引擎使用缺陷與未來(lái)發(fā)展趨勢(shì)分析[J];內(nèi)蒙古科技與經(jīng)濟(jì);2015年14期

3 俞慶生;;基于云平臺(tái)的邏輯回歸模型構(gòu)建算法的設(shè)計(jì)與實(shí)現(xiàn)[J];科技通報(bào);2013年06期

4 劉春艷;凌建春;寇林元;仇麗霞;武俊青;;GA-BP神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)性能比較[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2013年02期

5 許冶冰;劉超;;基于主題的文檔與代碼間關(guān)聯(lián)關(guān)系的提取研究[J];計(jì)算機(jī)工程與應(yīng)用;2013年05期

6 李群;袁津生;;基于DBSCAN的最優(yōu)密度文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年04期

7 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過(guò)濾推薦算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期

相關(guān)碩士學(xué)位論文 前10條

1 劉冬冬;基于感知上下文的交互推薦算法研究[D];山東師范大學(xué);2017年

2 代成雷;基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測(cè)[D];浙江大學(xué);2016年

3 董亞?wèn)|;面向不平衡分類的邏輯回歸算法[D];鄭州大學(xué);2015年

4 蔡觀洋;個(gè)性化推薦中協(xié)同過(guò)濾算法的改進(jìn)研究[D];吉林大學(xué);2013年

5 馮竣O

本文編號(hào):2788773


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2788773.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶15bab***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com