基于主題排序與推薦的智能全文檢索系統(tǒng)研究與實(shí)現(xiàn)
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【圖文】:
如何快速構(gòu)建一個(gè)準(zhǔn)確化、個(gè)性化的檢索系統(tǒng)成為迫切要解決的問(wèn)題。隨著深度神經(jīng)網(wǎng)絡(luò)和文本主題技術(shù)的成熟使機(jī)器自動(dòng)從信息中提取信息和學(xué)到人們的偏好,從而進(jìn)行自主學(xué)習(xí)成為可能,傳統(tǒng)意義上的的搜索引擎已經(jīng)足不了人們對(duì)于搜索頁(yè)面的主題化和個(gè)性化偏好的需求。因此一個(gè)能實(shí)現(xiàn)快部署的智能學(xué)習(xí)頁(yè)面內(nèi)容信息的全文搜索引擎在人們?nèi)粘I顚W(xué)習(xí)中有著重的現(xiàn)實(shí)意義。.1 研究背景及意義隨著因特網(wǎng)的迅猛發(fā)展,大量的網(wǎng)站如雨后春筍般出現(xiàn),網(wǎng)絡(luò)信息大量增。根據(jù)第 41 次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì)數(shù)據(jù)顯示[1],截至 2017 12 月,中國(guó)網(wǎng)站的數(shù)量為 533 萬(wàn)個(gè),半年增長(zhǎng) 4.8% 。海量信息數(shù)據(jù)的涌入便利人們生活的同時(shí),也必然會(huì)導(dǎo)致信息過(guò)載(information overload)問(wèn)題—人們?cè)诖罅康、質(zhì)量參差不齊的數(shù)據(jù)中找到自己需要搜尋的數(shù)據(jù),如同大海針。2012-2017 年中國(guó)網(wǎng)站數(shù)量如圖 1.1 所示。
1 緒論搜索引擎(Search Engine)正是為了解決這種信息過(guò)載問(wèn)題而出現(xiàn)的技術(shù)。它運(yùn)用一定的策略使人們可以根據(jù)自己的需要在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)知識(shí)信息,并對(duì)信息進(jìn)行采集、提取和有序地組織,從而起到信息檢索的目的。毫無(wú)疑問(wèn),搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)中獲取信息的最重要手段之一。作為基礎(chǔ)應(yīng)用,搜索引擎在人們的互聯(lián)網(wǎng)生活中一直占據(jù)著重要地位,用戶規(guī)模穩(wěn)定增長(zhǎng),使用率保持高位[2]。據(jù)統(tǒng)計(jì),截至 2015 年 6 月,我國(guó)搜索引擎使用數(shù)到達(dá) 5.36 億,占網(wǎng)民數(shù)量的 80.3%,是網(wǎng)民第三大應(yīng)用。中國(guó)用戶搜索引擎用戶規(guī)模、半年增長(zhǎng)率與使用率如圖 1.2 所示。
夠在批量文檔中發(fā)現(xiàn)其隱含主題分布的生語(yǔ)料的特征知識(shí)發(fā)現(xiàn)與語(yǔ)義挖掘,被廣泛取和信息檢索等領(lǐng)域。LDA 由概率隱性語(yǔ)alysis, pLSA)改進(jìn)而來(lái),能夠更真實(shí)地描類和檢索,現(xiàn)已成為信息抽取、挖掘分成模型是一種“文檔-主題-詞”的三層貝葉斯概隱含主題詞的混合,文本中的詞匯代表,為文本主題建模的方法是將主題視為隨機(jī)混合[26],從而按照概率分布進(jìn)行隨大規(guī)模文檔集或語(yǔ)料庫(kù)中潛在的主題信息.1 所示。
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 陶永才;李俊艷;石磊;衛(wèi)琳;;基于地理位置的個(gè)性化新聞混合推薦研究[J];小型微型計(jì)算機(jī)系統(tǒng);2016年05期
2 張才瓊;;現(xiàn)有搜索引擎使用缺陷與未來(lái)發(fā)展趨勢(shì)分析[J];內(nèi)蒙古科技與經(jīng)濟(jì);2015年14期
3 俞慶生;;基于云平臺(tái)的邏輯回歸模型構(gòu)建算法的設(shè)計(jì)與實(shí)現(xiàn)[J];科技通報(bào);2013年06期
4 劉春艷;凌建春;寇林元;仇麗霞;武俊青;;GA-BP神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)性能比較[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2013年02期
5 許冶冰;劉超;;基于主題的文檔與代碼間關(guān)聯(lián)關(guān)系的提取研究[J];計(jì)算機(jī)工程與應(yīng)用;2013年05期
6 李群;袁津生;;基于DBSCAN的最優(yōu)密度文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年04期
7 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過(guò)濾推薦算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期
相關(guān)碩士學(xué)位論文 前10條
1 劉冬冬;基于感知上下文的交互推薦算法研究[D];山東師范大學(xué);2017年
2 代成雷;基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測(cè)[D];浙江大學(xué);2016年
3 董亞?wèn)|;面向不平衡分類的邏輯回歸算法[D];鄭州大學(xué);2015年
4 蔡觀洋;個(gè)性化推薦中協(xié)同過(guò)濾算法的改進(jìn)研究[D];吉林大學(xué);2013年
5 馮竣O
本文編號(hào):2788773
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2788773.html