基于用戶行為分析的核能領(lǐng)域垂直檢索系統(tǒng)研究
本文選題:用戶行為分析 + 相似度評分算法 ; 參考:《合肥工業(yè)大學》2015年碩士論文
【摘要】:中國核網(wǎng)具有資訊及時、信息全面的特點。如何從雜亂無章的龐大數(shù)據(jù)和強干擾的信息中搜索出有價值的核能信息,這對人類的智能信息處理能力提出了挑戰(zhàn)。由于網(wǎng)絡(luò)資源的復(fù)雜性,通用搜索引擎已經(jīng)不能滿足用戶信息檢索的準確性需要。為了更及時、更精準地獲取核能信息與核能數(shù)據(jù),為中國核網(wǎng)高效及時提供精準的數(shù)據(jù)素材,保證這一核能領(lǐng)域門戶網(wǎng)站的數(shù)據(jù)及時性、精確性、全面性。本文針對核能領(lǐng)域海量數(shù)據(jù)的高效獲取、深度分類和信息檢索開展研究。本文首先研究了針對核能領(lǐng)域?qū)S脭?shù)據(jù)的主題爬蟲,實現(xiàn)了對核能主流數(shù)據(jù)的抓取、去噪。其次,基于支持向量機(Support Vector Machine)技術(shù)和IKAnalyzer分詞技術(shù)對已爬取的海量數(shù)據(jù)按照中國核網(wǎng)的頻道進行分類。最后,針對中國核網(wǎng)用戶來源、搜索行為具有較為明顯的聚類特性,對Lucene框架的檢索排序算法進行改進,提出一種基于用戶行為分析的檢索排序算法,該算法很大程度上提高了搜索引擎的查詢效率,為中國核網(wǎng)提供更有效、更精確的核能信息。相似度評分算法是全文信息檢索的核心步驟,能夠高效的對返回結(jié)果進行展示。本文對Lucene內(nèi)部相似度評分算法進行研究之后,針對Lucene內(nèi)部相似度排序算法僅考慮查詢詞出現(xiàn)頻率而未考慮潛在用戶心理這一問題,本文實現(xiàn)了面向核能領(lǐng)域的垂直檢索系統(tǒng),該系統(tǒng)基于改進的相似度評分算法,并且能夠通過對用戶最近一段時間內(nèi)的檢索與點擊行為進行分析,獲取一組用戶偏好關(guān)鍵詞,對查詢詞與偏好關(guān)鍵詞進行組合評分。論文實驗表明,該系統(tǒng)能夠高效獲取核能領(lǐng)域信息,并在保證正確率的情況下對信息進行分類,有效節(jié)約人力資源。通過對爬取的數(shù)據(jù)索引并驗證其檢索性能,可知改進相似度評分算法對檢索時間延長30-40ms,卻在在大眾用戶接受時間內(nèi),但該算法對搜索結(jié)果質(zhì)量有一定提高。
[Abstract]:China's nuclear network has the characteristics of timely information and comprehensive information. How to search the valuable nuclear energy information from the huge data and the strong interference information is a challenge to the intelligent information processing ability of human beings. Because of the complexity of network resources, general search engine can not meet the accuracy of user information retrieval. In order to obtain nuclear energy information and nuclear energy data more timely and accurately, provide accurate data material for China nuclear network efficiently and timely, ensure the data timeliness, accuracy and comprehensiveness of this nuclear energy field portal. This paper focuses on the efficient acquisition, depth classification and information retrieval of massive data in nuclear power field. In this paper, firstly, we study the topic crawler of special data in nuclear energy field, and realize the acquisition and denoising of the mainstream data of nuclear energy. Secondly, based on support Vector Machine (SVM) and IKAnalyzer participle technology, the crawling mass data is classified according to the channel of China Nuclear Network. Finally, in view of the Chinese nuclear network user source, the search behavior has the obvious clustering characteristic, carries on the improvement to the Lucene frame retrieval sorting algorithm, proposes a retrieval sorting algorithm based on the user behavior analysis. The algorithm greatly improves the search efficiency of the search engine and provides more effective and accurate nuclear energy information for the Chinese nuclear network. Similarity scoring algorithm is the core step of full text information retrieval, which can efficiently display the returned results. After the study of Lucene internal similarity scoring algorithm, aiming at the problem that Lucene internal similarity ranking algorithm only considers the frequency of query words but not the psychology of potential users, this paper implements a vertical retrieval system for nuclear energy domain. Based on the improved similarity scoring algorithm, the system can obtain a group of user preference keywords and score the combination of query words and preference keywords by analyzing the retrieval and click behavior of users in the most recent period of time. The experimental results show that the system can obtain nuclear energy information efficiently and classify the information under the condition of ensuring correct rate, which can save human resource effectively. By indexing the crawled data and validating its retrieval performance, we can see that the improved similarity scoring algorithm can prolong the retrieval time by 30-40ms, but it is in the time of acceptance by the public users, but the quality of the search results is improved to some extent by the improved similarity scoring algorithm.
【學位授予單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 馬維亮;;用戶行為分析系統(tǒng)在寬帶網(wǎng)絡(luò)中的應(yīng)用[J];科技信息(科學教研);2008年23期
2 喬志偉;;基于用戶行為的3G業(yè)務(wù)分析與探討[J];移動通信;2010年12期
3 龔尚福;姜曉旭;;基于用戶行為分析的廣告欺詐點擊檢測[J];計算機應(yīng)用與軟件;2011年04期
4 陶彩霞;謝曉軍;陳康;郭利榮;劉春;;基于云計算的移動互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計[J];電信科學;2013年03期
5 毛承潔;張龍;龐川;陳潔敏;;社會網(wǎng)絡(luò)服務(wù)及其用戶行為分析[J];華南師范大學學報(自然科學版);2013年02期
6 雒江濤;胡燕清;徐孝娜;周進艷;;基于CDMA2000 1x EVDO網(wǎng)絡(luò)的用戶行為分析模型設(shè)計[J];電視技術(shù);2013年07期
7 許春玲;范志剛;鄭小盈;李明齊;;有線電視用戶行為分析實踐[J];網(wǎng)絡(luò)新媒體技術(shù);2014年01期
8 李朝陽;謝傳中;;一種移動互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的頂層設(shè)計[J];江西通信科技;2014年01期
9 劉英梅;;大數(shù)據(jù)時代的信息用戶行為分析[J];科技情報開發(fā)與經(jīng)濟;2014年05期
10 陸群峰;;寬帶上網(wǎng)用戶行為分析[J];有線電視技術(shù);2006年02期
相關(guān)會議論文 前7條
1 趙勇;;移動互聯(lián)網(wǎng)用戶行為分析系統(tǒng)技術(shù)架構(gòu)淺析[A];2012全國無線及移動通信學術(shù)大會論文集(下)[C];2012年
2 馮銘;王保進;蔡建宇;;基于云計算的可重構(gòu)移動互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的設(shè)計[A];CCF NCSC 2011——第二屆中國計算機學會服務(wù)計算學術(shù)會議論文集[C];2011年
3 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
4 趙艷梅;朱曉燕;;轉(zhuǎn)變運維模式,迎接移動互聯(lián)網(wǎng)新挑戰(zhàn)[A];中國通信學會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(上冊)[C];2011年
5 劉奕群;張敏;馬少平;;用戶行為分析在網(wǎng)絡(luò)信息檢索中的應(yīng)用概述[A];全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集[C];2005年
6 毛翔博;齊觀德;李石堅;潘綱;;基于位置軌跡加權(quán)網(wǎng)絡(luò)圖的用戶行為分析識別算法[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年
7 爾古打機;蘇小龍;朱征;;基于用戶行為分析的移動終端偏好模型研究[A];第八屆(2013)中國管理學年會——商務(wù)智能分會場論文集[C];2013年
相關(guān)重要報紙文章 前3條
1 譚景華邋楊國良;IP網(wǎng)絡(luò)用戶行為分析方法的探討[N];人民郵電;2007年
2 本報記者 逄丹;建設(shè)用戶行為分析智慧模型[N];通信產(chǎn)業(yè)報;2010年
3 李中朝邋通訊員 黃偉;重慶電信建成寬帶用戶行為分析系統(tǒng)[N];人民郵電;2007年
相關(guān)博士學位論文 前6條
1 王琪;新媒體系統(tǒng)中用戶行為分析與系統(tǒng)設(shè)計[D];復(fù)旦大學;2014年
2 羅海艷;移動用戶網(wǎng)絡(luò)行為分析與預(yù)測方法研究[D];沈陽農(nóng)業(yè)大學;2015年
3 劉鵬;網(wǎng)絡(luò)用戶行為分析的若干問題研究[D];北京郵電大學;2010年
4 延皓;基于流量監(jiān)測的網(wǎng)絡(luò)用戶行為分析[D];北京郵電大學;2011年
5 竇伊男;根據(jù)多維特征的網(wǎng)絡(luò)用戶分類研究[D];北京郵電大學;2010年
6 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
相關(guān)碩士學位論文 前10條
1 江惠彬;基于Web日志的用戶行為分析系統(tǒng)的研究與實現(xiàn)[D];華南理工大學;2015年
2 李亞飛;基于用戶行為分析的冰箱設(shè)計研究[D];山東大學;2015年
3 石釗;基于網(wǎng)絡(luò)用戶行為分析的用戶推薦反饋系統(tǒng)的設(shè)計[D];北京化工大學;2015年
4 李婷蔚;基于移動校園應(yīng)用的用戶行為分析及性能改進[D];電子科技大學;2014年
5 王穎穎;基于Hadoop的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D];北京工業(yè)大學;2015年
6 馬仕玉;聚類算法及其在校園網(wǎng)用戶行為分析中的應(yīng)用[D];重慶交通大學;2015年
7 徐娟;基于用戶行為分析的核能領(lǐng)域垂直檢索系統(tǒng)研究[D];合肥工業(yè)大學;2015年
8 周岳;基于興趣分類的用戶行為分析系統(tǒng)的研究與設(shè)計[D];北京郵電大學;2010年
9 鄭桂鳳;移動互聯(lián)網(wǎng)的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學;2010年
10 魏彥鵬;基于移動社會網(wǎng)絡(luò)的用戶行為分析[D];北京郵電大學;2011年
,本文編號:2090446
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2090446.html