網(wǎng)絡(luò)日志挖掘及其在查詢理解中的應(yīng)用研究
[Abstract]:Query recommendation system is a very important technology in modern search engine system. This technology recommends query words that are more in line with the needs of users in order to improve the search experience of users. At present, many methods cluster query words by calculating the similarity between user query words, and then recommend the query words in the cluster according to a certain strategy, in which the attribute information implied between query words is not taken into account. Because of the lack of some auxiliary information in the similarity calculation method of query words, only the historical click behavior of users is considered in the recommendation process. In order to solve the above problems, this paper uses network query log and encyclopedia as the data to construct attribute knowledge base, and constructs a query recommendation system based on attribute knowledge base. By extracting the attribute knowledge of human name entities in query log and entity attribute knowledge in encyclopedia, the name knowledge base containing attribute knowledge is formed. According to the high quality attribute rules and statistical classification methods, the entities in the knowledge base are classified, and the named entities are effectively recommended based on different character classification knowledge bases. The main innovations of this paper are as follows: according to the established character attribute knowledge base, the high quality character classification rules are formulated, and the unmarked character entities are classified, in which the entity is classified and marked based on the results returned by the search engine. A classification algorithm of human name entities based on the degree of information coincidence is proposed. This method is a probability and statistical classification algorithm, which is a supplement to the rule-based classification method and can effectively solve the defect of low recall rate of the rule-based classification algorithm. In this paper, a cluster-based user interest model is proposed. By training the data, it has the function of query recommendation, and the query can be recommended to the user according to the user's interest. The experimental results show that the accuracy and recall rate of the classification algorithm based on rule plus statistics are higher than those based only on rules or statistics. Compared with the traditional query recommendation system, the cluster-based user interest model recommendation method can improve the accuracy and better reflect the real query intention of the user.
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陶劍文;;基于Agent的Web日志挖掘系統(tǒng)模型研究[J];微計(jì)算機(jī)應(yīng)用;2006年03期
2 白青偉;;"軍衛(wèi)一號"日志挖掘技術(shù)[J];醫(yī)學(xué)信息;2007年11期
3 程其江;呂述望;;關(guān)聯(lián)規(guī)則在WAP增值業(yè)務(wù)日志挖掘中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2008年S1期
4 丁興華;陳俊杰;;基于主成分分析法的Web頁面推薦算法[J];電腦開發(fā)與應(yīng)用;2009年07期
5 張大雷;;基于日志的網(wǎng)絡(luò)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電信快報(bào);2009年10期
6 王媛媛;鐘永恒;;基于SQL Server 2005的Web日志挖掘系統(tǒng)構(gòu)建[J];現(xiàn)代圖書情報(bào)技術(shù);2006年05期
7 朱有存;羅丹;王梅;;“軍衛(wèi)一號”日志挖掘技術(shù)[J];醫(yī)療衛(wèi)生裝備;2006年08期
8 馬玉妍;韓志;;數(shù)字圖書館用戶使用信息挖掘與應(yīng)用[J];圖書館理論與實(shí)踐;2007年02期
9 雷萍;呂英華;余陽;;基于數(shù)據(jù)挖掘的工作流過程優(yōu)化研究[J];中山大學(xué)學(xué)報(bào)論叢;2007年02期
10 隆功倫;席光文;;基于關(guān)聯(lián)規(guī)則的虛擬主機(jī)網(wǎng)站日志挖掘[J];重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年04期
相關(guān)會議論文 前10條
1 蔡麗萍;李茂青;;一種基于模糊聚類的日志挖掘方法及應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
2 周莉;張勇;邢春曉;;ULMF:一種基于構(gòu)件的通用日志挖掘框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
3 孫云山;張立毅;李艷琴;;基于模糊分類器的PAM盲均衡算法[A];四川省通信學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年
4 王軍;宋寶燕;于戈;;一種Web日志挖掘數(shù)據(jù)預(yù)處理方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2006年
5 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2009年
6 李曉波;;集成分類對比:Bagging NB & Boosting NB[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集[C];2010年
7 邢延銘;諸克軍;李春平;;一種基于遺傳算法和模糊規(guī)則的分類算法[A];科學(xué)發(fā)展觀與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第十四屆學(xué)術(shù)年會論文集[C];2006年
8 王毅軍;張志廣;李勇;高小榕;高上凱;楊福生;;2003年腦機(jī)接口數(shù)據(jù)競賽論文之一——基于CSSD和FDA的單次手指運(yùn)動(dòng)誘發(fā)腦電分類算法[A];首屆全國功能神經(jīng)影像學(xué)和神經(jīng)信息學(xué)研討會論文匯編[C];2003年
9 傅言;郭振華;李乃民;;基于圖像分析的中醫(yī)色診及在肝病上的研究[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年
10 堯德中;廖祥;;基于支持向量機(jī)的腦電模式分類技術(shù)研究[A];中國生物醫(yī)學(xué)工程進(jìn)展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集(下冊)[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 ;SecuiWALL獨(dú)創(chuàng)分類算法[N];計(jì)算機(jī)世界;2002年
2 商報(bào)實(shí)習(xí)記者 張緒旺;破解10億人名準(zhǔn)確拼寫之謎[N];北京商報(bào);2010年
3 俞路石;中科大研究生解決網(wǎng)絡(luò)數(shù)據(jù)包有效分類算法[N];中國教育報(bào);2007年
4 江舒;藏族人名漢字音譯將有規(guī)可循[N];西部時(shí)報(bào);2010年
5 玉珍 彭雪芳 納日碧力戈 (作者單位:中國社科院民研究;人名社會學(xué):時(shí)下取名風(fēng)尚三人談[N];北京日報(bào);2000年
6 王泉根;談?wù)勅嗣幕痆N];大眾科技報(bào);2000年
7 ;銳捷RG-WALL系列防火墻[N];電腦商報(bào);2004年
8 張宏立;圖報(bào)復(fù)毀人名譽(yù) 因侵權(quán)被判賠償[N];人民法院報(bào);2001年
9 符向軍;法律面前,名人,也只是個(gè)人名[N];人民法院報(bào);2011年
10 中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所 李建平;保護(hù)地球之腎 遙感體檢濕地健康[N];中國水利報(bào);2008年
相關(guān)博士學(xué)位論文 前10條
1 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年
2 王彤;數(shù)據(jù)挖掘的新技術(shù)研究[D];天津大學(xué);2007年
3 范舉;關(guān)鍵詞查詢的推薦技術(shù)研究[D];清華大學(xué);2012年
4 劉剛;數(shù)據(jù)挖掘技術(shù)與分類算法研究[D];中國人民解放軍信息工程大學(xué);2004年
5 賈銀山;支持向量機(jī)算法及其在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[D];大連海事大學(xué);2004年
6 吳廣潮;基于聚類特征樹的大規(guī)模分類算法研究[D];華南理工大學(xué);2012年
7 駱成鳳;中國土地覆蓋分類與變化監(jiān)測遙感研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2005年
8 錢曉東;基于神經(jīng)網(wǎng)絡(luò)等技術(shù)的數(shù)據(jù)與文本聚分類研究[D];天津大學(xué);2005年
9 董一鴻;動(dòng)態(tài)數(shù)據(jù)庫增量式挖掘算法及其應(yīng)用的研究[D];浙江大學(xué);2007年
10 唐勤;非均衡數(shù)據(jù)分類算法及其在助學(xué)貸款風(fēng)險(xiǎn)管理中的應(yīng)用研究[D];華中科技大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 徐驥超;網(wǎng)絡(luò)日志挖掘及其在查詢理解中的應(yīng)用研究[D];北方工業(yè)大學(xué);2013年
2 寧興旺;基于日志挖掘的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)研究與實(shí)現(xiàn)[D];山東師范大學(xué);2010年
3 桂輝;WEB日志挖掘在網(wǎng)站推薦服務(wù)中的應(yīng)用研究[D];華北電力大學(xué)(北京);2011年
4 史振華;基于Web日志挖掘的網(wǎng)站優(yōu)化技術(shù)與應(yīng)用[D];武漢理工大學(xué);2010年
5 楊鵬;Web日志挖掘數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
6 劉宇婷;基于Web日志挖掘的個(gè)性化服務(wù)研究與應(yīng)用[D];北京理工大學(xué);2010年
7 程苗;云計(jì)算技術(shù)在web日志挖掘中的應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2011年
8 趙偉;基于Web日志的用戶訪問模式挖掘[D];天津大學(xué);2004年
9 孫趙平;基于關(guān)聯(lián)規(guī)則的web日志挖掘應(yīng)用研究[D];安徽大學(xué);2010年
10 韓莉;基于概念格的Web使用日志挖掘及其在個(gè)人化技術(shù)中的應(yīng)用[D];安徽大學(xué);2003年
,本文編號:2499596
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2499596.html