網(wǎng)絡(luò)日志挖掘及其在查詢理解中的應(yīng)用研究

發(fā)布時(shí)間：2019-06-14 18:41

【摘要】：查詢推薦系統(tǒng)是現(xiàn)代搜索引擎系統(tǒng)中的一項(xiàng)非常重要的技術(shù),該技術(shù)推薦更符合用戶需求的查詢詞以提高用戶的搜索體驗(yàn),目前許多方法都是通過計(jì)算用戶查詢詞之間的相似度來對查詢詞進(jìn)行聚類,然后對簇中的查詢詞按照某種策略推薦,其中沒有考慮到查詢詞之間所隱含的屬性信息,使得查詢詞的相似度計(jì)算方法中缺少部分輔助信息,同時(shí)推薦過程中僅考慮了用戶的歷史點(diǎn)擊行為。為解決上述問題,本文采用網(wǎng)絡(luò)查詢?nèi)罩竞桶倏谱鳛闃?gòu)建屬性知識庫的數(shù)據(jù),并構(gòu)建基于屬性知識庫的查詢推薦系統(tǒng)。該方法通過抽取查詢?nèi)罩局械娜嗣麑?shí)體及百科中實(shí)體屬性知識,形成了包含屬性知識的人名知識庫,根據(jù)高質(zhì)量的屬性規(guī)則和統(tǒng)計(jì)分類方法對知識庫中的實(shí)體進(jìn)行分類,基于不同的人物分類知識庫,對人名實(shí)體進(jìn)行有效推薦。本文主要?jiǎng)?chuàng)新點(diǎn)如下：依據(jù)建立的人物屬性知識庫,制定高質(zhì)量的人物分類規(guī)則,對未標(biāo)記的人物實(shí)體進(jìn)行分類,其中對一詞對類的實(shí)體,本文采用基于搜索引擎返回結(jié)果來對實(shí)體進(jìn)行分類標(biāo)記。提出一種基于信息重合度的人名實(shí)體分類算法,此方法為概率統(tǒng)計(jì)分類算法,是對基于規(guī)則的分類方法的補(bǔ)充,可以有效解決基于規(guī)則分類算法召回率低的缺陷。提出一種基于簇的用戶興趣模型,通過訓(xùn)練數(shù)據(jù),使其具有查詢推薦功能,可以根據(jù)用戶興趣將查詢推薦給用戶。實(shí)驗(yàn)結(jié)果表明：基于規(guī)則加統(tǒng)計(jì)的分類算法的準(zhǔn)確率和召回率要高于只基于規(guī)則或統(tǒng)計(jì)的分類方法。與傳統(tǒng)的查詢推薦系統(tǒng)相比,基于簇的用戶興趣模型推薦方法可以很好的提高準(zhǔn)確率,更好地反應(yīng)了用戶的真實(shí)查詢意圖。
[Abstract]:Query recommendation system is a very important technology in modern search engine system. This technology recommends query words that are more in line with the needs of users in order to improve the search experience of users. At present, many methods cluster query words by calculating the similarity between user query words, and then recommend the query words in the cluster according to a certain strategy, in which the attribute information implied between query words is not taken into account. Because of the lack of some auxiliary information in the similarity calculation method of query words, only the historical click behavior of users is considered in the recommendation process. In order to solve the above problems, this paper uses network query log and encyclopedia as the data to construct attribute knowledge base, and constructs a query recommendation system based on attribute knowledge base. By extracting the attribute knowledge of human name entities in query log and entity attribute knowledge in encyclopedia, the name knowledge base containing attribute knowledge is formed. According to the high quality attribute rules and statistical classification methods, the entities in the knowledge base are classified, and the named entities are effectively recommended based on different character classification knowledge bases. The main innovations of this paper are as follows: according to the established character attribute knowledge base, the high quality character classification rules are formulated, and the unmarked character entities are classified, in which the entity is classified and marked based on the results returned by the search engine. A classification algorithm of human name entities based on the degree of information coincidence is proposed. This method is a probability and statistical classification algorithm, which is a supplement to the rule-based classification method and can effectively solve the defect of low recall rate of the rule-based classification algorithm. In this paper, a cluster-based user interest model is proposed. By training the data, it has the function of query recommendation, and the query can be recommended to the user according to the user's interest. The experimental results show that the accuracy and recall rate of the classification algorithm based on rule plus statistics are higher than those based only on rules or statistics. Compared with the traditional query recommendation system, the cluster-based user interest model recommendation method can improve the accuracy and better reflect the real query intention of the user.
【學(xué)位授予單位】：北方工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2013
【分類號】：TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 陶劍文;;基于Agent的Web日志挖掘系統(tǒng)模型研究[J];微計(jì)算機(jī)應(yīng)用;2006年03期

2 白青偉;;"軍衛(wèi)一號"日志挖掘技術(shù)[J];醫(yī)學(xué)信息;2007年11期

3 程其江;呂述望;;關(guān)聯(lián)規(guī)則在WAP增值業(yè)務(wù)日志挖掘中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2008年S1期

4 丁興華;陳俊杰;;基于主成分分析法的Web頁面推薦算法[J];電腦開發(fā)與應(yīng)用;2009年07期

5 張大雷;;基于日志的網(wǎng)絡(luò)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電信快報(bào);2009年10期

6 王媛媛;鐘永恒;;基于SQL Server 2005的Web日志挖掘系統(tǒng)構(gòu)建[J];現(xiàn)代圖書情報(bào)技術(shù);2006年05期

7 朱有存;羅丹;王梅;;“軍衛(wèi)一號”日志挖掘技術(shù)[J];醫(yī)療衛(wèi)生裝備;2006年08期

8 馬玉妍;韓志;;數(shù)字圖書館用戶使用信息挖掘與應(yīng)用[J];圖書館理論與實(shí)踐;2007年02期

9 雷萍;呂英華;余陽;;基于數(shù)據(jù)挖掘的工作流過程優(yōu)化研究[J];中山大學(xué)學(xué)報(bào)論叢;2007年02期

10 隆功倫;席光文;;基于關(guān)聯(lián)規(guī)則的虛擬主機(jī)網(wǎng)站日志挖掘[J];重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年04期

相關(guān)會議論文前10條

1 蔡麗萍;李茂青;;一種基于模糊聚類的日志挖掘方法及應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報(bào)告篇）[C];2004年

2 周莉;張勇;邢春曉;;ULMF:一種基于構(gòu)件的通用日志挖掘框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（一）[C];2008年

3 孫云山;張立毅;李艷琴;;基于模糊分類器的PAM盲均衡算法[A];四川省通信學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年

4 王軍;宋寶燕;于戈;;一種Web日志挖掘數(shù)據(jù)預(yù)處理方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報(bào)告篇）[C];2006年

5 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2009年

6 李曉波;;集成分類對比:Bagging NB & Boosting NB[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集[C];2010年

7 邢延銘;諸克軍;李春平;;一種基于遺傳算法和模糊規(guī)則的分類算法[A];科學(xué)發(fā)展觀與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第十四屆學(xué)術(shù)年會論文集[C];2006年

8 王毅軍;張志廣;李勇;高小榕;高上凱;楊福生;;2003年腦機(jī)接口數(shù)據(jù)競賽論文之一——基于CSSD和FDA的單次手指運(yùn)動(dòng)誘發(fā)腦電分類算法[A];首屆全國功能神經(jīng)影像學(xué)和神經(jīng)信息學(xué)研討會論文匯編[C];2003年

9 傅言;郭振華;李乃民;;基于圖像分析的中醫(yī)色診及在肝病上的研究[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年

10 堯德中;廖祥;;基于支持向量機(jī)的腦電模式分類技術(shù)研究[A];中國生物醫(yī)學(xué)工程進(jìn)展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集（下冊）[C];2007年

相關(guān)重要報(bào)紙文章前10條

1 ;SecuiWALL獨(dú)創(chuàng)分類算法[N];計(jì)算機(jī)世界;2002年

2 商報(bào)實(shí)習(xí)記者張緒旺;破解10億人名準(zhǔn)確拼寫之謎[N];北京商報(bào);2010年

3 俞路石;中科大研究生解決網(wǎng)絡(luò)數(shù)據(jù)包有效分類算法[N];中國教育報(bào);2007年

4 江舒;藏族人名漢字音譯將有規(guī)可循[N];西部時(shí)報(bào);2010年

5 玉珍彭雪芳納日碧力戈（作者單位：中國社科院民研究;人名社會學(xué)：時(shí)下取名風(fēng)尚三人談[N];北京日報(bào);2000年

6 王泉根;談?wù)勅嗣幕痆N];大眾科技報(bào);2000年

7 ;銳捷RG-WALL系列防火墻[N];電腦商報(bào);2004年

8 張宏立;圖報(bào)復(fù)毀人名譽(yù) 因侵權(quán)被判賠償[N];人民法院報(bào);2001年

9 符向軍;法律面前,名人,也只是個(gè)人名[N];人民法院報(bào);2011年

10 中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所李建平;保護(hù)地球之腎遙感體檢濕地健康[N];中國水利報(bào);2008年

相關(guān)博士學(xué)位論文前10條

1 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年

2 王彤;數(shù)據(jù)挖掘的新技術(shù)研究[D];天津大學(xué);2007年

3 范舉;關(guān)鍵詞查詢的推薦技術(shù)研究[D];清華大學(xué);2012年

4 劉剛;數(shù)據(jù)挖掘技術(shù)與分類算法研究[D];中國人民解放軍信息工程大學(xué);2004年

5 賈銀山;支持向量機(jī)算法及其在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[D];大連海事大學(xué);2004年

6 吳廣潮;基于聚類特征樹的大規(guī)模分類算法研究[D];華南理工大學(xué);2012年

7 駱成鳳;中國土地覆蓋分類與變化監(jiān)測遙感研究[D];中國科學(xué)院研究生院（遙感應(yīng)用研究所）;2005年

8 錢曉東;基于神經(jīng)網(wǎng)絡(luò)等技術(shù)的數(shù)據(jù)與文本聚分類研究[D];天津大學(xué);2005年

9 董一鴻;動(dòng)態(tài)數(shù)據(jù)庫增量式挖掘算法及其應(yīng)用的研究[D];浙江大學(xué);2007年

10 唐勤;非均衡數(shù)據(jù)分類算法及其在助學(xué)貸款風(fēng)險(xiǎn)管理中的應(yīng)用研究[D];華中科技大學(xué);2012年

相關(guān)碩士學(xué)位論文前10條

1 徐驥超;網(wǎng)絡(luò)日志挖掘及其在查詢理解中的應(yīng)用研究[D];北方工業(yè)大學(xué);2013年

2 寧興旺;基于日志挖掘的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)研究與實(shí)現(xiàn)[D];山東師范大學(xué);2010年

3 桂輝;WEB日志挖掘在網(wǎng)站推薦服務(wù)中的應(yīng)用研究[D];華北電力大學(xué)（北京）;2011年

4 史振華;基于Web日志挖掘的網(wǎng)站優(yōu)化技術(shù)與應(yīng)用[D];武漢理工大學(xué);2010年

5 楊鵬;Web日志挖掘數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

6 劉宇婷;基于Web日志挖掘的個(gè)性化服務(wù)研究與應(yīng)用[D];北京理工大學(xué);2010年

7 程苗;云計(jì)算技術(shù)在web日志挖掘中的應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2011年

8 趙偉;基于Web日志的用戶訪問模式挖掘[D];天津大學(xué);2004年

9 孫趙平;基于關(guān)聯(lián)規(guī)則的web日志挖掘應(yīng)用研究[D];安徽大學(xué);2010年

10 韓莉;基于概念格的Web使用日志挖掘及其在個(gè)人化技術(shù)中的應(yīng)用[D];安徽大學(xué);2003年

，

本文編號：2499596

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2499596.html

上一篇：基于CORBA的分布式Agent通信構(gòu)架
下一篇：基于網(wǎng)絡(luò)知識資源的術(shù)語相似度計(jì)算方法綜述

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)絡(luò)日志挖掘及其在查詢理解中的應(yīng)用研究