天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于用戶日志分析的搜索引擎排序算法的設計與實現(xiàn)

發(fā)布時間:2018-11-09 18:21
【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使得如何從海量信息中查找有效的數(shù)據(jù)變得越來越重要,搜索引擎通過對網(wǎng)絡中的信息進行爬取和組織,為用戶提供了優(yōu)質的查詢服務接口,它的出現(xiàn)使得目標信息的獲取變的更為便捷。搜索引擎已經(jīng)成為互聯(lián)網(wǎng)用戶獲取網(wǎng)絡資源所必不可少的工具,但由于互聯(lián)網(wǎng)信息量巨大,搜索引擎也無法每次都返回讓人滿意的查詢結果:首先,當用戶輸入一個查詢,搜索引擎會返回數(shù)量眾多的相關結果,而用戶最為關心的結果卻沒能顯示在最前面或最顯眼的位置;其次,由于用戶的對搜索引擎了解程度不同,大部分用戶不能通過檢索請求十分準確的表達檢索想法,從而導致搜索結果的不準確性。因此,通過用戶的搜索行為了解用戶的查詢意圖對于改善搜索引擎結果排序的準確性具有重要意義。 本文通過對搜索引擎查詢日志進行統(tǒng)計分析,由大量用戶的行為找出用戶訪問的一般性規(guī)律,進而優(yōu)化網(wǎng)頁排序算法,引導最終的結果排名,提高搜索引擎的結果排序的準確性。論文工作主要包括兩個方面: (1)分析搜索引擎用戶查詢日志。研究搜索日志的各個特征及其相互之間的聯(lián)系,總結中文搜索引擎用戶的一些基本行為規(guī)律,并根據(jù)對不同時期搜索日志的分析,發(fā)現(xiàn)中文搜索引擎用戶的搜索行為變化趨勢,為以后的搜索引擎用戶行為分析提供了基礎。 (2)對Lucene的原始排序算法的進行優(yōu)化。原始算法是基于向量空間模型的TF-IDF算法,針對該算法只重視關鍵詞詞頻和文檔的匹配度,而不考慮網(wǎng)頁自身的特點,設計了一種基于詞頻匹配度和網(wǎng)頁自身特點相結合的網(wǎng)頁排名算法。根據(jù)大量用戶查詢行為日志研究出的用戶搜索行為趨勢,在原有的排序算法基礎上增加用戶認可度排序因子,可以根據(jù)搜索引擎的需要調整該因子的權重系數(shù)使網(wǎng)頁排序最優(yōu)化。這樣可以在既保證了搜索結果的相關性和匹配度的前提下,同時使搜索返回結果的排序更加符合用戶的搜索需求。 本文設計的搜索引擎系統(tǒng)通過boost因子對排序算法做出改進,通過對原始排序算法以及結合用戶反饋信息的優(yōu)化后排序算法的返回結果進行了實驗對比分析,驗證了優(yōu)化后排序算法對于查詢返回結果的排列順序的改善效果,為未來在搜索引擎用戶查詢意圖方面的研究提供了參考。
[Abstract]:With the rapid development of the Internet, how to find effective data from mass information becomes more and more important. Search engine provides users with high-quality query service interface by crawling and organizing the information in the network. Its appearance makes the acquisition of target information more convenient. Search engine has become an indispensable tool for Internet users to access network resources, but because of the huge amount of information on the Internet, search engines can not return satisfactory results every time: first, when users enter a query, The search engine will return a large number of related results, while the results most concerned by the user are not displayed in the front or most prominent position; Secondly, because the users have different understanding of the search engine, most users can not express the retrieval idea accurately through the retrieval request, which leads to the inaccuracy of the search results. Therefore, it is important to understand the user's intention through the search behavior to improve the accuracy of search engine results ranking. Based on the statistical analysis of search engine query log, this paper finds out the general rules of user access by the behavior of a large number of users, and then optimizes the sorting algorithm of web pages to guide the final result ranking. Improve the accuracy of search engine results sorting. This paper mainly includes two aspects: (1) analyzing search engine user query log. This paper studies the characteristics of search logs and their relationships, summarizes some basic behavior rules of Chinese search engine users, and finds out the changing trend of search behavior of Chinese search engine users according to the analysis of search logs in different periods. It provides the foundation for user behavior analysis of search engine in the future. (2) optimize the original sorting algorithm of Lucene. The original algorithm is a TF-IDF algorithm based on vector space model. The algorithm only pays attention to the frequency of keywords and the matching degree of documents, and does not consider the characteristics of web pages. A web page ranking algorithm based on word frequency matching and web page characteristics is designed. According to a large number of user query behavior logs, the user search behavior trend is studied, and the sorting factor of user recognition is added to the original sorting algorithm. According to the need of search engine, the weight coefficient of this factor can be adjusted to optimize the ranking of web pages. This can not only guarantee the correlation and matching degree of search results, but also make the ranking of the returned results more in line with the users' needs. The search engine system designed in this paper improves the sorting algorithm by boost factor, and makes a comparative analysis of the results of the original sorting algorithm and the optimized post-sorting algorithm combined with user feedback information. The results show that the optimized post-sorting algorithm can improve the order of query return results and provide a reference for future research on search engine users' query intention.
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前9條

1 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國科學E輯:技術科學;2001年04期

2 王繼民,彭波;搜索引擎用戶訪問量模型[J];計算機工程與應用;2004年25期

3 陳紅濤;楊放春;陳磊;;基于大規(guī)模中文搜索引擎的搜索日志挖掘[J];計算機應用研究;2008年06期

4 李璐;江葆紅;孫紅紅;;如何提高文獻信息檢索中的查全率與查準率[J];科技文獻信息管理;2010年01期

5 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學報;2007年01期

6 岑榮偉;劉奕群;張敏;茹立云;馬少平;;基于日志挖掘的搜索引擎用戶行為分析[J];中文信息學報;2010年03期

7 詹圣君;邵雄凱;劉建舟;;一種考慮用戶行為的改進N—PageRank算法[J];計算機技術與發(fā)展;2011年08期

8 陳勇;張漢國;成筠;;基于Lucene的全文搜索引擎[J];現(xiàn)代計算機(專業(yè)版);2009年11期

9 張賢;周婭;;基于Lucene網(wǎng)頁排序算法的改進[J];計算機系統(tǒng)應用;2009年02期

相關碩士學位論文 前8條

1 楊晶晶;基于用戶隱性反饋的信息覓食模型研究[D];北京郵電大學;2011年

2 王宇;基于搜索歷史的用戶興趣建模[D];復旦大學;2011年

3 任麗蕓;搜索引擎中文分詞技術研究[D];重慶理工大學;2011年

4 王亮;搜索引擎及其相關性排序研究[D];武漢大學;2004年

5 王嘉杰;面向博客領域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2009年

6 徐海;基于Lucene垂直搜索引擎的研究與實現(xiàn)[D];西安科技大學;2009年

7 金祖旭;基于用戶反饋的搜索引擎排名算法研究[D];復旦大學;2010年

8 王霞;基于WEB瀏覽的用戶行為分析系統(tǒng)的研究與設計[D];北京郵電大學;2010年



本文編號:2321200

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2321200.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7ef97***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产一区二区不卡在线视频| 精品国模一区二区三区欧美| 精品国产亚洲区久久露脸| 亚洲精品国产第一区二区多人| 美女黄色三级深夜福利| 少妇人妻精品一区二区三区| 中文字幕人妻av不卡| 熟女中文字幕一区二区三区| 国产日韩精品激情在线观看| 黄色三级日本在线观看| 亚洲一区二区三在线播放| 亚洲国产中文字幕在线观看| 91熟女大屁股偷偷对白| 手机在线观看亚洲中文字幕| 欧美成人精品国产成人综合| 婷婷基地五月激情五月| 亚洲精品一区三区三区| 国产欧美日韩精品一区二区| 亚洲精品av少妇在线观看| 中文字幕精品人妻一区| 小草少妇视频免费看视频| 欧美三级精品在线观看| 午夜视频成人在线免费| 日韩性生活片免费观看| 国产传媒免费观看视频| 初尝人妻少妇中文字幕在线| 日本熟妇五十一区二区三区| 免费高清欧美一区二区视频| 年轻女房东2中文字幕| 国产毛片对白精品看片| 日韩精品一区二区三区四区| 国产又粗又猛又爽又黄| 久久久精品日韩欧美丰满| 亚洲伊人久久精品国产| 99久久国产精品免费| 欧美成人国产精品高清| 日韩欧美在线看一卡一卡| 国产肥妇一区二区熟女精品| 亚洲中文字幕剧情在线播放| 大尺度剧情国产在线视频| 国内精品一区二区欧美|