天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于二分圖的查詢推薦算法

發(fā)布時間:2018-04-28 21:03

  本文選題:加權(quán)二分圖 + 查詢推薦; 參考:《安徽大學(xué)》2014年碩士論文


【摘要】:當(dāng)前,互聯(lián)網(wǎng)已經(jīng)成為全世界最大的一個知識庫,蘊含著海量的信息,人們可以獲取的網(wǎng)絡(luò)信息與日俱增。用戶在面對大規(guī)模的網(wǎng)絡(luò)信息時,卻往往茫然于如何更快更準(zhǔn)確地找到所需要的信息。搜索引擎可以幫助人們從海量數(shù)據(jù)中獲取信息,已經(jīng)成為用戶獲取網(wǎng)絡(luò)信息的最主要甚至必不可少的工具之一。但目前的搜索引擎與用戶的交互方式仍然是主要通過用戶根據(jù)信息需求自主輸入查詢關(guān)鍵詞進(jìn)行檢索,搜索引擎返回查詢結(jié)果。由于輸入的查詢詞一般較為簡短,并且查詢詞自身存在歧義性和多義性,搜索引擎并不能準(zhǔn)確理解用戶真實的搜索意圖;诖朔N背景下,查詢推薦技術(shù)如今已經(jīng)被搜索引擎普遍采用,幫助搜索引擎更準(zhǔn)確地了解用戶真實的查詢意圖以及幫助用戶構(gòu)造更加完善的查詢。 本文主要研究了一種基于二分圖的查詢推薦算法。采用搜狗查詢?nèi)罩咀鳛閷嶒灁?shù)據(jù)集,對該數(shù)據(jù)集進(jìn)行分析與預(yù)處理之后,抽取31萬條用戶歷史點擊數(shù)據(jù)作為實驗用數(shù)據(jù)。將用戶點擊URL在搜索引擎返回結(jié)果列表中的排序號和用戶點擊該URL的順序號考慮到二分圖連接邊的權(quán)重計算公式中,利用TF-IDF思想計算邊的權(quán)重,得到Query-URL加權(quán)二分圖。利用用戶點擊的URL集合構(gòu)造向量來表示對應(yīng)的查詢,然后使用余弦相似度方法計算任意兩個不同查詢間的相似度,最后構(gòu)建一個描述查詢間相關(guān)度的查詢關(guān)系網(wǎng)絡(luò)圖。對一個輸入查詢推薦N個候選查詢的過程是:首先在查詢關(guān)系網(wǎng)絡(luò)圖上找到該輸入查詢所在節(jié)點的鄰居節(jié)點構(gòu)成初始候選查詢集合H。若集合H中查詢的數(shù)目不小于N,直接選取前N個與輸入查詢相關(guān)度得分較高的候選查詢進(jìn)行推薦;若集合H中查詢的數(shù)目小于N,則將和輸入查詢節(jié)點間接連接的h-hop范圍內(nèi)節(jié)點也加入集合H中,利用k-means算法對集合H中的查詢進(jìn)行聚類,最后對包含輸入查詢的簇進(jìn)行排序,推薦前N個與輸入查詢相關(guān)度得分較高的候選查詢。實驗結(jié)果表明,本文研究的查詢推薦算法具有良好的推薦效果和一定的應(yīng)用價值。
[Abstract]:At present, the Internet has become the world's largest knowledge base, containing a large amount of information, people can get more and more network information. In the face of large-scale network information, users are often confused about how to find the needed information more quickly and accurately. Search engine can help people to obtain information from massive data and has become one of the most important and even indispensable tools for users to obtain information on the network. However, the interaction between search engines and users is still mainly based on the information needs of users to input query keywords for retrieval, search engines return query results. Because the inputted query words are generally short, and the query words themselves are ambiguous and ambiguous, the search engine can not accurately understand the users' real search intention. Based on this background, query recommendation technology has been widely used by search engines, which helps search engines understand users' real query intention more accurately and help users to construct more perfect queries. This paper mainly studies a query recommendation algorithm based on bipartite graph. Sogou query log is used as experimental data set. After analyzing and preprocessing the data set, 310000 user history click data are extracted as experimental data. The sorting number of user clicking URL in the search engine return result list and the order number of user clicking on the URL are taken into account in the calculation formula of the weight of the connection edge of the bipartite graph, and the weight of the edge is calculated by using the idea of TF-IDF, and the weighted bipartite graph of Query-URL is obtained. The URL set is used to construct the vector to represent the corresponding query. Then the similarity between any two different queries is calculated by using the cosine similarity method. Finally, a query relational network graph is constructed to describe the correlation between the queries. The process of recommending N candidate queries for an input query is as follows: firstly, the neighbor nodes of the node where the input query is located are found on the query relational network diagram to form the initial candidate query set H. If the number of queries in the set H is not less than N, we directly select the first N candidate queries with high correlation score to recommend. If the number of queries in the set H is less than N, then the nodes in the range of h-hop that are indirectly connected with the input query nodes are added to the set H, and the query in the set H is clustered by using the k-means algorithm. Finally, the clusters containing input queries are sorted. The first N candidate queries with high correlation with input queries are recommended. Experimental results show that the query recommendation algorithm studied in this paper has good recommendation effect and certain application value.
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 夏敬華,陸寶春,葛紅宇,張世琪;一種多因素指標(biāo)下基于模糊特征表示的匹配方法[J];計算機工程與科學(xué);1999年06期

2 李昂,羅漢文,陳強;基于置信傳播的LDPC碼譯碼算法[J];計算機工程;2005年20期

3 郝水俠;李凡長;;構(gòu)建一種多agent并行計算模型[J];計算機技術(shù)與發(fā)展;2006年05期

4 林馨;;二部圖網(wǎng)絡(luò)信息傳輸?shù)淖疃虝r間[J];數(shù)字技術(shù)與應(yīng)用;2010年05期

5 聞斌;姜偉;張立;歐衛(wèi)華;;構(gòu)造消環(huán)的LDPC碼[J];常熟理工學(xué)院學(xué)報;2011年02期

6 常庭懋,韓中庚;用“匈牙利算法”求解一類最優(yōu)化問題[J];信息工程大學(xué)學(xué)報;2004年01期

7 張旭堂,劉文劍;基于二分圖的裝配體檢索研究[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2005年09期

8 林雪紅,吳偉陵;LDPC碼的并行譯碼算法[J];北京郵電大學(xué)學(xué)報;2005年05期

9 花曉菲;李旭;;基于圖論的頻率規(guī)劃算法分析與仿真[J];西安郵電學(xué)院學(xué)報;2007年01期

10 安曉東;;基于蟻群算法的電子化考試考場座位編排方法[J];中北大學(xué)學(xué)報(自然科學(xué)版);2007年03期

相關(guān)會議論文 前10條

1 楊楠;丁暉;劉悅;;Web社區(qū)緊密核的抽取方法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

2 劉永山;朱銳;徐友云;蔡躍明;;衰減因子在LDPC碼置信算法中的應(yīng)用及性能分析[A];江蘇省通信學(xué)會2004年學(xué)術(shù)年會論文集[C];2004年

3 鐘茂生;劉慧;劉磊;;詞匯間語義相關(guān)關(guān)系量化計算方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

4 趙玉虎;;一種編碼跳時超寬帶系統(tǒng)性能分析[A];浙江省電子學(xué)會第七次會員代表大會暨2007學(xué)術(shù)年會論文集[C];2007年

5 王繼存;;有限元節(jié)點編號的優(yōu)化方法[A];土木工程中計算機應(yīng)用文集——中國土木工程學(xué)會計算機應(yīng)用學(xué)會成立大會暨第一次學(xué)術(shù)交流會論文集[C];1981年

6 趙海建;林宏;;數(shù)字電視中LDPC碼構(gòu)造方法的研究[A];中國電子學(xué)會第十五屆信息論學(xué)術(shù)年會暨第一屆全國網(wǎng)絡(luò)編碼學(xué)術(shù)年會論文集(下冊)[C];2008年

7 宋曉云;汪一鳴;;LDPC碼在UWB上的應(yīng)用[A];第十二屆全國信號處理學(xué)術(shù)年會(CCSP-2005)論文集[C];2005年

8 周星宇;賀仲雄;;Vague匹配決策支持系統(tǒng)及其在人才調(diào)配中應(yīng)用[A];2003年中國智能自動化會議論文集(下冊)[C];2003年

9 張磊;馬軍;;描述短時資源混雜占用型任務(wù)調(diào)度的數(shù)學(xué)模型與算法[A];2005年全國理論計算機科學(xué)學(xué)術(shù)年會論文集[C];2005年

10 劉惠;李曉軍;杜軍朝;張熒俊;張云揚;;基于LT噴泉碼的無線傳感器網(wǎng)絡(luò)信息分發(fā)協(xié)議性能評價[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 吳宏偉;社會網(wǎng)絡(luò)數(shù)據(jù)發(fā)布中的隱私匿名技術(shù)研究[D];哈爾濱工程大學(xué);2013年

2 卞秋菊;關(guān)于圖的因子與分?jǐn)?shù)因子的若干結(jié)果[D];山東大學(xué);2005年

3 劉小同;接近仙農(nóng)限碼的研究及VLSI設(shè)計[D];同濟大學(xué);2007年

4 徐秀蓮;合作—競爭網(wǎng)和交連網(wǎng)的研究[D];揚州大學(xué);2010年

5 劉輝;基因調(diào)控網(wǎng)絡(luò)的建模與學(xué)習(xí)研究[D];復(fù)旦大學(xué);2009年

6 曹海燕;無線通信系統(tǒng)中的LDPC碼、Turbo碼和空時編碼的研究[D];華南理工大學(xué);2006年

7 林競力;低密度校驗碼的構(gòu)造及其應(yīng)用研究[D];電子科技大學(xué);2009年

8 王劍;果樹枝干三維重建關(guān)鍵技術(shù)研究[D];中國農(nóng)業(yè)科學(xué)院;2009年

9 張斌武;哈明距離下的逆優(yōu)化問題及多物品的制造與分配問題[D];浙江大學(xué);2005年

10 黃曉慧;Internet服務(wù)故障管理[D];北京郵電大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 朱瑯;基于二分圖的查詢推薦算法[D];安徽大學(xué);2014年

2 何峰;二分圖頂點覆蓋問題的求解及應(yīng)用[D];昆明理工大學(xué);2002年

3 蔡瑩瑩;基于二分圖的應(yīng)急預(yù)案體系有效性研究[D];大連理工大學(xué);2012年

4 魯富榮;二分圖的因子[D];山西大學(xué);2007年

5 陳勇帆;集成電路自動測試設(shè)備接口板網(wǎng)表生成方法研究[D];華南理工大學(xué);2012年

6 張林;基于蟻群算法的排課系統(tǒng)研究與設(shè)計[D];安徽大學(xué);2005年

7 王芳;低密度奇偶校驗碼的研究及其應(yīng)用[D];大連海事大學(xué);2006年

8 惠偉;基于社會網(wǎng)絡(luò)的集團(tuán)人員構(gòu)成研究[D];山東師范大學(xué);2009年

9 王志紅;RoboCup中型組足球機器人決策系統(tǒng)的研究[D];山東大學(xué);2007年

10 張國棟;低密度校驗碼的理論分析及在圖像傳輸中的應(yīng)用研究[D];山東大學(xué);2005年



本文編號:1816854

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1816854.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11177***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com