一種建立在對客戶端瀏覽歷史進行LDA建模基礎上的個性化查詢推薦算法
本文選題:查詢推薦 + 個性化; 參考:《四川大學學報(自然科學版)》2015年04期
【摘要】:現(xiàn)代搜索引擎普遍采用簡單的關鍵詞形式來表達查詢,這為用戶帶來便利的同時也增加了準確獲取信息的難度.搜索引擎很難基于少量的幾個關鍵詞準確捕捉用戶的信息需求.查詢推薦作為緩解上述問題的關鍵技術,已經(jīng)開始應用于目前主流的搜索引擎.然而,絕大多數(shù)現(xiàn)有的查詢推薦技術基于群體智慧,以搜索引擎日志為數(shù)據(jù)源,從中挖掘用戶群體在構造查詢方面的習性及查詢之間的語義關聯(lián)性,未考慮不同用戶個性化的信息喜好,而且在搜索引擎服務器端進行查詢推薦計算也會影響搜索引擎的響應效率和查詢吞吐率.為此,本文提出一種運行于客戶端的個性化查詢推薦策略,該策略以用戶瀏覽歷史為數(shù)據(jù)源,采用LDA模型,并從中學習用戶的信息喜好,在此基礎上利用原始查詢被主題模型生成的概率確定用戶的查詢意圖,以詞條與查詢意圖之間的關聯(lián)來度量詞條作為擴展查詢被推薦的強度,最后選擇Top N強度最強的詞條作為查詢推薦的結果.以人工標注的測試數(shù)據(jù)對本文所提出的算法進行了實驗驗證,結果表明,該算法在推薦擴展查詢的準確率方面明顯優(yōu)于單純基于詞條與原始查詢語義相關的方法.
[Abstract]:Modern search engines generally use simple keywords to express queries, which brings convenience to users, but also increases the difficulty of accurately obtaining information. It is difficult for search engines to accurately capture the information needs of users based on a few keywords. Query recommendation, as a key technology to alleviate the above problems, has been applied to the current mainstream search engine. However, most of the existing query recommendation techniques are based on group intelligence and take search engine logs as data sources to mine the habits of user groups in constructing queries and the semantic correlations between them. The information preferences of different users are not taken into account and the search engine response efficiency and query throughput will be affected by the query recommendation calculation on the server side of the search engine. Therefore, this paper proposes a personalized query recommendation strategy running on the client side. The strategy takes the user's browsing history as the data source, adopts the LDA model, and learns the information preference of the user. On this basis, the user's query intention is determined by the probability that the original query is generated by the topic model, and the relationship between the entry and the query intention is used to measure the strength of the extended query as the recommended term. Finally, the top N strongest term is selected as the result of query recommendation. The experimental results show that the proposed algorithm is superior to the original query based on terms and expressions in the accuracy of recommendation extended query.
【作者單位】: 四川大學計算機學院;浙江師范大學數(shù)理與信息工程學院;中國民用航空總局第二研究所信息技術分公司;
【基金】:浙江省自然科學基金(LY12F02010) 四川省科技支撐項目(2014GZ0063)
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 袁伯秋;周一民;李林;;LDA模型參數(shù)有偏估計方法[J];小型微型計算機系統(tǒng);2010年04期
2 唐曉波;向坤;;基于LDA模型和微博熱度的熱點挖掘[J];圖書情報工作;2014年05期
3 王嘉琦;徐朝軍;李藝;;基于LDA模型的社交網(wǎng)站自動量化評價研究[J];現(xiàn)代圖書情報技術;2013年03期
4 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期
5 楚克明;李芳;;基于LDA模型的新聞話題的演化[J];計算機應用與軟件;2011年04期
6 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計算機;2012年05期
7 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點主題詞組發(fā)現(xiàn)[J];洛陽師范學院學報;2012年11期
8 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機學報;2008年10期
9 李保利;楊星;;基于LDA模型和話題過濾的研究主題演化分析[J];小型微型計算機系統(tǒng);2012年12期
10 ;[J];;年期
相關會議論文 前1條
1 丁兆云;王暉;;一種詞位置相關的LDA模型[A];2013第一屆中國指揮控制大會論文集[C];2013年
相關碩士學位論文 前3條
1 張?zhí)锾?基于LDA模型的實體解析技術的研究與實現(xiàn)[D];北京郵電大學;2013年
2 彭利斌;微博熱點話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學;2014年
3 荀靜;基于LDA模型的文檔情感摘要研究[D];山東師范大學;2015年
,本文編號:2003908
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2003908.html