天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于查詢?nèi)罩镜牟樵償U(kuò)展算法研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-05-30 15:35

  本文選題:搜索引擎 + 查詢擴(kuò)展 ; 參考:《華東理工大學(xué)》2013年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Internet上的信息也呈現(xiàn)爆炸式的增長(zhǎng);與此同時(shí),網(wǎng)民數(shù)也在不斷的增長(zhǎng),如何讓用戶在海量的信息中找到自己所需要的信息已成為信息檢索領(lǐng)域一個(gè)非常重要的研究課題。一方面,中文查詢?cè)~語(yǔ)的平均長(zhǎng)度相比英文查詢?cè)~更短,從而中文搜索引擎從用戶獲得的信息就更少;另一方面,中文中的同義詞、多義詞導(dǎo)致了查詢中的詞語(yǔ)和文檔中詞語(yǔ)之間的差異,使大多數(shù)基于關(guān)鍵詞的中文搜索引擎的查詢結(jié)果出現(xiàn)差錯(cuò)。因而,目前的很多中文搜索引擎不能很好地滿足用戶的需求;谶@些問題,查詢擴(kuò)展技術(shù)應(yīng)運(yùn)而生。 本文提出了一種基于查詢?nèi)罩镜木植抗铂F(xiàn)查詢擴(kuò)展算法(LCQEBQL:Local Co-occu-rrence Based on Query Log),該算法首先在獲取相關(guān)用戶文檔集合時(shí),使用了改進(jìn)的編輯距離向量算法和用戶行為信息,使該集合相關(guān)性更高;其次,在對(duì)文檔或相關(guān)查詢?cè)~集合進(jìn)行分詞時(shí),加入了命名實(shí)體庫(kù),避免了將命名實(shí)體詞拆分成多個(gè)無(wú)意義的詞語(yǔ),使分詞更精確;再者,在過濾相關(guān)用戶文檔集合時(shí),同時(shí)考慮了三個(gè)方面的因素(空鏈接、導(dǎo)航頁(yè)、文檔和查詢?cè)~集合的相似度),排除了不相關(guān)的用戶文檔,提高了算法的性能;然后,在計(jì)算用戶文檔詞項(xiàng)與相關(guān)查詢?cè)~集合中詞項(xiàng)的相似度時(shí),使用了局部共現(xiàn)的分析方法,同時(shí)考慮了查詢?nèi)罩局蠻RL鏈接的權(quán)重和HTML文檔結(jié)構(gòu)的位置信息,提高了算法的性能;最后,在重新計(jì)算擴(kuò)展詞的權(quán)值時(shí),加入了相關(guān)查詢?cè)~信息,使得擴(kuò)展詞權(quán)值更精確。 本文實(shí)驗(yàn)部分利用搜狗日志中的URL鏈接提取了1000篇不同領(lǐng)域的網(wǎng)頁(yè),過濾后保存作為實(shí)驗(yàn)的測(cè)試集,并設(shè)計(jì)了原型系統(tǒng)對(duì)本文的方法和其他的方法進(jìn)行了實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)表明,LCQEBQL目比其他算法更有效,檢索結(jié)果更相關(guān)。
[Abstract]:With the rapid development of Internet technology and the explosive growth of information on the Internet, at the same time, the number of Internet users is also growing. How to make users find the information they need in mass information has become a very important research topic in the field of information retrieval. On the one hand, the average length of Chinese query words is shorter than that of English query words, thus the Chinese search engine gets less information from users; on the other hand, Chinese synonyms, Polysemous words lead to the difference between the words in the query and the words in the document, and make the query results of most keyword based Chinese search engines go wrong. Therefore, many Chinese search engines can not meet the needs of users. Based on these problems, query expansion technology emerged as the times require. In this paper, a local co-occurrence query expansion algorithm based on query log is proposed. In this algorithm, the improved Editing distance Vector algorithm and user behavior information are used to obtain the collection of relevant user documents. It makes the set more relevant. Secondly, the named entity library is added to the document or related query word set to avoid splitting the named entity word into several meaningless words, which makes the segmentation more accurate. When filtering related user document sets, three factors (empty link, navigation page, document and query word set) are considered simultaneously, which eliminate irrelevant user documents and improve the performance of the algorithm. In order to improve the performance of the algorithm, a local co-occurrence analysis method is used to calculate the similarity between the terms in the user document and the related query words. The weight of the URL link in the query log and the location information of the HTML document structure are taken into account at the same time. Finally, when we recalculate the weights of extended words, we add the information of query words to make the weights of extended words more accurate. In the experiment part, 1000 web pages in different fields are extracted by using URL links in Sogou logs, and then filtered and saved as the test set of experiments. A prototype system is designed to evaluate the methods of this paper and other methods. Experiments show that LCQEBQL is more effective than other algorithms and the retrieval results are more relevant.
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馬暉男;吳江寧;潘東華;;一種基于同義詞詞典的模糊查詢擴(kuò)展方法[J];大連理工大學(xué)學(xué)報(bào);2007年03期

2 賀宏朝,何丕廉,陳霞;利用人工和自動(dòng)生成的資源進(jìn)行中文信息檢索查詢擴(kuò)展[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期

3 袁占亭,張愛民,張秋余;基于概念的Web信息檢索[J];計(jì)算機(jī)工程與應(yīng)用;2003年36期

4 熊忠陽(yáng);向海燕;張玉芳;;結(jié)合用戶日志的局部上下文分析方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年12期

5 馮運(yùn);陳治平;;基于局部類別分析的查詢擴(kuò)展[J];計(jì)算機(jī)應(yīng)用;2007年01期

6 黃名選;嚴(yán)小衛(wèi);張師超;;基于完全加權(quán)關(guān)聯(lián)規(guī)則挖掘和查詢擴(kuò)展的信息檢索[J];計(jì)算機(jī)應(yīng)用與軟件;2009年08期

7 丁國(guó)棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴(kuò)展方法[J];中文信息學(xué)報(bào);2006年03期

8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期

9 黃名選;嚴(yán)小衛(wèi);;基于查詢語(yǔ)義樹的語(yǔ)義查詢擴(kuò)展研究[J];情報(bào)理論與實(shí)踐;2007年06期

10 崔航,文繼榮,李敏強(qiáng);基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J];軟件學(xué)報(bào);2003年09期

相關(guān)博士學(xué)位論文 前1條

1 張華平;語(yǔ)言淺層分析與句子級(jí)新信息檢測(cè)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

,

本文編號(hào):1955811

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1955811.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶462cc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com