天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義的搜索結(jié)果聚類方法研究

發(fā)布時間:2018-05-16 09:45

  本文選題:搜索結(jié)果 + 聚類; 參考:《北京郵電大學》2014年碩士論文


【摘要】:隨著網(wǎng)絡(luò)的發(fā)展,越來越多的人們在互聯(lián)網(wǎng)上獲取信息。搜索引擎作為用戶與互聯(lián)網(wǎng)交互的中轉(zhuǎn)站,負責信息的獲取和檢索,給人們帶來了極大的便利。但是,隨著互聯(lián)網(wǎng)上信息量的增長,搜索引擎返回的檢索結(jié)果也日益繁雜,包含了很多不相干的、·重復的、混雜的結(jié)果。人們往往需要浪費很多的精力和時間來瀏覽這些信息才能找到滿意的結(jié)果。因此,一些研究人員將信息檢索中的聚類技術(shù)應(yīng)用于搜索結(jié)果的分類中,將繁雜的搜索結(jié)果分類呈現(xiàn)給用戶,這種方法稱為搜索結(jié)果聚類。搜索結(jié)果聚類是指利用聚類這種無監(jiān)督的機器學習手段,按照“最大化類內(nèi)相似度,最小化類間相似度”的原則,將搜索結(jié)果聚集成類提取聚類標簽給予用戶一個類目導航。另外,搜索結(jié)果聚類對象不是傳統(tǒng)的長文本而是搜索結(jié)果的短文摘。目前,搜索結(jié)果聚類技術(shù)多是采用獨立的詞語表示搜索結(jié)果短文摘,忽略了詞語之間的語義關(guān)聯(lián)等語義信息,存在嚴重的語義缺失。 本論文針對搜索結(jié)果聚類技術(shù)中的語義缺失現(xiàn)象,對基于語義的搜索結(jié)果聚類方法進行了深入研究,主要的研究內(nèi)容有:搜索結(jié)果預處理方法和建模方法,經(jīng)典的搜索結(jié)果聚類方法以及基于語義的搜索結(jié)果聚類方法。另外,本論文在以上研究的基礎(chǔ)上提出了基于OPTICS的搜索結(jié)果聚類算法和基于WordNet的后綴樹聚類算法。這兩種算法針對搜索結(jié)果聚類的語義缺失現(xiàn)象均提出了相應(yīng)的改進,側(cè)重于挖掘和利用搜索結(jié)果短文摘中的語義信息,以達到提高搜索結(jié)果聚類準確率的目的。最后,本論文在搜索結(jié)果數(shù)據(jù)集上進行了聚類實驗,并對比分析了兩種新算法的聚類性能。實驗結(jié)果表明,本論文中提出的兩種改進算法在聚類準確率方面較原算法有明顯提高,并且縮短了運行時間,能夠提高搜索結(jié)果聚類的可瀏覽性和實時性。
[Abstract]:With the development of the network, more and more people get information on the Internet. As the transfer station of the interaction between the user and the Internet, the search engine is responsible for the acquisition and retrieval of information, which has brought great convenience to people. However, with the increase of the amount of information on the Internet, the retrieval results of the search engine return are also increasingly complex, including a lot of information. Unrelated, repetitive, mixed results. People often need to waste a lot of energy and time to browse the information in order to find satisfactory results. Therefore, some researchers apply clustering techniques in information retrieval to the classification of search results, and classify the complex search results to users. This method is called search. The clustering of search results is an unsupervised machine learning method based on clustering. According to the principle of "maximizing the intra class similarity, minimizing the similarity between classes", the search results are aggregated into classes to extract clustering tags to give users a category navigation. In addition, the search result clustering object is not the traditional long text but the traditional long text. At present, most of the search results clustering techniques use independent words to express search results, ignore semantic information and semantic information between words, and have serious semantic loss.
In this paper, the semantic based search results clustering method is studied deeply in the search result clustering technology. The main research contents are: search results preprocessing method and modeling method, classic search result clustering method and semantic based search result clustering method. On the basis of the research, the OPTICS based search results clustering algorithm and the WordNet based suffix tree clustering algorithm are proposed. These two algorithms have proposed corresponding improvements to the semantic missing phenomenon of the search results clustering, focusing on mining and utilizing the semantic information in the search results short text, in order to improve the clustering accuracy of the search results. Finally, this paper carries out clustering experiments on the data set of the search results, and compares and analyzes the clustering performance of the two new algorithms. The experimental results show that the two improved algorithms proposed in this paper are significantly higher in clustering accuracy than those of the original algorithm, and the running time is shortened, and the clustering of the search results can be improved. Browsing and real-time.

【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前10條

1 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期

2 文坤梅;盧正鼎;孫小林;李瑞軒;;語義搜索研究綜述[J];計算機科學;2008年05期

3 劉德山;;一種改進的基于后綴樹模型搜索結(jié)果聚類算法[J];計算機科學;2011年11期

4 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期

5 楊燕;靳蕃;KAMEL Mohamed;;聚類有效性評價綜述[J];計算機應(yīng)用研究;2008年06期

6 郭慶琳;李艷梅;唐琦;;基于VSM的文本相似度計算的研究[J];計算機應(yīng)用研究;2008年11期

7 郭曉娟;劉曉霞;李曉玲;;層次聚類算法的改進及分析[J];計算機應(yīng)用與軟件;2008年06期

8 黃莉;;詞法分析在自然語言處理中的地位和作用[J];價值工程;2010年10期

9 孫學剛,陳群秀,馬亮;基于主題的Web文檔聚類研究[J];中文信息學報;2003年03期

10 曾依靈;許洪波;白碩;;改進的OPTICS算法及其在文本聚類中的應(yīng)用[J];中文信息學報;2008年01期

,

本文編號:1896368

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1896368.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6e01f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美日韩国产免费看黄片| 丝袜av一区二区三区四区五区| 人妻巨大乳一二三区麻豆| 欧美久久一区二区精品| 微拍一区二区三区福利| 国产日韩精品激情在线观看| 色婷婷国产精品视频一区二区保健| 日本高清视频在线播放| 人妻一区二区三区多毛女| 亚洲一区二区精品国产av| 亚洲国产黄色精品在线观看| 日本乱论一区二区三区| 亚洲欧美日韩国产综合在线| 色小姐干香蕉在线综合网| 亚洲性日韩精品一区二区| 欧美日韩一级黄片免费观看| 免费特黄欧美亚洲黄片| 亚洲人午夜精品射精日韩| 亚洲一区二区三区福利视频| 日韩成人免费性生活视频| 国产欧美日韩精品自拍| 在线亚洲成人中文字幕高清| 日韩一区二区三区久久| 亚洲一区二区三区在线中文字幕 | 日本大学生精油按摩在线观看| 免费观看潮喷到高潮大叫| 日韩精品人妻少妇一区二区| 国产成人综合亚洲欧美日韩| 少妇人妻无一区二区三区| 亚洲国产中文字幕在线观看| 日本欧美一区二区三区在线播| 国产精品大秀视频日韩精品| 中文字幕精品一区二区三| 激情偷拍一区二区三区视频| 欧美欧美欧美欧美一区| 丰满少妇高潮一区二区| 果冻传媒在线观看免费高清 | 日本精品免费在线观看| 精品日韩欧美一区久久| 99久热只有精品视频免费看| 儿媳妇的诱惑中文字幕|