基于鏈接信譽分析的網頁權威排序分類算法研究
本文選題:文本分類 切入點:鏈接分析 出處:《暨南大學》2012年碩士論文
【摘要】:隨著互聯(lián)網普及,網頁數(shù)量呈指數(shù)增長,用戶通過現(xiàn)有搜索引擎進行網頁搜索時存在很大困難。究其原因,一是搜索引擎返回結果存在主題混雜,沒有根據(jù)主題對網頁搜索結果進行分類,這增加了用戶搜索所需主題類型信息的困難。二是搜索引擎返回檢索結果存在網頁質量參差不齊(存在垃圾網頁,垃圾廣告),增加用戶篩選高質量信息的困難。針對上述問題,本文做了一下工作。 首先,為了解決搜索引擎返回結果中的網頁主題混雜現(xiàn)象,本文將對網頁進行主題類別標識,用戶可以選擇自己需要信息主題類別搜索,從而更快更準確定位到所需信息。 其次為了提高網頁文本分類準確度,提出基于特征噪聲加權的特征權重算法方法,該方法通過降低用詞不規(guī)范特征噪聲對網頁文本分類影響,提高網頁文本分類的準確度和健壯性。 再次,針對用戶檢索的網頁質量參差不齊問題,本文把市場經濟中的商家信譽模型引入到對網頁權威的評價排序。通過挖掘歷史鏈接信譽評價,建立與PageRank算法結合的評價模型對網頁進行調整排序,有效提高搜索結果排在前面網頁的質量,有效激勵網頁生產者專注創(chuàng)造高質量的網頁。 最后,應用本文思想建立一個系統(tǒng)模型,從而證明本文思想的可用性。
[Abstract]:With the popularity of the Internet, the number of web pages has increased exponentially, and it is very difficult for users to search through existing search engines. Web search results are not classified according to topics, which makes it more difficult for users to search for subject type information. Spam advertising increases the difficulty for users to screen high quality information. In view of the above problems, this paper has done some work. First of all, in order to solve the problem of web page topic confusion in the result of search engine return, this paper will carry on the topic category identification to the web page, the user can choose their own information topic category search, thus locate the required information more quickly and accurately. Secondly, in order to improve the accuracy of web page text classification, a feature weight algorithm based on feature noise weighting is proposed, which can reduce the influence of non-standard feature noise on web text classification. Improve the accuracy and robustness of web page text classification. Thirdly, aiming at the uneven quality of web pages retrieved by users, this paper introduces the reputation model of merchants in the market economy into the ranking of the evaluation of web page authority. An evaluation model combined with PageRank algorithm is established to adjust and sort web pages, which can effectively improve the quality of search results in front of web pages and encourage web page producers to focus on creating high quality web pages. Finally, a system model is established by using the idea of this paper to prove the usability of this idea.
【學位授予單位】:暨南大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前4條
1 完謹裕;周勇;;企業(yè)信譽管理的多維度理解[J];滁州學院學報;2007年04期
2 劉雁書,方平;Web網站站外鏈接類型與特征調查——鏈接分析法可行性研究[J];大學圖書館學報;2001年05期
3 張海濤,劉甲學,宋川;超文本系統(tǒng)信息結構組成元素—鏈的分析[J];情報科學;2002年04期
4 宋琦;薛建武;;智能檢索系統(tǒng)中用戶興趣模型構建技術研究[J];情報雜志;2007年01期
相關碩士學位論文 前10條
1 高巖;樸素貝葉斯分類器的改進研究[D];華南理工大學;2011年
2 李宜兵;基于搜索引擎網頁排序算法研究[D];沈陽理工大學;2011年
3 任函;大規(guī)模中文網頁的自動分類研究[D];華中師范大學;2006年
4 徐法艷;基于Web挖掘技術的網頁分類研究[D];揚州大學;2008年
5 高珊;信息檢索中的查詢擴展及相關技術研究[D];華中師范大學;2008年
6 劉軍;基于Web結構挖掘的HITS算法研究[D];中南大學;2008年
7 汪洋;網絡營銷在測量儀器儀表行業(yè)的應用研究[D];復旦大學;2009年
8 羅江鋒;一種抑制惡意網頁的web權威結點挖掘算法研究[D];國防科學技術大學;2008年
9 龔暢;基于web挖掘技術的網頁分類研究[D];江南大學;2009年
10 時延軍;基于Nutch的分布式搜索引擎的設計與研究[D];長春理工大學;2010年
,本文編號:1671753
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1671753.html