天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

面向論壇爬行器中鏈接提取算法研究

發(fā)布時間:2021-07-22 06:26
  今天論壇在互聯(lián)網世界中是一個不可替代的平臺,其背后是形形色色的人們通過互聯(lián)網組織成的社區(qū),并通過各自感興趣的話題相互交流。論壇每天都會產生海量的數(shù)據(jù),如何從中快速有效地在檢索出用戶感興趣的信息,對每位網絡爬行器的研究者都是一個巨大的挑戰(zhàn)。在現(xiàn)今主流的通用爬行器中,爬行往往是通過某頁面中抽取到某論壇內任意鏈接,然后以此作為起點頁開始對整個論壇進行爬取,再對爬取到的頁面抽取URL,通過鏈接分析算法得到相應的權重,和設定的閾值進行比較來判定該鏈接是否值得爬取。這種類型的爬行方式在對論壇進行爬取時往往耗時耗力,雖然最終的爬行結果和效率可以被接受,但是對于爬行器的設計者和研究人員來說,如何提高爬行器的爬行效率是一個永遠追求的目標。而本文的研究目的也正是想通過尋找論壇主頁作為爬行起始點,并簡化鏈接抽取過程來提高爬行的召回率。本文主要研究如下:第一,通用爬行器對論壇的爬行過程往往是從論壇內某頁面開始對整個論壇站點進行爬行,這樣的方式在爬取論壇網頁時存在著諸多的問題,由于起點論壇頁面所包含鏈接的全面性存在不足,因此很難取得高覆蓋率。本文通過對論壇站點的觀察,注意到爬行器從論壇主頁開始爬行的重要性,提出... 

【文章來源】:昆明理工大學云南省

【文章頁數(shù)】:66 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國內外研究現(xiàn)狀及分析
    1.3 本文主要研究工作
    1.4 本文主要內容和組織
第2章 鏈接分析相關技術研究
    2.1 HITS算法
    2.2 PageRank算法
    2.3 HITS和PageRank算法總結
        2.3.1 兩種算法存在的區(qū)別
        2.3.2 經典算法的不足
    2.4 基于傳統(tǒng)算法的融合與改進
        2.4.1 面向主題的Blog爬行器研究
        2.4.2 基于鏈接分析的Blog網頁算法研究
    2.5 本章小結
第3章 論壇入口點探測
    3.1 算法提出的背景
    3.2 相關研究工作
    3.3 入口點探測算法
    3.4 本章小結
第4章 論壇頁面鏈接的抽取
    4.1 相關觀察以及算法提出背景
    4.2 本章節(jié)中需要引用到的相關術語
    4.3 鏈接抽取
        4.3.1 索引和帖子URL識別
        4.3.2 “入口-索引-分頁”正則式識別
    4.4 本章小結
第5章 相關實驗及結果分析評估
    5.1 實驗設計的相關說明
    5.2 實驗環(huán)境
    5.3 實驗運行
        5.3.1 索引帖子URL探測模塊
        5.3.2 分頁URL探測模塊
        5.3.3 入口URL探測模塊
        5.3.4 爬行流程圖
        5.3.5 實驗運行
    5.4 實驗結果分析與評估
        5.4.1 入口頁面爬行結果及評估
        5.4.2 各類型頁面爬行結果及評估
    5.5 應用擴展
    5.6 本章小結
結論與展望
致謝
參考文獻
附錄 攻讀學位期間申請軟件著作權


【參考文獻】:
期刊論文
[1]基于博主之間社會關系的博客排序算法[J]. 韓麗,岑松祥,馬建,馬嚴.  計算機工程. 2010(05)
[2]SEO技術分析及其策略[J]. 葛玉軍.  科技情報開發(fā)與經濟. 2009(16)
[3]一種基于多特征融合的博客文章排序算法[J]. 盧剛.  計算機工程. 2009(02)
[4]基于RSS信息服務聯(lián)盟的內容聚合技術研究[J]. 陳峰,熊勵.  計算機技術與發(fā)展. 2009(01)
[5]基于鏈接分析的重要Blog信息源發(fā)現(xiàn)[J]. 楊宇航,趙鐵軍,鄭德權,于浩.  中文信息學報. 2007(05)
[6]Internet中的頁面價值快速算法模型研究[J]. 郭曄.  微電子學與計算機. 2007(08)
[7]Web結構挖掘及HITS算法分析[J]. 黃英銘.  計算機與現(xiàn)代化. 2007(07)
[8]搜索引擎的檢索技術及其對比研究[J]. 金蓓,葉曉俊.  北京城市學院學報. 2006(04)
[9]Blog應用的技術解析[J]. 郭華偉,趙冬生,王萬森.  微計算機信息. 2006(12)
[10]超鏈接網絡分析的理論與應用研究[J]. 龐景安.  情報理論與實踐. 2005(06)

碩士論文
[1]基于鏈接分析的Blog網頁排序算法的研究[D]. 王昭華.東北大學 2009
[2]面向主題的網絡爬行器相關技術研究[D]. 樸星海.哈爾濱工業(yè)大學 2007
[3]基于標簽的互聯(lián)網自由分類法研究[D]. 隆捷.北京大學 2007
[4]基于web的網頁鏈接與正文抽取技術研究[D]. 蒲宇達.哈爾濱工業(yè)大學 2006



本文編號:3296630

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3296630.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶f12c7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com