面向博客的主題爬蟲設計與實現(xiàn)
發(fā)布時間:2017-09-03 07:40
本文關鍵詞:面向博客的主題爬蟲設計與實現(xiàn)
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡用戶急劇增加,分享作為一種互聯(lián)網(wǎng)精神,正在影響著千千萬萬的用戶。博客作為一種分享、交流的網(wǎng)絡社交媒介,已經(jīng)成為人們發(fā)表個人觀點、研究成果、實踐反思的重要平臺。人們越來越習慣于通過博客獲取有用的信息,越來越關注如何在海量博客中快速有效的獲取有價值的信息。博客信息的獲取是對博文資源進行有效利用的基礎,但普通爬蟲不符合具有特定主題需要的應用需求。該面向博客的主題爬蟲系統(tǒng)以教育技術學為主題,專注于在大量博客中有效識別出與教育技術學研究內(nèi)容相關的博文資源,并進行有效獲取和及時更新?梢詫崿F(xiàn)博文網(wǎng)頁的下載,以及博文標題、正文、插入的圖片等信息的抽取。本文主要做了以下幾方面研究:(1)面向博客的主題爬蟲關鍵技術研究。分析博客的基本特征,指出一般網(wǎng)頁與博客網(wǎng)頁的不同之處,進而確定博客信息的抽取維度。由于博客具有頻繁更新的特性,為了提高爬蟲的實時性,從采集策略上進行優(yōu)化,提出了基于鏈接類型的采集策略。提出網(wǎng)站結構分析、鏈接類型分析與博文內(nèi)容評價相結合進行主題相關性判斷的方法。設定教育技術學相關博文的主題類別,研究SVM文本自動分類技術。(2)面向博客的主題爬蟲設計。分析通用爬蟲以及主題爬蟲的基本原理和框架,指出其異同。分析并選擇合適的通用爬蟲框架,對其功能進行擴充,以適應面向博客的主題爬蟲的需求。根據(jù)數(shù)據(jù)交互的需要設計數(shù)據(jù)庫表。(3)面向博客的主題爬蟲系統(tǒng)實現(xiàn)。對定時器、增量爬取、主題相關性判斷、博文自動分類等關鍵功能予以實現(xiàn),并評價采集及分類效果。(4)爬蟲在博客分析中的應用。專家博客是一種重要的網(wǎng)絡學術資源,能夠促進學術領域科學信息的快速傳遞與交流,揭示學者潛在的主題偏好。以單個專家博客為例,利用采集到的信息分析博主的研究主題偏好,以及研究趨勢變化。該爬蟲系統(tǒng)充分結合博客特征進行采集,采用多種分析評價方式相結合的方法進行主題相似度判斷,得到了較好的爬行效果,能夠為以教育技術學為主題的應用研究提供高質(zhì)量的博文數(shù)據(jù)。以單個博客為單位,分析教育技術學專家博客的研究主題偏好和趨勢變化,可以為博客讀者獲取有價值的專業(yè)信息提供參考。
【關鍵詞】:博客 主題爬蟲 相關性 自動分類 主題偏好
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 張煥明;;基于Lucene的博客搜索引擎設計與實現(xiàn)[J];現(xiàn)代計算機(專業(yè)版);2010年03期
,本文編號:783747
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/783747.html
最近更新
教材專著