面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì)
本文關(guān)鍵詞:面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
【摘要】:在搜索引擎快速發(fā)展的今天,作為搜索引擎關(guān)鍵組成部分的網(wǎng)絡(luò)爬行器也得到了極大的發(fā)展,其中針對(duì)特定主題(如機(jī)票搜索、旅行搜索和視頻搜索等)的網(wǎng)絡(luò)爬行器也越來(lái)越受到人們的關(guān)注。另一方面,伴隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的社交應(yīng)用在發(fā)展壯大。例如:微博和微信等以幾何倍數(shù)增長(zhǎng),同時(shí)新聞媒體以及政府公告,也逐步以短消息形式出現(xiàn)。針對(duì)論壇、微博和微信等短文本數(shù)據(jù),傳統(tǒng)方法基本依靠各公司內(nèi)部提供的關(guān)鍵詞搜索。然而,當(dāng)用戶面對(duì)大量的文本信息時(shí),為解決信息淹沒(méi)問(wèn)題就需要以特定主題為目標(biāo)提取有用的信息。本文就是在根據(jù)工作需求的情況下,設(shè)計(jì)與實(shí)現(xiàn)了面向特定主題的網(wǎng)絡(luò)爬行器。 本文首先介紹了搜索引擎和通用網(wǎng)絡(luò)爬行器的相關(guān)知識(shí)。然后對(duì)比分析了幾種常見(jiàn)搜索策略及相關(guān)算法。同時(shí),對(duì)主題網(wǎng)絡(luò)爬行器的技術(shù)特點(diǎn)進(jìn)行了分析。針對(duì)特定Web頁(yè)面的數(shù)據(jù)獲取,本文通過(guò)元搜索相關(guān)技術(shù)來(lái)實(shí)現(xiàn)。為分析特定主題的傳播人群范圍,引入微博數(shù)據(jù)進(jìn)行分析。充分利用社交媒體中以人為節(jié)點(diǎn)的社交網(wǎng)絡(luò),在爬取人物節(jié)點(diǎn)之后,就可以大致了解對(duì)某一重大事件或熱點(diǎn)的傳播人群并研究社交網(wǎng)絡(luò)中的人群分布特點(diǎn)。
【關(guān)鍵詞】:搜索引擎 社交媒體 微博 主題網(wǎng)絡(luò)爬行器 元搜索
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-13
- 1.1 研究背景8-9
- 1.2 研究現(xiàn)狀9-11
- 1.3 本文的研究?jī)?nèi)容與組織結(jié)構(gòu)11-13
- 1.3.1 本文的研究?jī)?nèi)容11-12
- 1.3.2 本文的組織結(jié)構(gòu)12-13
- 第2章 網(wǎng)絡(luò)爬行器概述13-34
- 2.1 搜索引擎相關(guān)技術(shù)概述13-15
- 2.1.1 搜索引擎歷史13-14
- 2.1.2 搜索引擎組成及分類(lèi)14
- 2.1.3 搜索引擎的工作原理14-15
- 2.2 通用網(wǎng)絡(luò)爬行器概述15-20
- 2.2.1 網(wǎng)絡(luò)爬行器體系結(jié)構(gòu)16-19
- 2.2.2 通用網(wǎng)絡(luò)爬行器的爬行策略19-20
- 2.3 特定主題網(wǎng)絡(luò)爬行器關(guān)鍵技術(shù)20-28
- 2.3.1 基于 Web 的特定主題網(wǎng)絡(luò)爬行器技術(shù)及分析22-27
- 2.3.2 特定主題的描述與分詞的定義27-28
- 2.4 HTML 文檔結(jié)構(gòu)分析28-31
- 2.4.1 HTML 文檔格式及特點(diǎn)28-29
- 2.4.2 HTML 文檔的 Tag 樹(shù)29-30
- 2.4.3 HTML 文檔結(jié)構(gòu)分析30-31
- 2.5 微博數(shù)據(jù)獲取相關(guān)技術(shù)分析及研究31-34
- 2.5.1 微博數(shù)據(jù)獲取方式31-32
- 2.5.2 微博數(shù)據(jù)慮重方法32-33
- 2.5.3 微博數(shù)據(jù)分析33-34
- 第3章 特定主題網(wǎng)絡(luò)爬行器的設(shè)計(jì)34-48
- 3.1 系統(tǒng)平臺(tái)和系統(tǒng)運(yùn)行環(huán)境34
- 3.2 網(wǎng)絡(luò)信息挖掘系統(tǒng)介紹34-38
- 3.2.1 系統(tǒng)設(shè)計(jì)原則36-37
- 3.2.2 系統(tǒng)架構(gòu)介紹37-38
- 3.3 系統(tǒng)主要模塊介紹38-45
- 3.3.1 確立主題和主題站點(diǎn)管理模塊38-42
- 3.3.2 數(shù)據(jù)采集模塊42-43
- 3.3.3 URL 管理模塊43-45
- 3.4 數(shù)據(jù)處理模塊45-46
- 3.5 數(shù)據(jù)庫(kù)與基礎(chǔ)運(yùn)行庫(kù)46
- 3.6 本章小結(jié)46-48
- 第4章 微博主題人物節(jié)點(diǎn)爬行器的設(shè)計(jì)48-52
- 4.1 微博爬行器關(guān)鍵技術(shù)48-49
- 4.2 微博主題人物節(jié)點(diǎn)爬行器設(shè)計(jì)49-50
- 4.3 微博主題人物爬行器模塊框架50-51
- 4.4 微博數(shù)據(jù)分析51-52
- 第5章 結(jié)論與展望52-53
- 參考文獻(xiàn)53-56
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果56-57
- 致謝57
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馬費(fèi)成;望俊成;吳克文;邱璇;;國(guó)外搜索引擎檢索效能研究述評(píng)[J];中國(guó)圖書(shū)館學(xué)報(bào);2009年04期
2 袁浩;黃煙波;;網(wǎng)頁(yè)標(biāo)題分析對(duì)主題爬蟲(chóng)的改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年06期
3 白坤;耿國(guó)華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
4 黃旭;朱艷琴;羅喜召;;基于內(nèi)容評(píng)價(jià)的爬蟲(chóng)搜索策略研究[J];微電子學(xué)與計(jì)算機(jī);2008年11期
5 李麗;朱國(guó)同;陳秀娟;井西利;;模擬退火算法的改進(jìn)及在靜校正中的應(yīng)用[J];大慶石油地質(zhì)與開(kāi)發(fā);2008年05期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
7 費(fèi)洪曉;胡海苗;鞏燕玲;;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年05期
8 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
9 宋暉,鄭子穎,張嶺,馬范援;分布式信息搜集系統(tǒng)中URL存儲(chǔ)檢索的設(shè)計(jì)與分析[J];上海交通大學(xué)學(xué)報(bào);2003年03期
10 潘春華 ,常敏 ,武港山;面向Web的信息收集工具的設(shè)計(jì)與開(kāi)發(fā)[J];計(jì)算機(jī)應(yīng)用研究;2002年06期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 何慧;WEB文本挖掘中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2009年
本文關(guān)鍵詞:面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):300337
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/300337.html