天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

基于網(wǎng)絡(luò)爬蟲的內(nèi)容資源評(píng)價(jià)研究

發(fā)布時(shí)間:2017-08-04 19:43

  本文關(guān)鍵詞:基于網(wǎng)絡(luò)爬蟲的內(nèi)容資源評(píng)價(jià)研究


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 代理服務(wù)器 內(nèi)容資源評(píng)價(jià) 文本分析 關(guān)鍵詞抽取


【摘要】:隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息的爆炸式膨脹,結(jié)合網(wǎng)絡(luò)抓取技術(shù)和文本分析技術(shù)實(shí)現(xiàn)對(duì)內(nèi)容資源的評(píng)價(jià)已經(jīng)成為研究熱點(diǎn)。利用這種評(píng)價(jià)模式對(duì)教學(xué)評(píng)價(jià)、影視評(píng)價(jià)、文學(xué)評(píng)價(jià)等都有重要意義。本課題來(lái)源于科技部項(xiàng)目《內(nèi)容銀行評(píng)估系統(tǒng)》,本文將對(duì)基于網(wǎng)絡(luò)信息的評(píng)價(jià)模式做出具體分析,并對(duì)評(píng)價(jià)模式中的網(wǎng)絡(luò)數(shù)據(jù)抓取和文本分析技術(shù)做出重點(diǎn)研究和設(shè)計(jì)實(shí)現(xiàn)。利用網(wǎng)絡(luò)信息實(shí)現(xiàn)內(nèi)容資源評(píng)價(jià)的首要工作就是對(duì)網(wǎng)絡(luò)數(shù)據(jù)的獲取,為了獲得更加廣泛、全面的網(wǎng)絡(luò)數(shù)據(jù),針對(duì)傳統(tǒng)互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)信息,本文設(shè)計(jì)了不同的數(shù)據(jù)獲取方式。采用網(wǎng)絡(luò)爬蟲來(lái)按規(guī)則的抓取傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù),為了使爬蟲適應(yīng)多種網(wǎng)站結(jié)構(gòu)、突破各種網(wǎng)絡(luò)站點(diǎn)的限制,設(shè)計(jì)并實(shí)現(xiàn)了一種“通用”的定向網(wǎng)絡(luò)爬蟲;對(duì)于移動(dòng)互聯(lián)網(wǎng)信息采取基于代理的數(shù)據(jù)包截取方式來(lái)取得數(shù)據(jù),利用模擬按鍵的方式讓移動(dòng)客戶端自動(dòng)請(qǐng)求數(shù)據(jù),通過(guò)代理服務(wù)器截取需求站點(diǎn)的數(shù)據(jù)包,并實(shí)現(xiàn)數(shù)據(jù)包的解析。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,系統(tǒng)可以高效穩(wěn)定的實(shí)現(xiàn)數(shù)據(jù)的定向獲取。在獲取大量數(shù)據(jù)之后,通過(guò)對(duì)數(shù)據(jù)的解析、過(guò)濾、去重等處理,利用文本分析技術(shù)對(duì)數(shù)據(jù)主題進(jìn)行分析。本文重點(diǎn)研究了關(guān)鍵詞提取和文本傾向判斷方法,關(guān)鍵詞的抽取可以快速的定位文本主題、找出主題的關(guān)聯(lián)性,通過(guò)比較兩種常用的關(guān)鍵詞提取方法,根據(jù)優(yōu)劣性對(duì)不同的數(shù)據(jù)選擇不同方法;利用樸素貝葉斯分類器實(shí)現(xiàn)了文本傾向性判定,并通過(guò)統(tǒng)計(jì)正負(fù)向文本數(shù)量實(shí)現(xiàn)對(duì)主題社會(huì)輿論傾向性的判斷。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,分析結(jié)果符合預(yù)期,為以后更復(fù)雜的文本分析打好了基礎(chǔ)。最后,運(yùn)行部署完成的系統(tǒng),得到了穩(wěn)定的數(shù)據(jù)源數(shù)據(jù)以及較好文本分析結(jié)果,對(duì)內(nèi)容資源評(píng)價(jià)研究有一定的意義,尤其是在教育技術(shù)與新媒體結(jié)合的發(fā)展趨勢(shì)下,該成果對(duì)教育資源的評(píng)價(jià)評(píng)估具有有重要價(jià)值。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 代理服務(wù)器 內(nèi)容資源評(píng)價(jià) 文本分析 關(guān)鍵詞抽取
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • abstract6-9
  • 第1章 緒論9-16
  • 1.1 研究背景和意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)10-14
  • 1.2.1 內(nèi)容資源評(píng)價(jià)10-11
  • 1.2.2 網(wǎng)絡(luò)爬蟲11-12
  • 1.2.3 關(guān)鍵詞提取技術(shù)12-13
  • 1.2.4 文本傾向性分析13-14
  • 1.3 論文主要研究?jī)?nèi)容14-15
  • 1.4 論文章節(jié)安排15-16
  • 第2章 系統(tǒng)設(shè)計(jì)與主要技術(shù)概述16-25
  • 2.1 內(nèi)容資源評(píng)價(jià)系統(tǒng)設(shè)計(jì)16-19
  • 2.1.1 內(nèi)容資源評(píng)價(jià)系統(tǒng)模塊設(shè)計(jì)16-17
  • 2.1.2 內(nèi)容資源評(píng)價(jià)系統(tǒng)流程設(shè)計(jì)17-19
  • 2.2 網(wǎng)絡(luò)爬蟲主要技術(shù)概述19-20
  • 2.2.1 網(wǎng)絡(luò)爬蟲的基本概念與原理19
  • 2.2.2 網(wǎng)絡(luò)爬蟲分類19-20
  • 2.3 文本分析概述20-22
  • 2.3.1 文本關(guān)鍵詞提取20-21
  • 2.3.2 文本傾向性分析21-22
  • 2.4 數(shù)據(jù)存儲(chǔ)概述22-24
  • 2.4.1 數(shù)據(jù)存儲(chǔ)NoSQL22-23
  • 2.4.2 Mongodb介紹23-24
  • 2.5 本章小結(jié)24-25
  • 第3章 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與研究25-40
  • 3.1 設(shè)計(jì)目標(biāo)25
  • 3.2 基于SCRAPY的“通用”爬蟲框架設(shè)計(jì)25-28
  • 3.2.1 Scrapy爬蟲框架25-26
  • 3.2.2“通用”定向爬蟲流程設(shè)計(jì)26-27
  • 3.2.3“通用”定向爬蟲模塊設(shè)計(jì)27-28
  • 3.3 基于SCRAPY的“通用”爬蟲實(shí)現(xiàn)28-34
  • 3.3.1“通用”定向爬蟲配置文件設(shè)計(jì)28-31
  • 3.3.2“通用”定向爬蟲Scrapy框架配置31-32
  • 3.3.3 基于Scrapy框架的爬蟲功能實(shí)現(xiàn)32-34
  • 3.4 基于代理的移動(dòng)端數(shù)據(jù)抓取34-37
  • 3.4.1 基于移動(dòng)代理的移動(dòng)數(shù)據(jù)抓取設(shè)計(jì)34-35
  • 3.4.2 基于移動(dòng)代理的移動(dòng)數(shù)據(jù)抓取實(shí)現(xiàn)35-37
  • 3.5 實(shí)驗(yàn)結(jié)果與分析37-39
  • 3.6 本章小結(jié)39-40
  • 第4章 文本內(nèi)容分析40-49
  • 4.1 實(shí)現(xiàn)目標(biāo)40
  • 4.2 關(guān)鍵詞提取技術(shù)40-43
  • 4.2.1 TF-IDF關(guān)鍵詞提取算法研究40-41
  • 4.2.2 TextRank關(guān)鍵詞提取算法研究41-42
  • 4.2.3 基于Jieba的關(guān)鍵詞提取42-43
  • 4.3 文本傾向性分析43-46
  • 4.3.1 樸素貝葉斯文本分類器43-45
  • 4.3.2 基于SnowNLP的文本分類45-46
  • 4.4 實(shí)驗(yàn)結(jié)果與分析46-48
  • 4.4.1 關(guān)鍵詞抽取46-47
  • 4.4.2 文本傾向性判定47-48
  • 4.5 本章小結(jié)48-49
  • 第5章 系統(tǒng)整合部署49-55
  • 5.1 內(nèi)容資源評(píng)價(jià)系統(tǒng)功能49-50
  • 5.2 內(nèi)容資源評(píng)價(jià)系統(tǒng)部署50-51
  • 5.3 系統(tǒng)運(yùn)行結(jié)果及分析51-53
  • 5.4 本章小結(jié)53-55
  • 結(jié)論55-56
  • 參考文獻(xiàn)56-60
  • 攻讀學(xué)位期間發(fā)表論文與研究成果清單60-61
  • 致謝61

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期

2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期

3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期

4 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

5 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期

6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期

7 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期

8 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期

9 宋海洋;劉曉然;錢海俊;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期

10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2012年04期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年

2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年

3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年

2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年

3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長(zhǎng)安大學(xué);2015年

4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年

5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

6 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁(yè)主動(dòng)智能檢測(cè)[D];華北電力大學(xué);2015年

7 唐華棟;網(wǎng)頁(yè)防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年

9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2015年

,

本文編號(hào):621386

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/621386.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶96e3a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com