天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Web的事件檢測(cè)與評(píng)價(jià)系統(tǒng)的研究分析

發(fā)布時(shí)間:2017-07-03 20:24

  本文關(guān)鍵詞:基于Web的事件檢測(cè)與評(píng)價(jià)系統(tǒng)的研究分析


  更多相關(guān)文章: 網(wǎng)頁(yè)解析 文本抽取 博弈論 事件檢測(cè) 事件評(píng)價(jià)


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展社交網(wǎng)絡(luò)的流行,網(wǎng)絡(luò)中存在海量用戶數(shù)據(jù),但是這些數(shù)據(jù)以半結(jié)構(gòu)化形式呈現(xiàn),目前新聞網(wǎng)站每天產(chǎn)生大量數(shù)據(jù)。提取出網(wǎng)絡(luò)中有效數(shù)據(jù)并對(duì)事件的檢測(cè)以及該事件中用戶的態(tài)度分析成為熱門研究問(wèn)題。本文主要針對(duì)中文網(wǎng)站及微博作為研究對(duì)象,實(shí)現(xiàn)在中文網(wǎng)站中快速獲取有效數(shù)據(jù)并通過(guò)事件發(fā)現(xiàn)算法進(jìn)行新事件檢測(cè),針對(duì)微博用戶評(píng)論實(shí)現(xiàn)當(dāng)前話題下用戶態(tài)度分析。詳細(xì)工作如下:(1)對(duì)于海量數(shù)據(jù)下半結(jié)構(gòu)化網(wǎng)頁(yè)數(shù)據(jù)快速提取有效文本內(nèi)容,本文提出了基于博弈論的有效文本抽取算法。首先通過(guò)標(biāo)簽分塊后形成博弈策略兩個(gè)玩家尋找納什均衡確定潛在文本塊,實(shí)驗(yàn)表明本文提出方法優(yōu)于基于DOM樹分析算法和基于視覺(jué)分割算法,尤其在效率上。因此對(duì)于屏幕閱讀等及時(shí)應(yīng)用可以使用該方法。(2)本文提出了基于Text Rank算法從文本中提取關(guān)鍵詞作為特征向量。首先將文本進(jìn)行分詞操作,分詞后通過(guò)Text Rank算法提取出權(quán)值較大的60個(gè)特征向量然后進(jìn)行單遍聚類用以檢測(cè)新事件。實(shí)驗(yàn)通過(guò)對(duì)比tf-idf方法發(fā)現(xiàn)效果優(yōu)于tf-idf方法,說(shuō)明Text Rank在計(jì)算詞語(yǔ)權(quán)重上更加合理。(3)本文提出了基于Text Rank算法從文本中提取關(guān)鍵詞作為候選詞。首先通過(guò)Text Rank算法提取出關(guān)鍵詞然后提取評(píng)價(jià)對(duì)象與評(píng)價(jià)詞,然后根據(jù)情感字典計(jì)算互信息后得出情感極性。實(shí)驗(yàn)通過(guò)對(duì)比最大熵句法分析法發(fā)現(xiàn)雖然在準(zhǔn)確率上本文提出方法略低于最大熵句法分析法,但是時(shí)間效率上高于最大熵句法分析法。對(duì)于處理海量數(shù)據(jù)本算法具有很大優(yōu)勢(shì)。
【關(guān)鍵詞】:網(wǎng)頁(yè)解析 文本抽取 博弈論 事件檢測(cè) 事件評(píng)價(jià)
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-18
  • 1.1 研究背景及意義10
  • 1.2 網(wǎng)頁(yè)信息自適應(yīng)抽取研究現(xiàn)狀10-12
  • 1.3 網(wǎng)絡(luò)事件檢測(cè)研究現(xiàn)狀12-15
  • 1.4 網(wǎng)絡(luò)事件評(píng)價(jià)研究現(xiàn)狀15-17
  • 1.5 本文的主要工作和結(jié)構(gòu)安排17-18
  • 第二章 基于Hadoop的事件檢測(cè)與評(píng)價(jià)系統(tǒng)18-26
  • 2.1 Hadoop介紹18-21
  • 2.1.1 Hadoop文件系統(tǒng)結(jié)構(gòu)18-19
  • 2.1.2 Hadoop計(jì)算模型Map-Reduce系統(tǒng)結(jié)構(gòu)19-21
  • 2.2 基于Hadoop的事件檢測(cè)與評(píng)價(jià)系統(tǒng)21-24
  • 2.2.1 Hadoop環(huán)境搭建21-22
  • 2.2.2 系統(tǒng)設(shè)計(jì)概況22
  • 2.2.3 抓取器詳細(xì)設(shè)計(jì)22-23
  • 2.2.4 事件檢測(cè)模塊設(shè)計(jì)23-24
  • 2.2.5 事件評(píng)價(jià)模塊設(shè)計(jì)24
  • 2.3 數(shù)據(jù)存儲(chǔ)24-25
  • 2.4 總結(jié)25-26
  • 第三章 基于博弈論的Web網(wǎng)頁(yè)抽取26-40
  • 3.1 背景及動(dòng)機(jī)26-30
  • 3.1.1 谷歌搜索引擎索引特征提取算法26-28
  • 3.1.2 基于滑動(dòng)窗口的文本抽取算法28-29
  • 3.1.3 網(wǎng)頁(yè)抽取存在的困難29-30
  • 3.2 博弈論介紹30
  • 3.3 基于博弈論的抽取算法30-33
  • 3.3.1 網(wǎng)頁(yè)解析工具介紹30-31
  • 3.3.2 標(biāo)簽博弈算法31-33
  • 3.4 實(shí)驗(yàn)分析與對(duì)比33-38
  • 3.5 總結(jié)38-40
  • 第四章 在線新聞事件檢測(cè)40-50
  • 4.1 背景動(dòng)機(jī)40
  • 4.2 文本聚類算法介紹40-43
  • 4.2.1 K-Means聚類算法介紹40-41
  • 4.2.2 CLARANS聚類算法介紹41-42
  • 4.2.3 Single-Pass單遍聚類算法介紹42-43
  • 4.3 基于文本摘要的文本特征抽取算法43-46
  • 4.3.1 Page Rank算法介紹43-44
  • 4.3.2 基于Text Rank的事件發(fā)現(xiàn)算法44-46
  • 4.4 實(shí)驗(yàn)對(duì)比與分析46-49
  • 4.5 總結(jié)49-50
  • 第五章 基于文本摘要的微博情感評(píng)價(jià)算法50-58
  • 5.1 背景動(dòng)機(jī)50-51
  • 5.2 最大熵句法分析算法51-53
  • 5.3 基于文本摘要的情感評(píng)價(jià)算法53-55
  • 5.3.1 微博信息預(yù)處理54-55
  • 5.3.2 語(yǔ)義方向互信息定義55
  • 5.4 實(shí)驗(yàn)分析55-57
  • 5.5 總結(jié)57-58
  • 第六章 總結(jié)與展望58-59
  • 參考文獻(xiàn)59-65
  • 致謝65-67
  • 在學(xué)校期間的研究成果及發(fā)表的學(xué)術(shù)論文67

  本文關(guān)鍵詞:基于Web的事件檢測(cè)與評(píng)價(jià)系統(tǒng)的研究分析


  更多相關(guān)文章: 網(wǎng)頁(yè)解析 文本抽取 博弈論 事件檢測(cè) 事件評(píng)價(jià)




本文編號(hào):515117

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/515117.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶92566***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com