天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)

發(fā)布時間:2017-08-08 10:18

  本文關(guān)鍵詞:基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)


  更多相關(guān)文章: 關(guān)鍵詞提取 TextRank Log-Likelihood 詞云 Chrome插件


【摘要】:在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的今天,人們通過網(wǎng)絡(luò)獲取信息日益便捷。但同時也引起了信息冗雜、超量等問題。在這樣的條件下,通過挖掘文本來獲取關(guān)鍵信息成為改善互聯(lián)網(wǎng)用戶體驗、提高工作與閱讀效率的重要手段,關(guān)鍵詞抽取即信息獲取的重要實踐之一。 本文基于TextRank和Log-Likelihood (對數(shù)似然比)算法,設(shè)計并實現(xiàn)了一款谷歌Chrome瀏覽器中文關(guān)鍵詞抽取插件。該插件可獲取到用戶當(dāng)前瀏覽頁面,并通過適當(dāng)?shù)臉I(yè)務(wù)邏輯,生成網(wǎng)頁內(nèi)容的關(guān)鍵詞云。 TextRank算法基于圖論和圖模型,對圖中的點計算權(quán)重,并以權(quán)重值作為排序算法。本文針對文本應(yīng)用場景,應(yīng)用TextRank算法,抽取關(guān)鍵詞并返回用戶;而Log-Likelihood算法則根據(jù)頻數(shù)與對照語料庫,通過計算對數(shù)似然比來確定關(guān)鍵詞并返回。詞云是一種關(guān)鍵詞顯示方式,通過字體大小與相對位置關(guān)系以清晰、直接地向用戶展示文章關(guān)鍵詞。在得到兩種算法的計算結(jié)果后,為所有關(guān)鍵詞賦權(quán),并將關(guān)鍵詞與權(quán)重用于生成詞云。 網(wǎng)絡(luò)架構(gòu)上,本文采用了以Nginx為基礎(chǔ)服務(wù)架構(gòu)的服務(wù)器,采用事件驅(qū)動的編程模型,搭建了服務(wù)器端,并使用Node.js作為后端網(wǎng)絡(luò)邏輯層。通過有效、輕量的通信機制,完成數(shù)據(jù)的傳遞。在文本處理與關(guān)鍵詞提取算法的實現(xiàn)上,本文采用服務(wù)器端運行Python腳本的方式,完成了文本清潔、轉(zhuǎn)碼、分詞、關(guān)鍵詞提取等工作。插件采用異步方式,保證了服務(wù)器響應(yīng)速度,同時減輕了負(fù)載。此外,插件的設(shè)計與開發(fā)過程中,本文還對數(shù)據(jù)安全性和程序穩(wěn)定性、擴展性等進(jìn)行了論證。 經(jīng)過設(shè)計與開發(fā),本文基本達(dá)到了預(yù)期目標(biāo),完成了一個能為用戶提供詞云的瀏覽器插件。對插件進(jìn)行的測試表明,插件可返回準(zhǔn)確率較高的關(guān)鍵詞列表。但是插件在功能的豐富程度、美觀性、性能等方面依然有改進(jìn)空間。 作為語料庫語言學(xué)研究的擴展和應(yīng)用,本文的設(shè)計與開發(fā)的插件能夠通過關(guān)鍵詞的抽取,幫助用戶快速了解網(wǎng)頁內(nèi)容和重點,方便他們的網(wǎng)絡(luò)生活。此外,本文還希望插件成為語料庫語言學(xué)研究與網(wǎng)絡(luò)技術(shù)緊密結(jié)合的案例,并看到未來更多類似的研究出現(xiàn)。
【關(guān)鍵詞】:關(guān)鍵詞提取 TextRank Log-Likelihood 詞云 Chrome插件
【學(xué)位授予單位】:北京外國語大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
  • 提要4-6
  • Abstract6-8
  • 致謝8-11
  • 第一章 前言11-14
  • 1.1 引言11-12
  • 1.2 目標(biāo)描述和設(shè)計開發(fā)原則12
  • 1.3 研究意義12-13
  • 1.4 論文結(jié)構(gòu)13-14
  • 第二章 關(guān)鍵詞抽取相關(guān)研究及成果述評14-17
  • 2.1 非漢語關(guān)鍵詞抽取相關(guān)研究14-15
  • 2.2 漢語關(guān)鍵詞抽取相關(guān)研究15-16
  • 2.3 本文的設(shè)計16-17
  • 第三章 Chrome插件的網(wǎng)絡(luò)架構(gòu)與通信機制17-25
  • 3.1 Chrome插件網(wǎng)絡(luò)架構(gòu)概述17-18
  • 3.2 事件驅(qū)動模型與Node.js18-21
  • 3.3 客戶端與服務(wù)端的通信機制21-23
  • 3.4 Node.js與服務(wù)端腳本的通信機制23-25
  • 第四章 文本處理與關(guān)鍵詞抽取邏輯25-35
  • 4.1 獲取HTML文本與清潔26-28
  • 4.2 分詞28-29
  • 4.3 關(guān)鍵詞抽取——TextRank算法29-31
  • 4.4 關(guān)鍵詞抽取——Log-Likelihood算法31-32
  • 4.5 算法返回結(jié)果的合并32-33
  • 4.6 小結(jié)33-35
  • 第五章 實例演示與驗證35-41
  • 5.1 實例演示35-38
  • 5.2 結(jié)果驗證38-41
  • 第六章 總結(jié)與展望41-45
  • 6.1 本次開發(fā)的架構(gòu)特點41
  • 6.2 核心技術(shù)總結(jié)41-42
  • 6.3 后續(xù)重構(gòu)與開發(fā)展望42-44
  • 6.4 基本結(jié)論44-45
  • 參引文獻(xiàn)45-47

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鐘曉旭;;層次聚類方法在關(guān)鍵詞提取上的研究應(yīng)用[J];電腦知識與技術(shù);2009年06期

2 高學(xué)東;吳玲玉;;基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法[J];中國管理信息化;2011年09期

3 尹倩;胡學(xué)鋼;謝飛;吳信東;;基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期

4 劉喜文;鄭昌興;王文龍;湯剛強;;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期

5 潘善亮;茅琴嬌;韓露;;一種基于虛擬社交化的Web服務(wù)發(fā)現(xiàn)方法研究[J];電信科學(xué);2013年12期

6 顧益軍;解易;張培晶;;面向有組織犯罪分析的人際關(guān)系網(wǎng)絡(luò)節(jié)點重要性評價研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2013年04期

7 鄭晶;;基于云計算的Pagerank算法的改進(jìn)[J];福州大學(xué)學(xué)報(自然科學(xué)版);2014年01期

8 "基于大數(shù)據(jù)的互聯(lián)網(wǎng)化存量經(jīng)營"項目組;"基于用戶感知的運維轉(zhuǎn)型"項目組;;運營商存量經(jīng)營大數(shù)據(jù)平臺及其關(guān)鍵技術(shù)研究[J];電信科學(xué);2014年06期

9 張喜平;李永樹;劉剛;王蕾;;節(jié)點重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點重要度評估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期

10 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報;2014年08期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

2 朱朝勇;基于本體的知識庫分類研究[D];中國科學(xué)技術(shù)大學(xué);2013年

3 馬飛;云數(shù)據(jù)中心中虛擬機放置和實時遷移研究[D];北京交通大學(xué);2013年

4 樂承毅;企業(yè)知識與員工知識貢獻(xiàn)度集成評價方法及應(yīng)用研究[D];浙江大學(xué);2013年

5 孫甲申;基于主題模型和隨機游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年

6 張鵬;數(shù)據(jù)中心網(wǎng)絡(luò)的流量管理和優(yōu)化問題研究[D];北京郵電大學(xué);2013年

7 龔書;抽取式多文檔文摘的文本表示研究[D];北京交通大學(xué);2013年

8 尹莉;基礎(chǔ)數(shù)學(xué)領(lǐng)域作者合作網(wǎng)絡(luò)實證分析[D];西北大學(xué);2013年

9 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年

10 程輝;網(wǎng)絡(luò)用戶偏好分析及話題趨勢預(yù)測方法研究[D];北京交通大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 趙蓮;大規(guī)模中英可比較語料庫構(gòu)建[D];大連理工大學(xué);2010年

2 王浩成;基于細(xì)菌覓食優(yōu)化的k-medoids文本聚類方法[D];河北大學(xué);2011年

3 賈洪強;面向海量短文本的輿情系統(tǒng)實現(xiàn)[D];北京郵電大學(xué);2012年

4 李悛;基于移動代理的分布式數(shù)據(jù)挖掘研究[D];浙江工業(yè)大學(xué);2005年

5 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年

6 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年

7 邱萌;基于內(nèi)容的多源新聞聚合關(guān)鍵技術(shù)研究與實現(xiàn)[D];華東師范大學(xué);2010年

8 姚健;問答系統(tǒng)中文問句分析關(guān)鍵問題研究[D];哈爾濱工業(yè)大學(xué);2009年

9 馮佳佳;基于序列模式挖掘的關(guān)鍵詞抽取問題研究[D];合肥工業(yè)大學(xué);2012年

10 韓雪嬌;英語試題關(guān)鍵詞抽取算法研究[D];北方工業(yè)大學(xué);2013年



本文編號:639477

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/639477.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶938b0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
午夜福利在线观看免费| 精品一区二区三区人妻视频| 高清不卡视频在线观看| 丁香六月婷婷基地伊人| 日韩中文字幕免费在线视频| 午夜传媒视频免费在线观看| 亚洲国产一区精品一区二区三区色| 日韩精品福利在线观看| 一区二区在线激情视频| 少妇人妻一级片一区二区三区| 日本深夜福利在线播放| 日本精品视频一二三区| 中文字幕91在线观看| 91欧美日韩中在线视频| 最新国产欧美精品91| 九九热精品视频在线观看| 国产福利一区二区三区四区| 亚洲天堂国产精品久久精品| 国产欧美亚洲精品自拍| 国产小青蛙全集免费看| 国产毛片不卡视频在线| 国产成人精品一区二三区在线观看| 欧美日韩综合在线精品| 三级高清有码在线观看| 日本妇女高清一区二区三区| 国产午夜精品美女露脸视频| 国产一级不卡视频在线观看| 欧洲偷拍视频中文字幕| 亚洲国产精品一区二区| 九九热视频网在线观看| 久热青青草视频在线观看| 五月天丁香婷婷狠狠爱| 黄色av尤物白丝在线播放网址 | 中文字字幕在线中文乱码二区| 中文字幕日韩欧美理伦片| 国产免费观看一区二区| 国产麻豆成人精品区在线观看| 亚洲清纯一区二区三区| 五月婷婷综合缴情六月| 亚洲中文字幕人妻av| 99一级特黄色性生活片|