當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)

發(fā)布時間：2017-08-08 10:18

本文關(guān)鍵詞：基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)

【摘要】：在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的今天,人們通過網(wǎng)絡(luò)獲取信息日益便捷。但同時也引起了信息冗雜、超量等問題。在這樣的條件下,通過挖掘文本來獲取關(guān)鍵信息成為改善互聯(lián)網(wǎng)用戶體驗、提高工作與閱讀效率的重要手段,關(guān)鍵詞抽取即信息獲取的重要實踐之一。本文基于TextRank和Log-Likelihood (對數(shù)似然比)算法,設(shè)計并實現(xiàn)了一款谷歌Chrome瀏覽器中文關(guān)鍵詞抽取插件。該插件可獲取到用戶當(dāng)前瀏覽頁面,并通過適當(dāng)?shù)臉I(yè)務(wù)邏輯,生成網(wǎng)頁內(nèi)容的關(guān)鍵詞云。 TextRank算法基于圖論和圖模型,對圖中的點計算權(quán)重,并以權(quán)重值作為排序算法。本文針對文本應(yīng)用場景,應(yīng)用TextRank算法,抽取關(guān)鍵詞并返回用戶；而Log-Likelihood算法則根據(jù)頻數(shù)與對照語料庫,通過計算對數(shù)似然比來確定關(guān)鍵詞并返回。詞云是一種關(guān)鍵詞顯示方式,通過字體大小與相對位置關(guān)系以清晰、直接地向用戶展示文章關(guān)鍵詞。在得到兩種算法的計算結(jié)果后,為所有關(guān)鍵詞賦權(quán),并將關(guān)鍵詞與權(quán)重用于生成詞云。網(wǎng)絡(luò)架構(gòu)上,本文采用了以Nginx為基礎(chǔ)服務(wù)架構(gòu)的服務(wù)器,采用事件驅(qū)動的編程模型,搭建了服務(wù)器端,并使用Node.js作為后端網(wǎng)絡(luò)邏輯層。通過有效、輕量的通信機(jī)制,完成數(shù)據(jù)的傳遞。在文本處理與關(guān)鍵詞提取算法的實現(xiàn)上,本文采用服務(wù)器端運行Python腳本的方式,完成了文本清潔、轉(zhuǎn)碼、分詞、關(guān)鍵詞提取等工作。插件采用異步方式,保證了服務(wù)器響應(yīng)速度,同時減輕了負(fù)載。此外,插件的設(shè)計與開發(fā)過程中,本文還對數(shù)據(jù)安全性和程序穩(wěn)定性、擴(kuò)展性等進(jìn)行了論證。經(jīng)過設(shè)計與開發(fā),本文基本達(dá)到了預(yù)期目標(biāo),完成了一個能為用戶提供詞云的瀏覽器插件。對插件進(jìn)行的測試表明,插件可返回準(zhǔn)確率較高的關(guān)鍵詞列表。但是插件在功能的豐富程度、美觀性、性能等方面依然有改進(jìn)空間。作為語料庫語言學(xué)研究的擴(kuò)展和應(yīng)用,本文的設(shè)計與開發(fā)的插件能夠通過關(guān)鍵詞的抽取,幫助用戶快速了解網(wǎng)頁內(nèi)容和重點,方便他們的網(wǎng)絡(luò)生活。此外,本文還希望插件成為語料庫語言學(xué)研究與網(wǎng)絡(luò)技術(shù)緊密結(jié)合的案例,并看到未來更多類似的研究出現(xiàn)。
【關(guān)鍵詞】：關(guān)鍵詞提取 TextRank Log-Likelihood 詞云 Chrome插件
【學(xué)位授予單位】：北京外國語大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP393.092;TP391.1
【目錄】：

提要4-6
Abstract6-8
致謝8-11
第一章前言11-14
1.1 引言11-12
1.2 目標(biāo)描述和設(shè)計開發(fā)原則12
1.3 研究意義12-13
1.4 論文結(jié)構(gòu)13-14
第二章關(guān)鍵詞抽取相關(guān)研究及成果述評14-17
2.1 非漢語關(guān)鍵詞抽取相關(guān)研究14-15
2.2 漢語關(guān)鍵詞抽取相關(guān)研究15-16
2.3 本文的設(shè)計16-17
第三章 Chrome插件的網(wǎng)絡(luò)架構(gòu)與通信機(jī)制17-25
3.1 Chrome插件網(wǎng)絡(luò)架構(gòu)概述17-18
3.2 事件驅(qū)動模型與Node.js18-21
3.3 客戶端與服務(wù)端的通信機(jī)制21-23
3.4 Node.js與服務(wù)端腳本的通信機(jī)制23-25
第四章文本處理與關(guān)鍵詞抽取邏輯25-35
4.1 獲取HTML文本與清潔26-28
4.2 分詞28-29
4.3 關(guān)鍵詞抽取——TextRank算法29-31
4.4 關(guān)鍵詞抽取——Log-Likelihood算法31-32
4.5 算法返回結(jié)果的合并32-33
4.6 小結(jié)33-35
第五章實例演示與驗證35-41
5.1 實例演示35-38
5.2 結(jié)果驗證38-41
第六章總結(jié)與展望41-45
6.1 本次開發(fā)的架構(gòu)特點41
6.2 核心技術(shù)總結(jié)41-42
6.3 后續(xù)重構(gòu)與開發(fā)展望42-44
6.4 基本結(jié)論44-45
參引文獻(xiàn)45-47

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 鐘曉旭;;層次聚類方法在關(guān)鍵詞提取上的研究應(yīng)用[J];電腦知識與技術(shù);2009年06期

2 高學(xué)東;吳玲玉;;基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法[J];中國管理信息化;2011年09期

3 尹倩;胡學(xué)鋼;謝飛;吳信東;;基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期

4 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期

5 潘善亮;茅琴嬌;韓露;;一種基于虛擬社交化的Web服務(wù)發(fā)現(xiàn)方法研究[J];電信科學(xué);2013年12期

6 顧益軍;解易;張培晶;;面向有組織犯罪分析的人際關(guān)系網(wǎng)絡(luò)節(jié)點重要性評價研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2013年04期

7 鄭晶;;基于云計算的Pagerank算法的改進(jìn)[J];福州大學(xué)學(xué)報(自然科學(xué)版);2014年01期

8 "基于大數(shù)據(jù)的互聯(lián)網(wǎng)化存量經(jīng)營"項目組;"基于用戶感知的運維轉(zhuǎn)型"項目組;;運營商存量經(jīng)營大數(shù)據(jù)平臺及其關(guān)鍵技術(shù)研究[J];電信科學(xué);2014年06期

9 張喜平;李永樹;劉剛;王蕾;;節(jié)點重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點重要度評估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期

10 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報;2014年08期

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

2 朱朝勇;基于本體的知識庫分類研究[D];中國科學(xué)技術(shù)大學(xué);2013年

3 馬飛;云數(shù)據(jù)中心中虛擬機(jī)放置和實時遷移研究[D];北京交通大學(xué);2013年

4 樂承毅;企業(yè)知識與員工知識貢獻(xiàn)度集成評價方法及應(yīng)用研究[D];浙江大學(xué);2013年

5 孫甲申;基于主題模型和隨機(jī)游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年

6 張鵬;數(shù)據(jù)中心網(wǎng)絡(luò)的流量管理和優(yōu)化問題研究[D];北京郵電大學(xué);2013年

7 龔書;抽取式多文檔文摘的文本表示研究[D];北京交通大學(xué);2013年

8 尹莉;基礎(chǔ)數(shù)學(xué)領(lǐng)域作者合作網(wǎng)絡(luò)實證分析[D];西北大學(xué);2013年

9 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年

10 程輝;網(wǎng)絡(luò)用戶偏好分析及話題趨勢預(yù)測方法研究[D];北京交通大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 趙蓮;大規(guī)模中英可比較語料庫構(gòu)建[D];大連理工大學(xué);2010年

2 王浩成;基于細(xì)菌覓食優(yōu)化的k-medoids文本聚類方法[D];河北大學(xué);2011年

3 賈洪強(qiáng);面向海量短文本的輿情系統(tǒng)實現(xiàn)[D];北京郵電大學(xué);2012年

4 李悛;基于移動代理的分布式數(shù)據(jù)挖掘研究[D];浙江工業(yè)大學(xué);2005年

5 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年

6 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年

7 邱萌;基于內(nèi)容的多源新聞聚合關(guān)鍵技術(shù)研究與實現(xiàn)[D];華東師范大學(xué);2010年

8 姚健;問答系統(tǒng)中文問句分析關(guān)鍵問題研究[D];哈爾濱工業(yè)大學(xué);2009年

9 馮佳佳;基于序列模式挖掘的關(guān)鍵詞抽取問題研究[D];合肥工業(yè)大學(xué);2012年

10 韓雪嬌;英語試題關(guān)鍵詞抽取算法研究[D];北方工業(yè)大學(xué);2013年

，

本文編號：639477

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/639477.html

上一篇：基于納什議價的對等網(wǎng)絡(luò)資源分配
下一篇：入侵?jǐn)?shù)據(jù)衰減性變化后的優(yōu)化檢測仿真

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)