基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)
本文關(guān)鍵詞:基于TextRank與Log-Likelihood的Chrome瀏覽器中文詞云插件的設(shè)計與開發(fā)
更多相關(guān)文章: 關(guān)鍵詞提取 TextRank Log-Likelihood 詞云 Chrome插件
【摘要】:在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的今天,人們通過網(wǎng)絡(luò)獲取信息日益便捷。但同時也引起了信息冗雜、超量等問題。在這樣的條件下,通過挖掘文本來獲取關(guān)鍵信息成為改善互聯(lián)網(wǎng)用戶體驗、提高工作與閱讀效率的重要手段,關(guān)鍵詞抽取即信息獲取的重要實踐之一。 本文基于TextRank和Log-Likelihood (對數(shù)似然比)算法,設(shè)計并實現(xiàn)了一款谷歌Chrome瀏覽器中文關(guān)鍵詞抽取插件。該插件可獲取到用戶當(dāng)前瀏覽頁面,并通過適當(dāng)?shù)臉I(yè)務(wù)邏輯,生成網(wǎng)頁內(nèi)容的關(guān)鍵詞云。 TextRank算法基于圖論和圖模型,對圖中的點計算權(quán)重,并以權(quán)重值作為排序算法。本文針對文本應(yīng)用場景,應(yīng)用TextRank算法,抽取關(guān)鍵詞并返回用戶;而Log-Likelihood算法則根據(jù)頻數(shù)與對照語料庫,通過計算對數(shù)似然比來確定關(guān)鍵詞并返回。詞云是一種關(guān)鍵詞顯示方式,通過字體大小與相對位置關(guān)系以清晰、直接地向用戶展示文章關(guān)鍵詞。在得到兩種算法的計算結(jié)果后,為所有關(guān)鍵詞賦權(quán),并將關(guān)鍵詞與權(quán)重用于生成詞云。 網(wǎng)絡(luò)架構(gòu)上,本文采用了以Nginx為基礎(chǔ)服務(wù)架構(gòu)的服務(wù)器,采用事件驅(qū)動的編程模型,搭建了服務(wù)器端,并使用Node.js作為后端網(wǎng)絡(luò)邏輯層。通過有效、輕量的通信機制,完成數(shù)據(jù)的傳遞。在文本處理與關(guān)鍵詞提取算法的實現(xiàn)上,本文采用服務(wù)器端運行Python腳本的方式,完成了文本清潔、轉(zhuǎn)碼、分詞、關(guān)鍵詞提取等工作。插件采用異步方式,保證了服務(wù)器響應(yīng)速度,同時減輕了負(fù)載。此外,插件的設(shè)計與開發(fā)過程中,本文還對數(shù)據(jù)安全性和程序穩(wěn)定性、擴展性等進(jìn)行了論證。 經(jīng)過設(shè)計與開發(fā),本文基本達(dá)到了預(yù)期目標(biāo),完成了一個能為用戶提供詞云的瀏覽器插件。對插件進(jìn)行的測試表明,插件可返回準(zhǔn)確率較高的關(guān)鍵詞列表。但是插件在功能的豐富程度、美觀性、性能等方面依然有改進(jìn)空間。 作為語料庫語言學(xué)研究的擴展和應(yīng)用,本文的設(shè)計與開發(fā)的插件能夠通過關(guān)鍵詞的抽取,幫助用戶快速了解網(wǎng)頁內(nèi)容和重點,方便他們的網(wǎng)絡(luò)生活。此外,本文還希望插件成為語料庫語言學(xué)研究與網(wǎng)絡(luò)技術(shù)緊密結(jié)合的案例,并看到未來更多類似的研究出現(xiàn)。
【關(guān)鍵詞】:關(guān)鍵詞提取 TextRank Log-Likelihood 詞云 Chrome插件
【學(xué)位授予單位】:北京外國語大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
- 提要4-6
- Abstract6-8
- 致謝8-11
- 第一章 前言11-14
- 1.1 引言11-12
- 1.2 目標(biāo)描述和設(shè)計開發(fā)原則12
- 1.3 研究意義12-13
- 1.4 論文結(jié)構(gòu)13-14
- 第二章 關(guān)鍵詞抽取相關(guān)研究及成果述評14-17
- 2.1 非漢語關(guān)鍵詞抽取相關(guān)研究14-15
- 2.2 漢語關(guān)鍵詞抽取相關(guān)研究15-16
- 2.3 本文的設(shè)計16-17
- 第三章 Chrome插件的網(wǎng)絡(luò)架構(gòu)與通信機制17-25
- 3.1 Chrome插件網(wǎng)絡(luò)架構(gòu)概述17-18
- 3.2 事件驅(qū)動模型與Node.js18-21
- 3.3 客戶端與服務(wù)端的通信機制21-23
- 3.4 Node.js與服務(wù)端腳本的通信機制23-25
- 第四章 文本處理與關(guān)鍵詞抽取邏輯25-35
- 4.1 獲取HTML文本與清潔26-28
- 4.2 分詞28-29
- 4.3 關(guān)鍵詞抽取——TextRank算法29-31
- 4.4 關(guān)鍵詞抽取——Log-Likelihood算法31-32
- 4.5 算法返回結(jié)果的合并32-33
- 4.6 小結(jié)33-35
- 第五章 實例演示與驗證35-41
- 5.1 實例演示35-38
- 5.2 結(jié)果驗證38-41
- 第六章 總結(jié)與展望41-45
- 6.1 本次開發(fā)的架構(gòu)特點41
- 6.2 核心技術(shù)總結(jié)41-42
- 6.3 后續(xù)重構(gòu)與開發(fā)展望42-44
- 6.4 基本結(jié)論44-45
- 參引文獻(xiàn)45-47
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘曉旭;;層次聚類方法在關(guān)鍵詞提取上的研究應(yīng)用[J];電腦知識與技術(shù);2009年06期
2 高學(xué)東;吳玲玉;;基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法[J];中國管理信息化;2011年09期
3 尹倩;胡學(xué)鋼;謝飛;吳信東;;基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
4 劉喜文;鄭昌興;王文龍;湯剛強;;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期
5 潘善亮;茅琴嬌;韓露;;一種基于虛擬社交化的Web服務(wù)發(fā)現(xiàn)方法研究[J];電信科學(xué);2013年12期
6 顧益軍;解易;張培晶;;面向有組織犯罪分析的人際關(guān)系網(wǎng)絡(luò)節(jié)點重要性評價研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2013年04期
7 鄭晶;;基于云計算的Pagerank算法的改進(jìn)[J];福州大學(xué)學(xué)報(自然科學(xué)版);2014年01期
8 "基于大數(shù)據(jù)的互聯(lián)網(wǎng)化存量經(jīng)營"項目組;"基于用戶感知的運維轉(zhuǎn)型"項目組;;運營商存量經(jīng)營大數(shù)據(jù)平臺及其關(guān)鍵技術(shù)研究[J];電信科學(xué);2014年06期
9 張喜平;李永樹;劉剛;王蕾;;節(jié)點重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點重要度評估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期
10 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報;2014年08期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
2 朱朝勇;基于本體的知識庫分類研究[D];中國科學(xué)技術(shù)大學(xué);2013年
3 馬飛;云數(shù)據(jù)中心中虛擬機放置和實時遷移研究[D];北京交通大學(xué);2013年
4 樂承毅;企業(yè)知識與員工知識貢獻(xiàn)度集成評價方法及應(yīng)用研究[D];浙江大學(xué);2013年
5 孫甲申;基于主題模型和隨機游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年
6 張鵬;數(shù)據(jù)中心網(wǎng)絡(luò)的流量管理和優(yōu)化問題研究[D];北京郵電大學(xué);2013年
7 龔書;抽取式多文檔文摘的文本表示研究[D];北京交通大學(xué);2013年
8 尹莉;基礎(chǔ)數(shù)學(xué)領(lǐng)域作者合作網(wǎng)絡(luò)實證分析[D];西北大學(xué);2013年
9 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
10 程輝;網(wǎng)絡(luò)用戶偏好分析及話題趨勢預(yù)測方法研究[D];北京交通大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙蓮;大規(guī)模中英可比較語料庫構(gòu)建[D];大連理工大學(xué);2010年
2 王浩成;基于細(xì)菌覓食優(yōu)化的k-medoids文本聚類方法[D];河北大學(xué);2011年
3 賈洪強;面向海量短文本的輿情系統(tǒng)實現(xiàn)[D];北京郵電大學(xué);2012年
4 李悛;基于移動代理的分布式數(shù)據(jù)挖掘研究[D];浙江工業(yè)大學(xué);2005年
5 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年
6 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年
7 邱萌;基于內(nèi)容的多源新聞聚合關(guān)鍵技術(shù)研究與實現(xiàn)[D];華東師范大學(xué);2010年
8 姚健;問答系統(tǒng)中文問句分析關(guān)鍵問題研究[D];哈爾濱工業(yè)大學(xué);2009年
9 馮佳佳;基于序列模式挖掘的關(guān)鍵詞抽取問題研究[D];合肥工業(yè)大學(xué);2012年
10 韓雪嬌;英語試題關(guān)鍵詞抽取算法研究[D];北方工業(yè)大學(xué);2013年
,本文編號:639477
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/639477.html