呼叫中心大數(shù)據(jù)文本挖掘分析與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-09-29 06:21
本文關(guān)鍵詞:呼叫中心大數(shù)據(jù)文本挖掘分析與實(shí)現(xiàn)
更多相關(guān)文章: 呼叫中心 文本挖掘 A-LDA主題模型 分布式計(jì)算 可視化
【摘要】:伴隨著呼叫中心業(yè)務(wù)和技術(shù)的不斷發(fā)展,各呼叫中心積累了大量的音頻和文本格式的通話記錄,形成了巨大的數(shù)據(jù)資產(chǎn)。但與此同時(shí),由于難以有效分析如此大量的非結(jié)構(gòu)化的數(shù)據(jù),如何挖掘這些通話記錄中所包含的信息一直是學(xué)術(shù)界和企業(yè)界研究的難題。 本文以真實(shí)項(xiàng)目需求為導(dǎo)向,采用理論與實(shí)踐相結(jié)合的研究方法,分別從文本挖掘技術(shù)現(xiàn)狀調(diào)研,呼叫中心數(shù)據(jù)預(yù)處理,文本自動分類,主題事件挖掘四個(gè)方面對文本分析的相關(guān)內(nèi)容進(jìn)行了展開。首先,基于當(dāng)前文本挖掘領(lǐng)域已有的技術(shù)優(yōu)勢和研究成果,提出本文在對呼叫中心數(shù)據(jù)進(jìn)行文本挖掘工作時(shí),可以進(jìn)行算法補(bǔ)充或創(chuàng)新的理論依據(jù)。其次,針對呼叫中心數(shù)據(jù)集特點(diǎn),設(shè)計(jì)一整套數(shù)據(jù)處理方案,完成對真實(shí)數(shù)據(jù)的清理和預(yù)處理工作,為后續(xù)文本挖掘算法進(jìn)行數(shù)據(jù)準(zhǔn)備。再次,為了解決呼叫中心數(shù)據(jù)集偏斜,噪音大的問題,提出改進(jìn)的文本自動分類算法用于文本自動分類和一種基于關(guān)聯(lián)屬性的A-LDA主題模型算法用于主題挖掘。同時(shí),針對海量數(shù)據(jù)的問題,為了提高文本分析的性能,完成了上述兩種算法的MapReduce分布式計(jì)算的實(shí)現(xiàn)。最后,在基于前文挖掘算法的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)一整套系統(tǒng),將上述算法集成于系統(tǒng)當(dāng)中,并通過網(wǎng)頁圖表形式對分析結(jié)果進(jìn)行實(shí)時(shí)、快捷、友好的可視化展現(xiàn)。 綜上所述,本文通過對文本挖掘技術(shù)在呼叫中心平臺上的應(yīng)用進(jìn)行研究,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)從數(shù)據(jù)預(yù)處理,分布式文本挖掘算法以及網(wǎng)頁可視化展現(xiàn)的大數(shù)據(jù)文本分析系統(tǒng),為呼叫中心用戶提供了決策數(shù)據(jù)參考。
【關(guān)鍵詞】:呼叫中心 文本挖掘 A-LDA主題模型 分布式計(jì)算 可視化
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TN99
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-16
- 1.1 課題背景及意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-12
- 1.2.1 文本表示的研究現(xiàn)狀9-10
- 1.2.2 文本自動分類的研究現(xiàn)狀10-11
- 1.2.3 主題事件發(fā)現(xiàn)的研究現(xiàn)狀11-12
- 1.3 研究內(nèi)容及主要工作12-13
- 1.4 論文組織結(jié)構(gòu)13-16
- 第二章 基于CCTV呼叫中心的文本數(shù)據(jù)預(yù)處理16-28
- 2.1 呼叫中心數(shù)據(jù)預(yù)處理方案簡介16-17
- 2.2 數(shù)據(jù)清洗17-19
- 2.3 中文文本預(yù)處理19-24
- 2.3.1 中文文本分詞19-22
- 2.3.2 基于專業(yè)詞典的特征選擇22-24
- 2.3.3 中文文本表示24
- 2.4 數(shù)據(jù)存儲方案設(shè)計(jì)24-26
- 2.5 本章小結(jié)26-28
- 第三章 分布式文本挖掘算法研究28-46
- 3.1 分布式框架研究28-33
- 3.1.1 分布式框架概述28-29
- 3.1.2 分布式框架Hadoop簡介29-31
- 3.1.3 HDFS31-32
- 3.1.4 MapReduce32-33
- 3.2 文本自動分類算法33-37
- 3.2.1 樸素貝葉斯分類及其存在的問題34-35
- 3.2.2 貝葉斯分類的分布式實(shí)現(xiàn)35-37
- 3.3 A-LDA主題挖掘算法37-44
- 3.3.1 主題挖掘算法37-38
- 3.3.2 基于A-LDA的呼叫中心主題挖掘算法38-40
- 3.3.3 A-LDA的分布式實(shí)現(xiàn)40-42
- 3.3.4 A-LDA模型實(shí)驗(yàn)結(jié)果42-44
- 3.4 本章小結(jié)44-46
- 第四章 整體系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)46-58
- 4.1 需求分析46-48
- 4.1.1 總體功能需求分析46-47
- 4.1.2 分模塊功能需求分析47
- 4.1.3 非功能需求分析47-48
- 4.2 系統(tǒng)設(shè)計(jì)48-52
- 4.2.1 總體結(jié)構(gòu)設(shè)計(jì)48-50
- 4.2.2 數(shù)據(jù)庫設(shè)計(jì)50-51
- 4.2.3 界面設(shè)計(jì)51-52
- 4.3 系統(tǒng)實(shí)現(xiàn)52-56
- 4.3.1 開發(fā)平臺52
- 4.3.2 主要技術(shù)工具52-53
- 4.3.3 模塊具體實(shí)現(xiàn)53-56
- 4.4 本章小結(jié)56-58
- 第五章 總結(jié)與展望58-60
- 5.1 論文工作總結(jié)58
- 5.2 問題和展望58-60
- 參考文獻(xiàn)60-64
- 致謝64-65
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 劉曉志;黃厚寬;尚文倩;;帶專業(yè)詞庫的特征選擇[J];北京交通大學(xué)學(xué)報(bào);2006年02期
2 李保利,俞士汶;話題識別與跟蹤研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
3 陳莉萍;杜軍平;;突發(fā)事件熱點(diǎn)話題識別系統(tǒng)及關(guān)鍵問題研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年32期
4 周昭濤,卜東波,程學(xué)旗;文本的圖表示初探[J];中文信息學(xué)報(bào);2005年02期
5 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報(bào);2007年06期
6 閆光輝;趙紅運(yùn);任亞縉;陳勇;;基于時(shí)間特性的微博熱門話題檢測算法研究[J];計(jì)算機(jī)應(yīng)用研究;2014年01期
,本文編號:940471
本文鏈接:http://sikaile.net/kejilunwen/wltx/940471.html
最近更新
教材專著