天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向客服互動微博的短文本分類方法研究

發(fā)布時間:2018-11-13 17:23
【摘要】:文本分類是數(shù)據(jù)挖掘領(lǐng)域內(nèi)一個重要的研究課題。隨著twitter逐漸占領(lǐng)國外社交領(lǐng)域,越來越多的研究開始集中到微博短文本上,對微博進行分類在輿情分析、垃圾信息過濾以及微博社區(qū)等方面有著重要的意義。對比國內(nèi),以新浪為代表的微博也開始逐漸占領(lǐng)人們的日常生活,由于中文的特殊性,針對中文微博短文本進行分類也提出了更大的挑戰(zhàn)。 本文主要做了以下工作: 1.調(diào)研了文本分類(包括數(shù)據(jù)預(yù)處理、特征選擇、文本表示、分類算法等)的相關(guān)技術(shù),并針對信息增益的特征選擇方法的不足之處進行了改進; 2.利用LDA將微博短文本以文檔-語義分布矩陣的形式進行表示; 3.設(shè)計了信息增益與LDA相結(jié)合的微博短文本分類方法,并且實現(xiàn)了面向客服互動微博的分類系統(tǒng)。 本文在帶有類別標(biāo)簽的客服互動微博數(shù)據(jù)上進行了驗證。分別以信息增益和LDA做對比,實驗結(jié)果顯示,本文設(shè)計的方法在分類準確率上獲得了一定的提升,說明本文的方法適用于針對客服互動微博進行分類。
[Abstract]:Text classification is an important research topic in the field of data mining. With the twitter gradually occupying the foreign social field, more and more research began to focus on Weibo short text book. It is of great significance in the analysis of public opinion, spam filtering and the community of Weibo to classify Weibo. In contrast, Weibo, represented by Sina, began to occupy people's daily life gradually. Because of the particularity of Chinese, the classification of the short text of Chinese Weibo also posed a greater challenge. The main work of this paper is as follows: 1. The related technologies of text classification (including data preprocessing, feature selection, text representation, classification algorithm, etc.) are investigated, and the shortcomings of feature selection method of information gain are improved. 2. Using LDA to express Weibo short text in the form of document-semantic distribution matrix; 3. This paper designs a short text classification method of Weibo, which combines information gain and LDA, and implements a classification system for customer service interactive Weibo. This article carries on the verification on the customer service interaction Weibo data with the category label. By comparing the information gain and LDA, the experimental results show that the method designed in this paper has achieved a certain improvement in classification accuracy, indicating that this method is suitable for customer service interaction Weibo classification.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092

【參考文獻】

相關(guān)期刊論文 前7條

1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期

2 黃秀麗;王蔚;;一種改進的文本分類特征選擇方法[J];計算機工程與應(yīng)用;2009年36期

3 樊興華;孫茂松;;一種高性能的兩類中文文本分類方法[J];計算機學(xué)報;2006年01期

4 任克強;張國萍;趙光甫;;基于相對文檔頻的平衡信息增益降維方法[J];江西理工大學(xué)學(xué)報;2008年05期

5 丁兆云;賈焰;周斌;;微博數(shù)據(jù)挖掘研究綜述[J];計算機研究與發(fā)展;2014年04期

6 蘇金樹;張博鋒;徐昕;;基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J];軟件學(xué)報;2006年09期

7 唐曉波;王洪艷;;基于潛在語義分析的微博主題挖掘模型研究[J];圖書情報工作;2012年24期



本文編號:2329834

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2329834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72050***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩人妻一区中文字幕| 日韩欧美一区二区亚洲| 黄色三级日本在线观看| 欧美日韩三区在线观看| 91日韩欧美国产视频| 精品国产av一区二区三区不卡蜜| 91精品欧美综合在ⅹ| 在线亚洲成人中文字幕高清| 欧洲一区二区三区蜜桃| 亚洲色图欧美另类人妻| 婷婷亚洲综合五月天麻豆| 精品欧美国产一二三区| 亚洲精品高清国产一线久久| 91播色在线免费播放| 日本淫片一区二区三区| 亚洲夫妻性生活免费视频| 日韩不卡一区二区三区色图| 在线免费看国产精品黄片| 国产一区日韩二区欧美| 不卡视频免费一区二区三区| 日本理论片午夜在线观看| 91久久精品在这里色伊人| 国产亚洲欧美一区二区| 国产精品久久男人的天堂| 国产乱久久亚洲国产精品| 亚洲中文字幕在线乱码av| 国产午夜精品久久福利| 国产丝袜美女诱惑一区二区| 国产免费观看一区二区| 日本和亚洲的香蕉视频| 好吊妞视频只有这里有精品| 大香蕉久久精品一区二区字幕| 狠狠干狠狠操亚洲综合| 国产99久久精品果冻传媒| 欧洲精品一区二区三区四区 | 国内胖女人做爰视频有没有| 日本一区二区三区久久娇喘| 午夜福利国产精品不卡| 日韩成人h视频在线观看| 国产又粗又猛又长又黄视频| 夫妻性生活动态图视频|