Spark平臺下的短文本特征擴(kuò)展與分類研究
發(fā)布時間:2019-12-03 00:27
【摘要】:短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問題。特征擴(kuò)展是解決上述問題的有效方法,但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問題和現(xiàn)狀,針對如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究,提出了一種Spark平臺上的基于關(guān)聯(lián)規(guī)則挖掘的短文本特征擴(kuò)展及分類方法。該方法首先采用背景語料庫,通過關(guān)聯(lián)規(guī)則挖掘的方式對原短文本進(jìn)行特征補(bǔ)充;其次針對分類過程,提出基于距離選擇的層疊支持向量機(jī)(support vector machine,SVM)算法;最后設(shè)計Spark平臺上的短文本特征擴(kuò)展與分類算法,通過分布式算法設(shè)計,提高短文本處理的效率。實驗結(jié)果顯示,采用提出的Spark平臺上基于關(guān)聯(lián)規(guī)則挖掘的短文本特征擴(kuò)展方法后,針對大數(shù)據(jù)集,Spark集群上短文本特征擴(kuò)展及分類效率約為傳統(tǒng)單機(jī)上效率的4倍,且相比于傳統(tǒng)分類實驗,平均得到約15%的效率提升,其中特征擴(kuò)展及分類優(yōu)化準(zhǔn)確率提升分別為10%與5%。
【圖文】:
度講,涉及“美食”話題的微博數(shù)量達(dá)到10.8億條,互動博文數(shù)量超過900億次。數(shù)據(jù)是21世紀(jì)最寶貴的財富,隨著短文本數(shù)據(jù)的增加,如何有效利用豐富的數(shù)據(jù)資產(chǎn),產(chǎn)生巨大的再生價值,成為當(dāng)下學(xué)術(shù)及工業(yè)領(lǐng)域研究熱點。短文本分類技術(shù)在話題追蹤、輿情分析、信息檢索等多方面具有重要的研究及應(yīng)用價值。1.2問題提出短文本作為文本的一種特殊類型,分類流程大致相同,即:給定帶標(biāo)簽C的文檔集D,定義函數(shù)F,求解每個文檔d與類別c的關(guān)系映射,并根據(jù)映射F,預(yù)測未知類別文檔集合D′對應(yīng)的類別C′。該過程描述如圖1所示。關(guān)于長文本分類的研究開始較早,且研究成果顯著,如K近鄰、樸素貝葉斯、支持向量機(jī)等算法在不同文本分類問題中得到廣泛應(yīng)用,并針對不同數(shù)據(jù)集及測試標(biāo)準(zhǔn)得到較好的分類效果。然而,因短文本實時性強(qiáng)、數(shù)據(jù)量大、字?jǐn)?shù)少、特征維度高、特征稀疏等特性,導(dǎo)致上述傳統(tǒng)分類方法在處理短文本時,分類效果不佳。相對于長文本,短文本分類的瓶頸及挑戰(zhàn)主要體現(xiàn)在以下三方面:(1)因特征維數(shù)高采用傳統(tǒng)的針對長文本進(jìn)行處理的方法,如分詞、TF-IDF、去停用詞(stopword)等操作時,很容易丟失短文本的語義信息。(2)因特征稀疏,使用傳統(tǒng)的長文本分類方法,如K-近鄰(K-nearestneighbor,KNN)、樸素貝葉斯(naiveBayes,NB)、神經(jīng)網(wǎng)絡(luò)(neuralnetwork,NN)、支持向量機(jī)(supportvectormachine,SVM)進(jìn)行分類時,無法有效選擇特征,構(gòu)造向量空間。摘要:短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問題。特征擴(kuò)展是解決上述問題的有效方法,但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問題和現(xiàn)狀,針對如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究,提出了一種Spark平臺上的基于關(guān)聯(lián)規(guī)則挖?
王雯等:Spark平臺下的短文本特征擴(kuò)展與分類研究2短文本特征擴(kuò)展如上文介紹,相比于長文本,短文本因特征維度高,特征稀疏,在分類過程中特征抽取及特征展示階段面臨較大的瓶頸,進(jìn)而在分類過程中,分類準(zhǔn)確率表現(xiàn)不佳。下面介紹如何借助背景語料庫,采用關(guān)聯(lián)規(guī)則挖掘的方式,對短文本特征進(jìn)行擴(kuò)展。2.1方法描述基于關(guān)聯(lián)規(guī)則的特征擴(kuò)展方法要求對比短文本特征及背景語料庫關(guān)聯(lián)規(guī)則,使用背景語料庫中的關(guān)聯(lián)規(guī)則對短文本特征進(jìn)行補(bǔ)充。該方法實現(xiàn)過程如圖2所示。記數(shù)據(jù)集D為目標(biāo)短文本數(shù)據(jù)集,S={d1,d2,…,dn}為與目標(biāo)短文本相關(guān)的語料庫,如目標(biāo)短文本D為新聞標(biāo)題數(shù)據(jù)集,則語料庫S可以是對應(yīng)的新聞?wù)膬?nèi)容。以集合T={t1,t2,…,tk}表示語料庫S的特征集合,集合C={c1,c2,…,cm}表示數(shù)據(jù)集D和S的所有類別。以sup(t)表示特征t的支持度,sup(T)=Count(Dt)/Count(D),Count(Dt)表示文本集中包含特征t的文檔的數(shù)量,Count(D)表示文檔總數(shù)。以conf(t,c)表示關(guān)聯(lián)規(guī)則t≥c成立的置信度,conf(t,c)=Count(t,c)/Count(Dt),Count(t,c)表示t、c共同出現(xiàn)的文檔數(shù),Count(Dt)表示出現(xiàn)特征t的文檔數(shù)。當(dāng)sup(T)超過最小支持度限制α?xí)r,稱集合T中子項之間具有一致性。如T包含t1、t2兩個子項,已知t1屬于類別C,則稱Tendency(t2)=c。以Conf(t1→t2)表示關(guān)聯(lián)規(guī)則t1→t2的置信度,以V(t)表示原短文本特征t的權(quán)重。首先對于原短文本特征,保留原特征值的權(quán)重,對背景語料庫,挖掘關(guān)聯(lián)規(guī)則,計算特征置信度,以置信度和原特征的權(quán)重乘積作為擴(kuò)展特征的權(quán)重值。如t3為原特征集與頻繁項集的共同特征,,假設(shè)關(guān)聯(lián)規(guī)則t3→t4,且Conf(t3→t4)
本文編號:2568968
【圖文】:
度講,涉及“美食”話題的微博數(shù)量達(dá)到10.8億條,互動博文數(shù)量超過900億次。數(shù)據(jù)是21世紀(jì)最寶貴的財富,隨著短文本數(shù)據(jù)的增加,如何有效利用豐富的數(shù)據(jù)資產(chǎn),產(chǎn)生巨大的再生價值,成為當(dāng)下學(xué)術(shù)及工業(yè)領(lǐng)域研究熱點。短文本分類技術(shù)在話題追蹤、輿情分析、信息檢索等多方面具有重要的研究及應(yīng)用價值。1.2問題提出短文本作為文本的一種特殊類型,分類流程大致相同,即:給定帶標(biāo)簽C的文檔集D,定義函數(shù)F,求解每個文檔d與類別c的關(guān)系映射,并根據(jù)映射F,預(yù)測未知類別文檔集合D′對應(yīng)的類別C′。該過程描述如圖1所示。關(guān)于長文本分類的研究開始較早,且研究成果顯著,如K近鄰、樸素貝葉斯、支持向量機(jī)等算法在不同文本分類問題中得到廣泛應(yīng)用,并針對不同數(shù)據(jù)集及測試標(biāo)準(zhǔn)得到較好的分類效果。然而,因短文本實時性強(qiáng)、數(shù)據(jù)量大、字?jǐn)?shù)少、特征維度高、特征稀疏等特性,導(dǎo)致上述傳統(tǒng)分類方法在處理短文本時,分類效果不佳。相對于長文本,短文本分類的瓶頸及挑戰(zhàn)主要體現(xiàn)在以下三方面:(1)因特征維數(shù)高采用傳統(tǒng)的針對長文本進(jìn)行處理的方法,如分詞、TF-IDF、去停用詞(stopword)等操作時,很容易丟失短文本的語義信息。(2)因特征稀疏,使用傳統(tǒng)的長文本分類方法,如K-近鄰(K-nearestneighbor,KNN)、樸素貝葉斯(naiveBayes,NB)、神經(jīng)網(wǎng)絡(luò)(neuralnetwork,NN)、支持向量機(jī)(supportvectormachine,SVM)進(jìn)行分類時,無法有效選擇特征,構(gòu)造向量空間。摘要:短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問題。特征擴(kuò)展是解決上述問題的有效方法,但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問題和現(xiàn)狀,針對如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究,提出了一種Spark平臺上的基于關(guān)聯(lián)規(guī)則挖?
王雯等:Spark平臺下的短文本特征擴(kuò)展與分類研究2短文本特征擴(kuò)展如上文介紹,相比于長文本,短文本因特征維度高,特征稀疏,在分類過程中特征抽取及特征展示階段面臨較大的瓶頸,進(jìn)而在分類過程中,分類準(zhǔn)確率表現(xiàn)不佳。下面介紹如何借助背景語料庫,采用關(guān)聯(lián)規(guī)則挖掘的方式,對短文本特征進(jìn)行擴(kuò)展。2.1方法描述基于關(guān)聯(lián)規(guī)則的特征擴(kuò)展方法要求對比短文本特征及背景語料庫關(guān)聯(lián)規(guī)則,使用背景語料庫中的關(guān)聯(lián)規(guī)則對短文本特征進(jìn)行補(bǔ)充。該方法實現(xiàn)過程如圖2所示。記數(shù)據(jù)集D為目標(biāo)短文本數(shù)據(jù)集,S={d1,d2,…,dn}為與目標(biāo)短文本相關(guān)的語料庫,如目標(biāo)短文本D為新聞標(biāo)題數(shù)據(jù)集,則語料庫S可以是對應(yīng)的新聞?wù)膬?nèi)容。以集合T={t1,t2,…,tk}表示語料庫S的特征集合,集合C={c1,c2,…,cm}表示數(shù)據(jù)集D和S的所有類別。以sup(t)表示特征t的支持度,sup(T)=Count(Dt)/Count(D),Count(Dt)表示文本集中包含特征t的文檔的數(shù)量,Count(D)表示文檔總數(shù)。以conf(t,c)表示關(guān)聯(lián)規(guī)則t≥c成立的置信度,conf(t,c)=Count(t,c)/Count(Dt),Count(t,c)表示t、c共同出現(xiàn)的文檔數(shù),Count(Dt)表示出現(xiàn)特征t的文檔數(shù)。當(dāng)sup(T)超過最小支持度限制α?xí)r,稱集合T中子項之間具有一致性。如T包含t1、t2兩個子項,已知t1屬于類別C,則稱Tendency(t2)=c。以Conf(t1→t2)表示關(guān)聯(lián)規(guī)則t1→t2的置信度,以V(t)表示原短文本特征t的權(quán)重。首先對于原短文本特征,保留原特征值的權(quán)重,對背景語料庫,挖掘關(guān)聯(lián)規(guī)則,計算特征置信度,以置信度和原特征的權(quán)重乘積作為擴(kuò)展特征的權(quán)重值。如t3為原特征集與頻繁項集的共同特征,,假設(shè)關(guān)聯(lián)規(guī)則t3→t4,且Conf(t3→t4)
【相似文獻(xiàn)】
相關(guān)重要報紙文章 前1條
1 本報記者 那罡;微軟Spark計劃再添新成員[N];中國計算機(jī)報;2009年
相關(guān)碩士學(xué)位論文 前7條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計算平臺的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 李爭獻(xiàn);基于Spark的移動終端信息推送系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2016年
4 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計費(fèi)系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
5 尚勃;Spark平臺下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年
6 王海華;Spark數(shù)據(jù)處理平臺中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年
7 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年
本文編號:2568968
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2568968.html
最近更新
教材專著