改進的K近鄰算法及其在文本分析中的應用
發(fā)布時間:2021-08-11 18:28
隨著互聯(lián)網(wǎng)的發(fā)展,實體經(jīng)濟與互聯(lián)網(wǎng)的結(jié)合越來越緊密,人們由線下消費向線上消費轉(zhuǎn)移。互聯(lián)網(wǎng)上積累了大量人們參與的實體消費的評論信息。這些評論信息是顧客線上消費的重要參考依據(jù),同時也是經(jīng)營實體經(jīng)營決策的重要參考,因此合理有效的挖掘評論數(shù)據(jù),提取顧客消費評論中的關注點和情感因素對實體經(jīng)濟發(fā)展具有重要作用。k近鄰算法因其理論簡單,易于實施等優(yōu)點在機器學習和數(shù)據(jù)挖掘領域得到廣泛應用。但是針對文本分析中特征維度高、文本數(shù)值化后語意解釋等問題,傳統(tǒng)k近鄰算法無法很好的處理。對傳統(tǒng)k近鄰算法進行改進優(yōu)化,使其更加適用于文本分析處理場景是本文的研究重點。本文主要創(chuàng)新點如下:(1)針對文本分詞后得到的詞向量忽略了上下文語意關系,導致算法準確率較低的缺點,引入組合特征,將前后相連的實體詞與情感修飾詞相結(jié)合形成組合特征,使詞向量保持基本的語意關系,提高算法的準確率。實驗證明,在不同算法模型下,引入組合特征可以得到更高的擬合準確率。(2)基于TF-IDF和基尼不純度構(gòu)造特征篩選綜合指標(TF-GINI)進行特征選擇,在彌補TF-IDF在有監(jiān)督學習樣本中忽略類別變量的缺陷的同時降低特征維度,提高算法效率,并以TF...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
文本情感分析流程圖
南京郵電大學專業(yè)學位碩士研究生學位論文第二章相關背景知識介紹12具體流程如下:圖2.2KD樹建樹流程圖在樹模型中搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點:在樹模型中可以更加快速的搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點,對于待分類的數(shù)據(jù)點,將其帶入到KD樹中,遍歷得到包含待分類數(shù)據(jù)點的葉子節(jié)點。以待分類數(shù)據(jù)點為圓心,葉子節(jié)點到待分類數(shù)據(jù)點之間的間隔度量值為半徑,形成超球體,離待分類數(shù)據(jù)點間隔度量值最小的數(shù)據(jù)點一定在超球體內(nèi)。返回父節(jié)點,在另一個子節(jié)點檢查其包含的數(shù)據(jù)點形成的超矩形是否與超球體相交,如果相交,計算該子節(jié)點包含的數(shù)據(jù)點與待分類數(shù)據(jù)點的間隔值,若小于半徑,更新最近鄰數(shù)據(jù)點。若不相交,返回父節(jié)點的父節(jié)點,繼續(xù)搜索待分類數(shù)據(jù)點的最近鄰數(shù)據(jù)點,直到回到KD樹的根節(jié)點,結(jié)束KD樹搜索。綜上所述,利用KD樹搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點,可以很大程度的減少數(shù)據(jù)點間間隔度量值的計算,若超矩形與超球體不相交,則不需要計算待分類數(shù)據(jù)點與另一子樹包含的數(shù)據(jù)點之間的間隔度量值,很大程度上減小了算法的運行效率。KD樹預測:利用KD樹對待分類數(shù)據(jù)點進行類別預測,只需通過KD樹搜索得到待分類數(shù)據(jù)點的k個近鄰數(shù)據(jù)點,通過多數(shù)表決,就可以得到待分類數(shù)據(jù)點的類別。具體做法如下:首先通過KD樹尋找與待分類數(shù)據(jù)點最近的數(shù)據(jù)點作為第一個近鄰數(shù)據(jù)點。然后排除已找到的近鄰數(shù)據(jù)點,在KD樹中繼續(xù)尋找與待分類數(shù)據(jù)點最近的數(shù)據(jù)點,作為第二個近鄰數(shù)據(jù)點,如此遍歷,直到找到k個與待分類數(shù)據(jù)點最近的數(shù)據(jù)點,利用多數(shù)表決方式,對近鄰數(shù)據(jù)點進行表決,得到待分類數(shù)據(jù)點的類別。
南京郵電大學專業(yè)學位碩士研究生學位論文第三章基于組合特征的詞向量構(gòu)建方法223.3仿真實驗3.3.1實驗數(shù)據(jù)本論文實驗數(shù)據(jù)使用的是美團網(wǎng)南京市30家如家酒店顧客消費評論數(shù)據(jù),共16299條評論,包含很滿意、滿意、一般、不滿意、很不滿意5個類別。原始數(shù)據(jù)如下表:表3.2原始數(shù)據(jù)表將很滿意和滿意作為正面評論數(shù)據(jù),一般作為中性評論數(shù)據(jù),不滿意很不滿意作為負面評論數(shù)據(jù),其中正面評論8158條,中性評論數(shù)據(jù)4843條,負面評論3298條。圖3.2樣本占比圖通過餅圖可以發(fā)現(xiàn)酒店評論數(shù)據(jù)具有不平衡性,正面評論數(shù)據(jù)多與負面評論數(shù)據(jù),由于爬取的評論文本數(shù)據(jù)量較大,對正面評論數(shù)據(jù)進行下采樣,隨機選擇4000條正面評論樣本用于模型建立,使正負面評論數(shù)據(jù)保持相對平衡,平衡數(shù)據(jù)集后,數(shù)據(jù)共12141條。選取80%數(shù)據(jù)作為訓練集用于模型訓練,剩下數(shù)據(jù)集作為測試集,評估模型性能。評論數(shù)據(jù)可以體現(xiàn)客戶對酒店入住的關注點,在多條文本評論中出現(xiàn)的詞可店名評論時間評論者評論內(nèi)容文本得分數(shù)值得分如家酒店(南京新街口張府園地鐵站店)2019-10-06匿名用戶服務好,,房間大,,非常干凈,地理位置特別好,就在張府園地鐵一號出口往前走幾步,距離新街很滿意5如家酒店(南京新街口張府園地鐵站店)2019-09-20匿名用戶離地張府園1號鐵口很近,離三元巷公交站很近,去各大景點都很方便住了兩晚,干凈舒適,打滿意4如家酒店(南京新街口張府園地鐵站店)2019-09-02gSl993432462前臺馬經(jīng)理服務非常好,熱情耐心的講解周邊小吃,旅游景點,還幫我們預約景點門票,為她的很滿意5如家酒店(南京新街口張府園地鐵站店)2019-08-28蔣王彤房子挺好的,一家三口來南京玩住的,靠附近景區(qū),大洋百貨近。含了兩份自助早飯,可以很滿意5如家酒店(南京新街口張府園地鐵站店
【參考文獻】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]淺談機器學習情感分析方法[J]. 李鼎. 農(nóng)家參謀. 2020(05)
[3]基于TF-IDF中文文本分類實現(xiàn)[J]. 石鳳貴. 現(xiàn)代計算機. 2020(06)
[4]基于文本挖掘的京東商品評論分析[J]. 徐蕾,張科偉. 內(nèi)蒙古科技與經(jīng)濟. 2020(03)
[5]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超. 計算機工程與應用. 2019(23)
[6]隨機森林算法研究綜述[J]. 呂紅燕,馮倩. 河北省科學院學報. 2019(03)
[7]基于改進信息增益的特征選擇方法研究[J]. 董露露,馬寧. 萍鄉(xiāng)學院學報. 2019(03)
[8]稀疏回歸和流形學習的無監(jiān)督特征選擇算法[J]. 周婉瑩,馬盈倉,鄭毅,楊小飛. 計算機應用研究. 2020(09)
[9]一種采用冗余性動態(tài)權(quán)重的特征選擇算法[J]. 肖利軍,郭繼昌,顧翔元. 西安電子科技大學學報. 2019(05)
[10]基于KD樹和KNN的高校學生異常狀態(tài)預警算法研究[J]. 李礁,鐘樂海. 信息技術(shù)與信息化. 2019(05)
博士論文
[1]情感詞典構(gòu)建方法及其應用研究[D]. 鄧東.北京交通大學 2019
[2]面向不平衡數(shù)據(jù)的特征選擇與半監(jiān)督分類算法研究[D]. 杜利敏.西南交通大學 2017
碩士論文
[1]基于過濾法的信息論特征選擇算法研究[D]. 張平.吉林大學 2018
[2]基于機器學習的情感分析方法研究[D]. 張磊.電子科技大學 2018
本文編號:3336667
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
文本情感分析流程圖
南京郵電大學專業(yè)學位碩士研究生學位論文第二章相關背景知識介紹12具體流程如下:圖2.2KD樹建樹流程圖在樹模型中搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點:在樹模型中可以更加快速的搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點,對于待分類的數(shù)據(jù)點,將其帶入到KD樹中,遍歷得到包含待分類數(shù)據(jù)點的葉子節(jié)點。以待分類數(shù)據(jù)點為圓心,葉子節(jié)點到待分類數(shù)據(jù)點之間的間隔度量值為半徑,形成超球體,離待分類數(shù)據(jù)點間隔度量值最小的數(shù)據(jù)點一定在超球體內(nèi)。返回父節(jié)點,在另一個子節(jié)點檢查其包含的數(shù)據(jù)點形成的超矩形是否與超球體相交,如果相交,計算該子節(jié)點包含的數(shù)據(jù)點與待分類數(shù)據(jù)點的間隔值,若小于半徑,更新最近鄰數(shù)據(jù)點。若不相交,返回父節(jié)點的父節(jié)點,繼續(xù)搜索待分類數(shù)據(jù)點的最近鄰數(shù)據(jù)點,直到回到KD樹的根節(jié)點,結(jié)束KD樹搜索。綜上所述,利用KD樹搜索待分類數(shù)據(jù)點的近鄰數(shù)據(jù)點,可以很大程度的減少數(shù)據(jù)點間間隔度量值的計算,若超矩形與超球體不相交,則不需要計算待分類數(shù)據(jù)點與另一子樹包含的數(shù)據(jù)點之間的間隔度量值,很大程度上減小了算法的運行效率。KD樹預測:利用KD樹對待分類數(shù)據(jù)點進行類別預測,只需通過KD樹搜索得到待分類數(shù)據(jù)點的k個近鄰數(shù)據(jù)點,通過多數(shù)表決,就可以得到待分類數(shù)據(jù)點的類別。具體做法如下:首先通過KD樹尋找與待分類數(shù)據(jù)點最近的數(shù)據(jù)點作為第一個近鄰數(shù)據(jù)點。然后排除已找到的近鄰數(shù)據(jù)點,在KD樹中繼續(xù)尋找與待分類數(shù)據(jù)點最近的數(shù)據(jù)點,作為第二個近鄰數(shù)據(jù)點,如此遍歷,直到找到k個與待分類數(shù)據(jù)點最近的數(shù)據(jù)點,利用多數(shù)表決方式,對近鄰數(shù)據(jù)點進行表決,得到待分類數(shù)據(jù)點的類別。
南京郵電大學專業(yè)學位碩士研究生學位論文第三章基于組合特征的詞向量構(gòu)建方法223.3仿真實驗3.3.1實驗數(shù)據(jù)本論文實驗數(shù)據(jù)使用的是美團網(wǎng)南京市30家如家酒店顧客消費評論數(shù)據(jù),共16299條評論,包含很滿意、滿意、一般、不滿意、很不滿意5個類別。原始數(shù)據(jù)如下表:表3.2原始數(shù)據(jù)表將很滿意和滿意作為正面評論數(shù)據(jù),一般作為中性評論數(shù)據(jù),不滿意很不滿意作為負面評論數(shù)據(jù),其中正面評論8158條,中性評論數(shù)據(jù)4843條,負面評論3298條。圖3.2樣本占比圖通過餅圖可以發(fā)現(xiàn)酒店評論數(shù)據(jù)具有不平衡性,正面評論數(shù)據(jù)多與負面評論數(shù)據(jù),由于爬取的評論文本數(shù)據(jù)量較大,對正面評論數(shù)據(jù)進行下采樣,隨機選擇4000條正面評論樣本用于模型建立,使正負面評論數(shù)據(jù)保持相對平衡,平衡數(shù)據(jù)集后,數(shù)據(jù)共12141條。選取80%數(shù)據(jù)作為訓練集用于模型訓練,剩下數(shù)據(jù)集作為測試集,評估模型性能。評論數(shù)據(jù)可以體現(xiàn)客戶對酒店入住的關注點,在多條文本評論中出現(xiàn)的詞可店名評論時間評論者評論內(nèi)容文本得分數(shù)值得分如家酒店(南京新街口張府園地鐵站店)2019-10-06匿名用戶服務好,,房間大,,非常干凈,地理位置特別好,就在張府園地鐵一號出口往前走幾步,距離新街很滿意5如家酒店(南京新街口張府園地鐵站店)2019-09-20匿名用戶離地張府園1號鐵口很近,離三元巷公交站很近,去各大景點都很方便住了兩晚,干凈舒適,打滿意4如家酒店(南京新街口張府園地鐵站店)2019-09-02gSl993432462前臺馬經(jīng)理服務非常好,熱情耐心的講解周邊小吃,旅游景點,還幫我們預約景點門票,為她的很滿意5如家酒店(南京新街口張府園地鐵站店)2019-08-28蔣王彤房子挺好的,一家三口來南京玩住的,靠附近景區(qū),大洋百貨近。含了兩份自助早飯,可以很滿意5如家酒店(南京新街口張府園地鐵站店
【參考文獻】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]淺談機器學習情感分析方法[J]. 李鼎. 農(nóng)家參謀. 2020(05)
[3]基于TF-IDF中文文本分類實現(xiàn)[J]. 石鳳貴. 現(xiàn)代計算機. 2020(06)
[4]基于文本挖掘的京東商品評論分析[J]. 徐蕾,張科偉. 內(nèi)蒙古科技與經(jīng)濟. 2020(03)
[5]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超. 計算機工程與應用. 2019(23)
[6]隨機森林算法研究綜述[J]. 呂紅燕,馮倩. 河北省科學院學報. 2019(03)
[7]基于改進信息增益的特征選擇方法研究[J]. 董露露,馬寧. 萍鄉(xiāng)學院學報. 2019(03)
[8]稀疏回歸和流形學習的無監(jiān)督特征選擇算法[J]. 周婉瑩,馬盈倉,鄭毅,楊小飛. 計算機應用研究. 2020(09)
[9]一種采用冗余性動態(tài)權(quán)重的特征選擇算法[J]. 肖利軍,郭繼昌,顧翔元. 西安電子科技大學學報. 2019(05)
[10]基于KD樹和KNN的高校學生異常狀態(tài)預警算法研究[J]. 李礁,鐘樂海. 信息技術(shù)與信息化. 2019(05)
博士論文
[1]情感詞典構(gòu)建方法及其應用研究[D]. 鄧東.北京交通大學 2019
[2]面向不平衡數(shù)據(jù)的特征選擇與半監(jiān)督分類算法研究[D]. 杜利敏.西南交通大學 2017
碩士論文
[1]基于過濾法的信息論特征選擇算法研究[D]. 張平.吉林大學 2018
[2]基于機器學習的情感分析方法研究[D]. 張磊.電子科技大學 2018
本文編號:3336667
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3336667.html
最近更新
教材專著