基于云南旅游在線網(wǎng)站吐槽數(shù)據(jù)的文本挖掘
發(fā)布時(shí)間:2022-01-06 15:25
網(wǎng)絡(luò)評(píng)論文本通常有負(fù)面和正面,我們稱(chēng)帶有負(fù)面情緒的這些投訴文本數(shù)據(jù)為吐槽數(shù)據(jù)。目前,在文本挖掘這一熱點(diǎn)研究領(lǐng)域中,針對(duì)旅游投訴和吐槽數(shù)據(jù)的相關(guān)研究尚不多見(jiàn)。旅游業(yè)作為云南的傳統(tǒng)支柱產(chǎn)業(yè)之一,云南旅游市場(chǎng)的服務(wù)品質(zhì)備受輿論關(guān)注。近年來(lái),云南旅游市場(chǎng)亂象叢生,負(fù)面事件及其引爆的網(wǎng)絡(luò)輿情接連不斷,致使云南旅游的整體形象屢屢受創(chuàng)。因此,基于游客的在線投訴和網(wǎng)絡(luò)吐槽等負(fù)面輿情數(shù)據(jù)進(jìn)行自然語(yǔ)言處理與文本挖掘,助推相關(guān)的政府部門(mén)和景區(qū)景點(diǎn)針對(duì)社會(huì)公眾和輿論關(guān)切的具體問(wèn)題主動(dòng)及時(shí)進(jìn)行回應(yīng)和改革,從而為云南旅游市場(chǎng)秩序整治和旅游產(chǎn)業(yè)轉(zhuǎn)型升級(jí)做出積極貢獻(xiàn)。本文利用python爬取了云南就愛(ài)去旅行網(wǎng)站游輿專(zhuān)欄新聞數(shù)據(jù)和吐槽專(zhuān)欄的游客吐槽數(shù)據(jù),對(duì)該數(shù)據(jù)進(jìn)行文本挖掘,從旅游者角度,對(duì)主要受到游客投訴吐槽的地區(qū)以及主要的吐槽類(lèi)型,各地區(qū)的受吐槽原因進(jìn)行分析。首先,文章基于高頻詞的提取,得到了游輿專(zhuān)欄新聞數(shù)據(jù)涉及的熱點(diǎn)問(wèn)題,然后基于吐槽數(shù)據(jù)的吐槽地點(diǎn)和吐槽類(lèi)型數(shù)據(jù),分別從地理維度和時(shí)間維度對(duì)吐槽類(lèi)型進(jìn)行了對(duì)比分析,得到云南主要受到吐槽的地區(qū)為昆明,麗江,大理,昆明的主要被吐槽類(lèi)型為購(gòu)物,交通,航空,大理的主要被吐槽...
【文章來(lái)源】:云南大學(xué)云南省 211工程院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:?LDA概率圖模型展示??
,,,困惑度,這就導(dǎo)致模型不能得到較好的詞向量。??2013年,TomasMikolov的團(tuán)隊(duì)研發(fā)出了?word2vec技術(shù),該技術(shù)主要是挖掘的方法能進(jìn)行語(yǔ)言之間的結(jié)構(gòu)建模,并以“語(yǔ)言空間”代表詞語(yǔ)之關(guān)系,以向量集合表示詞語(yǔ)空間,是一種淺層雙層的神經(jīng)網(wǎng)絡(luò),用來(lái)訓(xùn)建構(gòu)語(yǔ)言學(xué)之詞文本。該技術(shù)有兩種模型,Skip-Gmm模型和CBOW模兩種模型依然是基于語(yǔ)言模型,但模型的訓(xùn)練目標(biāo)發(fā)生了變化,主要以的詞嵌入為目標(biāo)。CBOW和Skip-Gram模型都通過(guò)對(duì)模型進(jìn)行簡(jiǎn)化,來(lái)效率,并通過(guò)負(fù)采樣和層次化softmax對(duì)模型訓(xùn)練過(guò)程進(jìn)行優(yōu)化。??BOW模型的任務(wù)是,利用給定詞語(yǔ)依賴(lài)于上下文的詞語(yǔ)的詞向量,預(yù)測(cè)詞向量,而Skip-Gram模型是利用某一特定詞的詞向量,預(yù)測(cè)該詞對(duì)應(yīng)詞向量。本文所涉及的詞向量方法就是利用word2VeC中的CBOW模型分析。下面給出了?CBOW模型的示意圖。??
臺(tái)上信息進(jìn)行實(shí)時(shí)監(jiān)測(cè),我們通過(guò)處理新聞數(shù)據(jù)得到的正負(fù)評(píng)論數(shù),基本能反應(yīng)??云南這一整年的輿情信息。我們選取了?2018年一整年的正負(fù)評(píng)論數(shù),畫(huà)出2018??年的正負(fù)評(píng)論數(shù)折線圖,如圖3.1所示:???評(píng)論??40000?-?涵評(píng)論;??30000??20000??日期??圖3.1:?2018年的正負(fù)評(píng)論時(shí)間序列圖??通過(guò)上圖我們可以發(fā)現(xiàn),2018年的正負(fù)評(píng)論數(shù)一直保持一個(gè)相對(duì)穩(wěn)定的水平,??但在2018年8月26日,負(fù)面評(píng)論數(shù)達(dá)到了?45937條,查看數(shù)據(jù)發(fā)現(xiàn),當(dāng)天的重??要報(bào)道是“準(zhǔn)大學(xué)生云南旅游失聯(lián)”,導(dǎo)致該天附近的數(shù)據(jù)出現(xiàn)了大的波動(dòng),其??14??
【參考文獻(xiàn)】:
期刊論文
[1]文本挖掘領(lǐng)域研究現(xiàn)狀與趨勢(shì)分析[J]. 陶潔. 武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2018(02)
[2]基于大數(shù)據(jù)用戶(hù)生成內(nèi)容的麗江旅游形象危機(jī)輿情調(diào)查[J]. 何少琪. 旅游縱覽(下半月). 2018(05)
[3]基于旅游者視角的旅游投訴特征與影響因素分析——以云南省為例[J]. 呂宛青,張冬,李露露,杜靖川. 資源開(kāi)發(fā)與市場(chǎng). 2017(11)
[4]基于文本挖掘的廣西欽北防游客意見(jiàn)與建議的比較研究[J]. 林選妙. 市場(chǎng)論壇. 2017(07)
[5]基于文本挖掘的典型旅游網(wǎng)站旅游分享比較研究——以甘肅省為例[J]. 王耀斌,楊玲,孫傳玲,蔣金萍. 資源開(kāi)發(fā)與市場(chǎng). 2017(01)
[6]旅游業(yè)大數(shù)據(jù)來(lái)源與獲取分析[J]. 衛(wèi)俊杰. 旅游縱覽(下半月). 2016(11)
[7]基于網(wǎng)絡(luò)文本分析的旅游者行為研究——以六安市為例[J]. 余佳華,黃潤(rùn). 巢湖學(xué)院學(xué)報(bào). 2016(05)
[8]旅游目的地意象感知的維度辨識(shí):基于網(wǎng)絡(luò)游記的文本分析[J]. 那夢(mèng)帆,謝彥君. 旅游論壇. 2016(03)
[9]基于網(wǎng)絡(luò)文本分析云南石林旅游形象感知[J]. 鐘彥清,羅明春. 新西部(理論版). 2016(06)
[10]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商客戶(hù)投訴分析方法研究[J]. 唐盛濤. 互聯(lián)網(wǎng)天地. 2016(03)
碩士論文
[1]面向旅游在線評(píng)論的文本挖掘方法研究[D]. 嚴(yán)仲培.合肥工業(yè)大學(xué) 2018
[2]基于旅游博客的旅游目的地游客滿(mǎn)意度評(píng)價(jià)研究[D]. 耿銘澤.海南大學(xué) 2010
本文編號(hào):3572703
【文章來(lái)源】:云南大學(xué)云南省 211工程院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:?LDA概率圖模型展示??
,,,困惑度,這就導(dǎo)致模型不能得到較好的詞向量。??2013年,TomasMikolov的團(tuán)隊(duì)研發(fā)出了?word2vec技術(shù),該技術(shù)主要是挖掘的方法能進(jìn)行語(yǔ)言之間的結(jié)構(gòu)建模,并以“語(yǔ)言空間”代表詞語(yǔ)之關(guān)系,以向量集合表示詞語(yǔ)空間,是一種淺層雙層的神經(jīng)網(wǎng)絡(luò),用來(lái)訓(xùn)建構(gòu)語(yǔ)言學(xué)之詞文本。該技術(shù)有兩種模型,Skip-Gmm模型和CBOW模兩種模型依然是基于語(yǔ)言模型,但模型的訓(xùn)練目標(biāo)發(fā)生了變化,主要以的詞嵌入為目標(biāo)。CBOW和Skip-Gram模型都通過(guò)對(duì)模型進(jìn)行簡(jiǎn)化,來(lái)效率,并通過(guò)負(fù)采樣和層次化softmax對(duì)模型訓(xùn)練過(guò)程進(jìn)行優(yōu)化。??BOW模型的任務(wù)是,利用給定詞語(yǔ)依賴(lài)于上下文的詞語(yǔ)的詞向量,預(yù)測(cè)詞向量,而Skip-Gram模型是利用某一特定詞的詞向量,預(yù)測(cè)該詞對(duì)應(yīng)詞向量。本文所涉及的詞向量方法就是利用word2VeC中的CBOW模型分析。下面給出了?CBOW模型的示意圖。??
臺(tái)上信息進(jìn)行實(shí)時(shí)監(jiān)測(cè),我們通過(guò)處理新聞數(shù)據(jù)得到的正負(fù)評(píng)論數(shù),基本能反應(yīng)??云南這一整年的輿情信息。我們選取了?2018年一整年的正負(fù)評(píng)論數(shù),畫(huà)出2018??年的正負(fù)評(píng)論數(shù)折線圖,如圖3.1所示:???評(píng)論??40000?-?涵評(píng)論;??30000??20000??日期??圖3.1:?2018年的正負(fù)評(píng)論時(shí)間序列圖??通過(guò)上圖我們可以發(fā)現(xiàn),2018年的正負(fù)評(píng)論數(shù)一直保持一個(gè)相對(duì)穩(wěn)定的水平,??但在2018年8月26日,負(fù)面評(píng)論數(shù)達(dá)到了?45937條,查看數(shù)據(jù)發(fā)現(xiàn),當(dāng)天的重??要報(bào)道是“準(zhǔn)大學(xué)生云南旅游失聯(lián)”,導(dǎo)致該天附近的數(shù)據(jù)出現(xiàn)了大的波動(dòng),其??14??
【參考文獻(xiàn)】:
期刊論文
[1]文本挖掘領(lǐng)域研究現(xiàn)狀與趨勢(shì)分析[J]. 陶潔. 武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2018(02)
[2]基于大數(shù)據(jù)用戶(hù)生成內(nèi)容的麗江旅游形象危機(jī)輿情調(diào)查[J]. 何少琪. 旅游縱覽(下半月). 2018(05)
[3]基于旅游者視角的旅游投訴特征與影響因素分析——以云南省為例[J]. 呂宛青,張冬,李露露,杜靖川. 資源開(kāi)發(fā)與市場(chǎng). 2017(11)
[4]基于文本挖掘的廣西欽北防游客意見(jiàn)與建議的比較研究[J]. 林選妙. 市場(chǎng)論壇. 2017(07)
[5]基于文本挖掘的典型旅游網(wǎng)站旅游分享比較研究——以甘肅省為例[J]. 王耀斌,楊玲,孫傳玲,蔣金萍. 資源開(kāi)發(fā)與市場(chǎng). 2017(01)
[6]旅游業(yè)大數(shù)據(jù)來(lái)源與獲取分析[J]. 衛(wèi)俊杰. 旅游縱覽(下半月). 2016(11)
[7]基于網(wǎng)絡(luò)文本分析的旅游者行為研究——以六安市為例[J]. 余佳華,黃潤(rùn). 巢湖學(xué)院學(xué)報(bào). 2016(05)
[8]旅游目的地意象感知的維度辨識(shí):基于網(wǎng)絡(luò)游記的文本分析[J]. 那夢(mèng)帆,謝彥君. 旅游論壇. 2016(03)
[9]基于網(wǎng)絡(luò)文本分析云南石林旅游形象感知[J]. 鐘彥清,羅明春. 新西部(理論版). 2016(06)
[10]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商客戶(hù)投訴分析方法研究[J]. 唐盛濤. 互聯(lián)網(wǎng)天地. 2016(03)
碩士論文
[1]面向旅游在線評(píng)論的文本挖掘方法研究[D]. 嚴(yán)仲培.合肥工業(yè)大學(xué) 2018
[2]基于旅游博客的旅游目的地游客滿(mǎn)意度評(píng)價(jià)研究[D]. 耿銘澤.海南大學(xué) 2010
本文編號(hào):3572703
本文鏈接:http://sikaile.net/guanlilunwen/lvyoujiudianguanlilunwen/3572703.html
最近更新
教材專(zhuān)著