基于改進(jìn)樸素貝葉斯算法微博行為預(yù)測(cè)
發(fā)布時(shí)間:2021-02-05 23:14
隨著Internet蓬勃發(fā)展,社交平臺(tái)的數(shù)據(jù)不斷增長(zhǎng),用戶從海量數(shù)據(jù)中獲取信息的難度不斷地增加。研究微博用戶行為成為當(dāng)今熱點(diǎn)話題。用戶行為和內(nèi)容復(fù)雜多樣。一般用戶微博行為數(shù)量較低且行為呈現(xiàn)整體一致性,用戶組織語(yǔ)言和表達(dá)方式不同且關(guān)注范圍不一致。不少微博行為研究未能挖掘利用用戶數(shù)據(jù)及背后隱藏的相關(guān)信息,預(yù)測(cè)精準(zhǔn)率有待提高,提高預(yù)測(cè)微博行為準(zhǔn)確率以及全面利用博文信息是當(dāng)前研究熱點(diǎn)。研究發(fā)現(xiàn)微博數(shù)據(jù)有如下特點(diǎn):大多數(shù)用戶行為數(shù)量為零,部分用戶行為數(shù)量不全為零;用戶的行為數(shù)量整體呈冪律分布,每個(gè)用戶行為數(shù)量大致遵循聚類性。傳統(tǒng)的樸素貝葉斯和邏輯回歸算法未考慮詞語(yǔ)間的關(guān)聯(lián),利用所有用戶特征詞信息求取結(jié)果時(shí),忽略單個(gè)用戶的博文特點(diǎn),未考慮特征詞一義多詞,用戶習(xí)慣用語(yǔ)等情況。針對(duì)微博內(nèi)容及其轉(zhuǎn)發(fā)、評(píng)論及點(diǎn)贊三種行為次數(shù),分析微博的總體特征,提出了改進(jìn)的樸素貝葉斯和改進(jìn)的邏輯回歸行為預(yù)測(cè)算法。采用jieba進(jìn)行分詞,基于TF*IDF求取微博關(guān)鍵詞,利用LSI算法統(tǒng)計(jì)出微博中的一義多詞,得到用戶的高頻特征詞;采用LDA算法對(duì)微博進(jìn)行分類,得到類別集合。構(gòu)建對(duì)象的層次結(jié)構(gòu)可作為改進(jìn)的樸素貝葉斯算法和邏輯回...
【文章來(lái)源】:湖南科技大學(xué)湖南省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
017年微博活躍用戶規(guī)模Fig1.2TheamountofWeibouserin2017
湖南科技大學(xué)碩士學(xué)位論文7第二章相關(guān)理論基礎(chǔ)2.1微博文本特征挖掘2.1.1文本挖掘與機(jī)器學(xué)習(xí)1.文本挖掘存儲(chǔ)信息的方式多種多樣。人們經(jīng)常使用的各類數(shù)據(jù)庫(kù),其存儲(chǔ)形式是面向?qū)ο,屬于高度結(jié)構(gòu)化方式。對(duì)于一些非結(jié)構(gòu)化的數(shù)據(jù),包括評(píng)論、網(wǎng)頁(yè)及微博等,該類數(shù)據(jù)結(jié)構(gòu)有如下特點(diǎn):(1)多數(shù)以文本形式存在且大規(guī)模;(2).不規(guī)則程度較高且附帶噪聲;(3).轉(zhuǎn)化成結(jié)構(gòu)數(shù)據(jù)時(shí),會(huì)產(chǎn)生高維矩陣。上述特點(diǎn)也導(dǎo)致分析非結(jié)構(gòu)化數(shù)據(jù)更加困難。文本挖掘(TextMining)又稱文本數(shù)據(jù)挖掘,主要從待挖掘的文本數(shù)據(jù)中抽取出有價(jià)值信息并對(duì)提取的信息進(jìn)行分類、聚類或回歸等模式識(shí)別[15]。文本挖掘技術(shù)利用智能算法,基于案例推理、可能性推理等相關(guān)理論,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源抽取或標(biāo)識(shí)概念、詞語(yǔ)間關(guān)系,按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息等[16]。文本挖掘大致步驟包括:文本預(yù)處理、特征提娶特征選擇、文本表示和模式識(shí)別等。以下是文本挖掘的主要流程:圖2.1文本挖掘流程圖Fig2.1Processdiagramoftextmining文本挖掘應(yīng)用領(lǐng)域廣闊,主要應(yīng)用在文本分類、信息抽娶關(guān)鍵詞搜索、語(yǔ)音轉(zhuǎn)化文本、情感分析、用戶推薦和數(shù)字圖書(shū)館等多個(gè)領(lǐng)域。2.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是人工智能的核心,涉及線性代數(shù)、統(tǒng)計(jì)學(xué)及算法等多學(xué)科,致力于研究如何通過(guò)計(jì)算的方法,結(jié)合經(jīng)驗(yàn)改善系統(tǒng)自身性能[17]。機(jī)器學(xué)習(xí)研究的主要內(nèi)容:利用計(jì)算機(jī)和數(shù)據(jù)產(chǎn)生模型,即“學(xué)習(xí)算法”。宗旨是讓機(jī)器學(xué)會(huì)“人識(shí)別事物的方法”,基于經(jīng)驗(yàn)數(shù)據(jù)不斷學(xué)習(xí)、優(yōu)化,面對(duì)新情況可提供相應(yīng)的判斷[18]。機(jī)器學(xué)習(xí)模仿人識(shí)別事物過(guò)程,即學(xué)習(xí)、提取特征、識(shí)別及分類的過(guò)程。
第二章相關(guān)理論基礎(chǔ)8機(jī)器和人類思維不同,人類可根據(jù)事物特征選擇分類方法,機(jī)器學(xué)習(xí)方法的選擇需人工輔助。機(jī)器學(xué)習(xí)方法主要有:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。(1).監(jiān)督學(xué)習(xí)是根據(jù)一組已知類別的樣本集合,通過(guò)調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過(guò)程。學(xué)習(xí)過(guò)程中機(jī)器不斷修改自身以達(dá)到預(yù)期效果,即根據(jù)已知推斷未知。常見(jiàn)監(jiān)督學(xué)習(xí)有分類和回歸。主要算法有:NaiveBayes、SVM、決策樹(shù)、KNN、神經(jīng)網(wǎng)絡(luò)及Logistic分析等;(2).半監(jiān)督方法具有激勵(lì)形式,分類器主要考慮如何利用少量的標(biāo)注樣例和大量未標(biāo)注樣例,以此進(jìn)行訓(xùn)練和分類問(wèn)題,即根據(jù)少量已知和大量未知內(nèi)容進(jìn)行分類。若機(jī)器預(yù)測(cè)結(jié)果正確,將會(huì)得到正向的激勵(lì);若機(jī)器預(yù)測(cè)結(jié)果錯(cuò)誤,將會(huì)得到懲罰。對(duì)于具體環(huán)境,機(jī)器會(huì)考慮采取何種行動(dòng)可得到正向激勵(lì)最大化。代表方法有:最大期望、生成模型和圖算法等。(3).無(wú)監(jiān)督學(xué)習(xí)通過(guò)調(diào)整一組未知類別的樣本分類器的參數(shù),使其達(dá)到所要求性能的過(guò)程。學(xué)習(xí)過(guò)程中,數(shù)據(jù)沒(méi)有被標(biāo)記,機(jī)器需在未標(biāo)記的數(shù)據(jù)中尋找、推斷出數(shù)據(jù)之間潛在的關(guān)系,即機(jī)器自己學(xué)習(xí)。代表方法有:Apriori、FP樹(shù)、K-means等。文本涉及多數(shù)算法和方法多數(shù)歸于機(jī)器學(xué)習(xí)領(lǐng)域。圖2.2機(jī)器學(xué)習(xí)流程簡(jiǎn)圖Fig2.2Processdiagramoflearningmachine2.1.2文本特征表示文本分類是文本挖掘的應(yīng)用方向之一,通過(guò)特定的分類算法,利用文本的內(nèi)容,對(duì)文本進(jìn)行自動(dòng)化分類和特征表示的過(guò)程[19]。具體過(guò)程如圖2.3所示
本文編號(hào):3019740
【文章來(lái)源】:湖南科技大學(xué)湖南省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
017年微博活躍用戶規(guī)模Fig1.2TheamountofWeibouserin2017
湖南科技大學(xué)碩士學(xué)位論文7第二章相關(guān)理論基礎(chǔ)2.1微博文本特征挖掘2.1.1文本挖掘與機(jī)器學(xué)習(xí)1.文本挖掘存儲(chǔ)信息的方式多種多樣。人們經(jīng)常使用的各類數(shù)據(jù)庫(kù),其存儲(chǔ)形式是面向?qū)ο,屬于高度結(jié)構(gòu)化方式。對(duì)于一些非結(jié)構(gòu)化的數(shù)據(jù),包括評(píng)論、網(wǎng)頁(yè)及微博等,該類數(shù)據(jù)結(jié)構(gòu)有如下特點(diǎn):(1)多數(shù)以文本形式存在且大規(guī)模;(2).不規(guī)則程度較高且附帶噪聲;(3).轉(zhuǎn)化成結(jié)構(gòu)數(shù)據(jù)時(shí),會(huì)產(chǎn)生高維矩陣。上述特點(diǎn)也導(dǎo)致分析非結(jié)構(gòu)化數(shù)據(jù)更加困難。文本挖掘(TextMining)又稱文本數(shù)據(jù)挖掘,主要從待挖掘的文本數(shù)據(jù)中抽取出有價(jià)值信息并對(duì)提取的信息進(jìn)行分類、聚類或回歸等模式識(shí)別[15]。文本挖掘技術(shù)利用智能算法,基于案例推理、可能性推理等相關(guān)理論,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源抽取或標(biāo)識(shí)概念、詞語(yǔ)間關(guān)系,按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息等[16]。文本挖掘大致步驟包括:文本預(yù)處理、特征提娶特征選擇、文本表示和模式識(shí)別等。以下是文本挖掘的主要流程:圖2.1文本挖掘流程圖Fig2.1Processdiagramoftextmining文本挖掘應(yīng)用領(lǐng)域廣闊,主要應(yīng)用在文本分類、信息抽娶關(guān)鍵詞搜索、語(yǔ)音轉(zhuǎn)化文本、情感分析、用戶推薦和數(shù)字圖書(shū)館等多個(gè)領(lǐng)域。2.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是人工智能的核心,涉及線性代數(shù)、統(tǒng)計(jì)學(xué)及算法等多學(xué)科,致力于研究如何通過(guò)計(jì)算的方法,結(jié)合經(jīng)驗(yàn)改善系統(tǒng)自身性能[17]。機(jī)器學(xué)習(xí)研究的主要內(nèi)容:利用計(jì)算機(jī)和數(shù)據(jù)產(chǎn)生模型,即“學(xué)習(xí)算法”。宗旨是讓機(jī)器學(xué)會(huì)“人識(shí)別事物的方法”,基于經(jīng)驗(yàn)數(shù)據(jù)不斷學(xué)習(xí)、優(yōu)化,面對(duì)新情況可提供相應(yīng)的判斷[18]。機(jī)器學(xué)習(xí)模仿人識(shí)別事物過(guò)程,即學(xué)習(xí)、提取特征、識(shí)別及分類的過(guò)程。
第二章相關(guān)理論基礎(chǔ)8機(jī)器和人類思維不同,人類可根據(jù)事物特征選擇分類方法,機(jī)器學(xué)習(xí)方法的選擇需人工輔助。機(jī)器學(xué)習(xí)方法主要有:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。(1).監(jiān)督學(xué)習(xí)是根據(jù)一組已知類別的樣本集合,通過(guò)調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過(guò)程。學(xué)習(xí)過(guò)程中機(jī)器不斷修改自身以達(dá)到預(yù)期效果,即根據(jù)已知推斷未知。常見(jiàn)監(jiān)督學(xué)習(xí)有分類和回歸。主要算法有:NaiveBayes、SVM、決策樹(shù)、KNN、神經(jīng)網(wǎng)絡(luò)及Logistic分析等;(2).半監(jiān)督方法具有激勵(lì)形式,分類器主要考慮如何利用少量的標(biāo)注樣例和大量未標(biāo)注樣例,以此進(jìn)行訓(xùn)練和分類問(wèn)題,即根據(jù)少量已知和大量未知內(nèi)容進(jìn)行分類。若機(jī)器預(yù)測(cè)結(jié)果正確,將會(huì)得到正向的激勵(lì);若機(jī)器預(yù)測(cè)結(jié)果錯(cuò)誤,將會(huì)得到懲罰。對(duì)于具體環(huán)境,機(jī)器會(huì)考慮采取何種行動(dòng)可得到正向激勵(lì)最大化。代表方法有:最大期望、生成模型和圖算法等。(3).無(wú)監(jiān)督學(xué)習(xí)通過(guò)調(diào)整一組未知類別的樣本分類器的參數(shù),使其達(dá)到所要求性能的過(guò)程。學(xué)習(xí)過(guò)程中,數(shù)據(jù)沒(méi)有被標(biāo)記,機(jī)器需在未標(biāo)記的數(shù)據(jù)中尋找、推斷出數(shù)據(jù)之間潛在的關(guān)系,即機(jī)器自己學(xué)習(xí)。代表方法有:Apriori、FP樹(shù)、K-means等。文本涉及多數(shù)算法和方法多數(shù)歸于機(jī)器學(xué)習(xí)領(lǐng)域。圖2.2機(jī)器學(xué)習(xí)流程簡(jiǎn)圖Fig2.2Processdiagramoflearningmachine2.1.2文本特征表示文本分類是文本挖掘的應(yīng)用方向之一,通過(guò)特定的分類算法,利用文本的內(nèi)容,對(duì)文本進(jìn)行自動(dòng)化分類和特征表示的過(guò)程[19]。具體過(guò)程如圖2.3所示
本文編號(hào):3019740
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3019740.html
最近更新
教材專著