天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 論文百科 > 研究生論文 >

基于事件-時(shí)間關(guān)聯(lián)模型的新聞話題檢測(cè)與動(dòng)態(tài)演化跟蹤

發(fā)布時(shí)間:2016-06-12 06:40

第一章   緒論

在研究榮華餅家官網(wǎng)的數(shù)據(jù)挖掘項(xiàng)目中,本文作者發(fā)現(xiàn)每個(gè)產(chǎn)品都有很多評(píng)論,每條評(píng)論都針對(duì)產(chǎn)品的某個(gè)特征,如果能對(duì)評(píng)論分析得出對(duì)應(yīng)的特征,將有助于榮華餅家改善產(chǎn)品。其次,本文作者也觀察了不少電商網(wǎng)站,發(fā)現(xiàn)電商平臺(tái)上每天都會(huì)有包括購(gòu)買記錄、產(chǎn)品評(píng)論等在內(nèi)的大量信息,其中充分分析評(píng)論信息以得出用戶對(duì)產(chǎn)品的情感傾向,將也會(huì)對(duì)商家以及其他用戶帶來(lái)一定的參考價(jià)值。但是,僅僅知道用戶的情感傾向,卻無(wú)法得知用戶是對(duì)產(chǎn)品哪一個(gè)特征的評(píng)論將會(huì)導(dǎo)致商家不知如何改進(jìn)產(chǎn)品、其他用戶無(wú)法對(duì)比選擇。因此,基于以上背景,本文選擇了評(píng)論特征挖掘?yàn)檠芯糠较。產(chǎn)品特征又可分為顯性產(chǎn)品特征和隱性產(chǎn)品特征,目前顯性產(chǎn)品特征研究成果較多,而隱性產(chǎn)品特征的研究還有很大的空間,所以,本文將會(huì)著重研究隱性產(chǎn)品特征的提取方法。 

1.1 研究背景與意義 
隨著因特網(wǎng)技術(shù)應(yīng)用的發(fā)展,用戶通過(guò)瀏覽某個(gè)產(chǎn)品的網(wǎng)絡(luò)評(píng)論來(lái)借此深入了解產(chǎn)品并幫助他們做出可靠的決定已成為一種趨勢(shì)。與此同時(shí),商家通過(guò)對(duì)網(wǎng)絡(luò)客戶的評(píng)論進(jìn)行分析,得到客戶的反饋意見(jiàn),借此來(lái)改進(jìn)產(chǎn)品以獲得更大的競(jìng)爭(zhēng)力。但是,伴隨商務(wù)平臺(tái)的迅速發(fā)展,尤其是在淘寶這類有著廣大客戶群體的網(wǎng)站中,產(chǎn)品評(píng)論數(shù)快速增長(zhǎng),某些熱門(mén)產(chǎn)品的評(píng)論數(shù)量動(dòng)輒就有數(shù)十萬(wàn),這使得獲取評(píng)論中有效的信息越來(lái)越困難,如何通過(guò)技術(shù)手段準(zhǔn)確地獲得評(píng)論中的有效信息成為了關(guān)注熱點(diǎn)。因此,以有效獲取網(wǎng)絡(luò)用戶評(píng)論信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)——“評(píng)論挖掘”吸引了很多學(xué)者關(guān)注[1]。評(píng)論挖掘中的分支特征挖掘是為了能夠自動(dòng)且準(zhǔn)確地獲取用戶對(duì)商家產(chǎn)品的某個(gè)特征的觀點(diǎn)。觀察淘寶等網(wǎng)站的用戶評(píng)論區(qū),可以發(fā)現(xiàn)這些網(wǎng)站已經(jīng)實(shí)現(xiàn)了特征挖掘的初步應(yīng)用,得到諸如“價(jià)格優(yōu)惠”、“質(zhì)量不錯(cuò)”等評(píng)論摘要,使用戶可以更加便捷地瀏覽選購(gòu)。但是這些應(yīng)用也還存在一定的不足,僅能對(duì)幾個(gè)最常見(jiàn)的產(chǎn)品特征進(jìn)行摘要[2]。另外,在評(píng)論中,常常會(huì)出現(xiàn)某些評(píng)論,只表達(dá)了意見(jiàn),并沒(méi)有指明此意見(jiàn)是針對(duì)哪種特征。而提取特征是評(píng)論挖掘的基礎(chǔ),全面且準(zhǔn)確地提取出特征,評(píng)論挖掘之后的分析才更可信。 
...........

1.2 國(guó)內(nèi)外評(píng)論挖掘研究現(xiàn)狀
評(píng)論挖掘是近幾年學(xué)術(shù)界的研究熱點(diǎn)之一[3],在國(guó)外的一些英文評(píng)論挖掘領(lǐng)域,研究者已經(jīng)初步獲得了一些研究成果,而國(guó)內(nèi)的評(píng)論挖掘領(lǐng)域還處在初步發(fā)展階段,F(xiàn)階段由于中國(guó)的電子商務(wù)的發(fā)展,迫切需要一個(gè)針對(duì)中文的評(píng)論挖掘技術(shù)。但是由于中西國(guó)度的文化差異和語(yǔ)言的不同,使得國(guó)外的一些研究成果并不適用于中國(guó)國(guó)內(nèi)的中文評(píng)論挖掘,因而對(duì)基于中文的評(píng)論挖掘技術(shù)的探索是有必要的。國(guó)內(nèi)外對(duì)評(píng)論挖掘方法的研究大致可以分為三類:(1)產(chǎn)品特征直接提。2)產(chǎn)品特征與關(guān)聯(lián)對(duì)聯(lián)合提。3)主題模型的應(yīng)用。在產(chǎn)品特征提取的研究上,可以分為對(duì)顯性產(chǎn)品特征和隱性產(chǎn)品特征的研究。最初的顯性產(chǎn)品特征提取方法是人工列舉出所有的產(chǎn)品特征,從而建立對(duì)應(yīng)產(chǎn)品的特征詞庫(kù),Kobayashi、lnui 和 Matsumoto 就以人工定義的方式對(duì)汽車構(gòu)建了含有 287 個(gè)的產(chǎn)品特征的產(chǎn)品特征詞庫(kù),然后將產(chǎn)品特性詞庫(kù)和文本進(jìn)行對(duì)比分析[4],這種人工定義產(chǎn)品特征的方法有一定的缺陷,首先不同的領(lǐng)域產(chǎn)品的特征是不同的,需要相應(yīng)領(lǐng)域的專家才能建立完善的特征詞庫(kù),不具有良好的移植性,其次,每改變一次產(chǎn)品功能,就需要修改一次特征詞庫(kù),浪費(fèi)大量的人力物力。 隨后 Hu 和 Liu[5]提出了一種自動(dòng)提取產(chǎn)品特征的方法。他們使用數(shù)據(jù)挖掘中的 Apriori 算法,首先篩選出常見(jiàn)的無(wú)用詞匯,提取對(duì)應(yīng)文本數(shù)據(jù)中出現(xiàn)頻率較高的產(chǎn)品特征,構(gòu)成頻繁特征集。然后選取與頻繁特征集中的項(xiàng)集共同出現(xiàn)的形容詞作為意見(jiàn)詞,再選取與意見(jiàn)詞共同出現(xiàn)的名詞組成非頻繁特征集。在剪枝操作后,召回率和準(zhǔn)確率都有了一定的提升。但是這種方法的缺陷是在復(fù)雜的句子中將無(wú)法表示產(chǎn)品特征和意見(jiàn)詞之間的關(guān)系[6]。 
...........

第二章   參考算法

本文提出的兩個(gè)提取方法中,分別改進(jìn)了 LDA 主題模型和基于上下文的隱性產(chǎn)品特征關(guān)聯(lián)對(duì)提取算法,吸取了向量空間模型的核心思想,使用了 TF-IDF算法和余弦相似度,因此,本章將對(duì)本文中參考的算法進(jìn)行簡(jiǎn)介。 
2.1LDA 主題模型
大量文本的出現(xiàn)使分析文本越來(lái)越復(fù)雜,這導(dǎo)致了基于主題的分層次統(tǒng)計(jì)模型研究的出現(xiàn),產(chǎn)生了以 LDA 為代表的概率主題模型[29]。與可以直接觀察到的文檔和詞語(yǔ)相比,主題表示了這個(gè)文檔或者詞語(yǔ)潛在的含義,是一個(gè)抽象的概念。概率主題模型本質(zhì)上是一種聚類,通過(guò)觀察詞語(yǔ)的分布規(guī)律,將有著相似分布規(guī)律的詞語(yǔ)聚集在一起。主題在主題模型中對(duì)應(yīng)的是聚類中的簇,每篇文檔或者詞語(yǔ)以不同的概率屬于不同的主題。 LDA 是一種貝葉斯模型,利用了詞袋的方法,該方法即將每篇文檔看成詞頻的向量,詞語(yǔ)與詞語(yǔ)是無(wú)序的,這方便于數(shù)學(xué)建模。主題模型的中心思想是認(rèn)為一個(gè)主題是由特定的詞頻分布構(gòu)成的,一篇文章由幾段話構(gòu)成,一段話由許多句子構(gòu)成,每個(gè)句子則是由許多詞語(yǔ)組成,而詞語(yǔ)的生成則是由特定主題下的詞頻概率分布中隨機(jī)生成。
............

2.2 向量空間模型
向量空間模型即將文本處理的內(nèi)容轉(zhuǎn)化為向量空間中的向量計(jì)算,以數(shù)學(xué)化的語(yǔ)言表示文檔內(nèi)容,方便文檔處理。向量空間模型有三個(gè)要素:(1)文檔的表示;(2)文檔類的表示;(3)文檔與文檔之間以及文檔與文檔類之間的相似度計(jì)算函數(shù)[31]。TF-IDF 是一種用于評(píng)估一個(gè)詞對(duì)一篇文檔的重要程度的統(tǒng)計(jì)方法。TF-IDF 的主要思想是:如果一個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)的次數(shù)越多則其越重要,然而如果該詞在整個(gè)文檔集中出現(xiàn)的頻率越高,則其反而越不重要。TF-IDF 實(shí)際上等于 TF*IDF,其中 TF 表示詞頻,指的是一個(gè)詞在某個(gè)文檔中出現(xiàn)的次數(shù),IDF 表示逆向文件頻率,表示一個(gè)詞的普遍重要性。相似度計(jì)算函數(shù)可用來(lái)計(jì)算文檔與文檔之間以及文檔與文檔之間的相似度,該函數(shù)的計(jì)算結(jié)果如果大于某個(gè)值,則可認(rèn)為這兩個(gè)文檔相似或者某個(gè)文檔屬于一個(gè)文檔集。本文采用了余弦相似度算法來(lái)計(jì)算文檔之間的相似度。 由于文檔和文檔類都可以用向量來(lái)表示,則求它們之間的相似度可看成求向量之間的距離,向量之間的夾角是用來(lái)求向量之間距離的一種方法。
.........   

第三章   意見(jiàn)詞和上下文詞庫(kù)的建立...... 12 
3.1 語(yǔ)料的獲取.... 12 
3.2 詞庫(kù)建立方法........ 12 
3.2.1 選擇候選意見(jiàn)詞和上下文詞 ......... 12 
3.2.2 上下文詞庫(kù)建立 ..... 14 
3.2.3 意見(jiàn)詞詞庫(kù)建立 ..... 16 
3.3 實(shí)驗(yàn)與分析.... 16 
3.4 本章小結(jié)........ 17 
第四章   主題-意見(jiàn)詞聯(lián)合模型(JTO)提取方法研究 ......... 19 
4.1 主題-意見(jiàn)詞聯(lián)合模型(JTO)提取方法研究背景 ........... 19 
4.2 主題-意見(jiàn)詞聯(lián)合模型(JTO)提取方法實(shí)現(xiàn) ........... 19 
4.3 主題-意見(jiàn)詞聯(lián)合模型(JTO)提取方法實(shí)驗(yàn)分析 ......... 23
4.4 主題-意見(jiàn)詞聯(lián)合模型(JTO)提取方法適用范圍 ......... 26 
4.5 本章小結(jié)........ 26 
第五章   考慮上下文權(quán)重的提取方法研究...... 28 
5.1 考慮上下文權(quán)重的提取方法研究背景........ 28 
5.2 考慮上下文權(quán)重的提取方法實(shí)現(xiàn)........ 28
5.3 考慮上下文權(quán)重的提取方法實(shí)驗(yàn)分析........ 32
5.4 考慮上下文權(quán)重的提取方法適用范圍........ 34 
5.5 本章小結(jié)........ 35 

第五章   考慮上下文權(quán)重的提取方法研究

針對(duì)基于上下文的隱性產(chǎn)品特征關(guān)聯(lián)對(duì)提取算法[6]、主題和意見(jiàn)詞聯(lián)合模型對(duì)上下文信息是否可信的情況都沒(méi)有考慮,本文又提出了一種考慮上下文權(quán)重的方法,該方法改進(jìn)了共現(xiàn)矩陣以顯著區(qū)別意見(jiàn)詞與上下文之間的距離,并根據(jù)此共現(xiàn)矩陣和 LDA 模型設(shè)計(jì)了一個(gè)公式來(lái)計(jì)算上下文權(quán)重值。本章將重點(diǎn)介紹考慮上下文權(quán)重提取方法的研究背景、方法實(shí)現(xiàn)、實(shí)驗(yàn)分析和適用范圍。 

5.1 考慮上下文權(quán)重的提取方法研究背景

已有研究表明對(duì)于意見(jiàn)詞尤其是一般意見(jiàn)詞來(lái)說(shuō),分析上下文信息將會(huì)使提取結(jié)果更加準(zhǔn)確[6]。然而對(duì)于這類評(píng)論句“裙子很好,但是價(jià)格太貴了”,上下文信息“價(jià)格”并不是意見(jiàn)詞“好”所暗示的產(chǎn)品特征。在這種情況下,單純地考慮上下文信息也許會(huì)導(dǎo)致更加錯(cuò)誤的結(jié)果。所以,判斷上下文信息是否有用是很重要的工作。本文提出綜合考慮上下文信息和意見(jiàn)詞的主題信息將會(huì)解決此類問(wèn)題。 目前,已經(jīng)存在的提取隱性產(chǎn)品特征的方法主要考慮意見(jiàn)詞和產(chǎn)品特征的關(guān)系。基于上下文的隱性產(chǎn)品特征關(guān)聯(lián)對(duì)提取算法[6]則提出建立意見(jiàn)詞和意見(jiàn)詞附近的上下文詞的共現(xiàn)矩陣,但是,在“手機(jī)很好,色彩明亮,屏幕也清晰,,就是價(jià)格太貴了”這樣的評(píng)論句中,“色彩”和“屏幕”都是有用的上下文信息,而“價(jià)格”卻不是。基于此,在計(jì)算共現(xiàn)矩陣中的共現(xiàn)值時(shí),如果能夠考慮意見(jiàn)詞和不同上下文詞之間的距離,則會(huì)使結(jié)果更加合理。同時(shí),利用這個(gè)共現(xiàn)矩陣,還可得到意見(jiàn)詞的上下文概率分布。 評(píng)論句中的每個(gè)詞都有自己的主題,如果主題和上下文信息類似的話則說(shuō)明這個(gè)上下文信息是可靠的。主題模型可用于提取詞的主題,并且在一些參考文獻(xiàn)中[34],與產(chǎn)品特征概念類似的產(chǎn)品類別已經(jīng)被當(dāng)作主題用來(lái)提取產(chǎn)品特征。基于此,可以得出利用主題模型能夠求得意見(jiàn)詞的隱性產(chǎn)品特征概率分布的結(jié)論。本方法將充分使用改進(jìn)的共現(xiàn)矩陣和主題模型來(lái)解決上下文權(quán)重的問(wèn)題。 

基于事件-時(shí)間關(guān)聯(lián)模型的新聞話題檢測(cè)與動(dòng)態(tài)演化跟蹤

............

總結(jié)

電子商務(wù)的迅速發(fā)展使電商平臺(tái)上每天都會(huì)有大量包括購(gòu)買記錄、產(chǎn)品評(píng)論等數(shù)據(jù)在內(nèi)的信息,其中,如果能充分分析評(píng)論信息以得出用戶對(duì)產(chǎn)品的情感傾向,將會(huì)對(duì)商家以及其他用戶帶來(lái)一定的參考價(jià)值。但是,僅僅知道用戶的情感傾向,卻無(wú)法得知用戶是對(duì)產(chǎn)品具體哪個(gè)特征的評(píng)論將會(huì)導(dǎo)致商家不知如何改進(jìn)產(chǎn)品、其他用戶無(wú)法對(duì)比選擇。因此,為了使評(píng)論分析更加細(xì)粒,基于意見(jiàn)詞的特征挖掘研究是很有必要的。產(chǎn)品特征可分為顯性產(chǎn)品特征和隱性產(chǎn)品特征,顯性產(chǎn)品特征研究成果較多,而隱性產(chǎn)品特征的研究尚有欠缺。 基于以上背景,本文以隱性產(chǎn)品特征提取為研究目標(biāo),以評(píng)論集為研究對(duì)象。在詞庫(kù)建立、提取算法改進(jìn)、系統(tǒng)實(shí)現(xiàn)部分均做出了一定的貢獻(xiàn),具體的貢獻(xiàn)內(nèi)容可概括如下: 
(1)在詞庫(kù)建立部分,現(xiàn)有的提取有效詞的方法均有一定的片面性,只考慮了影響詞的有效性的一個(gè)方面,本文提出了考慮多種因素的綜合加權(quán)的方法來(lái)建立詞庫(kù),首先對(duì)分詞后的原始詞庫(kù)利用詞組規(guī)則得到候選詞庫(kù),再綜合加權(quán)包括 TF-IDF 值、雙向循環(huán)過(guò)濾值、詞長(zhǎng)權(quán)值、詞組規(guī)則權(quán)值在內(nèi)的多個(gè)值,從而得到最終的意見(jiàn)詞和上下文詞庫(kù)。 
(2)在提取算法改進(jìn)部分,本文提出了兩種不同的算法:首先,針對(duì)現(xiàn)有的基于上下文的算法只考慮同一個(gè)評(píng)論句的上下文,從而可能會(huì)導(dǎo)致結(jié)果不準(zhǔn)確的情況,本文提出了主題-意見(jiàn)詞聯(lián)合模型(JTO),該模型在 LDA 的三個(gè)層級(jí)中加入了意見(jiàn)詞層級(jí),以獲取某個(gè)意見(jiàn)詞在全部評(píng)論集中的上下文概率分布;然后,由于基于上下文的隱性產(chǎn)品特征關(guān)聯(lián)對(duì)提取算法和主題-意見(jiàn)詞聯(lián)合模型對(duì)上下文信息是否可信的情況都沒(méi)有考慮,本文提出了考慮上下文權(quán)重的提取方法,同時(shí)在提取方法中也改進(jìn)了共現(xiàn)矩陣以用距離信息來(lái)判斷上下文信息的重要性。兩種方法的實(shí)驗(yàn)結(jié)果表明對(duì)于隱性產(chǎn)品特征的提取,它們?cè)谡倩芈屎蜏?zhǔn)確率方面都有了一定的提升。 
.........
參考文獻(xiàn)(略)




本文編號(hào):56310

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/lwfw/56310.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c8e54***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com