天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于集成的擴展主題模型的情感分析研究

發(fā)布時間:2021-03-29 10:57
  隨著互聯網技術的高速發(fā)展,和各類應用軟件在人們日常生活中的滲透,越來越多的用戶習慣在互聯網上發(fā)表對新聞、事件或產品的觀點意見。對這些主觀性非結構化文本進行情感分析,提取和分析文本中的情感傾向,對輿情監(jiān)控、電子商務和信息預測等領域都有著重要作用。因此,對文本進行情感分析在理論和實踐中都有重要的意義。本文主要進行了以下兩個部分的工作:第一,使用TF-IDF加權的n-gram語言模型特征對LDA主題模型進行擴展。在基于詞袋模型的LDA主題模型中,對文本中詞序、上下文等語義信息有所忽略。使用TF-IDF加權的n-gram語言模型特征對主題模型進行擴展,在主題模型中增加部分語義信息,從而提高情感分析的效果。第二,在對LDA主題模型進行擴展的基礎上,基于擴展模型的文本-主題概率分布劃分子樣本集,進行集成學習?紤]集成學習在提高模型效果和穩(wěn)定性中的優(yōu)勢,結合擴展主題模型中各文本具有不同主題的特性,基于主題進行子訓練集的采樣,為集成學習中的各基分類器提供差異性。采用簡單投票法進行決策融合,得到最終的情感分析結果。通過理論推導和實驗結果分析表明,使用本文提出的基于集成的擴展主題模型方法進行情感分析,能夠... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數】:80 頁

【學位級別】:碩士

【部分圖文】:

基于集成的擴展主題模型的情感分析研究


圖3-2?pLSI主題模型示意圖??

示意圖,主題,模型,示意圖


添加了服從Dirichlet先驗分布的假設?],LDA主題模型成為了一個完整的概率生成??模型。??下圖3-3展示了?LDA圖模型的示意圖。其中,K表示主題數目,M表示文檔數??目,A表示第m篇文檔中的單詞數,or和是Dirichlet分布的參數,表示第??m篇文檔中的第n個單詞,z?,?表示第m篇文檔中的第n個單詞的主題,%表示主??題k中詞語的概率分布,九表示第m篇文檔主題的概率分布,同時%和九也都作??為多項式分布的參數,分別用于生成單詞和主題。??〇??????????n#歟耍危恚??kg|?-K|???mg|l,Ml??圖3-3?LDA主題模型示意圖??%和6>?,服從Dirichlet分布,分布函數如式(3.5)所示??Dir{fi\a)?=?——?Ilf(3.5)??20??

集成學習,模型基,思想,分類器


訓練較為困難。我們可以通過使用集成學習的方法,在數據集量級較小的情況下,??提高訓練結果的準確性和穩(wěn)定性??集成學習系統(tǒng)模型的基本思想過程如圖4-1所示,即將基分類器以某種方式進??行組合后做出最終的決策結果,集成學習主要包括訓練樣本子集、基分類器模型和??組合輸出策略三部分。圖4-1中?<?表示選擇的訓練子數據集,是根據原始訓練樣本??以某種方式進行劃分得到的子集,將每個訓練樣本子集式作為輸入來訓練相應的基??分類器,每個基分類器的輸出用某種形式組合,各基分類器結果的權重用w,表示,??最常用的組合輸出方式是非加權投票法或加權投票法。??37??

【參考文獻】:
期刊論文
[1]情感分類研究進展[J]. 陳龍,管子玉,何金紅,彭進業(yè).  計算機研究與發(fā)展. 2017(06)
[2]利用LDA的領域新興主題探測技術綜述[J]. 范云滿,馬建霞.  現代圖書情報技術. 2012(12)
[3]詞干提取方法及工具的對比分析研究[J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜.  圖書情報工作. 2012(15)
[4]國內中文自動分詞技術研究綜述[J]. 奉國和,鄭偉.  圖書情報工作. 2011(02)
[5]多分類器選擇集成方法[J]. 郭紅玲,程顯毅.  計算機工程與應用. 2009(13)

碩士論文
[1]面向網絡論壇的動態(tài)主題建模與文本摘要[D]. 任昭春.山東大學 2012



本文編號:3107432

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3107432.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶64ca2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com