基于LDA主題模型的高校新聞話題發(fā)現(xiàn)研究
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1一高校新聞話題發(fā)現(xiàn)流程
在LDA主題模型及其在話題檢測與跟蹤方面的應(yīng)用研宄也取得了一系列的研宄成??果[3?5],清華大學的王嘉琦%]提出了一種基于LDA的增量式話題檢測方法,在??LDA主題模型中加入了以降維為手段的文本信息,結(jié)合時間衰減函數(shù),實現(xiàn)了在??語料庫不斷積累的過程中文本數(shù)目保持不變的目的,....
圖2-1新聞話題發(fā)現(xiàn)基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??
了常見的話題類型[38],并且說明了話題可以是可預(yù)知的,例如涉及到選舉的話題;??也可以是不可預(yù)知的,例如涉及到自然災(zāi)害的話題。??話題發(fā)現(xiàn)的一般流程主要分以下幾步,如圖2-1所示:??々.C?AC?AC??3?r?3?r????|?聞?聞?聞????新聞?wù)Z料收集—卜預(yù)一卜,__....
圖2-2新聞文本采集過程??Figure?2-2?News?text?collection?process??
BeautifulSoup是Python中的一個模塊,該模塊用于接收一個HTML或XML??字符串,然后將其進行格式化,之后便可以使用它提供的方法進行快速查找指定元??素,從而使得在HTML或XML中查找指定元素變得簡單。圖2-2為采用Python??語言采集新聞數(shù)據(jù)的流程及所用....
圖2一向量空間模型
通大學碩士學位論文?相關(guān)理論向量空間模型??文本表示模型中,由于結(jié)構(gòu)簡單并且方便計算,向量空間模型(Vector,VSM)?在文本處理領(lǐng)域得到了廣泛應(yīng)用。該模型可以將新聞數(shù)據(jù)化為空間中的向量表示,然后以向量在空間上的相似度來表征文本。??VSM模型中,每篇文檔可以表示成《維向量,....
本文編號:4027168
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4027168.html