在線新聞子話題發(fā)現(xiàn)方法及其在金融輿情中的應(yīng)用研究
發(fā)布時(shí)間:2024-01-25 14:28
互聯(lián)網(wǎng)的高速發(fā)展使得人們獲取新聞信息更加快捷方便,因此產(chǎn)生的在線新聞數(shù)據(jù)呈爆炸式增長(zhǎng)。其中蘊(yùn)含了大量豐富有效的輿情事件相關(guān)信息,從中挖掘描述事件各側(cè)面內(nèi)容的子話題可以從多角度了解掌握輿情事件全貌,獲取公眾關(guān)注側(cè)重點(diǎn),把握事件走向,以及為后續(xù)事件的演化分析、管理決策等提供基礎(chǔ)。然而,傳統(tǒng)的話題發(fā)現(xiàn)方法無(wú)法滿足當(dāng)前在線新聞子話題發(fā)現(xiàn)的細(xì)粒度分析要求,如無(wú)法從海量信息中找出準(zhǔn)確有效的子話題類(lèi)別、子話題之間區(qū)分度低和子話題表達(dá)語(yǔ)義不清晰等。因此,展開(kāi)在線新聞子話題發(fā)現(xiàn)研究具有重要意義。本文在閱讀現(xiàn)有的國(guó)內(nèi)外相關(guān)文獻(xiàn)基礎(chǔ)上,分析話題發(fā)現(xiàn)領(lǐng)域各類(lèi)較常使用的技術(shù)優(yōu)缺點(diǎn),結(jié)合在線新聞數(shù)據(jù)特點(diǎn),對(duì)在線新聞子話題發(fā)現(xiàn)方法展開(kāi)研究,主要工作如下:(1)論文首先對(duì)LDA主題模型進(jìn)行分析,針對(duì)其易向高頻詞傾斜而忽略具有話題代表性的低頻特征詞缺點(diǎn),提出了基于特征加權(quán)的LDA模型——LDA-FW,并將該模型與其他傳統(tǒng)方法在搜狗新聞?wù)Z料上進(jìn)行實(shí)驗(yàn)對(duì)比,證明了該方法的有效性。(2)針對(duì)同一事件在線新聞子話題之間區(qū)分度不高、子話題關(guān)鍵詞語(yǔ)義不連貫等問(wèn)題,提出了基于LDA-FW和關(guān)鍵詞優(yōu)化的子話題發(fā)現(xiàn)方法。該方法在LDA-...
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3884985
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
圖1.1網(wǎng)民規(guī)模與互聯(lián)網(wǎng)普及率[1]
圖1.2網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模及使用率圖[1]
圖3.1LDA生成文檔過(guò)程圖
圖3.3搜狗新聞?wù)Z料示例圖
本文編號(hào):3884985
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3884985.html
最近更新
教材專(zhuān)著