在線多源媒體的話題演化分析
發(fā)布時(shí)間:2020-06-13 05:36
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的迅猛發(fā)展,門戶新聞網(wǎng)站、各類新聞媒體平臺(tái)和搜索引擎構(gòu)成的在線多源媒體已然成為了描述各類話題的重要載體。話題在大規(guī)模在線多源媒體中呈現(xiàn)的演化過(guò)程逐漸成為信息檢索領(lǐng)域的一個(gè)重要的研究方向。主題模型在潛在語(yǔ)義挖掘和主題聚類等領(lǐng)域具有很多優(yōu)勢(shì),近年來(lái)被廣泛應(yīng)用于話題演化研究領(lǐng)域。然而目前模型在話題演化的研究和應(yīng)用中主要集中于在大型語(yǔ)料庫(kù)中挖掘和劃分不同的話題,而分析某一個(gè)特定話題演化過(guò)程的應(yīng)用相對(duì)不足,其難點(diǎn)在于同一個(gè)話題的文本語(yǔ)義過(guò)于相似,不利于文本相似性計(jì)算或共現(xiàn)性統(tǒng)計(jì),因此傳統(tǒng)的主題模型很難發(fā)揮良好的效果。本文通過(guò)研究話題在在線多源媒體環(huán)境下的演化過(guò)程,提出基于多維特征的話題演化模型,在分層狄利克雷過(guò)程(HDP)的基礎(chǔ)上,綜合考慮話題語(yǔ)料庫(kù)中文本的時(shí)間、關(guān)鍵詞、句法關(guān)系和命名實(shí)體等特征,通過(guò)增量詞向量訓(xùn)練的方法得到話題上下文語(yǔ)義關(guān)系,克服了文本語(yǔ)義顆粒過(guò)小導(dǎo)致的模型性能下降的問(wèn)題,實(shí)現(xiàn)了話題在現(xiàn)實(shí)中的演化邏輯分析,挖掘話題在不同時(shí)期的焦點(diǎn)變化,呈現(xiàn)話題的演化圖譜。本文的主要工作有:(1)構(gòu)建話題特征集合庫(kù):新聞是話題在在線多源媒體環(huán)境下最直接和客觀的表現(xiàn)形式之一,本文通過(guò)句法分析樹分析和提取話題片斷的主體、客體和行為等關(guān)系。在句法樹和詞性標(biāo)注的基礎(chǔ)上,獲取話題片斷的時(shí)間、位置、參與對(duì)象和組織機(jī)構(gòu)等實(shí)體關(guān)系。最終實(shí)現(xiàn)提取話題片斷的時(shí)間特征、句法特征(主體、客體和行為)和命名實(shí)體(位置、參與對(duì)象和組織機(jī)構(gòu))并構(gòu)建話題的特征集合庫(kù)。(2)話題語(yǔ)境下的詞向量訓(xùn)練:針對(duì)研究話題的新聞?wù)Z料庫(kù),在傳統(tǒng)大規(guī)模新聞?wù)Z料庫(kù)的基礎(chǔ)上進(jìn)行增量詞向量訓(xùn)練。通過(guò)詞向量的訓(xùn)練結(jié)果構(gòu)建基于話題語(yǔ)境的上下文語(yǔ)義關(guān)系,降低話題演化研究過(guò)程中的文本語(yǔ)義顆粒度。(3)基于多特征的話題演化模型:基于話題多維特征和詞向量關(guān)系,本文提出了基于多特征的話題演化模型(MFTEM)。模型在傳統(tǒng)分層狄利克雷過(guò)程(HDP)的基礎(chǔ)上,從橫向上擴(kuò)展了時(shí)間維度,從縱向上增加了話題的多維特征,使模型更加符合話題演化的一般形式,并利用詞向量包含的上下文語(yǔ)義關(guān)系,擴(kuò)展了文本中詞的語(yǔ)義,有利于分析和挖掘話題在不同階段的焦點(diǎn)變化,有效描述了話題在在線多源媒體環(huán)境下的演化過(guò)程,建立話題的演化圖譜。(4)實(shí)驗(yàn)驗(yàn)證:為了驗(yàn)證話題演化分析的準(zhǔn)確性,本文基于現(xiàn)實(shí)門戶新聞網(wǎng)站和各類新聞媒體平臺(tái),抓取了五個(gè)熱門話題的新聞數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與第三方人工標(biāo)注的信息進(jìn)行對(duì)比。從分析和對(duì)比結(jié)果可以得出:本文提出的MFTEM模型和特征選取方法能夠有效分析和描述話題在現(xiàn)實(shí)中的演化過(guò)程,并且可以用符合人們對(duì)話題演化的認(rèn)知邏輯呈現(xiàn)話題的演化圖譜。同時(shí),本文提出的模型算法以自動(dòng)運(yùn)行為主,對(duì)話題本身或模型均無(wú)需過(guò)多的先驗(yàn)知識(shí)和專業(yè)理論水平,就可以發(fā)揮較好的效果。
【圖文】:
圖 1.1 5·12 汶川地震演化圖譜示例表 1.1 5·12 汶川地震演化情況時(shí)間 話題內(nèi)容2008年5月12日 14:28汶川縣發(fā)生8.0級(jí)地震2008年5月16日 溫家寶趕往災(zāi)區(qū)指導(dǎo)抗震2008年5月18日 5月19日至21日為全國(guó)哀悼日,省級(jí)衛(wèi)視、電視臺(tái)的臺(tái)標(biāo)置灰,4:58天安門廣場(chǎng)國(guó)旗降半旗,14時(shí)28分起全國(guó)默哀3分鐘2008年5月21日 建立災(zāi)后恢復(fù)重建基金2008年5月27日 實(shí)行一省幫一縣加快恢復(fù)重建2008年6月8日 地震災(zāi)后恢復(fù)重建條例公布2008年7月3日 國(guó)務(wù)院發(fā)布災(zāi)后重建指導(dǎo)從演化圖譜和百科標(biāo)注的話題演化信息可看出,汶川地震話題的演化過(guò)程經(jīng)歷了地震發(fā)生、抗震救災(zāi)、過(guò)渡安置和災(zāi)后重建等多個(gè)焦點(diǎn)的變化。在話題演化的各個(gè)階段,
圖 1.2 整體研究框圖本文的研究?jī)?nèi)容包括:首先從在線多源媒體中獲取和篩選話題相關(guān)新聞?wù)Z料信息;其次提取新聞的時(shí)間特征、句法特征和命名實(shí)體特征,為了更精確地解析新聞描述內(nèi)容的實(shí)際時(shí)間,本文基于句法依賴關(guān)系提取句子中的時(shí)間關(guān)系子圖得到時(shí)間的完整表達(dá)式,并建立時(shí)間推理模型標(biāo)準(zhǔn)化表達(dá)式;同時(shí)為了克服同一話題下文本之間語(yǔ)義相似度過(guò)高的問(wèn)題,本文基于話題語(yǔ)境對(duì)話題語(yǔ)料庫(kù)進(jìn)行增量詞向量訓(xùn)練,使每個(gè)詞項(xiàng)可以包含文本的上下文語(yǔ)義信息,降低了語(yǔ)義顆粒度;然后在特征提取和詞向量的基礎(chǔ)上,建立基于多特征的話題演化模型,生成各階段子話題的時(shí)間、文檔和特征分布;再次基于演化分析結(jié)果,根據(jù)需求對(duì)子話題進(jìn)行篩選合并,提取各階段子話題的關(guān)鍵信息和摘要內(nèi)容;最后建立話題演化圖譜。從應(yīng)用場(chǎng)景的角度,,本文較以往研究最大的區(qū)別和特點(diǎn)是以往的研究主要針對(duì)大型語(yǔ)料庫(kù)(包含多個(gè)話題),并從中挖掘和發(fā)現(xiàn)不同的話題劃分,對(duì)于話題演化的工作傾向于利用時(shí)間關(guān)系跟蹤各話題相關(guān)的文本,并展示每個(gè)單位時(shí)間內(nèi)的關(guān)鍵信息。而本文主要針對(duì)用戶關(guān)心的特定話題,在檢測(cè)和跟蹤話題相關(guān)文本的基礎(chǔ)上,對(duì)該話題內(nèi)部的演化過(guò)程進(jìn)行進(jìn)一步精細(xì)化劃分,通過(guò)生成子話題的分布,得到話題各階段的焦點(diǎn)變化、
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G206;TP391.1
本文編號(hào):2710732
【圖文】:
圖 1.1 5·12 汶川地震演化圖譜示例表 1.1 5·12 汶川地震演化情況時(shí)間 話題內(nèi)容2008年5月12日 14:28汶川縣發(fā)生8.0級(jí)地震2008年5月16日 溫家寶趕往災(zāi)區(qū)指導(dǎo)抗震2008年5月18日 5月19日至21日為全國(guó)哀悼日,省級(jí)衛(wèi)視、電視臺(tái)的臺(tái)標(biāo)置灰,4:58天安門廣場(chǎng)國(guó)旗降半旗,14時(shí)28分起全國(guó)默哀3分鐘2008年5月21日 建立災(zāi)后恢復(fù)重建基金2008年5月27日 實(shí)行一省幫一縣加快恢復(fù)重建2008年6月8日 地震災(zāi)后恢復(fù)重建條例公布2008年7月3日 國(guó)務(wù)院發(fā)布災(zāi)后重建指導(dǎo)從演化圖譜和百科標(biāo)注的話題演化信息可看出,汶川地震話題的演化過(guò)程經(jīng)歷了地震發(fā)生、抗震救災(zāi)、過(guò)渡安置和災(zāi)后重建等多個(gè)焦點(diǎn)的變化。在話題演化的各個(gè)階段,
圖 1.2 整體研究框圖本文的研究?jī)?nèi)容包括:首先從在線多源媒體中獲取和篩選話題相關(guān)新聞?wù)Z料信息;其次提取新聞的時(shí)間特征、句法特征和命名實(shí)體特征,為了更精確地解析新聞描述內(nèi)容的實(shí)際時(shí)間,本文基于句法依賴關(guān)系提取句子中的時(shí)間關(guān)系子圖得到時(shí)間的完整表達(dá)式,并建立時(shí)間推理模型標(biāo)準(zhǔn)化表達(dá)式;同時(shí)為了克服同一話題下文本之間語(yǔ)義相似度過(guò)高的問(wèn)題,本文基于話題語(yǔ)境對(duì)話題語(yǔ)料庫(kù)進(jìn)行增量詞向量訓(xùn)練,使每個(gè)詞項(xiàng)可以包含文本的上下文語(yǔ)義信息,降低了語(yǔ)義顆粒度;然后在特征提取和詞向量的基礎(chǔ)上,建立基于多特征的話題演化模型,生成各階段子話題的時(shí)間、文檔和特征分布;再次基于演化分析結(jié)果,根據(jù)需求對(duì)子話題進(jìn)行篩選合并,提取各階段子話題的關(guān)鍵信息和摘要內(nèi)容;最后建立話題演化圖譜。從應(yīng)用場(chǎng)景的角度,,本文較以往研究最大的區(qū)別和特點(diǎn)是以往的研究主要針對(duì)大型語(yǔ)料庫(kù)(包含多個(gè)話題),并從中挖掘和發(fā)現(xiàn)不同的話題劃分,對(duì)于話題演化的工作傾向于利用時(shí)間關(guān)系跟蹤各話題相關(guān)的文本,并展示每個(gè)單位時(shí)間內(nèi)的關(guān)鍵信息。而本文主要針對(duì)用戶關(guān)心的特定話題,在檢測(cè)和跟蹤話題相關(guān)文本的基礎(chǔ)上,對(duì)該話題內(nèi)部的演化過(guò)程進(jìn)行進(jìn)一步精細(xì)化劃分,通過(guò)生成子話題的分布,得到話題各階段的焦點(diǎn)變化、
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G206;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 林盛;金培權(quán);趙旭劍;岳麗華;;時(shí)間感知的Web搜索研究[J];計(jì)算機(jī)學(xué)報(bào);2015年11期
2 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實(shí)體鏈接方法[J];軟件學(xué)報(bào);2014年09期
3 趙旭劍;楊春明;李波;張暉;金培權(quán);岳麗華;戴文鍇;;一種基于特征演變的新聞話題演化挖掘方法[J];計(jì)算機(jī)學(xué)報(bào);2014年04期
4 周建英;王飛躍;曾大軍;;分層Dirichlet過(guò)程及其應(yīng)用綜述[J];自動(dòng)化學(xué)報(bào);2011年04期
本文編號(hào):2710732
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2710732.html
最近更新
教材專著