Web新聞專題組織與生成系統(tǒng)研究
發(fā)布時間:2020-01-22 15:17
【摘要】: 隨著互聯(lián)網(wǎng)的迅猛發(fā)展與普及,Web新聞信息呈爆炸式的增長。人們希望方便快捷地從海量的Web新聞中獲取自己感興趣的信息,并能了解某一突發(fā)的新聞事件或熱點(diǎn)事件的前因后果和來龍去脈。應(yīng)用主題檢測與追蹤技術(shù)、新聞來龍去脈生成技術(shù),實(shí)現(xiàn)對新聞信息自動組織和專題生成,幫助用戶有效地收集、檢索和管理新聞信息,為用戶提供高層次的信息服務(wù),這在搜索引擎、信息監(jiān)控、知識管理等應(yīng)用領(lǐng)域具有極其重要的實(shí)用意義。本文首先分析新聞專題組織與生成系統(tǒng)的基本原理與結(jié)構(gòu),及其所面臨的主要困難與相應(yīng)的技術(shù)手段,然后分別就系統(tǒng)各主要模塊的關(guān)鍵技術(shù)進(jìn)行研究,主要做了如下五個方面工作: (1)研究了當(dāng)前網(wǎng)頁信息采集所遇到的困難,設(shè)計(jì)并實(shí)現(xiàn)了Web新聞信息采集器。該采集器對寬度采集優(yōu)先策略進(jìn)行改進(jìn),在采集過程中進(jìn)行了網(wǎng)頁類型判斷。 (2)詳細(xì)地分析了Web中導(dǎo)航條、廣告信息、版權(quán)信息等噪聲內(nèi)容使主題檢測性能下降的問題,研究了Web噪聲凈化技術(shù),并給出了一種基于向量空間模型的網(wǎng)頁噪聲凈化方法。 (3)研究了基于自適應(yīng)重心的主題檢測方法。新方法針對主題檢測中事件動態(tài)發(fā)展可能會導(dǎo)致后繼故事判斷錯誤的現(xiàn)象,用命名實(shí)體作為特征項(xiàng)來表示主題重心,通過組合初始的主題重心以及每一次動態(tài)修正后的主題重心,構(gòu)建用于檢測后繼故事的總主題檢測器。。 (4)研究了基于LS-SVM的新聞主題追蹤方法。該方法利用隱含語義分析(Latent Semmantic Indexing,LSI)完成文本特征降維及語義表示,然后采用支持向量機(jī)(SVM)進(jìn)行新聞主題追蹤,從而實(shí)現(xiàn)語義層次的新聞主題追蹤。 (5)研究了基于NS-IMMC的新聞專題來龍去脈生成方法。該方法根據(jù)新聞結(jié)構(gòu)特點(diǎn)(News Structure,NS)抽取文摘句;然后利用改進(jìn)的最小最大聚類算法(Improve Min-Max Clustering,IMMC)對文摘句進(jìn)行聚類,最后按照新聞文檔的時間順序輸出文摘句生成多文檔摘要,用來表示專題來龍去脈。
【圖文】:
噪聲的去除二’噪聲內(nèi)容通常分布在主題內(nèi)容周圍,有時也夾雜在主題內(nèi)容中間,但它們并無內(nèi)容相關(guān)性。從圖34可以看出一個新聞網(wǎng)頁一般由下面幾個部分組成【301:①最上方的導(dǎo)航鏈接,例如:“首頁”、“娛樂”;②“無處不在”的廣告鏈接;③檢索輸入界面;④版權(quán)信息;⑤頁面主題區(qū)。需要特別注意的一個現(xiàn)象:現(xiàn)在許多站點(diǎn)的收入都來自于廣告,而且隨著因特網(wǎng)的普及,這個現(xiàn)象會越來越明顯。設(shè)計(jì)者在設(shè)計(jì)廣告時考慮的首要問題是如何吸引用戶的,’g良球”。因?yàn)閳D像相比文字具有更強(qiáng)的表現(xiàn)力,所以通常網(wǎng)頁中的廣告都是以圖像的形式嵌入到網(wǎng)頁中。如果用戶對廣告感興趣,則點(diǎn)擊圖片就可以進(jìn)入廣告自己的站點(diǎn)。實(shí)際上,人們對廣告信息不感興趣,而且
文檔樹結(jié)構(gòu)示意圖
【學(xué)位授予單位】:中南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP319
本文編號:2571979
【圖文】:
噪聲的去除二’噪聲內(nèi)容通常分布在主題內(nèi)容周圍,有時也夾雜在主題內(nèi)容中間,但它們并無內(nèi)容相關(guān)性。從圖34可以看出一個新聞網(wǎng)頁一般由下面幾個部分組成【301:①最上方的導(dǎo)航鏈接,例如:“首頁”、“娛樂”;②“無處不在”的廣告鏈接;③檢索輸入界面;④版權(quán)信息;⑤頁面主題區(qū)。需要特別注意的一個現(xiàn)象:現(xiàn)在許多站點(diǎn)的收入都來自于廣告,而且隨著因特網(wǎng)的普及,這個現(xiàn)象會越來越明顯。設(shè)計(jì)者在設(shè)計(jì)廣告時考慮的首要問題是如何吸引用戶的,’g良球”。因?yàn)閳D像相比文字具有更強(qiáng)的表現(xiàn)力,所以通常網(wǎng)頁中的廣告都是以圖像的形式嵌入到網(wǎng)頁中。如果用戶對廣告感興趣,則點(diǎn)擊圖片就可以進(jìn)入廣告自己的站點(diǎn)。實(shí)際上,人們對廣告信息不感興趣,而且
文檔樹結(jié)構(gòu)示意圖
【學(xué)位授予單位】:中南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP319
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 薛麗敏;薛虹軍;;一種新型的網(wǎng)頁去噪及網(wǎng)頁類型判斷方法[J];信息網(wǎng)絡(luò)安全;2013年06期
,本文編號:2571979
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2571979.html
最近更新
教材專著