【摘要】:近年來,互聯(lián)網(wǎng)在人們的日常生活中扮演著越來越重要的角色,每天都會有紛繁復(fù)雜的新聞事件以各種各樣的形式發(fā)布到互聯(lián)網(wǎng)上。相對于以前傳統(tǒng)的報刊雜志,在信息爆炸的當(dāng)今時代,快節(jié)奏的生活中大多數(shù)人已經(jīng)習(xí)慣了選擇互聯(lián)網(wǎng)作為信息獲取的主要來源。 各種各樣的網(wǎng)絡(luò)信息往往讓我們應(yīng)接不暇。然而大多數(shù)人更多的是關(guān)注自己感興趣的某一領(lǐng)域內(nèi)的新聞事件,比如體育、科技、財經(jīng)等領(lǐng)域的熱點(diǎn)話題。如今網(wǎng)絡(luò)上的信息大多是采用傳統(tǒng)的新聞網(wǎng)頁形式發(fā)布,當(dāng)用戶對某一事件沒有進(jìn)行持續(xù)關(guān)注時,他們往往只能借助搜索引擎等工具去搜索前段時間發(fā)布的相關(guān)歷史事件。因此,對同一話題相關(guān)事件進(jìn)行整理,并以時序順序呈現(xiàn)給用戶的方式往往更有實(shí)際意義。 為此,本文針對金融領(lǐng)域各上市公司的新聞事件的時序關(guān)系進(jìn)行研究,旨在建立一個新聞事件時序關(guān)系自動分析系統(tǒng),能準(zhǔn)確對歷史事件進(jìn)行分類,并對新事件進(jìn)行追蹤報道。 本文的主要研究內(nèi)容包括有股票新聞的獲取和分類、個股新聞話題的提取、話題關(guān)鍵詞的提取以及新話題的發(fā)現(xiàn)和追蹤。首先針對本課題的需要對滬深兩市的各上市公司的新聞進(jìn)行定時爬取,并進(jìn)行預(yù)處理及個股分類,然后利用文本挖掘的相關(guān)方法從金融新聞文本集中提取相關(guān)熱點(diǎn)話題,并通過分析新聞話題中每個具體事件,給出一個對該話題的關(guān)鍵詞描述,,最終在現(xiàn)有事件分類的基礎(chǔ)上,每天對當(dāng)天發(fā)生的新聞進(jìn)行準(zhǔn)確的話題分類。 本文以從各大金融網(wǎng)站采集到的實(shí)時股票新聞文本為基礎(chǔ),建立了一個對金融領(lǐng)域上市公司熱點(diǎn)新聞進(jìn)行話題檢測與追蹤的在線系統(tǒng),并利用和訊、金融界和新浪財經(jīng)網(wǎng)站的從2012年1月1日至2012年8月的上市公司熱點(diǎn)新聞作為本系統(tǒng)的測試語料來進(jìn)行實(shí)驗(yàn)。最終實(shí)驗(yàn)結(jié)果表明,本文提出的算法模型基本滿足在線應(yīng)用系統(tǒng)的要求。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測研究[J];哈爾濱工業(yè)大學(xué)學(xué)報;2006年10期
2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期
3 李保利,俞士汶;話題識別與跟蹤研究[J];計算機(jī)工程與應(yīng)用;2003年17期
4 鄧琦;蘇一丹;曹波;閉劍婷;;中文文本體裁分類中特征選擇的研究[J];計算機(jī)工程;2008年23期
5 羅軍;高琦;王翊;;基于Bootstrapping的本體標(biāo)注方法[J];計算機(jī)工程;2010年23期
6 趙萬磊,王永吉,張學(xué)杰,李娟;一種優(yōu)化初始中心點(diǎn)的K平均文本聚類算法[J];計算機(jī)應(yīng)用;2005年09期
7 況夯;羅軍;;基于遺傳FCM算法的文本聚類[J];計算機(jī)應(yīng)用;2009年02期
8 駱衛(wèi)華;于滿泉;許洪波;王斌;程學(xué)旗;;基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J];中文信息學(xué)報;2006年01期
9 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報;2007年06期
10 李星毅;曾路平;施化吉;;基于單詞相似度的文本聚類[J];計算機(jī)工程與設(shè)計;2009年08期
本文編號:
2581712
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2581712.html