面向財(cái)經(jīng)新聞的智能搜索平臺(tái)的研究與應(yīng)用
發(fā)布時(shí)間:2017-05-10 05:00
本文關(guān)鍵詞:面向財(cái)經(jīng)新聞的智能搜索平臺(tái)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上的信息包括各種各樣的財(cái)經(jīng)新聞?wù)员ㄊ降乃俣妊该驮鲩L(zhǎng)。毫無(wú)疑問(wèn),財(cái)經(jīng)新聞中蘊(yùn)含著大量的財(cái)富,它對(duì)用戶(hù)做重要的經(jīng)濟(jì)決策、對(duì)企業(yè)把握市場(chǎng)的發(fā)展規(guī)律、對(duì)國(guó)家促進(jìn)金融市場(chǎng)發(fā)展和經(jīng)濟(jì)結(jié)構(gòu)轉(zhuǎn)型,都具有十分重要的作用和戰(zhàn)略意義。但是,深陷在信息的海洋漩渦之中,人們不得不面臨著嚴(yán)峻的信息過(guò)載問(wèn)題。因此,如何快速有效地幫助用戶(hù)獲取有價(jià)值的財(cái)經(jīng)新聞成為了一個(gè)至關(guān)重要的問(wèn)題。 為了緩解信息過(guò)載的壓力,搜索引擎和門(mén)戶(hù)網(wǎng)站得到了快速的發(fā)展和應(yīng)用。傳統(tǒng)的基于關(guān)鍵詞的搜索引擎如百度谷歌等,簡(jiǎn)單易用,用戶(hù)只需要輸入目標(biāo)關(guān)鍵詞,搜索引擎就會(huì)自動(dòng)返回相關(guān)的結(jié)果。但是搜索引擎往往動(dòng)輒返回?cái)?shù)以萬(wàn)計(jì)的結(jié)果,因此準(zhǔn)確率通常比較低。另外,有些用戶(hù)只關(guān)心某些特定領(lǐng)域的新聞如房地產(chǎn)相關(guān)的新聞,雖然門(mén)戶(hù)網(wǎng)站的出現(xiàn)彌補(bǔ)了這一問(wèn)題,但是門(mén)戶(hù)網(wǎng)站往往冗余龐大、而且只是簡(jiǎn)單的羅列新聞,無(wú)法發(fā)現(xiàn)隱藏在新聞內(nèi)部的關(guān)系。例如,房?jī)r(jià)的新聞往往和房?jī)r(jià)調(diào)控政策以及建筑建材業(yè)的新聞?dòng)猩钊氲年P(guān)系。 為此,針對(duì)財(cái)經(jīng)新聞?lì)I(lǐng)域,本文展開(kāi)了對(duì)面向財(cái)經(jīng)新聞的智能搜索平臺(tái)的研究與應(yīng)用。本文的主要研究?jī)?nèi)容和貢獻(xiàn)如下: 1.本文結(jié)合傳統(tǒng)搜索引擎和門(mén)戶(hù)網(wǎng)站的優(yōu)點(diǎn),利用數(shù)據(jù)挖掘和自然語(yǔ)言處理領(lǐng)域的相關(guān)知識(shí),提出了一種新的智能搜索平臺(tái)框架。平臺(tái)一共包含了六大模塊,它不僅可以提供基于關(guān)鍵詞的便捷搜索服務(wù),而且還可以給用戶(hù)提供分門(mén)別類(lèi)的財(cái)經(jīng)資訊。同時(shí),為了給用戶(hù)提供第一手的實(shí)時(shí)熱點(diǎn),平臺(tái)集成了基于TDT的熱點(diǎn)新聞發(fā)現(xiàn)算法。此外,為了發(fā)現(xiàn)隱藏在新聞內(nèi)部的關(guān)系,本文基于新聞的主題設(shè)計(jì)并構(gòu)建了動(dòng)態(tài)知識(shí)網(wǎng)絡(luò),用于快速引導(dǎo)用戶(hù)找到更加多樣和有用的信息。 2.在智能搜平臺(tái)的基礎(chǔ)上,本文重點(diǎn)針對(duì)基于SVM的自動(dòng)分類(lèi)算法和基于TDT技術(shù)的熱點(diǎn)新聞發(fā)現(xiàn)算法做了改進(jìn)。在文本表示階段,本文重點(diǎn)考慮標(biāo)題在財(cái)經(jīng)新聞中的重要性,改進(jìn)了特征詞的權(quán)重公式。更進(jìn)一步,考慮到時(shí)間對(duì)于熱點(diǎn)事件至關(guān)重要。因此,本文通過(guò)融入時(shí)間因素改進(jìn)了文檔與主題的相似度公式。 3.在真實(shí)的新聞數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,通過(guò)引入標(biāo)題因素,在合適的權(quán)重系數(shù)情況下,可以提高分類(lèi)算法的正確率。同時(shí),通過(guò)融入時(shí)間因素,熱點(diǎn)新聞自動(dòng)發(fā)現(xiàn)算法相比于傳統(tǒng)的方法,可以更好的區(qū)分內(nèi)容相似但是卻不屬于同一個(gè)主題的事件。
【關(guān)鍵詞】:智能搜索 搜索引擎 自動(dòng)分類(lèi) 熱點(diǎn)新聞檢測(cè)
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-16
- 1.1 引言10-11
- 1.2 研究背景11-14
- 1.2.1 信息爆炸的時(shí)代11-12
- 1.2.2 搜索引擎和門(mén)戶(hù)網(wǎng)站的產(chǎn)生與發(fā)展12-13
- 1.2.3 現(xiàn)有搜索引擎和門(mén)戶(hù)網(wǎng)站的問(wèn)題13-14
- 1.3 研究動(dòng)機(jī)14
- 1.4 研究?jī)?nèi)容14-15
- 1.5 本文組織結(jié)構(gòu)15-16
- 第2章 相關(guān)工作概述16-30
- 2.1 引言16
- 2.2 傳統(tǒng)搜索引擎16-21
- 2.2.1 搜索引擎的定義與工作原理16-18
- 2.2.2 搜索引擎的分類(lèi)和常用開(kāi)源框架18-20
- 2.2.3 搜索引擎的研究現(xiàn)狀和發(fā)展趨勢(shì)20-21
- 2.3 文本自動(dòng)分類(lèi)技術(shù)21-25
- 2.3.1 文本的特征表示和相似度計(jì)算公式21-22
- 2.3.2 常用的文本分類(lèi)算法22-25
- 2.3.3 常用的文本分類(lèi)評(píng)價(jià)指標(biāo)25
- 2.4 話題檢測(cè)和跟蹤技術(shù)25-28
- 2.4.1 TDT的任務(wù)定義和劃分體系25-26
- 2.4.2 TDT的相關(guān)技術(shù)和研究現(xiàn)狀26-28
- 2.4.3 TDT的評(píng)測(cè)標(biāo)準(zhǔn)28
- 2.5 本章小結(jié)28-30
- 第3章 面向財(cái)經(jīng)新聞的智能搜索平臺(tái)30-44
- 3.1 引言30
- 3.2 面向財(cái)經(jīng)新聞的智能搜索平臺(tái)框架30-32
- 3.3 智能搜索平臺(tái)的各個(gè)子系統(tǒng)32-43
- 3.3.1 基于Nutch和Solr的垂直搜索引擎系統(tǒng)33-36
- 3.3.2 基于SVM的新聞自動(dòng)分類(lèi)系統(tǒng)36-38
- 3.3.3 基于TDT的熱點(diǎn)新聞自動(dòng)發(fā)現(xiàn)系統(tǒng)38-40
- 3.3.4 基于HMM模型的命名實(shí)體識(shí)別系統(tǒng)40-41
- 3.3.5 基于LDA和聚類(lèi)算法的知識(shí)網(wǎng)絡(luò)構(gòu)建系統(tǒng)41-43
- 3.3.6 基于內(nèi)容的個(gè)性化推薦系統(tǒng)43
- 3.4 本章小結(jié)43-44
- 第4章 改進(jìn)的新聞自動(dòng)分類(lèi)和熱點(diǎn)自動(dòng)發(fā)現(xiàn)算法44-64
- 4.1 引言44
- 4.2 基于相似度公式改進(jìn)的新聞自動(dòng)分類(lèi)和熱點(diǎn)自動(dòng)發(fā)現(xiàn)算法44-49
- 4.2.1 基于相似度公式改進(jìn)的算法設(shè)計(jì)思路45-47
- 4.2.2 改進(jìn)的新聞自動(dòng)分類(lèi)算法和熱點(diǎn)自動(dòng)發(fā)現(xiàn)算法框架47-49
- 4.3 新聞自動(dòng)分類(lèi)實(shí)驗(yàn)49-58
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)集49-50
- 4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)50-51
- 4.3.3 對(duì)比算法和參數(shù)設(shè)定51
- 4.3.4 實(shí)驗(yàn)結(jié)果與分析51-58
- 4.4 熱點(diǎn)新聞自動(dòng)發(fā)現(xiàn)實(shí)驗(yàn)58-62
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)集59-60
- 4.4.2 評(píng)價(jià)指標(biāo)、對(duì)比方法和參數(shù)設(shè)定60
- 4.4.3 實(shí)驗(yàn)結(jié)果與分析60-62
- 4.5 本章小結(jié)62-64
- 第5章 工作總結(jié)與未來(lái)展望64-66
- 5.1 研究?jī)?nèi)容總結(jié)64-65
- 5.2 未來(lái)工作展望65-66
- 參考文獻(xiàn)66-70
- 致謝70-72
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 陳海龍;;基于多Agent的智能搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
2 孟薇薇;;信息爆炸時(shí)代的新概念——大數(shù)據(jù)[J];商品與質(zhì)量;2012年09期
本文關(guān)鍵詞:面向財(cái)經(jīng)新聞的智能搜索平臺(tái)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):354011
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/354011.html
最近更新
教材專(zhuān)著