天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向金融領(lǐng)域的分布式垂直搜索引擎研究與實現(xiàn)

發(fā)布時間:2020-09-17 12:18
   隨著近年來電子商務(wù)、社會化網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)以及智能化技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)出爆炸性增長的態(tài)勢,通用搜索引擎的檢索結(jié)果出現(xiàn)出多、雜、亂的現(xiàn)象。并且用戶對搜索引擎的要求也不再局限于僅為其提供相關(guān)的網(wǎng)頁,而是期望搜索引擎能夠給出某領(lǐng)域的深層次知識。然而,世界幾大通用搜索引擎巨頭無法涵蓋如此眾多領(lǐng)域內(nèi)的搜索市場。因此,在未來中小型機構(gòu)提供的領(lǐng)域化、專業(yè)化的垂直搜索服務(wù)必將有很大的應(yīng)用價值。 中小型金融機構(gòu)受其經(jīng)濟能力和搜索方面技術(shù)實力的限制,其信息檢索服務(wù)還停留在提供存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化信息的落后階段。因此,如何利用現(xiàn)有的技術(shù)框架提升中小型機構(gòu)提供高質(zhì)量垂直搜索服務(wù)的能力是亟待解決的問題。 本文提出了使用Hadoop開源分布式存儲計算平臺基于Nutch插件機制構(gòu)建中小型機構(gòu)垂直搜索引擎的技術(shù)方案。本文詳細(xì)介紹了Hadoop平臺相關(guān)技術(shù)的原理和優(yōu)勢,對Nutch插件機制進(jìn)行了著重研究,分析了目前常見的領(lǐng)域聚焦算法和常見的中文分詞組件的特點,介紹了常見的網(wǎng)頁特征詞提取算法。設(shè)計并實現(xiàn)了基于Nutch插件機制的金融領(lǐng)域聚焦爬蟲和離線的關(guān)鍵詞相關(guān)詞語發(fā)現(xiàn)模塊。利用3臺PC機搭建了一個完整的能提供金融領(lǐng)域信息檢索服務(wù)的微型搜索引擎。實驗結(jié)果證明,該方案具備一定的可行性和實際的應(yīng)用價值。
【學(xué)位單位】:山東財經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳智;;基于搜索引擎的用戶網(wǎng)絡(luò)信息資源組織[J];合肥師范學(xué)院學(xué)報;2008年03期

2 周宏宇;張政;;中文分詞技術(shù)綜述[J];安陽師范學(xué)院學(xué)報;2010年02期

3 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期

4 陳麗君;;聚焦爬蟲常見算法分析[J];電腦知識與技術(shù);2008年S1期

5 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

6 楊志偉;王鑫;;基于本體的氣象領(lǐng)域聚焦爬蟲[J];中國管理信息化;2011年04期

7 夏天;;Nutch的插件機制分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期

8 張丹;;中文分詞算法綜述[J];黑龍江科技信息;2012年08期

9 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期

10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

相關(guān)碩士學(xué)位論文 前1條

1 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年



本文編號:2820709

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2820709.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶85fa4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com