面向金融領(lǐng)域的分布式垂直搜索引擎研究與實現(xiàn)
發(fā)布時間:2020-09-17 12:18
隨著近年來電子商務(wù)、社會化網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)以及智能化技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)出爆炸性增長的態(tài)勢,通用搜索引擎的檢索結(jié)果出現(xiàn)出多、雜、亂的現(xiàn)象。并且用戶對搜索引擎的要求也不再局限于僅為其提供相關(guān)的網(wǎng)頁,而是期望搜索引擎能夠給出某領(lǐng)域的深層次知識。然而,世界幾大通用搜索引擎巨頭無法涵蓋如此眾多領(lǐng)域內(nèi)的搜索市場。因此,在未來中小型機構(gòu)提供的領(lǐng)域化、專業(yè)化的垂直搜索服務(wù)必將有很大的應(yīng)用價值。 中小型金融機構(gòu)受其經(jīng)濟能力和搜索方面技術(shù)實力的限制,其信息檢索服務(wù)還停留在提供存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化信息的落后階段。因此,如何利用現(xiàn)有的技術(shù)框架提升中小型機構(gòu)提供高質(zhì)量垂直搜索服務(wù)的能力是亟待解決的問題。 本文提出了使用Hadoop開源分布式存儲計算平臺基于Nutch插件機制構(gòu)建中小型機構(gòu)垂直搜索引擎的技術(shù)方案。本文詳細(xì)介紹了Hadoop平臺相關(guān)技術(shù)的原理和優(yōu)勢,對Nutch插件機制進(jìn)行了著重研究,分析了目前常見的領(lǐng)域聚焦算法和常見的中文分詞組件的特點,介紹了常見的網(wǎng)頁特征詞提取算法。設(shè)計并實現(xiàn)了基于Nutch插件機制的金融領(lǐng)域聚焦爬蟲和離線的關(guān)鍵詞相關(guān)詞語發(fā)現(xiàn)模塊。利用3臺PC機搭建了一個完整的能提供金融領(lǐng)域信息檢索服務(wù)的微型搜索引擎。實驗結(jié)果證明,該方案具備一定的可行性和實際的應(yīng)用價值。
【學(xué)位單位】:山東財經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP391.3
本文編號:2820709
【學(xué)位單位】:山東財經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳智;;基于搜索引擎的用戶網(wǎng)絡(luò)信息資源組織[J];合肥師范學(xué)院學(xué)報;2008年03期
2 周宏宇;張政;;中文分詞技術(shù)綜述[J];安陽師范學(xué)院學(xué)報;2010年02期
3 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期
4 陳麗君;;聚焦爬蟲常見算法分析[J];電腦知識與技術(shù);2008年S1期
5 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
6 楊志偉;王鑫;;基于本體的氣象領(lǐng)域聚焦爬蟲[J];中國管理信息化;2011年04期
7 夏天;;Nutch的插件機制分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期
8 張丹;;中文分詞算法綜述[J];黑龍江科技信息;2012年08期
9 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期
10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
相關(guān)碩士學(xué)位論文 前1條
1 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年
本文編號:2820709
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2820709.html
最近更新
教材專著