金融主題垂直搜索引擎的研究與實現(xiàn)
本文關(guān)鍵詞:金融主題垂直搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
《浙江工業(yè)大學》 2014年
金融主題垂直搜索引擎的研究與實現(xiàn)
胡曉婷
【摘要】:隨著信息科學的進步與互聯(lián)網(wǎng)信息資源爆炸性的增長,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)最重要的應(yīng)用之一。面對浩瀚的網(wǎng)絡(luò)資源,通用的搜索引擎存在信息量大、查詢不準確、深度不夠等問題,因而垂直搜索引擎應(yīng)運而生,它具有“專、精、深”的特點,并且具有行業(yè)色彩,能夠?qū)δ骋惶囟I(lǐng)域、特定人群或特定需求提供有價值的信息和相關(guān)服務(wù)。 本課題專注于金融主題垂直搜索引擎的研究與實現(xiàn),通過技術(shù)研究建立金融主題的垂直搜索引擎,從海量的信息資源中篩選出滿足用戶需求的金融信息。 本文討論和研究搜索引擎和垂直搜索引擎的相關(guān)原理、技術(shù)和實現(xiàn)過程,在此基礎(chǔ)上,利用開源的Heritrix爬蟲工具包、Lucene全文檢索工具包、HtmlParser解析工具包和ICTCLAS分詞系統(tǒng)實現(xiàn)金融主題垂直搜索引擎的網(wǎng)頁抓取模塊、預處理模塊、索引模塊和查詢模塊四個核心模塊。該搜索引擎在網(wǎng)頁抓取模塊中建立金融主題詞庫,根據(jù)適用于主題判別的向量空間算法,修改Heritrix爬蟲工具包使其支持超鏈接的過濾;在預處理模塊中利用HtmlParsel解析工具包結(jié)合統(tǒng)計學對網(wǎng)頁文件進行去噪;在索引模塊中修改Lucene全文檢索工具包使其支持ICTCLAS分詞系統(tǒng),利用Lucene對網(wǎng)頁內(nèi)容進行分詞和建立倒排索引,提高了搜索引擎的查詢的效率和準確率;在查詢模塊中利用ICTCLAS分詞系統(tǒng)和Lucene全文檢索工具包,使查詢結(jié)果符合用戶的需求。 實驗結(jié)果表明金融主題的垂直搜索引擎能夠較好滿足用戶對金融主題信息的需求。
【關(guān)鍵詞】:
【學位授予單位】:浙江工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
2 方志堅;張瑞林;童小素;;搜索引擎綜合分析[J];計算機工程與設(shè)計;2007年16期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 杜道流;指稱、陳述理論及其對上古語法研究的意義[J];安徽大學學報;2004年01期
2 姜紅;;具體名詞和抽象名詞的不對稱現(xiàn)象[J];安徽大學學報(哲學社會科學版);2009年02期
3 施發(fā)筆;試論《水滸傳》介詞避復的技巧[J];安徽教育學院學報;2002年04期
4 阮緒和;形名偏正結(jié)構(gòu)的語法功能[J];安徽教育學院學報;2003年02期
5 陶振偉;;“拿”的語法化[J];安徽教育學院學報;2006年04期
6 樊友新;;從“被就業(yè)”看“被”的語用功能[J];合肥師范學院學報;2010年02期
7 馮鳴;英語表持續(xù)時段的for短語和漢語時量詞語的比較[J];安徽廣播電視大學學報;2001年02期
8 王有衛(wèi);;語素文字說質(zhì)疑[J];安徽廣播電視大學學報;2010年03期
9 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻信息檢索系統(tǒng)的研究[J];安徽大學學報(自然科學版);2009年05期
10 柳國棟;;《論語》重疊詞略論[J];安徽職業(yè)技術(shù)學院學報;2008年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年
2 李影;付莉;;韓國中小學生“是”的錯序偏誤分析[A];語言與文化研究(第四輯)[C];2009年
3 沈煥生;朱磊;;基于信息內(nèi)容的關(guān)鍵詞抽取研究[A];中國電子學會第十五屆信息論學術(shù)年會暨第一屆全國網(wǎng)絡(luò)編碼學術(shù)年會論文集(上冊)[C];2008年
4 呂曉玲;;閩南方言南安話的類結(jié)構(gòu)助詞“得”、“說”、“伊”、“通”[A];福建省辭書學會第五屆會員代表大會暨第十九屆年會論文集[C];2009年
5 田長生;;淺談《論語》中的復疊現(xiàn)象[A];江西省語言學會2005年年會論文集[C];2005年
6 阮緒和;;江西武寧(上湯)話的程度副詞“死、幾、蠻”[A];江西省語言學會2005年年會論文集[C];2005年
7 魏亮珍;;淺析《呂梁英雄傳》中的“給”[A];江西省語言學會2006年年會論文集[C];2006年
8 周小婕;;數(shù)詞研究綜述[A];江西省語言學會2006年年會論文集[C];2006年
9 王安琛;;試論“V—V”結(jié)構(gòu)[A];江西省語言學會2006年年會論文集[C];2006年
10 王安琛;;重疊式動補短語的句法語義分析[A];江西省語言學會2006年年會論文集[C];2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳佳;論英漢運動事件表達中“路徑”單位的“空間界態(tài)”概念語義及其句法—語義接口功能[D];上海外國語大學;2010年
2 郭紅;基于第二語言教學的漢語語氣范疇若干問題研究[D];南開大學;2010年
3 楊先明;0-5歲漢語兒童語言發(fā)展的認知研究[D];武漢大學;2010年
4 彭懿;英漢膚覺形容詞的認知語義研究[D];湖南師范大學;2010年
5 龍又珍;現(xiàn)代漢語寒暄系統(tǒng)研究[D];武漢大學;2009年
6 李青;現(xiàn)代漢語把字句主觀性研究[D];吉林大學;2011年
7 朱懷;概念整合與漢語非受事賓語句[D];吉林大學;2011年
8 王欣;漢日否定表達對比研究[D];吉林大學;2011年
9 莫啟揚;語言中的時間性及其操作[D];西南大學;2011年
10 吳淑瓊;基于漢語句法結(jié)構(gòu)的語法轉(zhuǎn)喻研究[D];西南大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 黃雪;俄漢語詞匯理據(jù)性對比研究[D];哈爾濱師范大學;2010年
2 馬晶晶;表人名詞類詞綴“X手”、“X者”、“X員”分析比較[D];遼寧師范大學;2010年
3 烏曉麗;“X+—N比—N+VP”表義功能新探[D];遼寧師范大學;2010年
4 劉婧一;元代筆記分詞理論與實踐[D];廣西師范學院;2010年
5 曹萍;府城官話研究[D];廣西師范學院;2010年
6 曠金輝;漢英名詞前置修飾語語序?qū)Ρ妊芯縖D];上海外國語大學;2010年
7 陶勝妃;現(xiàn)代漢語謂詞修飾詞前后位置比較研究[D];上海外國語大學;2010年
8 嚴偉劍;疑問代詞“怎么”“怎樣”“怎么樣”對比研究[D];上海外國語大學;2010年
9 耿冰;“實現(xiàn)事件”結(jié)構(gòu)詞匯化模式的英漢對比研究[D];上海外國語大學;2010年
10 王冰;《紅樓夢》中茶”相關(guān)行為映射譯者風格研究[D];大連理工大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程;2003年17期
2 李衛(wèi);劉建毅;何華燦;王樅;;基于主題的智能Web信息采集系統(tǒng)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2006年02期
3 李蕾,王楠,鐘義信,郭祥昊,韓鵬,賈自燕,高清霞;基于語義網(wǎng)絡(luò)的概念檢索研究與實現(xiàn)[J];情報學報;2000年05期
4 傅向華,馮博琴,馬兆豐,何明;可在線增量自學習的聚焦爬行方法[J];西安交通大學學報;2004年06期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術(shù);2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
8 陳高維;鄧天權(quán);曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設(shè)計[J];科技創(chuàng)新導報;2010年18期
9 劉小強;;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計與實現(xiàn)[J];三門峽職業(yè)技術(shù)學院學報;2010年03期
10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學院學報(自然科學版);2011年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術(shù)年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;[N];中國經(jīng)營報;2006年
2 王艷;[N];中國旅游報;2000年
3 王靖;[N];人民日報海外版;2000年
4 楊國民;[N];經(jīng)濟日報;2007年
5 本報記者 王曉雁;[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
7 中新;[N];經(jīng)理日報;2008年
8 源訊 編譯;[N];計算機世界;2006年
9 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
10 ;[N];中國貿(mào)易報;2007年
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術(shù)大學;2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實現(xiàn)[D];華北電力大學(北京);2008年
2 崔詩遠;基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營銷[D];青島大學;2009年
3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學;2009年
4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W特征及應(yīng)用研究[D];華中科技大學;2008年
6 黎斌;可擴展分布式垂直搜索引擎設(shè)計與實現(xiàn)研究[D];國防科學技術(shù)大學;2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學;2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學;2010年
10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學;2010年
本文關(guān)鍵詞:金融主題垂直搜索引擎的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:53740
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/53740.html