金融信息技術(shù)分析中垂直搜索引擎的應(yīng)用研究
發(fā)布時間:2014-09-16 15:39
【摘要】 本文以金融領(lǐng)域為例,在搜索引擎日益發(fā)達的今天,如果更有效果的利用搜索引擎在網(wǎng)絡(luò)中的應(yīng)用,更準確及時地反映信息采用者所需要的金融信息,如果解決垂直搜索引擎在分析中的應(yīng)用,并進行了詳細的關(guān)鍵性技術(shù)分析。
【關(guān)鍵詞】 垂直搜索; 金融信息; 爬蟲技術(shù); 語義網(wǎng)絡(luò);
隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域為例說明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一個專業(yè)領(lǐng)域(例如金融、能源等),通過收集到的網(wǎng)頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。
2 金融垂直搜索的關(guān)鍵技術(shù)
2.1 金融爬蟲技術(shù)。金融爬蟲因為和某一領(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網(wǎng)絡(luò)爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo),如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質(zhì)量的重要技術(shù)指標。
2.3 自然語言智能語義處理技術(shù)。自然語言智能語義處理技術(shù)指的是使計算機具有理解人類語言和自我學(xué)習(xí)語言的能力,并根據(jù)相應(yīng)的語言要求完成具體的操作。我們使用自然語言智能語義技術(shù)來提高相關(guān)度的判定準確率,相關(guān)度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領(lǐng)域詞典來解析相應(yīng)的用戶自然語言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語義建立主題垂直索引,涉及實體識別、語義網(wǎng)絡(luò)、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎(chǔ),開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術(shù)語、上市公司名稱、金融機構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語義網(wǎng)絡(luò)。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網(wǎng)絡(luò),每個節(jié)點是一個與股市相關(guān)的概念,例如“利率”、“匯率”、“股價”等。該語義網(wǎng)絡(luò)的建立需要融入專家知識,并具有可擴展性,可以根據(jù)需要增加。(3)語義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關(guān)的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫。
3 金融垂直搜索中所用到的資源
對于金融垂直搜索系統(tǒng),融合了網(wǎng)絡(luò)金融、漢語分詞、語義處理和領(lǐng)域知識學(xué)習(xí)等多項專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應(yīng)的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構(gòu)的名稱、簡稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結(jié)合的方式,并手工標注其感情色彩。
3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構(gòu)等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構(gòu)建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領(lǐng)新聞的信息進行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。
表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構(gòu)對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構(gòu)強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進、因果、雙重否定等的邏輯表達方式。
對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復(fù)雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。
4 結(jié)束語
金融垂直搜索引擎的應(yīng)用能夠很好的滿足金融主體的需求。對于多樣化數(shù)據(jù)的專業(yè)化細分成為垂直搜索的最大技術(shù)特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗。
參考文獻:
本文編號:9005
【關(guān)鍵詞】 垂直搜索; 金融信息; 爬蟲技術(shù); 語義網(wǎng)絡(luò);
隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域為例說明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一個專業(yè)領(lǐng)域(例如金融、能源等),通過收集到的網(wǎng)頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。
2 金融垂直搜索的關(guān)鍵技術(shù)
2.1 金融爬蟲技術(shù)。金融爬蟲因為和某一領(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網(wǎng)絡(luò)爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo),如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質(zhì)量的重要技術(shù)指標。
2.3 自然語言智能語義處理技術(shù)。自然語言智能語義處理技術(shù)指的是使計算機具有理解人類語言和自我學(xué)習(xí)語言的能力,并根據(jù)相應(yīng)的語言要求完成具體的操作。我們使用自然語言智能語義技術(shù)來提高相關(guān)度的判定準確率,相關(guān)度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領(lǐng)域詞典來解析相應(yīng)的用戶自然語言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語義建立主題垂直索引,涉及實體識別、語義網(wǎng)絡(luò)、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎(chǔ),開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術(shù)語、上市公司名稱、金融機構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語義網(wǎng)絡(luò)。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網(wǎng)絡(luò),每個節(jié)點是一個與股市相關(guān)的概念,例如“利率”、“匯率”、“股價”等。該語義網(wǎng)絡(luò)的建立需要融入專家知識,并具有可擴展性,可以根據(jù)需要增加。(3)語義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關(guān)的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫。
3 金融垂直搜索中所用到的資源
對于金融垂直搜索系統(tǒng),融合了網(wǎng)絡(luò)金融、漢語分詞、語義處理和領(lǐng)域知識學(xué)習(xí)等多項專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應(yīng)的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構(gòu)的名稱、簡稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結(jié)合的方式,并手工標注其感情色彩。
3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構(gòu)等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構(gòu)建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領(lǐng)新聞的信息進行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。
表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構(gòu)對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構(gòu)強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進、因果、雙重否定等的邏輯表達方式。
對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復(fù)雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。
4 結(jié)束語
金融垂直搜索引擎的應(yīng)用能夠很好的滿足金融主體的需求。對于多樣化數(shù)據(jù)的專業(yè)化細分成為垂直搜索的最大技術(shù)特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗。
參考文獻:
- [1] 孔祥春,李義杰,鄭凱明. 垂直搜索引擎應(yīng)用研究[J]. 計算機系統(tǒng)應(yīng)用. 2009(07)
- [2] 杜建亮. 金融信息垂直搜索引擎的技術(shù)探討[J]. 科學(xué)之友(B版). 2009(06)
- [3] 吳柏林,宋澤鋒,楊炳儒. 一種基于本體的垂直搜索引擎系統(tǒng)模型[J]. 計算機工程與科學(xué). 2008(10)
- [4] 陳洪猛. 基于垂直搜索技術(shù)的搜索引擎解決方案[J]. 電腦應(yīng)用技術(shù). 2008(01)
本文編號:9005
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/9005.html
最近更新
教材專著