天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

金融信息技術(shù)分析中垂直搜索引擎的應(yīng)用研究

發(fā)布時間:2014-09-16 15:39
【摘要】 本文以金融領(lǐng)域為例,在搜索引擎日益發(fā)達的今天,如果更有效果的利用搜索引擎在網(wǎng)絡(luò)中的應(yīng)用,更準確及時地反映信息采用者所需要的金融信息,如果解決垂直搜索引擎在分析中的應(yīng)用,并進行了詳細的關(guān)鍵性技術(shù)分析。
 
【關(guān)鍵詞】 垂直搜索; 金融信息; 爬蟲技術(shù); 語義網(wǎng)絡(luò);

    隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域為例說明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。
  1 垂直搜索引擎概述
  垂直搜索引擎是指在某一個專業(yè)領(lǐng)域(例如金融、能源等),通過收集到的網(wǎng)頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。
  2 金融垂直搜索的關(guān)鍵技術(shù)
  2.1 金融爬蟲技術(shù)。金融爬蟲因為和某一領(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網(wǎng)絡(luò)爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo),如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
  2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質(zhì)量的重要技術(shù)指標。
  2.3 自然語言智能語義處理技術(shù)。自然語言智能語義處理技術(shù)指的是使計算機具有理解人類語言和自我學(xué)習(xí)語言的能力,并根據(jù)相應(yīng)的語言要求完成具體的操作。我們使用自然語言智能語義技術(shù)來提高相關(guān)度的判定準確率,相關(guān)度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領(lǐng)域詞典來解析相應(yīng)的用戶自然語言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語義建立主題垂直索引,涉及實體識別、語義網(wǎng)絡(luò)、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎(chǔ),開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術(shù)語、上市公司名稱、金融機構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語義網(wǎng)絡(luò)。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網(wǎng)絡(luò),每個節(jié)點是一個與股市相關(guān)的概念,例如“利率”、“匯率”、“股價”等。該語義網(wǎng)絡(luò)的建立需要融入專家知識,并具有可擴展性,可以根據(jù)需要增加。(3)語義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關(guān)的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫。
  3 金融垂直搜索中所用到的資源
  對于金融垂直搜索系統(tǒng),融合了網(wǎng)絡(luò)金融、漢語分詞、語義處理和領(lǐng)域知識學(xué)習(xí)等多項專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應(yīng)的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
  3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構(gòu)的名稱、簡稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結(jié)合的方式,并手工標注其感情色彩。
  3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構(gòu)等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構(gòu)建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領(lǐng)新聞的信息進行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。
  表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構(gòu)對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構(gòu)強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進、因果、雙重否定等的邏輯表達方式。
  對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復(fù)雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。
  4 結(jié)束語
  金融垂直搜索引擎的應(yīng)用能夠很好的滿足金融主體的需求。對于多樣化數(shù)據(jù)的專業(yè)化細分成為垂直搜索的最大技術(shù)特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗。

    參考文獻:



本文編號:9005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/9005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b4970***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
东京热电东京热一区二区三区| 激情综合网俺也狠狠地| 亚洲欧美日韩另类第一页| 人人妻人人澡人人夜夜| 色婷婷视频免费在线观看| 午夜精品国产一区在线观看| 麻豆91成人国产在线观看| 欧美日韩有码一二三区| 日韩特级黄片免费在线观看| 日本免费一区二区三女| 精品国自产拍天天青青草原| 欧美一级黄片免费视频| 欧美日韩有码一二三区| 熟女一区二区三区国产| 内射精子视频欧美一区二区| 国产欧美日韩不卡在线视频| 久久精品中文扫妇内射| 激情少妇一区二区三区| 91麻豆精品欧美视频| 精品熟女少妇av免费久久野外| 一区二区三区日韩中文| 又黄又硬又爽又色的视频| 国产精品日本女优在线观看| 五月的丁香婷婷综合网| 狠狠做五月深爱婷婷综合| 精品人妻一区二区三区四区久久| 欧美日韩有码一二三区| 一区二区免费视频中文乱码国产| 亚洲午夜福利不卡片在线| 亚洲男人的天堂色偷偷| 欧美性高清一区二区三区视频| 青青操视频在线观看国产| 久久精品国产亚洲av麻豆尤物| 高中女厕偷拍一区二区三区| 精品香蕉国产一区二区三区| 国产欧美一区二区另类精品 | 人妻内射在线二区一区| 国产在线一区二区三区不卡| 国产激情一区二区三区不卡| 欧美在线视频一区观看| 99国产精品国产精品九九 |