天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

企業(yè)互聯(lián)網(wǎng)負(fù)面信息抓取研究

發(fā)布時(shí)間:2020-10-30 23:33
   隨著信息時(shí)代的網(wǎng)絡(luò)全球化落幕,大數(shù)據(jù)人工智能的時(shí)代到來(lái),人們普遍對(duì)大數(shù)據(jù)理解已經(jīng)從“數(shù)據(jù)擁有”到“數(shù)據(jù)創(chuàng)造價(jià)值”的概念發(fā)生轉(zhuǎn)變,并對(duì)已有數(shù)據(jù)中如何創(chuàng)造價(jià)值尋求出路。在各行業(yè)中,金融行業(yè)從業(yè)者們急迫地希望能從數(shù)據(jù)中促進(jìn)經(jīng)濟(jì)發(fā)展和獲取價(jià)值回報(bào)。及時(shí)準(zhǔn)確的互聯(lián)網(wǎng)數(shù)據(jù)對(duì)于銀行風(fēng)險(xiǎn)控制具有戰(zhàn)略性的意義,身處互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,如何根據(jù)自身需求對(duì)貸款方錯(cuò)綜復(fù)雜信息數(shù)據(jù)進(jìn)行精確采集與分析是一個(gè)亟待解決的問(wèn)題。外部數(shù)據(jù)源的方式作為補(bǔ)充幫助銀行第一時(shí)間掌握貸款方的相關(guān)信息,對(duì)潛在的風(fēng)險(xiǎn)做及時(shí)甄別與預(yù)警而且對(duì)提高風(fēng)險(xiǎn)管理水平具有重大意義。但是,傳統(tǒng)信息采集方法是“來(lái)者不拒”的方法對(duì)信息不加甄別獲取后在進(jìn)行其中提煉信息,這種模式不僅使信息提取工作繁重而且網(wǎng)絡(luò)爬取數(shù)據(jù)效率也很低,后期數(shù)據(jù)處理耗費(fèi)成本也是相當(dāng)巨大。針對(duì)上述問(wèn)題,本文先后從數(shù)據(jù)源獲取、采集數(shù)據(jù)效率和數(shù)據(jù)預(yù)處理以及數(shù)據(jù)入庫(kù)存儲(chǔ)等方面著手解決精確采集問(wèn)題,全文工作可分為以下三部分:1)中文公司簡(jiǎn)稱生成與檢測(cè)。提出了一種基于雙層條件隨機(jī)場(chǎng)結(jié)合規(guī)則推導(dǎo)以及網(wǎng)絡(luò)爬蟲檢驗(yàn)中文公司名簡(jiǎn)稱生成的機(jī)器學(xué)習(xí)新方法。通過(guò)構(gòu)建雙層條件隨機(jī)場(chǎng)模型,對(duì)公司名內(nèi)部各個(gè)詞的分類識(shí)別,構(gòu)建特征集并輸入CRFs模型,輸出得到簡(jiǎn)稱集通過(guò)網(wǎng)絡(luò)爬蟲進(jìn)行統(tǒng)計(jì)評(píng)估校驗(yàn)。對(duì)于精確地生成描述相關(guān)公司簡(jiǎn)稱具有一定的實(shí)際應(yīng)用價(jià)值。2)企業(yè)負(fù)面信息采集解決方法。通過(guò)采用“先擴(kuò)后積”模式對(duì)目標(biāo)公司進(jìn)行信息采集,首先采用全網(wǎng)主題采集式爬蟲,基于公司名相關(guān)主題有選擇性爬取預(yù)先定義符合主題的網(wǎng)頁(yè)信息,然后采用增量采集爬蟲根據(jù)不同公司負(fù)面信息的主題形成定向爬蟲策略。采用大量機(jī)器學(xué)習(xí)算法對(duì)采集數(shù)據(jù)進(jìn)行去重、去噪、甄別等預(yù)處理工作。3)設(shè)計(jì)并實(shí)現(xiàn)了企業(yè)負(fù)面信息采集系統(tǒng)。該系統(tǒng)是面向銀行風(fēng)投業(yè)務(wù)人員做風(fēng)險(xiǎn)預(yù)警監(jiān)控平臺(tái)的子項(xiàng)目服務(wù)。用戶通過(guò)與風(fēng)險(xiǎn)預(yù)警平臺(tái)的交互將信息獲取需求發(fā)送采集系統(tǒng),再由調(diào)度中心對(duì)任務(wù)進(jìn)行解析以及下發(fā)采集任務(wù),最后收集采集數(shù)據(jù)進(jìn)行預(yù)處理分析以及提供風(fēng)險(xiǎn)分析系統(tǒng)數(shù)據(jù)支撐。
【學(xué)位單位】:湘潭大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1;TP181
【部分圖文】:

分類特征,框架,高層,鑒別特征


首字作為保留部分;orgType類型全部省略。最終得到的簡(jiǎn)稱“中石化”。??3.?3.?4簡(jiǎn)稱生成框架??本文提出的公司名簡(jiǎn)稱生成算法的整體框架如圖3-1所示:??!?L?刑臺(tái)?J?L?,???J?;??i?1?4??I?(^S(i?1??t?.?? ̄ ̄^ ̄ ̄?|?合并.利??————?I索倍息打分重排序??,?,?■?i?.???;;?H?crf雩呈繩輅i ̄ ̄?1?wmm?"It??pj?分W?1?I??:??—??————CRF賴分類???1??l??I?I?*??r??????????I?.麵施略?^結(jié)待?!??|?CRF特征織?I?塊?I?I?,??j?“?A?|?基于hadoop?|i??,_?的網(wǎng)絡(luò)爬蟲系??|??????,???H?—二?1?丨統(tǒng)?l|??高層分類持征?p分詞詞典j-?分類詞庫(kù)底層h類巧征:??通過(guò)對(duì)中文機(jī)構(gòu)名?????卜.究制定特定,1丨…??f互聯(lián)網(wǎng)詞f? ̄"T?JL??:??V?典庫(kù)?I?!????訓(xùn)練語(yǔ)抖|??i?iji;as????一…?????????_」??圖3-丨DCRF-Rule-Web簡(jiǎn)稱生成框架??圖3-1可知

負(fù)面信息,物理拓?fù)?企業(yè),采集系統(tǒng)


圖5-3企業(yè)負(fù)面信息采集系統(tǒng)整體模塊圖??本系統(tǒng)采用B/S模式,企業(yè)負(fù)面信息采集、分析和展示工作獨(dú)立區(qū)分開來(lái)

負(fù)面信息,物理拓?fù)?企業(yè),采集系統(tǒng)


???J??圖5-3企業(yè)負(fù)面信息采集系統(tǒng)整體模塊圖??本系統(tǒng)采用B/S模式,企業(yè)負(fù)面信息采集、分析和展示工作獨(dú)立區(qū)分開來(lái)。當(dāng)采集??系統(tǒng)將數(shù)據(jù)采集入庫(kù)后將通知企業(yè)負(fù)面信息分析系統(tǒng)進(jìn)行分析,最后由企業(yè)負(fù)面信息前??端負(fù)面向客戶端推送采集報(bào)告信息。??,?綱S?:?HTTP臓?C225-??J*;?<?層.網(wǎng)絡(luò)層?TCP/iP??互目夭巧?'、?閩8脃務(wù)雅??|?織鄉(xiāng)數(shù)蓮??1?&?■■-3??I?^??APP??-ir?a?W?H?-rj:-??用戶??圖5-4企業(yè)負(fù)面信息采集系統(tǒng)物理拓?fù)鋱D??48??
【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 劉龍飛;楊亮;張紹武;林鴻飛;;基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J];中文信息學(xué)報(bào);2015年06期

2 梁軍;柴玉梅;原慧斌;高明磊;昝紅英;;基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J];中文信息學(xué)報(bào);2015年05期

3 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計(jì)算機(jī)與數(shù)字工程;2012年03期

4 焦妍;王厚峰;張龍凱;;基于條件隨機(jī)場(chǎng)與Web數(shù)據(jù)的縮略語(yǔ)預(yù)測(cè)[J];中文信息學(xué)報(bào);2012年02期

5 陳超;朱洪波;王亞強(qiáng);韓國(guó)輝;譚斌;于中華;;中文財(cái)經(jīng)文本中公司名簡(jiǎn)稱的自動(dòng)識(shí)別[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

6 白鴿;左萬(wàn)利;趙乾坤;曲仁鏡;;使用機(jī)器學(xué)習(xí)對(duì)漢語(yǔ)評(píng)論進(jìn)行情感分類[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2009年06期

7 鐘良伍;鄭方;;基于中文機(jī)構(gòu)名簡(jiǎn)稱的檢索方法研究[J];中文信息學(xué)報(bào);2007年01期

8 林茂燦;漢語(yǔ)語(yǔ)調(diào)與聲調(diào)[J];語(yǔ)言文字應(yīng)用;2004年03期

9 王洪偉;劉勰;尹裴;廖雅國(guó);;Web文本情感分類研究綜述[J];情報(bào)學(xué)報(bào);2010年05期


相關(guān)碩士學(xué)位論文 前1條

1 王濤;金融信貸背景下分布式信息采集策略研究[D];南京大學(xué);2016年



本文編號(hào):2863151

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2863151.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶00c08***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com