天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

上市公司負面信息監(jiān)測系統(tǒng)分析與設(shè)計

發(fā)布時間:2018-03-13 21:35

  本文選題:搜索引擎 切入點:網(wǎng)絡(luò)爬蟲 出處:《復(fù)旦大學(xué)》2013年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著網(wǎng)絡(luò)的發(fā)展,人們開始認識到在大量的數(shù)據(jù)中獲取有用的信息相當困難。在此背景下,從上世紀90年代開始,數(shù)據(jù)挖掘技術(shù)開始迅速崛起。該研究領(lǐng)域綜合了機器學(xué)習(xí)和統(tǒng)計分析等多個學(xué)科的計算機技術(shù),它能夠有效的幫助人們從浩瀚的數(shù)據(jù)中提取出有用的信息資源并加以研究,從而幫助人們科學(xué)客觀地做出各種決策。系統(tǒng)采用了數(shù)據(jù)挖掘技術(shù),可以應(yīng)用于網(wǎng)絡(luò)中的各類網(wǎng)站,采集相關(guān)的負面信息。本系統(tǒng)是專門針對東方財富股吧論壇而設(shè)計,對該論壇中某一上市公司采集負面信息。系統(tǒng)實現(xiàn)了對網(wǎng)頁信息的采集、預(yù)處理、分詞、文本傾向性分析以及索引檢索的全過程,主要包括以下幾個功能:1.網(wǎng)頁采集:下載東方財富股吧論壇中的網(wǎng)頁并保存在本地文件夾中。2.網(wǎng)頁預(yù)處理:去除網(wǎng)頁中各類無用的標簽,提取正文部分。3.中文分詞:作為數(shù)據(jù)挖掘的前提,在負面信息判定前,將提取到的正文做分詞處理。4.負面信息判定:通過文本分類技術(shù)判斷文本中的負面信息,保存含有負面信息的文本。5.用戶檢索:用戶通過輸入上市公司的股票代碼,獲取該公司在東方財富股吧論壇中的負面消息。在完成了系統(tǒng)設(shè)計和系統(tǒng)完整功能的基礎(chǔ)上,本文還針對文本分類的多種算法進行了分析和研究,采用精度較高的算法實現(xiàn)本系統(tǒng)的負面信息判定功能。論文最后總結(jié)了課題的研究成果,展望了本論文涉及的相關(guān)技術(shù)及進一步的研究工作。
[Abstract]:With the development of the network, people begin to realize that it is very difficult to obtain useful information from a large amount of data. In this context, since -10s, Data mining technology has begun to rise rapidly. This research field combines computer technology of machine learning and statistical analysis. It can effectively help people extract useful information resources from the vast amount of data and study them. It helps people make scientific and objective decisions. The system adopts data mining technology, which can be applied to all kinds of Web sites and collect related negative information. This system is specially designed for the Oriental Wealth Unit Forum. The system realizes the whole process of collecting, preprocessing, participle, text orientation analysis and index retrieval for a listed company in this forum. The main functions include: 1. Web page collection: download the page from the Oriental Wealth Unit forum and save it in the local folder .2. Page preprocessing: remove all kinds of useless tags from the web page, Extract the text part .3.Chinese participle: as the premise of data mining, the extracted text will be used as the word segmentation processing before the negative information is judged. 4. Negative information judgment: judging the negative information in the text through text classification technology, User Retrieval: by entering the stock code of the listed company, the user acquires the negative news of the company in the Oriental Fortune Bath Forum. On the basis of completing the system design and the complete function of the system, the user retrieves the negative information of the company by entering the stock code of the listed company. This paper also analyzes and studies various algorithms for text classification, and uses the algorithm with high accuracy to realize the negative information judgment function of the system. Finally, the paper summarizes the research results of the subject. The related technology and further research work in this paper are prospected.
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前5條

1 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進研究[J];計算機工程與應(yīng)用;2005年01期

2 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期

3 唐慧豐;譚松波;程學(xué)旗;;基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J];中文信息學(xué)報;2007年06期

4 黃穎;黃治平;;HtmIParser提取網(wǎng)頁信息的設(shè)計與實現(xiàn)[J];江西理工大學(xué)學(xué)報;2007年06期

5 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計算機技術(shù)與發(fā)展;2012年02期

相關(guān)碩士學(xué)位論文 前1條

1 李兆福;基于K最短路徑的中文分詞算法研究與實現(xiàn)[D];哈爾濱工程大學(xué);2009年

,

本文編號:1608225

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1608225.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7a6eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com