大規(guī)模異構(gòu)環(huán)境下的文本分類算法研究及應(yīng)用

發(fā)布時間：2018-10-29 19:16

【摘要】：以網(wǎng)絡(luò)為重要組成部分的計算機應(yīng)用走到了一個空前繁榮的時代，各種新的應(yīng)用環(huán)境、應(yīng)用需求紛紛出現(xiàn)，在一些如搜索引擎、社交網(wǎng)絡(luò)等大規(guī)模應(yīng)用中，數(shù)據(jù)每天都在以極高的速度增長。如何能在有效時間內(nèi)快速地對這些數(shù)據(jù)進行處理，獲得其中的應(yīng)用價值，，是業(yè)界正在努力解決的問題。同時，多數(shù)的數(shù)據(jù)都是以異構(gòu)的形式存在，使得對其利用的過程變得更加具有挑戰(zhàn)性。文本分類作為一門比較重要的技術(shù)，在大規(guī)模的數(shù)據(jù)環(huán)境下也同樣很重要，它使得我們能夠快速地獲得未知文檔的類別，對于信息的處理是非常有益的。傳統(tǒng)的分類算法固然有諸多優(yōu)點，但是速度多存在限制，這對一些高數(shù)據(jù)流量的環(huán)境是不相稱的。對于如何解決這些問題，論文中作者做了以下幾點嘗試： 1）基于一些傳統(tǒng)分類領(lǐng)域的優(yōu)秀思想，提出了一種基于單字計算的快速文本分類算法； 2）為了能夠快速抓取網(wǎng)頁，設(shè)計出一種簡潔、可擴展的分布式網(wǎng)頁爬蟲； 3）對如何利用XML技術(shù)對異構(gòu)數(shù)據(jù)進行整合做了研究，在網(wǎng)頁處理環(huán)節(jié)里，設(shè)計出了一種利用網(wǎng)頁的DOM結(jié)構(gòu)快速抽取網(wǎng)頁正文的算法； 4）實現(xiàn)了一個可運行的通用檢索系統(tǒng)，整合了按分類檢索的功能，方便用戶對搜索結(jié)果進行進一步的過濾細化，提高檢索質(zhì)量。
[Abstract]:The computer application which takes the network as the important component has entered an unprecedented prosperous era, various new application environments, the application demand appears one after another, in some large-scale applications such as the search engine, the social network and so on, The data is growing at a very high rate every day. How to process these data quickly and obtain the application value in the effective time is a problem that the industry is trying to solve. At the same time, most of the data exists in heterogeneous form, which makes the process of using it more challenging. As an important technology, text classification is also very important in large-scale data environment. It enables us to quickly obtain the categories of unknown documents, which is very useful for the processing of information. The traditional classification algorithm has many advantages, but the speed is limited, which is not suitable for some high data traffic environment. As to how to solve these problems, the author has made the following attempts: 1) based on some excellent ideas in traditional classification field, a fast text classification algorithm based on word computing is proposed; 2) in order to capture web pages quickly, a simple and extensible distributed web crawler is designed. 3) how to integrate heterogeneous data with XML technology is studied. In the process of web pages, an algorithm is designed to extract the text of web pages quickly by using the DOM structure of web pages. 4) A running universal retrieval system is implemented, which integrates the function of classified retrieval, which is convenient for users to further filter and refine the search results and improve the retrieval quality.
【學(xué)位授予單位】：河北科技大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2012
【分類號】：TP391.1

【參考文獻】

相關(guān)期刊論文前10條

1 于洪波;;中文分詞技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2010年05期

2 王偉;許云峰;高凱;;基于哈希表的動態(tài)向量降維方法的研究及應(yīng)用[J];河北科技大學(xué)學(xué)報;2011年04期

3 郝偉;楊國霞;郝志杰;;專業(yè)搜索引擎搜索結(jié)果融合算法研究[J];河北科技大學(xué)學(xué)報;2011年04期

4 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā);使用最大熵模型進行中文文本分類[J];計算機研究與發(fā)展;2005年01期

5 周源遠,王繼成,鄭剛,張福炎;Web頁面清洗技術(shù)的研究與實現(xiàn)[J];計算機工程;2002年09期

6 李紅蓮,王春花,袁保宗;一種改進的支持向量機NN-SVM[J];計算機學(xué)報;2003年08期

7 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應(yīng)用;2005年04期

8 邱莎;段玻;申浩如;丁海燕;;基于條件隨機場的中文人名識別研究[J];昆明學(xué)院學(xué)報;2011年06期

9 梁強;吳柳燕;聶偉;;基于SVM和概率統(tǒng)計的文本分類方法研究[J];柳州職業(yè)技術(shù)學(xué)院學(xué)報;2010年02期

10 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期

相關(guān)博士學(xué)位論文前3條

1 李忠偉;支持向量機學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2006年

2 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年

3 秦玉平;基于支持向量機的文本分類算法研究[D];大連理工大學(xué);2008年

相關(guān)碩士學(xué)位論文前8條

1 柯青;網(wǎng)絡(luò)環(huán)境下異構(gòu)信息檢索標準體系研究[D];武漢大學(xué);2004年

2 李珍輝;基于Web services的異構(gòu)信息系統(tǒng)安全互操作研究[D];湘潭大學(xué);2007年

3 楊林波;快速文本分類研究[D];江南大學(xué);2008年

4 馮小琴;基于技術(shù)接受模型的信息檢索可視化研究[D];華中師范大學(xué);2009年

5 浦曉斌;專利異構(gòu)信息資源互操作的研究與實現(xiàn)[D];南京理工大學(xué);2009年

6 黃啟虎;基于仿生模式識別的文本分類技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2008年

7 王站立;基于數(shù)據(jù)庫技術(shù)的異構(gòu)信息共享平臺的研究[D];大連交通大學(xué);2010年

8 萬晶;Web網(wǎng)頁正文抽取方法研究[D];南昌大學(xué);2010年

本文編號：2298561

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2298561.html

上一篇：基于輕量級類數(shù)據(jù)庫中間件的應(yīng)用的研究
下一篇：搜索引擎自動分類功能評價

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大規(guī)模異構(gòu)環(huán)境下的文本分類算法研究及應(yīng)用