大規(guī)模異構(gòu)環(huán)境下的文本分類算法研究及應(yīng)用
[Abstract]:The computer application which takes the network as the important component has entered an unprecedented prosperous era, various new application environments, the application demand appears one after another, in some large-scale applications such as the search engine, the social network and so on, The data is growing at a very high rate every day. How to process these data quickly and obtain the application value in the effective time is a problem that the industry is trying to solve. At the same time, most of the data exists in heterogeneous form, which makes the process of using it more challenging. As an important technology, text classification is also very important in large-scale data environment. It enables us to quickly obtain the categories of unknown documents, which is very useful for the processing of information. The traditional classification algorithm has many advantages, but the speed is limited, which is not suitable for some high data traffic environment. As to how to solve these problems, the author has made the following attempts: 1) based on some excellent ideas in traditional classification field, a fast text classification algorithm based on word computing is proposed; 2) in order to capture web pages quickly, a simple and extensible distributed web crawler is designed. 3) how to integrate heterogeneous data with XML technology is studied. In the process of web pages, an algorithm is designed to extract the text of web pages quickly by using the DOM structure of web pages. 4) A running universal retrieval system is implemented, which integrates the function of classified retrieval, which is convenient for users to further filter and refine the search results and improve the retrieval quality.
【學(xué)位授予單位】:河北科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 于洪波;;中文分詞技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2010年05期
2 王偉;許云峰;高凱;;基于哈希表的動態(tài)向量降維方法的研究及應(yīng)用[J];河北科技大學(xué)學(xué)報;2011年04期
3 郝偉;楊國霞;郝志杰;;專業(yè)搜索引擎搜索結(jié)果融合算法研究[J];河北科技大學(xué)學(xué)報;2011年04期
4 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā);使用最大熵模型進行中文文本分類[J];計算機研究與發(fā)展;2005年01期
5 周源遠,王繼成,鄭剛,張福炎;Web頁面清洗技術(shù)的研究與實現(xiàn)[J];計算機工程;2002年09期
6 李紅蓮,王春花,袁保宗;一種改進的支持向量機NN-SVM[J];計算機學(xué)報;2003年08期
7 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應(yīng)用;2005年04期
8 邱莎;段玻;申浩如;丁海燕;;基于條件隨機場的中文人名識別研究[J];昆明學(xué)院學(xué)報;2011年06期
9 梁強;吳柳燕;聶偉;;基于SVM和概率統(tǒng)計的文本分類方法研究[J];柳州職業(yè)技術(shù)學(xué)院學(xué)報;2010年02期
10 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期
相關(guān)博士學(xué)位論文 前3條
1 李忠偉;支持向量機學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2006年
2 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年
3 秦玉平;基于支持向量機的文本分類算法研究[D];大連理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前8條
1 柯青;網(wǎng)絡(luò)環(huán)境下異構(gòu)信息檢索標準體系研究[D];武漢大學(xué);2004年
2 李珍輝;基于Web services的異構(gòu)信息系統(tǒng)安全互操作研究[D];湘潭大學(xué);2007年
3 楊林波;快速文本分類研究[D];江南大學(xué);2008年
4 馮小琴;基于技術(shù)接受模型的信息檢索可視化研究[D];華中師范大學(xué);2009年
5 浦曉斌;專利異構(gòu)信息資源互操作的研究與實現(xiàn)[D];南京理工大學(xué);2009年
6 黃啟虎;基于仿生模式識別的文本分類技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2008年
7 王站立;基于數(shù)據(jù)庫技術(shù)的異構(gòu)信息共享平臺的研究[D];大連交通大學(xué);2010年
8 萬晶;Web網(wǎng)頁正文抽取方法研究[D];南昌大學(xué);2010年
本文編號:2298561
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2298561.html