基于Multi-Agent的分布式文本聚類模型
[Abstract]:With the increasing number of big data in Internet network, there is an urgent need to design a new clustering method which can deal with large scale semi-structured and unstructured text data. The shortcomings of the existing work are that the text set applied is relatively single, the accuracy of clustering semi-structured and unstructured Web texts is low, and the timeliness of clustering cannot be guaranteed when the document size is large. A new text clustering model (Switch (a Swarm intelligence based text clustering algorithm),) based on swarm intelligence is proposed to support text clustering in Tibetan, Chinese, English and other languages. The basic ideas are as follows: construct the vector space model of text and obtain the text set composed of feature vectors by natural language processing and data preprocessing technology; The parameters of the swarm intelligence text clustering algorithm are initialized. Different agents can move arbitrarily in the two-dimensional text space to calculate the similarity between the text in the grid region and other samples. The probabilistic transformation function is used to obtain the probability of the agent picking up and dropping the sample, and then the text clustering is realized. The multi-agent architecture of distributed dynamic text flow clustering is proposed. The architecture is applied to the swarm intelligence text clustering algorithm. The distributed working environment is designed as a soft agents set that communicates with each other. The similarity calculation and agent state awareness are designed. There are three kinds of agents for text parsing. By solving the problem of agent state synchronization, processor load balancing and communication between processors, computing tasks are divided into different sub-tasks and executed on multi-processors. In addition, the working principle of distributed swarm intelligence text clustering method based on multi-agent is described, and a distributed communication architecture is presented, in which various agents communicate with each other and cooperate with each other to complete text clustering. Based on multi-agent, distributed text clustering on cluster is realized by JADE (Java Agent Development Framework) middleware. The advantage of distributed computing and large memory processing is that distributed computing and large memory processing have better processing capability than single computer. With the help of JADE middleware, agents can communicate and cooperate with each other to achieve efficient text clustering. Experiments are carried out on a large number of real semi-structured Web text datasets containing Tibetan, Chinese and English languages. Taking Tibetan as an example, the experimental results show that compared with k-means and single-node swarm intelligence clustering algorithm, In the distributed architecture, the accuracy of the proposed text clustering algorithm is higher than that of the average of 12.2% and 3.8%, and the time cost is reduced by 73.0% and 50.6% on average. When the number of agents in n node clusters is between 150 and 250, the time cost of text clustering is approximately 1 / nnof that of a single node.
【作者單位】: 成都信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 成都信息工程大學(xué)管理學(xué)院 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院 浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院 西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 四川大學(xué)計算機學(xué)院
【基金】:國家自然科學(xué)基金(61772091,61165013,61363037) 教育部人文社會科學(xué)研究規(guī)劃基金(15YJAZH058) 四川高?蒲袆(chuàng)新團隊建設(shè)計劃(18TD0027) 成都信息工程大學(xué)中青年學(xué)術(shù)帶頭人科研基金(J201701) 四川省科技計劃項目(2018JY0448) 廣西自然科學(xué)基金項目(2017JJD170122y)資助~~
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 喬少杰;韓楠;金澈清;高云君;李天瑞;唐常杰;康健;;基于Multi-Agent的分布式文本聚類模型[J];計算機學(xué)報;2018年08期
2 黃建宇;周愛武;肖云;譚天誠;;基于特征空間的文本聚類[J];計算機技術(shù)與發(fā)展;2017年09期
3 楊婉霞;孫理和;黃永峰;;結(jié)合語義與統(tǒng)計的特征降維短文本聚類[J];計算機工程;2012年22期
4 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
5 張毓;陳軍清;;基于深度特征語義學(xué)習(xí)模型的垃圾短信文本聚類研究[J];現(xiàn)代計算機(專業(yè)版);2018年07期
6 畢強;劉健;鮑玉來;;基于語義相似度的文本聚類研究[J];現(xiàn)代圖書情報技術(shù);2016年12期
7 吳錫坤;劉洋;;基于社交網(wǎng)絡(luò)中非平衡文本聚類方法的研究[J];科技創(chuàng)新導(dǎo)報;2016年13期
8 李向東;劉曉斌;武利平;常洪梅;;面向路線圖編制的模糊均值文本聚類挖掘方法研究[J];河北工業(yè)大學(xué)學(xué)報;2011年03期
9 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[J];中文信息學(xué)報;2007年02期
10 車?yán)?楊小平;;多特征融合文本聚類的新聞話題發(fā)現(xiàn)模型[J];國防科技大學(xué)學(xué)報;2017年03期
相關(guān)會議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 張越今;丁丁;;敏感話題發(fā)現(xiàn)中的增量型文本聚類模型[A];第30次全國計算機安全學(xué)術(shù)交流會論文集[C];2015年
3 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
4 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
5 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
7 林靈;張百霞;李彥文;王耘;李志勇;;基于文本挖掘與計算機輔助藥物設(shè)計的中藥候選新藥發(fā)現(xiàn)方法[A];第十二次全國中西醫(yī)結(jié)合實驗醫(yī)學(xué)專業(yè)委員會暨第七次湖南省中西醫(yī)結(jié)合神經(jīng)科專業(yè)委員會學(xué)術(shù)年會論文集[C];2015年
8 孫承杰;朱文煥;林磊;劉遠(yuǎn)超;;BBS短文本聚類技術(shù)研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
9 趙飛;周渝慧;;基于Multi-Agent的電價預(yù)測支持系統(tǒng)設(shè)計[A];2009電力行業(yè)信息化年會論文集[C];2009年
10 張剛;殷國富;鄧克文;李火生;;基于Multi-Agent的復(fù)雜結(jié)構(gòu)產(chǎn)品設(shè)計模型[A];全國第13屆計算機輔助設(shè)計與圖形學(xué)(CAD/CG)學(xué)術(shù)會議論文集[C];2004年
相關(guān)博士學(xué)位論文 前10條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2011年
3 李春梅;基于Internet/Intranet和Multi-Agent的企業(yè)經(jīng)營戰(zhàn)略群體決策支持系統(tǒng)研究[D];昆明理工大學(xué);2001年
4 何增鎮(zhèn);基于Multi-Agent與博弈論的城市交通控制誘導(dǎo)系統(tǒng)及其關(guān)鍵技術(shù)研究[D];中南大學(xué);2010年
5 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
6 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年
7 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年
8 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
9 王縱虎;聚類分析優(yōu)化關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2012年
10 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 鄒雪君;基于全覆蓋粒計算的文本特征選擇和聚類研究[D];太原理工大學(xué);2018年
2 蔣喬薇;面向特定領(lǐng)域的話題檢測系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2018年
3 王惠;基于LDA主題模型的文本聚類研究[D];蘭州大學(xué);2018年
4 張瑞琴;基于Hadoop云計算平臺的文本聚類并行化研究[D];沈陽工業(yè)大學(xué);2018年
5 王豐;基于GPU并行的K-MEANS算法研究及其在文本聚類的應(yīng)用[D];武漢郵電科學(xué)研究院;2018年
6 王偉超;基于Hadoop的中文微博熱點話題發(fā)現(xiàn)方法研究[D];東北大學(xué);2016年
7 方自云;基于hSync算法的文本聚類方法研究[D];武漢理工大學(xué);2015年
8 王宇;基于統(tǒng)計學(xué)習(xí)方法的高斯LDA模型的文本聚類研究[D];華僑大學(xué);2017年
9 李舒穎;移動應(yīng)用缺陷報告的文本聚類技術(shù)研究[D];南京大學(xué);2017年
10 張?zhí)煊?基于改進CFSFDP算法的電信投訴文本聚類方法研究[D];杭州電子科技大學(xué);2017年
,本文編號:2403046
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2403046.html