天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多核的并行相似連接

發(fā)布時(shí)間:2018-05-06 20:22

  本文選題:多核 + 多線(xiàn)程 ; 參考:《天津工業(yè)大學(xué)》2017年碩士論文


【摘要】:相似連接(similarityjoin)是指在給定的數(shù)據(jù)集中,根據(jù)給定的相似度度量函數(shù)來(lái)衡量數(shù)據(jù)之間的相似度,并找出所有相似度不小于給定閾值的數(shù)據(jù)對(duì)的操作。相似連接有著廣泛的應(yīng)用領(lǐng)域,如,模糊的關(guān)鍵字匹配,文檔聚類(lèi),系統(tǒng)推薦,協(xié)同過(guò)濾,數(shù)據(jù)集成與清洗等。隨著網(wǎng)絡(luò)和移動(dòng)應(yīng)用等信息技術(shù)的不斷發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),海量數(shù)據(jù)的分析需要強(qiáng)大的計(jì)算能力,相似連接成為大數(shù)據(jù)處理領(lǐng)域的熱點(diǎn)方式之一。度量相似性的方法有很多種,如,Jaccard similarity,Cosine similarity,Overlap similarity,Hamming distance,Edit distance。本篇文章主要采用 Jaccard similarity的方法去量化數(shù)據(jù)對(duì)相似值。傳統(tǒng)的單核計(jì)算機(jī)平臺(tái)的處理能力已經(jīng)很難滿(mǎn)足海量數(shù)據(jù)處理的計(jì)算要求。為了提高計(jì)算效率和計(jì)算性能,利用基于多核平臺(tái)的多線(xiàn)程并行編程發(fā)揮多核體系結(jié)構(gòu)的優(yōu)勢(shì),已經(jīng)成為實(shí)現(xiàn)個(gè)人低成本并行計(jì)算和多核技術(shù)發(fā)展的趨勢(shì)。為海量數(shù)據(jù)下的相似連接帶來(lái)了曙光。實(shí)驗(yàn)中,本文基于提出的數(shù)據(jù)分解和任務(wù)分解策略實(shí)現(xiàn)了四種不同相似連接算法,以此來(lái)驗(yàn)證本文提出的基于多核的并行相似連接方法的性能和可擴(kuò)展性。四種算法為:數(shù)據(jù)量均衡劃分與共享索引的方法,等長(zhǎng)數(shù)據(jù)劃分與共享索引的方法,數(shù)據(jù)量均衡劃分與獨(dú)立索引的方法,等長(zhǎng)數(shù)據(jù)劃分與獨(dú)立索引的方法。通過(guò)實(shí)驗(yàn)證明,本文提出的方法可以充分利用多核處理器架構(gòu)的并行處理能力,可以顯著的提高相似連接的效率。
[Abstract]:Similarity join is an operation that measures the similarity between data according to the given similarity measure function in a given data set and finds out all the data pairs whose similarity is not less than a given threshold. Similar join has a wide range of applications, such as fuzzy keyword matching, document clustering, system recommendation, collaborative filtering, data integration and cleaning. With the development of information technology, such as network and mobile application, the data is increasing explosively. The analysis of massive data needs powerful computing power. Similarity connection has become one of the hot methods in big data's processing field. There are many methods to measure similarity, such as Jaccard similarity and Cosine similarity / overlap similarity / hamming distance.Edit distance. This article mainly uses Jaccard similarity method to quantify the data pair similarity value. The processing ability of the traditional single-core computer platform has been difficult to meet the computing requirements of mass data processing. In order to improve computing efficiency and computing performance, it has become a trend to realize personal low-cost parallel computing and multi-core technology development by using multi-core multi-thread parallel programming based on multi-core platform to give play to the advantages of multi-core architecture. It brings the dawn to the similar connection under the massive data. In the experiment, four different similarity join algorithms are implemented based on the proposed data decomposition and task decomposition strategies to verify the performance and scalability of the proposed parallel similar join method based on multiple cores. The four algorithms are: the method of data equalization and sharing index, the method of equal-length data partition and shared index, the method of data balance partition and independent index, the method of equal-length data partition and independent index. The experiments show that the proposed method can make full use of the parallel processing ability of the multi-core processor architecture and can significantly improve the efficiency of similar connections.
【學(xué)位授予單位】:天津工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP332;TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張?jiān)圃?Java多線(xiàn)程并發(fā)技術(shù)的實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2004年09期

2 白紅;;淺議Java多線(xiàn)程程序設(shè)計(jì)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年02期

3 田曉紅;國(guó)產(chǎn)多線(xiàn)程瀏覽器“七仙女”的靚點(diǎn)[J];電腦愛(ài)好者;2000年24期

4 謝謙,向國(guó)全;多線(xiàn)程串行通信實(shí)現(xiàn)技術(shù)[J];河南大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年01期

5 margiex;;多線(xiàn)程中線(xiàn)程的同步及其應(yīng)用[J];中文信息;2002年02期

6 肖燁;楊智勇;;Java多線(xiàn)程程序設(shè)計(jì)入門(mén)[J];中文信息;2003年06期

7 蘇統(tǒng)華;;多線(xiàn)程串行通信系統(tǒng)的研究[J];中文信息;2003年07期

8 崔立劍;吳平;;Java多線(xiàn)程設(shè)計(jì)模式研究[J];計(jì)算機(jī)與現(xiàn)代化;2006年11期

9 甘群文;;C#多線(xiàn)程同步與異步的實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2009年09期

10 王沛禮;;高職學(xué)生如何掌握J(rèn)ava多線(xiàn)程同步技術(shù)[J];科技信息;2010年03期

相關(guān)會(huì)議論文 前10條

1 姚鐸;劉亞萍;;一種基于多線(xiàn)程的BGP策略并行模型的研究方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

2 劉陽(yáng);李孝輝;;多線(xiàn)程版本的串口讀寫(xiě)技術(shù)研究[A];第三屆全國(guó)虛擬儀器大會(huì)論文集[C];2008年

3 董光波;吳寧生;高效;曾慶虎;楊進(jìn);溫京;;一種組件式多線(xiàn)程網(wǎng)絡(luò)應(yīng)用架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第六分冊(cè))[中南大學(xué)學(xué)報(bào)(增刊)][C];2009年

4 肖靜靜;李雙峰;彭智勇;;用多線(xiàn)程方式優(yōu)化PostgreSQL的查詢(xún)處理[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

5 高齊新;揚(yáng)金柱;趙大哲;劉積仁;;基于多線(xiàn)程的三維醫(yī)學(xué)影像的重建[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年

6 聞建芬;何加銘;曾興斌;陳靜;;P2P網(wǎng)絡(luò)資源多線(xiàn)程傳輸改進(jìn)機(jī)制[A];浙江省電子學(xué)會(huì)2010學(xué)術(shù)年會(huì)論文集[C];2010年

7 王楠;慕曉冬;王寧燕;宋洪軍;李佳晨;張陽(yáng)子;;針對(duì)多線(xiàn)程架構(gòu)的決策樹(shù)查詢(xún)算法優(yōu)化及應(yīng)用[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年

8 梁志威;;用Java語(yǔ)言實(shí)現(xiàn)藍(lán)牙聊天平臺(tái)[A];促進(jìn)企業(yè)信息化進(jìn)程——第九屆中國(guó)Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2006年

9 霍利鋒;白鳳娥;;基于多線(xiàn)程的移動(dòng)短信平臺(tái)設(shè)計(jì)[A];AECC專(zhuān)題學(xué)術(shù)研討會(huì)論文集[C];2007年

10 袁小龍;劉增才;李曉霞;郭力;;基于XML的半結(jié)構(gòu)化化學(xué)信息提取系統(tǒng)的重構(gòu)與優(yōu)化[A];第九屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年

相關(guān)重要報(bào)紙文章 前10條

1 ;為何不能進(jìn)行多線(xiàn)程下載文件?[N];電腦報(bào);2001年

2 郭長(zhǎng)佑;多核與多線(xiàn)程——差別到底在哪里?[N];電子資訊時(shí)報(bào);2006年

3 ;網(wǎng)絡(luò)業(yè)未來(lái)12件大事(下)[N];網(wǎng)絡(luò)世界;2007年

4 nfy;IE6也能實(shí)現(xiàn)多線(xiàn)程下載[N];電腦報(bào);2002年

5 武漢 Tianyi;創(chuàng)建簡(jiǎn)單的多線(xiàn)程程序[N];電腦報(bào);2001年

6 CPW記者 凡妮;Sun年末奉碩果 預(yù)示復(fù)蘇在即[N];電腦商報(bào);2005年

7 張志剛;多線(xiàn)程走進(jìn)網(wǎng)絡(luò)[N];中國(guó)計(jì)算機(jī)報(bào);2006年

8 凡妮;Sun 2009財(cái)年二季度財(cái)報(bào)總體好于預(yù)期[N];電腦商報(bào);2009年

9 趙長(zhǎng)林邋姜建華;Sun:“芯”如潮涌[N];中國(guó)計(jì)算機(jī)報(bào);2007年

10 計(jì)算機(jī)世界實(shí)驗(yàn)室 吳挺;英特爾的8倍“核動(dòng)力”[N];計(jì)算機(jī)世界;2007年

相關(guān)博士學(xué)位論文 前4條

1 逄龍;多線(xiàn)程程序中關(guān)聯(lián)變量原子性驗(yàn)證關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2015年

2 趙榮彩;多線(xiàn)程低功耗編譯優(yōu)化技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年

3 楊華;片上多線(xiàn)程體系結(jié)構(gòu)資源分配策略的研究[D];哈爾濱工業(yè)大學(xué);2006年

4 徐海峰;多線(xiàn)程的內(nèi)存調(diào)度[D];浙江大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 張傳勇;基于hadoop影視碎片云存儲(chǔ)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2015年

2 張龍;聊天系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2015年

3 劉麗;嵌入式WM8960音頻驅(qū)動(dòng)及多線(xiàn)程播放器的設(shè)計(jì)[D];哈爾濱工業(yè)大學(xué);2015年

4 劉書(shū)健;基于協(xié)程的高并發(fā)的分析與研究[D];昆明理工大學(xué);2016年

5 楊振;多線(xiàn)程程序數(shù)據(jù)競(jìng)爭(zhēng)檢測(cè)和驗(yàn)證方法研究[D];哈爾濱工業(yè)大學(xué);2016年

6 王昭淼;面向多線(xiàn)程程序的確定性重演研究[D];大連理工大學(xué);2016年

7 黃文豪;面向方面程序設(shè)計(jì)(AOP)在Web程序中的應(yīng)用研究[D];武漢工程大學(xué);2016年

8 馮林靜;基于多核的并行相似連接[D];天津工業(yè)大學(xué);2017年

9 陳結(jié);同構(gòu)多核環(huán)境下主從式多線(xiàn)程動(dòng)態(tài)二進(jìn)制翻譯器[D];華中科技大學(xué);2009年

10 殷紹劍;嵌入式多線(xiàn)程遠(yuǎn)程調(diào)試器研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年

,

本文編號(hào):1853741

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1853741.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)1c4ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com