CCDet:一種高效的大規(guī)模中文重復(fù)網(wǎng)頁(yè)檢測(cè)方法
本文關(guān)鍵詞: CCDet算法 重復(fù)網(wǎng)頁(yè)檢測(cè) 中文句號(hào)特征 索引剪切 出處:《計(jì)算機(jī)研究與發(fā)展》2013年S2期 論文類型:期刊論文
【摘要】:重復(fù)文檔檢測(cè)是信息檢索領(lǐng)域中一個(gè)非常重要的問(wèn)題.由于網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的復(fù)雜性,現(xiàn)有方法在網(wǎng)頁(yè)查重上沒(méi)有達(dá)到很好的準(zhǔn)確性,且只有少量工作用于處理包含關(guān)系網(wǎng)頁(yè)檢測(cè)問(wèn)題;同時(shí),由于網(wǎng)頁(yè)數(shù)量的巨大,重復(fù)網(wǎng)頁(yè)檢測(cè)處理時(shí)需要考慮大規(guī)模數(shù)據(jù)的并行化算法.提出一種基于句號(hào)特征的大規(guī)模重復(fù)中文網(wǎng)頁(yè)檢測(cè)方法CCDet.CCDet采用了一種基于中文句號(hào)特征來(lái)完成重復(fù)文檔的相似性比對(duì)方法,與現(xiàn)有的主要重復(fù)網(wǎng)頁(yè)檢測(cè)算法相比,CCDet大幅提高了檢測(cè)具有重復(fù)關(guān)系網(wǎng)頁(yè)和具有包含關(guān)系網(wǎng)頁(yè)的準(zhǔn)確性,并擁有較高的檢測(cè)效率.同時(shí),為了適應(yīng)大規(guī)模新聞網(wǎng)頁(yè)的查重處理,使用MapReduce編程框架實(shí)現(xiàn)了并行化的CCDet算法,使之能夠并行化地進(jìn)行重復(fù)網(wǎng)頁(yè)檢測(cè).實(shí)驗(yàn)結(jié)果表明,并行化的CCDet算法具有較好的檢測(cè)效果和計(jì)算性能,并具有良好的可擴(kuò)展性.
[Abstract]:Duplicate document detection is a very important problem in the field of information retrieval. Due to the complexity of web page structure and content, the existing methods do not achieve good accuracy in page retrieval. And only a small amount of work is used to deal with the problem of containing relational page detection; at the same time, because of the large number of pages, The parallelization algorithm of large scale data should be taken into account in the detection of duplicate pages. A large scale Chinese page detection method based on period feature is proposed in this paper. CCDet.CCDet adopts a Chinese period feature to complete duplicate documents. Similarity comparison method, Compared with the existing algorithms, the CCDet greatly improves the accuracy and efficiency of the detection of web pages with repeatable relationship and contains relation pages. At the same time, in order to adapt to the reprocessing of large scale news pages, CCDet improves the accuracy of detecting web pages with duplicate relationship and contains relational pages. The parallel CCDet algorithm is implemented by using the MapReduce programming framework, which makes it possible to detect repeated web pages in parallel. The experimental results show that the parallel CCDet algorithm has good detection effect and computational performance, and has good scalability.
【作者單位】: 南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61072152) 江蘇省工業(yè)支撐計(jì)劃基金項(xiàng)目(BE2011172)
【分類號(hào)】:TP393.092;TP391.3
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2013年10期
2 邵景峰;崔尊民;王進(jìn)富;白曉波;;大數(shù)據(jù)下紡織制造執(zhí)行系統(tǒng)的構(gòu)建[J];紡織器材;2013年06期
3 張亞楠;譚躍生;;基于MapReduce的并行遮蓋文本聚類算法[J];內(nèi)蒙古科技大學(xué)學(xué)報(bào);2013年03期
4 周國(guó)亮;朱永利;王桂蘭;;CC-MRSJ:Hadoop平臺(tái)下緩存敏感的星型聯(lián)接算法[J];電信科學(xué);2013年10期
5 王鵬;黃焱;劉峰;安俊秀;;大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制[J];成都信息工程學(xué)院學(xué)報(bào);2014年01期
6 杜政頡;王鵬;黃焱;郎福通;;一種基于Storm編程模型的迭代Topology方案[J];成都信息工程學(xué)院學(xué)報(bào);2014年01期
7 范飛;黃文明;鄧珍榮;;Oozie工作流在Mahout分布式數(shù)據(jù)挖掘中的應(yīng)用[J];桂林電子科技大學(xué)學(xué)報(bào);2014年01期
8 孟令璽;李洪亮;;基于CA-PSO算法的云計(jì)算資源調(diào)度策略[J];計(jì)算機(jī)仿真;2013年10期
9 夏秀峰;趙小磊;孔慶云;;MBE與大數(shù)據(jù)給PDM帶來(lái)的思考[J];制造業(yè)自動(dòng)化;2013年20期
10 張宇;劉新;葉德建;;基于分布式流媒體計(jì)算框架的轉(zhuǎn)碼系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2013年09期
相關(guān)博士學(xué)位論文 前10條
1 李健;云計(jì)算環(huán)境下最小化運(yùn)營(yíng)開銷的調(diào)度技術(shù)研究[D];北京郵電大學(xué);2013年
2 韓晶;大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2013年
3 程祥;高效可靠的虛擬網(wǎng)絡(luò)映射技術(shù)研究[D];北京郵電大學(xué);2013年
4 李韌;基于Hadoop的大規(guī)模語(yǔ)義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
5 袁鑫攀;基于minwise哈希的文檔復(fù)制檢測(cè)的研究及應(yīng)用[D];中南大學(xué);2012年
6 盧風(fēng)順;面向CPU/GPU異構(gòu)體系結(jié)構(gòu)的并行計(jì)算關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
7 孫鵬;動(dòng)車組維修物聯(lián)網(wǎng)及其關(guān)鍵技術(shù)研究[D];中國(guó)鐵道科學(xué)研究院;2013年
8 肖奎;維基百科大數(shù)據(jù)的知識(shí)挖掘與管理方法研究[D];武漢大學(xué);2013年
9 程興國(guó);仿生算法的動(dòng)態(tài)反饋機(jī)制及其并行化實(shí)現(xiàn)方法研究[D];華南理工大學(xué);2013年
10 馬馮;數(shù)據(jù)密集型計(jì)算環(huán)境下貝葉斯網(wǎng)的學(xué)習(xí)、推理及應(yīng)用[D];云南大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 李昌恒;分布式搜索的結(jié)果融合方法研究與實(shí)現(xiàn)[D];華南理工大學(xué);2013年
2 徐凱;社交網(wǎng)絡(luò)數(shù)據(jù)采集及傳播路徑分析[D];江西農(nóng)業(yè)大學(xué);2013年
3 張科;基于《知網(wǎng)》義原空間的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];重慶大學(xué);2013年
4 陳貞;HDFS環(huán)境下的訪問(wèn)控制技術(shù)研究[D];重慶大學(xué);2013年
5 張丹;HDFS中文件存儲(chǔ)優(yōu)化的相關(guān)技術(shù)研究[D];南京師范大學(xué);2013年
6 潘吳斌;基于云計(jì)算的并行K-means氣象數(shù)據(jù)挖掘研究與應(yīng)用[D];南京信息工程大學(xué);2013年
7 趙洪昌;云計(jì)算下的關(guān)聯(lián)分析和模糊聚類研究[D];南京信息工程大學(xué);2013年
8 汪洋;通信網(wǎng)云計(jì)算平臺(tái)資源調(diào)度策略與算法研究[D];南昌大學(xué);2013年
9 呂天然;基于MapReduce的可視化工作流遙感并行處理平臺(tái)及關(guān)鍵技術(shù)研究[D];河南大學(xué);2013年
10 但光祥;云計(jì)算環(huán)境下混合加密算法研究與實(shí)現(xiàn)[D];重慶大學(xué);2013年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 沈陳華;平面上點(diǎn)與多邊形包含關(guān)系的Q算法[J];揚(yáng)州大學(xué)學(xué)報(bào)(自然科學(xué)版);1999年04期
2 王慧藝,文和平;快速判別點(diǎn)與三角形的包含關(guān)系[J];安徽工學(xué)院學(xué)報(bào);1996年02期
3 徐小萍;;集合MU的某些子類間的包含關(guān)系[J];襄樊學(xué)院學(xué)報(bào);2008年08期
4 彭認(rèn)燦;陳子澎;劉國(guó)輝;;快速確定多邊形與多邊形包含關(guān)系的一種新方法[J];測(cè)繪通報(bào);2006年05期
5 楊武;唐蓉;任麗蕓;;重復(fù)網(wǎng)頁(yè)檢測(cè)算法綜述[J];電腦知識(shí)與技術(shù);2010年22期
6 吳志光;二元無(wú)窮可微函數(shù)類之間包含關(guān)系的充要條件[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);1986年01期
7 顧珊;吉根林;;一種基于包含關(guān)系的空間面對(duì)象條件離群檢測(cè)算法[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2011年02期
8 施化吉;丁云磊;;基于數(shù)據(jù)立方體的高效關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年02期
9 王衛(wèi)辰;邢邦圣;;快速成形件與CAD模型間包含關(guān)系的一種通用實(shí)現(xiàn)方法[J];徐州師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
10 傅清祥,王曉東,李勇;求解簡(jiǎn)單多邊形間包含關(guān)系的掃描線算法[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);1997年02期
相關(guān)會(huì)議論文 前10條
1 方進(jìn)明;;半連續(xù)廣義序同態(tài)的性質(zhì)[A];模糊集理論與模糊應(yīng)用專輯——中國(guó)系統(tǒng)工程學(xué)會(huì)模糊數(shù)學(xué)與模糊系統(tǒng)委員會(huì)第十屆年會(huì)論文選集[C];2000年
2 孫茂圣;李斌;;一種分布式本體融合及冗語(yǔ)關(guān)系約簡(jiǎn)算法[A];2008年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
3 何先友;晏賽君;;場(chǎng)所包含關(guān)系對(duì)fan效應(yīng)消除的影響[A];第十一屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
4 喬朝飛;陳軍;趙仁亮;;基于Voronoi內(nèi)鄰集的等高線樹生成法[A];《大地測(cè)量與地球動(dòng)力學(xué)進(jìn)展》論文集[C];2004年
5 張家龍;;形式邏輯要現(xiàn)代化[A];邏輯學(xué)文集[C];1978年
6 郭永良;;從屬種關(guān)系看劃分、限制與定義[A];2000年邏輯研究專輯[C];2000年
7 馬佩;;論直言判斷的種類[A];邏輯學(xué)文集[C];1978年
8 徐芬;王挺;陳火旺;;基于SVM方法的中文實(shí)體關(guān)系抽取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
9 張美娜;亓超;遲呈英;戰(zhàn)學(xué)剛;;文本篇章結(jié)構(gòu)的自動(dòng)標(biāo)引[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
10 于惠棠;;形式邏輯教學(xué)中的兩個(gè)問(wèn)題[A];全國(guó)邏輯討論會(huì)論文選集[C];1979年
相關(guān)重要報(bào)紙文章 前10條
1 賴大慶;受賄人“合理”支出應(yīng)否扣除[N];檢察日?qǐng)?bào);2005年
2 孟學(xué);3G網(wǎng)管的基礎(chǔ):TMN網(wǎng)絡(luò)管理體系結(jié)構(gòu)[N];通信產(chǎn)業(yè)報(bào);2003年
3 廖一平 廣西大學(xué)法學(xué)院副教授 莫志強(qiáng);法條競(jìng)合及其處罰原則[N];法治快報(bào);2004年
4 張艷琳;小心你的郵件安全[N];中國(guó)電腦教育報(bào);2004年
5 本報(bào)記者 郭高中 北京大學(xué)學(xué)生工作部副部長(zhǎng) 馬正勇 北京師范大學(xué)心理系 喬志宏;貧困的根源不在學(xué)生身上[N];華夏時(shí)報(bào);2002年
6 高嵐;中國(guó)PKI建設(shè)烽火點(diǎn)燃[N];中國(guó)計(jì)算機(jī)報(bào);2003年
7 徐繼業(yè);借網(wǎng)球賽IBM試水關(guān)系營(yíng)銷[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2004年
8 向春玲;從社會(huì)系統(tǒng)的角度看“和諧社會(huì)”[N];學(xué)習(xí)時(shí)報(bào);2005年
9 肖立明;從“發(fā)展觀”到“榮辱觀”[N];白銀日?qǐng)?bào);2006年
10 張超 何雅芹 作者單位:北華航天工業(yè)學(xué)院保衛(wèi)處、廊坊血站;建設(shè)和諧社會(huì)需加強(qiáng)思想政治工作[N];廊坊日?qǐng)?bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 葉曉峰;函數(shù)空間及算子的有界性[D];浙江大學(xué);2006年
2 楊喜陶;時(shí)滯微分方程的概周期解[D];北京師范大學(xué);2006年
3 王中余;阿倫·福特音級(jí)集合理論研究[D];上海音樂(lè)學(xué)院;2008年
4 馬露杰;三維CAD模型形狀結(jié)構(gòu)分析方法[D];華中科技大學(xué);2009年
5 熊瑜;具有跟蹤性質(zhì)碼的研究[D];上海交通大學(xué);2007年
6 方流;描述邏輯推理優(yōu)化技術(shù)研究[D];浙江大學(xué);2008年
7 孟凡超;模型驅(qū)動(dòng)的構(gòu)件化企業(yè)應(yīng)用軟件開發(fā)方法[D];哈爾濱工業(yè)大學(xué);2008年
8 鄧歆;光傳送網(wǎng)告警相關(guān)性分析及其應(yīng)用的研究[D];北京郵電大學(xué);2008年
9 周平;基于格蘊(yùn)涵代數(shù)的格值邏輯中的近似推理研究[D];西南交通大學(xué);2007年
10 曾建彬;下義關(guān)系的認(rèn)知語(yǔ)義研究[D];復(fù)旦大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 曾婷;某些解析函數(shù)族的包含關(guān)系與系數(shù)估計(jì)[D];長(zhǎng)沙理工大學(xué);2008年
2 曾劍鋒;區(qū)間結(jié)構(gòu)的逼近和合成[D];江西師范大學(xué);2005年
3 劉文靜;兩個(gè)投影乘積算子的刻畫及保持值域包含關(guān)系的映射[D];陜西師范大學(xué);2013年
4 周保良;高中生對(duì)實(shí)無(wú)窮的理解[D];華東師范大學(xué);2006年
5 高羽,
本文編號(hào):1520566
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1520566.html