面向論文相似性檢測(cè)的數(shù)據(jù)預(yù)處理研究
本文選題:相似性檢測(cè) + 抄襲檢測(cè); 參考:《現(xiàn)代圖書情報(bào)技術(shù)》2015年05期
【摘要】:【目的】探究論文相似性檢測(cè)中數(shù)據(jù)預(yù)處理的數(shù)據(jù)問題及相關(guān)方法。【方法】對(duì)數(shù)據(jù)進(jìn)行細(xì)致的分析,采用基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于語義的方法進(jìn)行預(yù)處理!窘Y(jié)果】揭示論文相似性檢測(cè)中原始數(shù)據(jù)存在的數(shù)據(jù)質(zhì)量問題,并在此基礎(chǔ)上給出數(shù)據(jù)預(yù)處理模型。【局限】語料規(guī)模有限,且暫未考慮對(duì)語料中圖表內(nèi)容的預(yù)處理。【結(jié)論】數(shù)據(jù)預(yù)處理有助于提高論文相似性檢測(cè)結(jié)果的準(zhǔn)確性;有效結(jié)合基于規(guī)則、統(tǒng)計(jì)、語義的三種方法有助于提高數(shù)據(jù)預(yù)處理效果。
[Abstract]:[objective] to explore the data preprocessing problems and related methods in similarity detection. [methods] to analyze the data carefully, adopt the method based on rules and statistics, The method based on semantics is used to preprocess. [results] the data quality problems in the original data in similarity detection are revealed, and the model of data preprocessing is given on the basis of which the data preprocessing model is given. [limited] the size of the corpus is limited. [conclusion] data preprocessing is helpful to improve the accuracy of similarity detection results. The three semantic methods are helpful to improve the effect of data preprocessing.
【作者單位】: 南京大學(xué)信息管理學(xué)院;江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室;南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金管理學(xué)部青年項(xiàng)目“基于CSSCI的句法級(jí)漢英平行語料庫構(gòu)建及知識(shí)挖掘研究”(項(xiàng)目編號(hào):71303120) 江蘇省社會(huì)科學(xué)基金項(xiàng)目“大數(shù)據(jù)環(huán)境下漢英短語級(jí)平行語料標(biāo)注及知識(shí)挖掘研究”(項(xiàng)目編號(hào):13XWC017)的研究成果之一
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測(cè)算法[J];大連理工大學(xué)學(xué)報(bào);2007年01期
2 高燕;;關(guān)鍵詞自動(dòng)標(biāo)引方法綜述[J];電子世界;2012年06期
3 趙俊杰;汪麗;王平水;;基于自動(dòng)文摘的論文抄襲檢測(cè)研究(英文)[J];電腦與電信;2010年02期
4 劉明吉;王秀峰;黃亞樓;;數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J];計(jì)算機(jī)科學(xué);2000年04期
5 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)工程;2000年04期
6 秦玉平;冷強(qiáng)奎;王秀坤;王春立;;基于局部詞頻指紋的論文抄襲檢測(cè)算法[J];計(jì)算機(jī)工程;2011年06期
7 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
8 趙俊杰;胡學(xué)鋼;;一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年04期
9 耿崇;薛德軍;;中文文檔復(fù)制檢測(cè)方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年06期
10 王森;王宇;;基于文本結(jié)構(gòu)樹的論文復(fù)制檢測(cè)算法[J];現(xiàn)代圖書情報(bào)技術(shù);2009年10期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王濤;樊孝忠;林培光;陳康;;基于復(fù)雜特征集的剽竊檢測(cè)[J];北京理工大學(xué)學(xué)報(bào);2008年02期
2 王恩德,劉國斌;基于經(jīng)濟(jì)景氣分析數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年04期
3 王恩德;劉暢;;面向?qū)ο蠹夹g(shù)在構(gòu)建數(shù)據(jù)倉庫中的應(yīng)用研究[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2007年05期
4 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年06期
5 洪梅;;Web日志挖掘在電子商務(wù)中的應(yīng)用[J];長春大學(xué)學(xué)報(bào);2008年10期
6 夏葵;基于數(shù)據(jù)挖掘的三層入侵檢測(cè)模型研究及應(yīng)用[J];重慶職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年02期
7 周宏廣,周繼承,劉長生;基于策略模式的缺損數(shù)據(jù)處理方法[J];長沙航空職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年02期
8 王霞俊;;基于Web使用挖掘的實(shí)時(shí)推薦技術(shù)[J];常州輕工職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年01期
9 林華;;現(xiàn)代醫(yī)院病案統(tǒng)計(jì)分析存在的問題與對(duì)策[J];當(dāng)代經(jīng)濟(jì);2009年24期
10 趙文忠;張長利;房俊龍;;Web日志挖掘在農(nóng)業(yè)網(wǎng)站的應(yīng)用[J];東北農(nóng)業(yè)大學(xué)學(xué)報(bào);2010年08期
相關(guān)會(huì)議論文 前10條
1 劉琛璽;彭傳薇;;提高醫(yī)療指標(biāo)效能是新形勢(shì)下醫(yī)院管理的迫切需要[A];中國醫(yī)院協(xié)會(huì)病案管理專業(yè)委員會(huì)第十七屆學(xué)術(shù)會(huì)議論文集[C];2008年
2 王皓;曹永鋒;孫洪;;基于流域變換的聚類分析[A];第十二屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2005)論文集[C];2005年
3 高斯;徐德華;;保險(xiǎn)業(yè)CRM平臺(tái)ETL應(yīng)用研究[A];第十屆中國不確定系統(tǒng)年會(huì)、第十四屆中國青年信息與管理學(xué)者大會(huì)論文集[C];2012年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 陳X;李心科;;基于可擴(kuò)展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
6 劉晨;周惠民;;基于空間數(shù)據(jù)倉庫的氣象信息共享的應(yīng)用研究[A];數(shù)據(jù)庫技術(shù)在氣象領(lǐng)域的應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2001年
7 魏新;廖聞劍;彭艷兵;;基于數(shù)據(jù)挖掘的校園網(wǎng)絡(luò)行為分析[A];第十屆中國科協(xié)年會(huì)信息化與社會(huì)發(fā)展學(xué)術(shù)討論會(huì)分會(huì)場(chǎng)論文集[C];2008年
8 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動(dòng)文摘研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
9 彭玉青;何華;顧軍華;;基于粗集理論的歸納依賴關(guān)系的研究[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
10 李曉榮;張偉斌;施伯樂;;一類數(shù)據(jù)實(shí)例質(zhì)量的量化研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
相關(guān)博士學(xué)位論文 前10條
1 劉杰;面向數(shù)據(jù)集成的數(shù)據(jù)清理關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2010年
2 高遐;“軍民結(jié)合”戰(zhàn)略實(shí)施的制度環(huán)境與組織變革研究[D];電子科技大學(xué);2011年
3 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
4 張崇明;無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)異常檢測(cè)和數(shù)據(jù)質(zhì)量問題研究[D];復(fù)旦大學(xué);2010年
5 趙楠;基于機(jī)器學(xué)習(xí)的供應(yīng)鏈績效智能分析方法研究[D];天津大學(xué);2010年
6 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
7 張小剛;關(guān)聯(lián)規(guī)則挖掘及其在復(fù)雜工業(yè)過程控制中的應(yīng)用研究[D];湖南大學(xué);2002年
8 劉勇國;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)研究[D];重慶大學(xué);2003年
9 許濤;電力系統(tǒng)安全穩(wěn)定的智能挖掘[D];華北電力大學(xué)(北京);2004年
10 陳偉;數(shù)據(jù)清理關(guān)鍵技術(shù)及其軟件平臺(tái)的研究與應(yīng)用[D];南京航空航天大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 王森;基于主題樹的自上而下文本復(fù)制檢測(cè)研究[D];大連理工大學(xué);2010年
2 孫偉;基于文檔復(fù)制檢測(cè)技術(shù)的研究與實(shí)現(xiàn)[D];遼寧工程技術(shù)大學(xué);2010年
3 高龍;天津港數(shù)據(jù)集成平臺(tái)關(guān)鍵技術(shù)應(yīng)用研究[D];大連海事大學(xué);2010年
4 紀(jì)雅楠;數(shù)據(jù)挖掘技術(shù)在高校成人教育學(xué)生成績分析中的應(yīng)用研究[D];中國海洋大學(xué);2010年
5 黃學(xué)輝;數(shù)據(jù)挖掘分類技術(shù)在企業(yè)人才招聘中的應(yīng)用研究[D];中國海洋大學(xué);2010年
6 陳鳳萍;壽光人才求職招聘網(wǎng)站中資源檢索算法的研究[D];中國海洋大學(xué);2010年
7 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
8 張峰;基于數(shù)據(jù)挖掘技術(shù)的教學(xué)管理應(yīng)用研究[D];合肥工業(yè)大學(xué);2010年
9 王英翔;天津港數(shù)據(jù)集成處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
10 高新;銀行客戶信息數(shù)據(jù)倉庫的實(shí)現(xiàn)與應(yīng)用[D];華南理工大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(bào);2003年06期
2 史彥軍,滕弘飛,金博;抄襲論文識(shí)別研究與進(jìn)展[J];大連理工大學(xué)學(xué)報(bào);2005年01期
3 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測(cè)算法[J];大連理工大學(xué)學(xué)報(bào);2007年01期
4 宋擒豹,沈鈞毅;數(shù)字商品非法復(fù)制和擴(kuò)散的監(jiān)測(cè)機(jī)制[J];計(jì)算機(jī)研究與發(fā)展;2001年01期
5 王繼成 ,武港山 ,周源遠(yuǎn) ,張福炎;一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動(dòng)摘要方法[J];計(jì)算機(jī)研究與發(fā)展;2003年03期
6 馬穎華,王永成,蘇貴洋,張宇萌;一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2003年06期
7 俞榮華;田增平;周傲英;;一種檢測(cè)多語言文本相似重復(fù)記錄的綜合方法[J];計(jì)算機(jī)科學(xué);2002年01期
8 金博,史彥軍,滕弘飛;中文文檔復(fù)制檢測(cè)系統(tǒng)研究[J];計(jì)算機(jī)工程;2005年19期
9 聶規(guī)劃;付志超;陳冬林;劉平峰;;基于本體的論文復(fù)制檢測(cè)系統(tǒng)[J];計(jì)算機(jī)工程;2009年06期
10 邱越峰,田增平,季文,
本文編號(hào):1790882
本文鏈接:http://sikaile.net/wenshubaike/gzzj/1790882.html