paperpass的查重原理 [轉(zhuǎn)載]有關(guān)碩士論文查重的總結(jié):使用paperpass和知網(wǎng)的心得!
9月30日上交了論文查重,今天晚些時(shí)候年級(jí)通知我們,結(jié)果出來了,沒有公布相似的比例,但通過了。這算是過了論文的第一關(guān)了,略微松了一口氣,回想之前改論文的痛苦過程,覺得應(yīng)該把一些經(jīng)驗(yàn)記錄下來,因?yàn)槲也皇鞘裁磧?nèi)部人事,所以以下的內(nèi)容都是我在改論文過程中的一些推斷。paperpass的查重原理
現(xiàn)在流行的相似度匹配系統(tǒng)大概有這么幾類:知網(wǎng)、paperpass、維普及萬方等。
這些系統(tǒng)的原理都是一樣的,都是把你提交的論文拆分成一堆句子,再拆分成一堆關(guān)鍵字,然后與他們維護(hù)的數(shù)據(jù)庫做對(duì)比,計(jì)算重復(fù)的文字在你文章里的比重,算法類似于百度的關(guān)鍵字匹配,這么說,大家也就明白了,你簡(jiǎn)單地把一個(gè)句子的各別詞換成同意詞,把字句變被字句,加一兩個(gè)“的”等是不行的,除非你把句子40%的詞都換了。
略有不同的他們數(shù)據(jù)庫內(nèi)文獻(xiàn)的多少、查重的粒度及斷定為相似的閥值。數(shù)據(jù)庫的大小就不說了,那后兩個(gè)是什么呢?
查重的粒度指可以被認(rèn)定為重復(fù)句的最小句長,舉個(gè)例子,現(xiàn)在的系統(tǒng)都把分號(hào)與句號(hào)當(dāng)作分句符,paperpass把這個(gè)最小句長設(shè)為8,這意味著小于8個(gè)字的句子無論怎樣都不會(huì)被認(rèn)為是重復(fù)的,因?yàn)槟銢]有到人家檢測(cè)的門檻。知網(wǎng)的好像是13。
我所理解的查重系統(tǒng)的大概原理也就這些了。下面介紹下我們常用的系統(tǒng):知網(wǎng)與paperpass。知網(wǎng)是官方的系統(tǒng),大部分學(xué)校用的都是知網(wǎng),當(dāng)然我校也是;paperpass為一個(gè)公司開發(fā)的,因?yàn)椴僮鞣奖恪⒉惶F且非常嚴(yán)格,被我們廣泛使用,我個(gè)人只用過paperpass。因?yàn)椋挥行7降娜擞兄W(wǎng)的入口,他們?cè)谔詫毶腺I,一次要300,而且經(jīng)常要改的話可能要檢數(shù)次,對(duì)學(xué)生是一筆很大的開銷。除此外,至于我為什么沒用知網(wǎng)查,還有個(gè)小故事,教研室和
我一同改論文的一兄弟,paperpass改到了17%,用知網(wǎng)查了一個(gè)才0.7%,我這個(gè)18%也就非常放心了。
同時(shí),因?yàn)閜aperpass有時(shí)過于嚴(yán)格,會(huì)出現(xiàn),你都已經(jīng)看不出改動(dòng)了,他還是橙色,比如我的18%、我兄弟的17%。這時(shí)就可以不改了,過尤不及,0.7也說不過去。
下面說下我的方法,這個(gè)網(wǎng)上都有,而且更全,我怕不過,但又不想在這上面費(fèi)更多的時(shí)間,就簡(jiǎn)單地用了幾招:
1.盡量用長句,相當(dāng)于加大基數(shù)。
2.拼湊,不是把不同文獻(xiàn)的句子拼成一段,這樣沒用,而是把幾篇文章中的同一意思的幾個(gè)句子,拼成一句。
3.翻譯,翻譯國外的論文基本不會(huì)發(fā)生重復(fù),而且從道義上講也是合理的,翻譯也是自己的工作,是為學(xué)術(shù)做了貢獻(xiàn)的。畢竟,那些評(píng)你論文的教授們也沒打算讓你有什么開創(chuàng)性的成果,有自己的工作就可以了。
個(gè)人建議用后兩種,論文查重系統(tǒng)的設(shè)計(jì)不是為了查重而查重的,設(shè)計(jì)的初衷還是希望小碩們盡量原創(chuàng),設(shè)計(jì)的原則是“可以放過一個(gè)壞人,但決不錯(cuò)怪一個(gè)好人”,只要是自已寫的或是翻譯的,通過就是小意思了。paperpass的查重原理再指說,碩士論文的目的就是讓人具有基本的研究能力,好好做還是收獲頗豐的。在學(xué)位沒問題的前題下,還是自已多多原創(chuàng)吧!
PaperPass官網(wǎng):?f=082719A9216A470A
本文編號(hào):1263778
本文鏈接:http://sikaile.net/wenshubaike/lwzy/1263778.html