ithenticate论文查重原理是什么?

2021-06-02 11:18

  crosscheck(CrossCheck by iThenticate)这个查重软件,知道的人想必都清楚,专业的查重软件,各大杂志社都在使用,很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说,论文的总体相似率超过30%,编辑就会要求修改或者可能直接拒稿。后果还是很严重的。那ithenticate到底是如何进行判定的呢?ithenticate论文查重原理是什么?

 

  

ithenticate论文查重原理是什么?

 

  根据对自己检测的相似性报告分析。初步推测下软件对文章的查重处理。一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化。说来也很合理。因为一篇文章中,除了单词以外,还有大量的符号(标点符号,数学符号及特殊符号等)。这些并不是crosscheck查重的对象,所以会把他们处理掉。这些符号会通通被替换为空格。这种文本处理方式也是很常见的,在python和matlab的数据处理中经常会使用。

 

  处理后的文章就只剩下单词了。然后软件会对文章进行比对处理。根据软件设置的重复原则对文本进行标记。最终得出一份相似性报告。

 

  这里的重点是软件判定重复的原则。了解了原则之后,我们就可以有针对性的进行修改。网上很多关于这些规则的说法,大部分是说连续六个单词即判定重复,或者根据语言风格相似即判定重复。这些说法不够准确,也没有依据。我们还是回到软件本身来回答这个问题。crosscheck它是一款软件,它不是人,不能判断文章的内容,只会把文章和系统内的进行比对,根据规则做出判断。那这样的规则到底有哪些?

 

  其实,crosscheck查重的基本规则只有一条:不连续的六个单词中间连续不重复的单词小于四个(不包括四个)即判定这六个单词重复(注意:这里的规则是软件系统默认的规则,大部分期刊使用默认规则)。

 

  所有的查重结果都是基于这条进行的。这句话比较绕口。具体怎么理解,我们来看下具体的实例。

 

  先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个,即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词,0表示不重复的单词。那么这种情况就是:111111。

 

  再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑,有时候几个单词距离的很远,也被判定重复了,很是苦恼。

一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化

 

  1)中间只有一个不重复的。例如:1011111;1101111;1111011等。

 

  实例:Computer science has been widely considered as...(斜体表示和已有文献重复)

 

  这里面单纯插入一个widely单词,是不足以骗过系统的。

 

  2)中间有两个重复的。例如:1100110011;110010011001;1100110011等。

 

  实例1:Computer science has been widely percieved asan...

 

  这里替换两个不重复单词widely percieved,但是Computer,science,has,been,as,an已经是六个不连续的重复了。

 

  实例2:Computer science and technology has been widely percieved as an...

 

  在Computer science后面加上两个不重复的单词and technology是不是就可以了呢?答案是否定的,Computer,science,has,been,as,an这六个词中间只有两个是不重复的,不能判定为整句不重复。

 

  3)中间有三个不重复的。这个一眼乍看不觉得重复,但其实是重复了。例如:100010001111;100010001000100010001等。

 

  100010001000100010001这种情况是不是很刺激。对!按照规则,这个也算重复。因为六个不连续重复的单词直接是三个重复的。

 

  实例1:Computer science,resulting from America,has been widely percieved as an...

 

  这种形式是11000110011模式,依旧是重复的。

 

  实例2:Computer science,resulting from America,has been widely percieved as one of most promising....

 

  好,我们把改成one of most。虽然这三个没有重复,但紧接着后面的promising和已有文献重复了,很不幸,整个句子还是重复了。重复形式为11000110010001。

 

  上面分析的是单纯的单词,不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的,系统该如何处理他们?

 

论文查重入口
本科论文查重入口 硕博论文查重入口 研究生定稿系统入口 源文鉴查重入口 小论文查重入口 维普检测入口 万方检测入口 大雅查重入口 PaperPass查重入口 PaperYY查重入口 Turnitin查重入口 ithenticate查重入口
相关文章
我们的服务
论文查重、期刊发表等各类论咨 询服务
论文服务
论文查重、期刊发表等各类论咨 询服务。
文章检测权威、精确,检测过程 安全保密
文章检测
文章检测权威、精确,检测过程 安全保密。
专业指导,降低论文重复率,严格保证修改内容质量
论文降重
专业指导,降低论文重复率,严格保证修改内容质量。
论文查重咨询
论文查重流程
论文查重
论文查重

选择系统,确认论文无误 后进行上传。

论文检测网
在线支付

根据论文属性进行支付, 支持微信、支付宝。

论文查重检测网
提交检测

选择系统,确认论文无误后进行上传。

检测完成后下载查重报告 ,获取查重结果
下载报告

检测完成后下载查重报告 ,获取查重结果。