logo Federation cegeps

Plagiat: détecter des similitudes dans deux fichiers PDF

Print Friendly, PDF & Email

Contexte

Un journaliste du journal Le Devoir m’a envoyé ce courriel: 

«Je cherche à établir de manière solide la similarité entre deux textes en format PDF, dont l’un semble être une copie presque parfaite de l’autre. Vos connaissances et votre expertise en matière de plagiat pourraient m’être d’une grande aide pour assurer la solidité de cet exercice. Auriez-vous quelques minutes pour que nous en discutions? Je pourrais aussi vous faire parvenir une copie des PDF en question.»

Questions

  1. À votre avis, est-ce qu’un logiciel détecteur de plagiat peut effectuer un test de similitude entre deux textes au format PDF?
    1. Si oui, quel logiciel utiliseriez-vous?
  2. Avez-vous d’autres solutions à proposer ou des précisions à apporter?

Réponses et actions à la suite de cet appel à tous

Les réponses fournies par les répondants TIC ont été très appréciées par le journaliste. Comme celui-ci désirait obtenir un tableau permettant de «quantifier» les similitudes trouvées dans les deux textes, nous avons retenu le recours au logiciel détecteur de plagiat Compilatio. Les textes ont été envoyés à un répondant TIC et celui-ci en fera l’analyse avec Compilatio.

Reste que d’autres suggestions fort pertinentes ont été faites et je vous invite à lire toutes les réponses. Par exemple:

  • Adobe (Standard et Pro et non Reader) permet la comparaison de fichiers
    • Un service en ligne est également offert
  • Si le document le permet (donc pas une image numérisée), convertir les deux documents PDF au format Word et utiliser la fonction «Réviser/comparer»

Détail des réponses

ÉTABLISSEMENT/REPTIC

RÉPONSES

Ahuntsic

Madona Moukhachen

Nous utilisons Compilatio. Compilatio permet de comparer deux PDFs, un PDF et un Word/PowerPoint/Excel, un PDF et une page web, etc. Nous l’utilisons pour la première fois cette année, mais il a l’air assez efficace et plus nous aurons de documents dans Compilatio, plus il sera précis dans les comparaisons.

Le seul commentaire que j’ai avec Compilatio, c’est qu’il n’est pas capable de comparer des ressources dans des langues différentes.

Bois-de-Boulogne

Jessika Groleau

Certains enseignants utilisent le logiciel Compilatio pour les documents PDF. Il faudrait néanmoins vérifier le degré de fiabilité dans les concordances. Le degré de satisfaction lui, semble bon par contre.

Édouard-Montpetit

Julie Dessureault

Nous utilisons le logiciel Compilatio.

Gaspésie et des Îles

Karine Deraspe

On peut dans Word… alors le plus facile serait de convertir le PDF en Word.

Granby

Huguette Dupont

Je ne connais pas les logiciels de plagiat. Par contre, dans Adobe Acrobat (la version payante et non la visionneuse de PDF Adobe Reader) il existe une fonction de comparaison qui fonctionne plutôt bien (Outils => Comparer les  fichiers).

International des Marcellines

Alexander Deichman

Juste pour ajouter aux commentaires des autres et corriger la vision en peu erronée: Si le PDF est une image scannée, sans reconnaissance des caractères, il faut d’abord le convertir en utilisant l’outil de reconnaissance disponible dans Acrobat PDF Standard ou Pro. La reconnaissance est très fiable (d’ordre de 100%) si le scan est d’une qualité raisonnable.  Ensuite, voir les commentaires de nos collègues RepTIC pour la détection du plagiat.

Dans le cas de PDF protégé, il faut enlever la protection, etc. Tout est possible. J’offre mon expertise et mon temps pour la conversion de PDF si nécessaire.

ITA – Saint-Hyacinthe

Jacques Lalumière

Même solution que Huguette. Nous avons quelques postes disposants de la version Acrobat Pro que le personnel peut utiliser.

«Outils- Traitement du document – Comparer des documents»

Jean-de-Brébeuf

Jean Allard

Le mode comparer de Word permet de facilement comparer deux PDF. Tu utilises la commande COMPARER du Ruban RÉVISION (qui te demande d’indiquer les deux documents). Le résultat affiche le nombre de changements avec un tableau de chacun des éléments qui sont différents. Si le résultat est 0, c’est donc deux documents parfaitement identiques, sinon tu peux voir toutes les différences; même minimes.
Je viens de tester avec deux PDF, mais je n’ai pas le temps cette semaine de voir si c’est possible avec un logiciel libre de traitement de texte. Évidemment, il faut que les PDF proviennent d’un éditeur texte et non d’un scan qui produit une image.

Laflèche

Valérie Lyonnais

Oui, je crois que le logiciel Compilatio offre cette option.

Lanaudière – Joliette

Martin Richard

Je suis de l’avis de Lucie Delhomme ci-dessous. Ça dépend de quelle façon le PDF a été produit. S’il a été produit à partir d’un fichier Word, un logiciel détecteur de plagiat devrait pouvoir l’analyser et détecter la fraude. Par contre, dans le cas où le fichier PDF proviendrait d’une numérisation, il n’y a pas grand-chose à faire.

LaSalle

Lucie Delhomme

Pour être analysé par un logiciel, il faut que le PDF permette la lecture du texte. C’est-à-dire qu’il provienne d’un fichier texte exporté en PDF. Un PDF issu d’un scan sera une image et un logiciel antiplagiat ne pourra pas le lire.

Ceci dit, vu le message du journaliste, si les PDF sont effectivement des “copies presque parfaites” l’un de l’autre, c’est peut-être un cas de plagiat suffisamment flagrant pour ne pas avoir besoin d’un logiciel. Une simple lecture comparée peut suffire (en espérant pour vous que les textes ne soient pas trop longs !)

Dans ce cas, l’enjeu consiste à découvrir quel est le texte original pour savoir qui a plagié qui. Donc il faut savoir d’où proviennent les textes: vérifier les sources, autrement dit ! (parole de bibliothécaire)

Autre possibilité (même si je m’écarte un peu de la question) : Quand on n’a pas de logiciel et si on veut vérifier qu’un texte n’est pas une copie d’un contenu trouvé sur le web: copier-coller les extraits du texte dont on doute dans la barre de recherche de Google.

Montmorency

Martin Pelletier

Comparer deux fichiers PDF (issus de documents de format texte) peut être fait avec le service Compilatio. Une fois que le premier texte est dans la banque, la soumission du deuxième devrait donner un pourcentage de similitude. Dans le cas de l’exemple, le taux devrait être assez élevé.

Il est aussi possible de sauvegarder les PDF en format texte (Word) ce qui donne l’avantage de sélectionner tout le texte et de le mettre en noir. On peut ainsi débusquer les caractères qui auraient pu être cachés (en blanc par exemple), ce qui pourrait déjouer notre oeil ou les outils de comparaison, notamment le mode côte à côte pour les comparer.

Outaouais

Jean-François Nadeau

Adobe a un outil pour comparer deux documents PDF: https://acrobat.adobe.com/ca/fr/acrobat/how-to/compare-two-pdf-files.html

Dans Outils: Comparer les fichiers.

Service en ligne gratuit  (mais je ne l’ai pas essayé): https://draftable.com/compare (version locale payante disponible)

REBICQ

Anne-Frédérique Champoux

Peut-être est-ce trop poussé, mais je sais qu’à l’UdeM, des professeurs sont spécialisés dans la fouille de textes, Dominic Forest entre autres. Si jamais cette info peut t’être utile…

Saint-Félicien

Bernard Gagnon

Si le PDF n’est pas une image (format image transformé en PDF), mais un texte Word transformé en PDF, le logiciel Compilatio pourra détecter le plagiat (le pourcentage de similitude à l’identique).

Stéphanie Carle

AQPC

J’exporterais les documents dans Word (possible avec Acrobat Pro) et j’utiliserais la fonction “Réviser/comparer”.

Vieux Montréal

Daniel Bourry

Format PDF

Je suppose que les documents PDF à comparer sont en format PDF-Texte et non pas PDF-Image. Je ne suis pas certain du résultat dans le deuxième cas (PDF-Image).

Adobe Acrobate Pro

On peut comparer deux documents dans Adobe Acrobate Pro (Affichage -> Comparer des documents).

Compilatio (le logiciel antiplagiat que les sciences humaines utilisent au CVM)

On peut soumettre deux documents à l’outil antiplagiat Magister de Compilatio. Ces documents peuvent être de format PDF. Une fois le premier document soumis, celui-ci sera intégré à la base de données de Compilatio. En soumettant le deuxième document, la comparaison se fera automatiquement s’il y a assez de similitudes.

 

Écrire une réponse