1. Résolution : le socle d’une reconnaissance réussie
La résolution, exprimée en DPI (dots per inch), détermine le niveau de détail de l’image enregistrée. Pour l’OCR, le seuil minimum conseillé est de 300 DPI pour des textes standards. Plusieurs sources, dont Adobe (Adobe Scan Guide) et ABBYY, évoquent qu’en-dessous de 200 DPI, le taux d’erreur croît fortement – lettres amalgamées, accents ou chiffres confondus. Pour les textes contenant de petits caractères (ex : contrats, notices), il est préférable de monter à 400 voire 600 DPI. Attention, cependant : une résolution trop élevée (au-delà de 600 DPI) augmente inutilement la taille des fichiers, sans gain pour la qualité du texte reconnu.
- Conseil pratique : Privilégier 300 à 400 DPI pour les documents texte classiques.
- Pour les documents très fins ou en petits caractères : testez à 600 DPI.
- Au-delà, la reconnaissance stagne mais la gestion des fichiers se complique.
2. Contraste et luminosité : pour des lettres bien nettes
Des caractères bien tranchés sur une page claire favorisent la séparation des lettres et arrière-plan par l’OCR. Un contraste faible (texte gris sur fond gris, papier jauni…) désoriente le moteur de reconnaissance, qui "devine" alors plutôt qu'il ne lit. Augmenter le contraste depuis l’interface du scanner ou par un logiciel complémentaire (ScanTailor, NAPS2) renforce la lisibilité des lettres.
- Contraste : Augmenter jusqu’à ce que le texte apparaisse noir sur fond blanc, sans basculer dans l’écrasement des détails (ne pas noircir les images ou tamponner les lettres fines).
- Luminosité : Ajuster pour éviter les taches sombres ou surexposées ; trop clair, les lettres "s’effacent" ; trop sombre, des “blocs” noirs s’invitent entre les mots.
- Si votre scanner possède un mode “texte” ou “noir et blanc optimisé”, privilégiez-le sur des pages dactylographiées.
Sur les appareils bureautiques d’entreprise, la présence d’options avancées (amélioration du texte, suppression du fond, ajustement automatique) permet une détection fine. D’après le test réalisé par PCMag en 2023 sur une douzaine de scanners classiques (PCMag reviews 2023), les appareils proposant un préréglage “texte pur”, avec contraste automatique et lissage de fond, offrent des résultats OCR 17 % plus fiables sur une base de documents mixtes.
3. Format de fichier : JPEG, TIFF ou PDF ?
Le format d’enregistrement de l’image influence la fidélité du texte détecté.
- TIFF (sans compression) : Format idéal : il préserve tous les détails, pas de détérioration par compression. Impeccable pour les OCR exigeants.
- PDF (de préférence “PDF image + texte” ou PDF/A) : Pratique pour l’archivage et la recherche. Certains scanners créent déjà un PDF prêt à l’OCR.
- JPEG : À éviter sauf si aucun autre choix : la compression “perte” dégrade la netteté des lettres, ce qui complexifie la reconnaissance.
- PNG : Convient pour des images simples ; supporte la transparence mais n’apporte pas d’avantage majeur face à TIFF.
Dans des tests menés par The National Library Service for the Blind and Print Disabled (NLS, 2022), une conversion TIFF — puis OCR ABBYY FineReader — génère 98 % de taux de reconnaissance mot à mot sur des pages imprimées standard. Répété sur du JPEG compressé, le taux chute à 86 % sur ces mêmes documents.
4. Couleur ou noir et blanc ?
La plupart des logiciels OCR modernes privilégient le mode noir et blanc (niveau de gris ou binaire) pour une reconnaissance purement textuelle : cela élimine les « bruits » colorés ou les motifs de fond. Mais attention : trop de simplification binaire peut effacer des caractères fins ou des signes diacritiques.
- Pour des textes sans illustration, privilégier le mode “noir et blanc (niveau de gris)” pour garder la douceur des bords.
- En cas de diagrammes, schémas ou sur documents annotés en couleur, préférez le mode couleur ou une conversion en “niveau de gris” de qualité haute.
Selon une étude du Consortium for Image-based Text Recognition, le mode “256 niveaux de gris” améliore la détection des points délicats (accents, symboles) de 7 % face à l’option “binaire pur” sur des OCR en langue française.