OCR
Reconnaissance optique des caractères des fichiers PDF et porte-documents PDF
L'OCR (reconnaissance optique de caractères) est un processus logiciel qui permet de convertir les images ou un texte imprimé en texte lisible par une machine. L'OCR est généralement utilisée lors de la numérisation de documents papier pour créer des copies électroniques, mais elle peut également être utilisée sur des documents électroniques existants (ex : PDF ou porte-documents PDF).
² Reconnaître texte
Foxit PDF Editor peut détecter si un fichier PDF est scanné ou basé sur une image et proposer des suggestions adéquates pour lancer l'OCR lors de l'ouverture de ce type de fichier PDF. Vous pouvez également exécuter l'OCR à tout moment pour reconnaître le texte basé sur une image dans un PDF.
Pour procéder à la reconnaissance d'un texte basé sur une image ou numérisé dans un fichier PDF, procédez comme suit :
1. Cliquez sur Convertir > Reconnaître le texte > Fichier actuel dans la boîte de dialogue Reconnaître le texte, et spécifiez la plage de pages requise.
2. Choisissez la langue utilisée dans votre document. Vous pouvez également sélectionner plusieurs langues.
3. Dans le type de sortie, cochez Image avec texte pouvant faire l'objet d'une recherche pour rendre le texte de l'image compatible avec une sélection et une recherche (ou cochez Texte modifiable pour permettre la modification du texte de l'image avec Foxit PDF Editor). Cliquez ensuite sur OK pour procéder à la reconnaissance du texte.
· Image avec texte pouvant faire l'objet d'une recherche : au cours du processus d'OCR, Foxit PDF Editor analyse le texte de l'image et substitue les mots ou les caractères qui s'approchent étroitement du texte de l'image. Les mots ou les caractères de substitution sont placés sur une couche de texte invisible dans le PDF, ce qui permet de sélectionner le texte de l'image et d'effectuer une recherche dans celui-ci. Si la substitution est douteuse, le texte sera marqué en tant qu'éléments OCR suspects, qui doivent être corrigés manuellement.
· Texte modifiable : au cours du processus d'OCR, Foxit PDF Editor compare la forme du texte de l'image avec les polices approchantes installées sur votre système, puis transforme le texte de l'image en texte modifiable.
Remarque : si vous êtes invité à télécharger le composant OCR après avoir cliqué sur OK, cliquez sur Oui pour le télécharger et l'installer, ou téléchargez-le ultérieurement en utilisant le lien fourni et installez-le en cliquant sur Installer le plug-in dans la boîte de dialogue À propos des plug-ins Foxit qui s'ouvre lorsque vous cliquez sur Plug-ins Foxit dans l'onglet Aide. Pour obtenir la version complète de Foxit PDF Editor, contactez-nous.
4. (Facultatif) Si vous cochez Rechercher tous les suspects (Afficher tous les résultats OCR susceptibles d'être modifiés), la boîte de dialogue Suspects OCR s'ouvre pour vous permettre d'effectuer une vérification et une correction dès la fin de la reconnaissance. Pour découvrir comment corriger les suspects OCR, reportez-vous à la section Rechercher et corriger les suspects OCR.
Si vous choisissez Texte modifiable dans le type de sortie, avec l'option Rechercher tous les suspects (Afficher tous les résultats OCR susceptibles d'être modifiés) sélectionnée, le texte traité par l'OCR que Foxit PDF Editor n'est pas certain d'avoir reconnu sera marqué en tant qu'éléments OCR suspects, et le texte de l'image d'origine sera conservé tant que vous n'aurez pas traité manuellement tous les OCR suspects. Vous pouvez également désélectionner cette option pour transformer le texte de l'image en texte modifiable sans éléments OCR suspects après la reconnaissance. Vous pouvez en outre modifier le texte directement en utilisant les commandes de l'onglet Modifier.
5. (Facultatif) Si vous sélectionnez Texte modifiable dans l'étape 3, l'option Reconnaître les segments de ligne comme objets de tracé dans le PDF est disponible. Si le texte de l'image de votre document contient des tableaux, la sélection de cette option facilite une meilleure reconnaissance des segments de ligne, mais peut demander plus de temps pour achever la reconnaissance.
6. Une barre de progression de la reconnaissance du texte s'affichera pour vous indiquer l'état d'avancement.
7. Exécutez la fonction de recherche ; le texte de votre image ou de votre document scanné pourra alors faire l'objet d'une recherche.
Astuce : Foxit PDF Editor offre une commande Reconnaissance rapide dans l'onglet Accueil/Convertir qui permet de reconnaître d'un simple clic toutes les pages d'un PDF numérisé ou basé sur des images, en utilisant les paramètres par défaut ou précédents.
Pour procéder à la reconnaissance du texte dans plusieurs fichiers :
1. Cliquez sur Convertir > Reconnaître le texte >Plusieurs fichiers.
2. Dans la boîte de dialogue Reconnaître le texte, cliquez sur Ajouter des fichiers pour ajouter des fichiers, des dossiers ou des fichiers actuellement ouverts. Utilisez Déplacer vers le haut, Déplacer vers le bas et Supprimer pour modifier l'ordre des fichiers.
3. Cliquez sur Options de sortie… Dans la boîte de dialogue Options de sortie, sélectionnez le dossier de destination et choisissez un nom pour le nouveau fichier et indiquez s'il remplace un fichier existant, puis cliquez sur OK.
4. Cliquez sur OK. Après la reconnaissance, un message s'affiche pour vous indiquer que la reconnaissance est terminée.
Remarque :
1. Lorsque vous utilisez le moteur OCR en langue chinoise, japonaise ou coréenne pour la première fois, le système vous rappellera de télécharger et d'installer le moteur à partir du serveur Foxit.
2. Si vous ajoutez des fichiers non pris en charge, un bouton « Supprimer les fichiers non pris en charge » s'affiche dans la boîte de dialogue Reconnaître le texte. Cliquez sur le bouton pour supprimer le ou les fichiers non pris en charge et continuez. Pendant la reconnaissance d'un porte-documents PDF, Foxit PDF Editor extraira et reconnaîtra uniquement les fichiers PDF dans le porte-documents.