VietOCR : OCR pour des docs vietnamiens - Nhận dạng ký tự quang học tiếng Việt

Publié le par lolond

(extrait doc de SourceForge.Net - VietOCR)
VietOCR est un reconessent des caractères vietnamiens dévellopé par une équipe 
VietOCR, disponible en Java et. NET exécutable, est la GUI pour le moteur de ROC Tesseract.
Ils sport similaire interface utilisateur graphique et sont capables de reconnaître le texte à partir d'images de formats communs.Langue des données pour le vietnamien et l'anglais est déjà fourni avec le programme.
 
Les données pour d'autres langues peuvent être téléchargés à partir de Tesseract site et doivent être placés dansle dossier  tessdata.

Traitement par lot est maintenant supporté. Le programme surveille un nouveau dossier pour regarder les fichiers image, automatiquement par l'intermédiaire du processus de moteur OCR, la reconnaissance des résultats et les produits à un dossier de sortie.

Installation

La version Java nécessite Java Runtime Environment version 6.0 ou ultérieure.

Le version .NET version nécessite Microsoft. NET Framework 2.0 Redistributable. Si vous rencontrez un FileLoadException avec le message "Impossible de charger le fichier ou l'assembly" tessnet2, Version = 2.0.3.7, Culture = neutre, PublicKeyToken = null 'ou une de ses dépendances. Cette application n'a pas réussi à démarrer car la configuration de l'application est incorrecte. Réinstallation de l'application mai résoudre ce problème. (Exception de HRESULT: 0x800736B1) "lors de l'exécution de VietOCR.NET, s'il vous plaît installer Microsoft Visual C + + 2005 SP1 Redistributable Package.

Figure 1: VietOCR.NET window Figure 1: fenêtre VietOCR.NET

Figure 2: VietOCR window Figure 2: VietOCR fenêtre

Opération OCR

La langue vietnamienne compris les données ont été produites spécifiquement pour Times New Roman, Arial, Verdana, et Courier New polices. En conséquent, la reconnaissance d'un meilleur taux de réussite pour les images qui font des glyphes. OCRing font des images qui ont une apparence différente des glyphes de la police générale, soutenue auront besoin d'une formation Tesseract de créer un autre paquet de données en langage spécifique pour ces types de caractères.

 

Les images à OCRed doivent être scannés à la résolution d'au moins 200 DPI (points par pouce) à 400 DPI. Balayage à haute résolution ne sera pas nécessairement aboutir à une meilleure reconnaissance de précision, qui peut être supérieur à 97% pour les Vietnamiens - la prochaine version de Tesseract mai améliorer encore davantage. Même ainsi, les taux réels dépendent encore fortement de la qualité de l'image numérisée. Les paramètres de numérisation sont généralement de 300 DPI et 1 bpp (bits par pixel) noir et blanc ou en niveaux de gris 8 bpp format TIFF non compressé.

La reconnaissance des erreurs peuvent être classées en trois catégories. Beaucoup d'erreurs sont liées à la lettre des cas - par exemple: Hoa, nhắc - qui peuvent être facilement corrigées par les éditeurs de texte Unicode populaires. Beaucoup d'autres erreurs sont le résultat du processus OCR processus, tels que les signes diacritiques manquante, mal avec les mêmes lettres de forme, etc - huu - Huu, mang - marg, h0a - hoa, la - 1a, uhìu - nhìn. Ils peuvent également être facilement fixés par le correcteur orthographique de programmes vietnamiens VietOCR intégré dans le post pour les Vietnamiens peuvent aider à corriger un grand nombre de ces erreurs.

Note: La fonction de post-vietnamienne peut corriger beaucoup de ces erreurs.


La dernière catégorie d'erreurs est le plus difficile à détecter car ils sont des erreurs sémantiques, ce qui signifie que les mots sont valides dans le dictionnaire, mais sont dans l'erreur dans le contexte - par exemple, tinh - tình, van - van. Ces erreurs nécessitent l'éditeur de bien lire et de corriger manuellement en fonction de l'image originale.

La suite de processus d'édition avec VietPad éditeur de texte est proposé.

Limitations

Tesseract ne prend pas en charge la mise en page, donc ne peut reconnaître une colonne de texte.

Télécharger : VietOCR-Ney.

P.S : Nous avons testé voici le résultat :


Résultat assez proban, mais les images à traité doivent être des fichiers .TIF!

Publié dans ** BUREAUTIQUES

Commenter cet article