Manualinux
http://www.nvu.com http://www.gimp.org InicioPresentaciónActualizacionesManualesDescargasNoticiasAgradecimientoEnlaces

Entornos GráficosAplicaciones

DesarrolloEmuladoresInternetJuegosMultimediaSistema

GráficosSonidoVídeo

Utilidades Gráficas - XnConvertUtilidades PDF - PDFSAM

Utilidades OCR - gImageReader




Utilidades OCR - gImageReader




Copyright

Copyright © José Luis Lara Carrascal  2014-2017   http://manualinux.eu



Sumario

Introducción
Leptonica
Tesseract
gImageReader
Traducción al Español alternativa de gImageReader
Iniciamos gImageReader
Enlaces




Introducción  

GImageReader es una interfaz gráfica escrita en C++ y GTKMM o Qt4/5 para el motor de reconocimiento óptico de caracteres, Tesseract. Inicialmente desarrollado por HP Labs como software propietario, fue publicado como código abierto en el año 2005 y desde el año 2006, Google se ha hecho cargo de su desarrollo.

Probablemente, la categoría de software de reconocimiento óptico de caracteres, es en la que se notan más las diferencias entre el software gratuito y el comercial. Cualquier usuario que haya probado, o lo tenga instalado en su ordenador, el famoso Abby Fine Reader, se quedará muy decepcionado, cuando pruebe este programa, o cualquier otro gratuito de características similares que pueda encontrarse en GNU/Linux o en Windows. Si no podemos trasladar el diseño de la fuente original al documento guardado, el software no nos sirve absolutamente para nada. Bueno sí, nos sirve para fuentes originales que no contengan texto formateado junto a imágenes. Pero normalmente, la función principal de un software OCR, es trasladar el diseño de la fuente original, a un formato de documento soportado por el mismo, normalmente en Windows, DOC o PDF.

Dicha esta aclaración, junto al manual se incluye también la instalación del propio Tesseract y de la principal dependencia de éste, Leptonica, además de incluir la traducción al español de gImageReader.



Leptonica  

Instalación

Dependencias

Herramientas de Compilación


Entre paréntesis la versión con la que se ha compilado Leptonica para la elaboración de este documento.

* GCC - (6.3.0) o Clang - (4.0.0)
* Gawk - (4.1.4)
* M4 - (1.4.18)
* Libtool - (2.4.6)
* Make - (4.2.1)
* Automake - (1.15)
* Autoconf - (2.69)

Librerías de Desarrollo

* Giflib - (5.1.4)
* Libjpeg - (9b)
* Libpng - (1.6.29)
* Libtiff - (4.0.7)
* Libwebp - (0.6.0)
* OpenJPEG - (2.1.1)
* Zlib - (1.2.11)



Descarga

leptonica-1.74.1.tar.gz

Optimizaciones

$ export {C,CXX}FLAGS='-O3 -march=amdfam10 -mtune=amdfam10'

Donde pone amdfam10 se indica el procesador respectivo de cada sistema seleccionándolo de la siguiente tabla:
Nota informativa sobre las optimizaciones para GCC
* La opción '-march=' establece el procesador mínimo con el que funcionará el programa compilado, la opción '-mtune=' el procesador específico para el que será optimizado. 

* Los valores separados por comas, son equivalentes, es decir, que lo mismo da poner '-march=k8' que '-march=athlon64'.

* En versiones de GCC 3.2 e inferiores se utiliza la opción '-mcpu=' en lugar de '-mtune='.
Nota informativa sobre las optimizaciones para Clang
* La opción '-mtune=' está soportada a partir de la versión 3.4 de Clang.

* Los valores de color azul no son compatibles con Clang.

* Las filas con el fondo de color amarillo son valores exclusivos de Clang, y por lo tanto, no son aplicables con GCC.
Valores CPU
Genéricos
generic Produce un código binario optimizado para la mayor parte de procesadores existentes. Utilizar este valor si no sabemos el nombre del procesador que tenemos en nuestro equipo. Este valor sólo es aplicable en la opción '-mtune=', si utilizamos GCC. Esta opción está disponible a partir de GCC 4.2.
native Produce un código binario optimizado para el procesador que tengamos en nuestro sistema, siendo éste detectado utilizando la instrucción cpuid. Procesadores antiguos pueden no ser detectados utilizando este valor. Esta opción está disponible a partir de GCC 4.2.
Intel
atom Intel Atom con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3 y extensiones 64-bit. Esta opción está disponible desde GCC 4.6, hasta GCC 4.8. A partir de GCC 4.9 se utiliza la definición bonnell.
bonnell Intel Bonnell con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3 y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9.
broadwell Intel Broadwell con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND, FMA, BMI, BMI2, F16C, RDSEED, ADCX, PREFETCHW y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9 y Clang 3.6.
cannonlake Intel Cannonlake con soporte de instrucciones X87, MMX, AVX, FXSR, CMPXCHG16B, POPCNT, AES, PCLMUL, XSAVE, XSAVEOPT, LAHFSAHF, RDRAND, F16C, FSGSBase, AVX2, BMI, BMI2, FMA, LZCNT, MOVBE, INVPCID, VMFUNC, RTM, HLE, SlowIncDec, ADX, RDSEED, SMAP, MPX, XSAVEC, XSAVES, SGX, CLFLUSHOPT, AVX512, CDI, DQI, BWI, VLX, PKU, PCOMMIT, CLWB, VBMI, IFMA y SHA. Esta opción está disponible a partir de Clang 3.9.
core2 Intel Core2 con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3 y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.3.
core-avx2 Intel Core (Haswell). Esta opción está disponible desde GCC 4.6, hasta GCC 4.8. A partir de GCC 4.9 se utiliza la definición haswell.
core-avx-i Intel Core (ivyBridge) con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, AVX, AES, PCLMUL, FSGSBASE, RDRND, F16C y extensiones 64-bit. Esta opción está disponible desde GCC 4.6, hasta GCC 4.8. A partir de GCC 4.9 se utiliza la definición ivybridge.
corei7 Intel Core i7 con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1 y SSE4.2 y extensiones 64-bit. Soporta también los procesadores Intel Core i3 e i5. Esta opción está disponible desde GCC 4.6, hasta GCC 4.8. A partir de GCC 4.9 se utiliza la definición nehalem.
corei7-avx Intel Core i7 con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, AVX, AES y PCLMUL y extensiones 64-bit. Soporta también los procesadores Intel Core i3 e i5. Esta opción está disponible desde GCC 4.6, hasta GCC 4.8. A partir de GCC 4.9 se utiliza la definición sandybridge.
haswell Intel Haswell con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND, FMA, BMI, BMI2, F16C y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9.
i386 Intel i386.
i486 Intel i486.
i586, pentium Intel Pentium sin soporte de instrucciones MMX.
i686 Produce un código binario optimizado para la mayor parte de procesadores compatibles con la serie 80686 de Intel. Todos los actuales lo son.
intel Intel Haswell y Silvermont. Este valor sólo es aplicable en la opción '-mtune='. Esta opción está disponible a partir de GCC 4.9.
ivybridge Intel Ivy Bridge con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AES, PCLMUL, FSGSBASE, RDRND, F16C y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9.
knl Intel Knights Landing con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND, FMA, BMI, BMI2, F16C, RDSEED, ADCX, PREFETCHW, AVX512F, AVX512PF, AVX512ER y extensiones 64-bit. Esta opción está disponible a partir de GCC 5 y Clang 3.4.
lakemont Intel Quark Lakemont MCU, basado en el procesador Intel Pentium. Esta opción está disponible a partir de GCC 6 y Clang 3.9.
nehalem Intel Nehalem con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9.
nocona Versión mejorada de Intel Pentium4 con soporte de instrucciones MMX, SSE, SSE2, SSE3 y extensiones 64-bit.
penryn Intel Penryn con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3 y SSE4.1.
pentiumpro Intel PentiumPro.
pentium2 Intel Pentium2 basado en PentiumPro con soporte de instrucciones MMX.
pentium3, pentium3m Intel Pentium3 basado en PentiumPro con soporte de instrucciones MMX y SSE.
pentium4, pentium4m Intel Pentium4 con soporte de instrucciones MMX, SSE y SSE2.
pentium-m Versión de bajo consumo de Intel Pentium3 con soporte de instrucciones MMX, SSE y SSE2. Utilizado por los portátiles Centrino.
pentium-mmx Intel PentiumMMX basado en Pentium con soporte de instrucciones MMX.
prescott Versión mejorada de Intel Pentium4 con soporte de instrucciones MMX, SSE, SSE2 y SSE3.
sandybridge Intel Sandy Bridge con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AES, PCLMUL y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9 y Clang 3.6.
silvermont Intel Silvermont con soporte de instrucciones MOVBE, MMX, SSE, MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AES, PCLMU, RDRND y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9 y Clang 3.6.
skx Intel Skylake Server con soporte de instrucciones X87, MMX, AVX, FXSR, CMPXCHG16B, POPCNT, AES, PCLMUL, XSAVE, XSAVEOPT, LAHFSAHF, RDRAND, F16C, FSGSBase, AVX2, BMI, BMI2, FMA, LZCNT, MOVBE, INVPCID, VMFUNC, RTM, HLE, SlowIncDec, ADX, RDSEED, SMAP, MPX, XSAVEC, XSAVES, SGX, CLFLUSHOPT, AVX512, CDI, DQI, BWI, VLX, PKU, PCOMMIT y CLWB. Esta opción está disponible a partir de Clang 3.5. A partir de Clang 3.9 se utiliza también la definición skylake-avx512.
skylake Intel Skylake con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND, FMA, BMI, BMI2, F16C, RDSEED, ADCX, PREFETCHW, CLFLUSHOPT, XSAVEC, XSAVES y extensiones 64-bit. Esta opción está disponible a partir de GCC 6 y Clang 3.6.
skylake-avx512 Intel Skylake Server con soporte de instrucciones MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND, FMA, BMI, BMI2, F16C, RDSEED, ADCX, PREFETCHW, CLFLUSHOPT, XSAVEC, XSAVES, AVX512F, AVX512VL, AVX512BW, AVX512DQ, AVX512CD y extensiones 64-bit. Esta opción está disponible a partir de GCC 6 y Clang 3.9
slm Intel Silvermont con soporte de instrucciones X87, MMX, SSE42, FXSR, CMPXCHG16B, MOVBE, POPCNT, PCLMUL, AES, SlowDivide64, CallRegIndirect, PRFCHW, SlowLEA, SlowIncDec, SlowBTMem y LAHFSAHF. Esta opción está disponible a partir de Clang 3.4. A partir de Clang 3.9 se utiliza también la definición silvermont.
westmere Intel Westmere con soporte de instrucciones MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AES, PCLMUL y extensiones 64-bit. Esta opción está disponible a partir de GCC 4.9.
yonah Procesadores basados en la microarquitectura de Pentium M, con soporte de instrucciones MMX, SSE, SSE2 y SSE3.
AMD
amdfam10, barcelona Procesadores basados en AMD Family 10h core con soporte de instrucciones x86-64 (MMX, SSE, SSE2, SSE3, SSE4A, 3DNow!, enhanced 3DNow!, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.3. La definición barcelona está disponible a partir de Clang 3.6.
athlon, athlon-tbird AMD Athlon con soporte de instrucciones MMX, 3DNow!, enhanced 3DNow! y SSE prefetch.
athlon4, athlon-xp, athlon-mp Versiones mejoradas de AMD Athlon con soporte de instrucciones MMX, 3DNow!, enhanced 3DNow! y full SSE.
bdver1 Procesadores basados en AMD Family 15h core con soporte de instrucciones x86-64 (FMA4, AVX, XOP, LWP, AES, PCL_MUL, CX16, MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.7.
bdver2 Procesadores basados en AMD Family 15h core con soporte de instrucciones x86-64 (BMI, TBM, F16C, FMA, LWP, AVX, XOP, LWP, AES, PCL_MUL, CX16, MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.7.
bdver3 Procesadores basados en AMD Family 15h core con soporte de instrucciones x86-64 (FMA4, AVX, XOP, LWP, AES, PCL_MUL, CX16, MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.8 y Clang 3.4.
bdver4 Procesadores basados en AMD Family 15h core con soporte de instrucciones x86-64 (BMI, BMI2, TBM, F16C, FMA, FMA4, FSGSBASE, AVX, AVX2, XOP, LWP, AES, PCL_MUL, CX16, MOVBE, MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.9 y Clang 3.5.
btver1 Procesadores basados en AMD Family 14h core con soporte de instrucciones x86-64 (MMX, SSE, SSE2, SSE3, SSE4A, CX16, ABM y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.6.
btver2 Procesadores basados en AMD Family 16h core con soporte de instrucciones x86-64 (MOVBE, F16C, BMI, AVX, PCL_MUL, AES, SSE4.2, SSE4.1, CX16, ABM, SSE4A, SSSE3, SSE3, SSE2, SSE, MMX y extensiones 64-bit). Esta opción está disponible a partir de GCC 4.8.
geode AMD integrado con soporte de instrucciones MMX y 3DNow!. Esta opción está disponible a partir de GCC 4.3.
k6 AMD K6 con soporte de instrucciones MMX.
k6-2, k6-3 Versiones mejoradas de AMD K6 con soporte de instrucciones MMX y 3DNow!.
k8, opteron, athlon64, athlon-fx Procesadores basados en AMD K8 core con soporte de instrucciones x86-64 (MMX, SSE, SSE2, 3DNow!, enhanced 3DNow! y extensiones 64-bit).
k8-sse3, opteron-sse3, athlon64-sse3 Versiones mejoradas de AMD K8 core con soporte de instrucciones SSE3. Esta opción está disponible a partir de GCC 4.3.
x86-64 Procesadores AMD y compatibles con soporte de instrucciones x86-64, SSE2 y extensiones 64-bit.
znver1 Procesadores basados en AMD Family 17h core con soporte de instrucciones x86-64 (BMI, BMI2, F16C, FMA, FSGSBASE, AVX, AVX2, ADCX, RDSEED, MWAITX, SHA, CLZERO, AES, PCL_MUL, CX16, MOVBE, MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, ABM, XSAVEC, XSAVES, CLFLUSHOPT, POPCNT y extensiones 64-bit). Esta opción está disponible a partir de GCC 6 y Clang 4.
Otros
c3 Via C3 con soporte de instrucciones MMX y 3DNow!.
c3-2 Via C3-2 con soporte de instrucciones MMX y SSE.
winchip2 IDT Winchip2, que equivale a un i486 con soporte de instrucciones MMX y 3DNow!.
winchip-c6 IDT Winchip C6, que equivale a un i486 con soporte de instrucciones MMX.

Optimizaciones adicionales

Optimizaciones adicionales
GCC
Graphite
$ export {C,CXX}FLAGS+=' -floop-interchange -ftree-loop-distribution -floop-strip-mine -floop-block'
LTO
$ export {C,CXX}FLAGS+=' -fuse-linker-plugin -flto=2'
Donde pone 2 se indica el número de núcleos de nuestro procesador, si sólo tiene uno, utilizar el parámetro -flto

Clang
Polly
$ export {C,CXX}FLAGS+=' -O3 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-position=before-vectorizer'
LTO
$ export {C,CXX,LD}FLAGS+=' -flto'
ThinLTO
$ export {C,CXX,LD}FLAGS+=' -flto=thin'
La aplicación de esta optimización es alternativa a la tradicional LTO, a partir de Clang 3.9, y por lo tanto, no es combinable con la misma.

Parámetros adicionales

Parámetros adicionales de eliminación de avisos específicos en el proceso de compilación
Clang
$ export {C,CXX}FLAGS+=' -Qunused-arguments'

Establecer la variable de entorno de uso de compilador para Clang
$ export {CC,CXX}=clang
Si utilizamos Clang con Ccache, tendremos que establecer la variable de entorno correspondiente de Ccache de uso de compilador.
$ export CCACHE_CC=clang

Extracción y Configuración  Bloc de Notas Información general sobre el uso de los comandos

$ tar zxvf leptonica-1.74.1.tar.gz
$ cd leptonica-1.74.1
$ ./configure --disable-dependency-tracking --prefix=/usr --disable-static

Explicación de los comandos

--disable-dependency-tracking : Acelera el tiempo de compilación.
--prefix=/usr : Instala el programa en el directorio principal /usr.
--disable-static : Desactiva la compilación de las librerías estáticas, al no ser necesarias para la compilación de Tesseract.

Compilación

$ make

Parámetros de compilación opcionales

V=1 : Muestra más información en el proceso de compilación.

-j2 : Si tenemos un procesador de doble núcleo (dual-core), y el kernel está optimizado para el mismo y es SMP, con este parámetro aumentaremos el número de procesos de compilación simultáneos a un nivel de 2 y aceleraremos el tiempo de compilación del programa de forma considerable.
-j4 : Lo mismo que arriba pero con procesadores de 4 núcleos (quad-core).

Instalación como root

$ su
# make install-strip
# ldconfig -v

Estadísticas de Compilación e Instalación de Leptonica

Estadísticas de Compilación e Instalación de Leptonica
CPU AMD Athlon(tm) II X2 260 Processor
MHz 3214.610
RAM 2048 MB
Sistema de archivos XFS
Versión de Glibc 2.25
Enlazador dinámico GNU gold (Binutils 2.28) 1.14
Compilador Clang 4.0.0 + Ccache 3.3.4
Parámetros de optimización -03 -march=amdfam10 -mtune=amdfam10 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-position=before-vectorizer -flto=thin
Parámetros de compilación V=1 -j2
Tiempo de compilación 4' 06"
Archivos instalados 47
Mostrar/Ocultar la lista de archivos instalados
Enlaces simbólicos creados 2
Mostrar/Ocultar la lista de enlaces simbólicos creados
Ocupación de espacio en disco 3,8 MB

Desinstalación como root

1) MODO TRADICIONAL

En el directorio de compilación ejecutamos el siguiente comando:

$ su -c "make uninstall"

2) MODO MANUALINUX

El principal inconveniente del comando anterior es que tenemos que tener el directorio de compilación en nuestro sistema para poder desinstalar el programa. En algunos casos esto supone muchos megas de espacio en disco. Con el paquete de scripts que pongo a continuación logramos evitar el único inconveniente que tiene la compilación de programas, y es el tema de la desinstalación de los mismos sin la necesidad de tener obligatoriamente una copia de las fuentes compiladas.

leptonica-1.74.1-scripts.tar.gz

$ su
# tar zxvf leptonica-1.74.1-scripts.tar.gz
# cd leptonica-1.74.1-scripts
# ./Desinstalar_leptonica-1.74.1

Copia de Seguridad como root

Con este otro script creamos una copia de seguridad de los binarios compilados, recreando la estructura de directorios de los mismos en un directorio de copias de seguridad (copibin) que se crea en el directorio /var. Cuando se haya creado el paquete comprimido de los binarios podemos copiarlo como usuario a nuestro home y borrar el que ha creado el script de respaldo, teniendo en cuenta que si queremos volver a restaurar la copia, tendremos que volver a copiarlo al lugar donde se ha creado.

$ su
# tar zxvf leptonica-1.74.1-scripts.tar.gz
# cd leptonica-1.74.1-scripts
# ./Respaldar_leptonica-1.74.1

Restaurar la Copia de Seguridad como root

Y con este otro script (que se copia de forma automática cuando creamos la copia de respaldo del programa) restauramos la copia de seguridad como root cuando resulte necesario.

$ su
# cd /var/copibin/restaurar_copias
# ./Restaurar_leptonica-1.74.1



Tesseract  

Instalación

Dependencias

Herramientas de Compilación 

Entre paréntesis la versión con la que se ha compilado Tesseract para la elaboración de este documento.

* GCC - (6.3.0) o Clang - (4.0.0)
* Gawk - (4.1.4)
* M4 - (1.4.18)
* Libtool - (2.4.6)
* Make - (4.2.1)
* Automake - (1.15)
* Autoconf - (2.69)

Librerías de Desarrollo

* Leptonica - (1.74.1)
* Cairo - (1.14.8)
* ICU - (58.1)
* Pango - (1.40.4)



Descarga

tesseract-3.05.00.tar.gz  |  eng.traineddata  |  spa.traineddata

Optimizaciones

Optimizaciones adicionales

Optimizaciones adicionales
GCC
Graphite
$ export {C,CXX}FLAGS+=' -floop-interchange -ftree-loop-distribution -floop-strip-mine -floop-block'
OpenMP
$ export {C,CXX}FLAGS+=' -ftree-parallelize-loops=2'
Donde pone 2 se indica el número de núcleos de nuestro procesador, si sólo tiene uno, no utilizar esta optimización. 
LTO
$ export AR=gcc-ar; export RANLIB=gcc-ranlib; export NM=gcc-nm
$ export {C,CXX}FLAGS+=' -fuse-linker-plugin -flto=2'
Donde pone 2 se indica el número de núcleos de nuestro procesador, si sólo tiene uno, utilizar el parámetro -flto

Clang
Polly
$ export {C,CXX}FLAGS+=' -O3 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-parallel -mllvm -polly-position=before-vectorizer'
OpenMP
$ export {C,CXX}FLAGS+=' -fopenmp=libomp'
LTO
$ export AR=llvm-ar; export RANLIB=llvm-ranlib; export NM=llvm-nm
$ export {C,CXX}FLAGS+=' -flto'
ThinLTO
$ export AR=llvm-ar; export RANLIB=llvm-ranlib; export NM=llvm-nm
$ export {C,CXX}FLAGS+=' -flto=thin'
La aplicación de esta optimización es alternativa a la tradicional LTO, a partir de Clang 3.9, y por lo tanto, no es combinable con la misma.

Parámetros adicionales

Parámetros adicionales de eliminación de avisos específicos en el proceso de compilación
Clang
$ export {C,CXX}FLAGS+=' -Qunused-arguments'

Establecer el RPATH correspondiente si utilizamos una versión de GCC que no es la principal del sistema
$ export LDFLAGS+=" -Wl,-rpath,/opt/gcc6/lib -lstdc++ -lgomp"
Sustituir /opt/gcc6/lib por la ruta de instalación de la versión de GCC alternativa que se vaya a utilizar en el proceso de compilación de este paquete. El parámetro -lgomp no es necesario con Clang.

Establecer la variable de entorno de uso de compilador para Clang
$ export {CC,CXX}=clang
Si utilizamos Clang con Ccache, tendremos que establecer la variable de entorno correspondiente de Ccache de uso de compilador.
$ export CCACHE_CC=clang

Extracción y Configuración  Bloc de Notas Información general sobre el uso de los comandos

$ tar zxvf tesseract-3.05.00.tar.gz
$ cd tesseract-3.05.00
$ sh autogen.sh
$ ./configure --disable-dependency-tracking --prefix=/usr --disable-static

Explicación de los comandos

sh autogen.sh : Genera el script de configuración del paquete. 
--disable-dependency-tracking : Acelera el tiempo de compilación.

--prefix=/usr : Instala el programa en el directorio principal /usr.
--disable-static : Desactiva la compilación de las librerías estáticas, al no ser necesarias para la compilación de gImageReader.

Compilación

$ make; make training

Parámetros de compilación opcionales

-j2 : Si tenemos un procesador de doble núcleo (dual-core), y el kernel está optimizado para el mismo y es SMP, con este parámetro aumentaremos el número de procesos de compilación simultáneos a un nivel de 2 y aceleraremos el tiempo de compilación del programa de forma considerable.
-j4 : Lo mismo que arriba pero con procesadores de 4 núcleos (quad-core).

Instalación como root

$ su
# make install-strip; make training-install
# ldconfig -v
# cd ..

Instalación de los idiomas Inglés y Español para OCR con Tesseract

# install -m644 {eng,spa}.traineddata /usr/share/tessdata

Para instalar más idiomas de reconocimiento óptico de caracteres, nos vamos a este enlace, hacemos clic sobre el archivo correspondiente con la extensión TRAINEDDATA, luego en el botón RAW, y lo descargamos e instalamos del mismo modo que hemos hecho con los archivos anteriores. La descarga del paquete completo de idiomas es muy pesada, y doblemente absurda si sólo queremos utilizar un idioma determinado.

Estadísticas de Compilación e Instalación de Tesseract

Estadísticas de Compilación e Instalación de Tesseract
CPU AMD Athlon(tm) II X2 260 Processor
MHz 3214.610
RAM 2048 MB
Sistema de archivos XFS
Versión de Glibc 2.25
Enlazador dinámico GNU gold (Binutils 2.28) 1.14
Compilador Clang 4.0.0 + Ccache 3.3.4
Parámetros de optimización -03 -march=amdfam10 -mtune=amdfam10 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-parallel -mllvm -polly-position=before-vectorizer -fopemp=libomp -flto=thin
Parámetros de compilación -j2
Tiempo de compilación 4' 38"
Archivos instalados 80
Mostrar/Ocultar la lista de archivos instalados
Enlaces simbólicos creados 2
Mostrar/Ocultar la lista de enlaces simbólicos creados
Ocupación de espacio en disco 59,4 MB

Desinstalación como root

1) MODO TRADICIONAL

En el directorio de compilación ejecutamos el siguiente comando:

$ su -c "make uninstall"

2) MODO MANUALINUX

tesseract-3.05.00-scripts.tar.gz

$ su
# tar zxvf tesseract-3.05.00-scripts.tar.gz
# cd tesseract-3.05.00-scripts
# ./Desinstalar_tesseract-3.05.00

Copia de Seguridad como root

$ su
# tar zxvf tesseract-3.05.00-scripts.tar.gz
# cd tesseract-3.05.00-scripts
# ./Respaldar_tesseract-3.05.00

Restaurar la Copia de Seguridad como root

$ su
# cd /var/copibin/restaurar_copias
# ./Restaurar_tesseract-3.05.00



gImageReader  

Características

* Detección automática del diseño de la página.
* El usuario puede seleccionar y ajustar las zonas para el reconocimiento.
* Se pueden importar las imágenes desde el disco, escáneres, portapapeles y capturas de pantalla.
* Soporta importación de documentos PDF multipágina.
El texto reconocido aparece justo al lado de la imagen.
* Soporte de edición básica en el texto de salida, incluyendo búsqueda y reemplazo de texto, y supresión de saltos de línea.
* Soporte de corrección ortográfica en el texto de salida, siempre y cuando esté instalado el diccionario ortográfico correspondiente al idioma seleccionado.

Instalación

Dependencias

Herramientas de Compilación


Entre paréntesis la versión con la que se ha compilado gImageReader para la elaboración de este documento.

* GCC - (6.3.0) o Clang - (4.0.0)
* CMake - (3.7.2)
* Make - (4.2.1)
* Gettext - (0.19.8.1)
* Pkg-config - (0.29.2)

Librerías de Desarrollo

* Xorg - (7.7 / xorg-server 1.19.3)
* PoDoFo - (0.9.5)
* Poppler-qt5 - (0.53.0)
* Qt5 - (5.8.0)
* Qtspell - (0.8.2)
* Sane-Backends - (1.0.25)
* Tesseract - (3.05.00)

Aplicaciones

* Convert (ImageMagick) - (7.0.5-4) [1]

[1] Requerido para poder crear los iconos en formato PNG que no proporciona el paquete.



Descarga  

gimagereader-3.2.1.tar.xz

Optimizaciones

Optimizaciones adicionales

Optimizaciones adicionales
GCC
Graphite
$ export {C,CXX}FLAGS+=' -floop-interchange -ftree-loop-distribution -floop-strip-mine -floop-block'
OpenMP
$ export {C,CXX}FLAGS+=' -ftree-parallelize-loops=2'
Donde pone 2 se indica el número de núcleos de nuestro procesador, si sólo tiene uno, no utilizar esta optimización. 

Clang
Polly
$ export {C,CXX}FLAGS+=' -O3 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-parallel -mllvm -polly-position=before-vectorizer'
OpenMP
$ export {C,CXX}FLAGS+=' -fopenmp=libomp'

Parámetros adicionales

Parámetros adicionales de eliminación de avisos específicos en el proceso de compilación
Clang
$ export {C,CXX}FLAGS+=' -Qunused-arguments'

Establecer el RPATH correspondiente si utilizamos una versión de GCC que no es la principal del sistema
$ export LDFLAGS+=" -Wl,-rpath,/opt/gcc6/lib -lstdc++ -lm -lgomp"
Sustituir /opt/gcc6/lib por la ruta de instalación de la versión de GCC alternativa que se vaya a utilizar en el proceso de compilación de este paquete. El parámetro -lm hay que añadirlo con Clang, y el parámetro -lgomp, sólo hay que añadirlo con GCC.

Establecer la variable de entorno de uso de compilador para Clang
$ export {CC,CXX}=clang
Si utilizamos Clang con Ccache, tendremos que establecer la variable de entorno correspondiente de Ccache de uso de compilador.
$ export CCACHE_CC=clang

Extracción y Configuración  Bloc de Notas Información general sobre el uso de los comandos

$ tar Jxvf gimagereader-3.2.1.tar.xz
$ cd gimagereader-3.2.1
$ mkdir build
$ cd build
$ cmake -DCMAKE_INSTALL_PREFIX:PATH=/usr -DINTERFACE_TYPE=qt5 \
-DCMAKE_PREFIX_PATH=$(pkg-config --variable=libdir Qt5Core)/cmake ../

Explicación de los comandos

-DCMAKE_INSTALL_PREFIX:PATH=/usr : Instala el programa en el directorio principal /usr.

-DINTERFACE_TYPE=qt5 : Compila la interfaz gráfica escrita en C++ y Qt5

-DCMAKE_PREFIX_PATH=$(pkg-config --variable=libdir Qt5Core)/cmake : Si hemos instalado Qt5 en un directorio no habitual, le indicamos la ruta correspondiente a los archivos de configuración de CMake que se instalan con el mismo.

Compilación

$ make

Parámetros de compilación opcionales

VERBOSE=1 : Muestra más información en el proceso de compilación.

-j2 : Si tenemos un procesador de doble núcleo (dual-core), y el kernel está optimizado para el mismo y es SMP, con este parámetro aumentaremos el número de procesos de compilación simultáneos a un nivel de 2 y aceleraremos el tiempo de compilación del programa de forma considerable.
-j4 : Lo mismo que arriba pero con procesadores de 4 núcleos (quad-core).

Instalación como root

$ su
# make install/strip
# for i in /usr/share/icons/hicolor ; do \
install -dm755 $i/{16x16,24x24,32x32,64x64}/apps ; \
convert -resize 64 $i/256x256/apps/gimagereader.png $i/64x64/apps/gimagereader.png ; \
convert -resize 32 $i/256x256/apps/gimagereader.png $i/32x32/apps/gimagereader.png ; \
convert -resize 24 $i/256x256/apps/gimagereader.png $i/24x24/apps/gimagereader.png ; \
convert -resize 16 $i/256x256/apps/gimagereader.png $i/16x16/apps/gimagereader.png ; \
gtk-update-icon-cache -tf $i &> /dev/null ; \
done


Borrar las locales adicionales instaladas con la utilidad BleachBit

# bleachbit -c system.localizations

Estadísticas de Compilación e Instalación de gImageReader

Estadísticas de Compilación e Instalación de gImageReader
CPU AMD Athlon(tm) II X2 260 Processor
MHz 3214.610
RAM 2048 MB
Sistema de archivos XFS
Versión de Glibc 2.25
Enlazador dinámico GNU gold (Binutils 2.28) 1.14
Compilador Clang 4.0.0 + Ccache 3.3.4
Parámetros de optimización -03 -march=amdfam10 -mtune=amdfam10 -mllvm -polly -mllvm -polly-vectorizer=stripmine -mllvm -polly-parallel -mllvm -polly-position=before-vectorizer -fopemp=libomp
Parámetros de compilación VERBOSE=1 -j2
Tiempo de compilación 53"
Archivos instalados 12
Mostrar/Ocultar la lista de archivos instalados
Ocupación de espacio en disco 1,4 MB

Consumo inicial de CPU y RAM de gImageReader

Consumo inicial de CPU y RAM de gImageReader
Proceso
CPU Memoría física
gimagereader-qt5 0 % 112,3 MB

Desinstalación como root

1) MODO TRADICIONAL

***********************

2) MODO MANUALINUX

gimagereader-3.2.1-scripts.tar.gz

$ su
# tar zxvf gimagereader-3.2.1-scripts.tar.gz
# cd gimagereader-3.2.1-scripts
# ./Desinstalar_gimagereader-3.2.1

Copia de Seguridad como root

$ su
# tar zxvf gimagereader-3.2.1-scripts.tar.gz
# cd gimagereader-3.2.1-scripts
# ./Respaldar_gimagereader-3.2.1

Restaurar la Copia de Seguridad como root

$ su
# cd /var/copibin/restaurar_copias
# ./Restaurar_gimagereader-3.2.1



Traducción al Español alternativa de gImageReader

Descarga

gImageReader_es-ML0.run

Firma Digital  Clave pública PGP

gImageReader_es-ML0.run.asc 

Verificar la firma digital del paquete

$ gpg --import manualinux.asc 
$ gpg --verify gImageReader_es-ML0.run.asc gImageReader_es-ML0.run

Instalación como root

$ su -c "sh gImageReader_es-ML0.run"



Iniciamos gImageReader

Sólo nos queda teclear en una terminal o en un lanzador el comando gimagereader-qt5, y el programa aparecerá en la pantalla.


Captura- gImageReader - 1


Captura- gImageReader - 2




Enlaces


http://leptonica.com >> La web de Leptonica.

https://github.com/tesseract-ocr >> La web de Tesseract.

https://github.com/tesseract-ocr/tesseract/wiki/3rdParty >> Software de terceros, compatibles también con Tesseract.

https://github.com/manisandro/gImageReader >> La web de gImageReader.


Foro Galería Blog


Actualizado el 01-04-2017

Utilidades OCR - gImageReader

Utilidades Gráficas - XnConvertUtilidades PDF - PDFSAM