Com convertir Word documents escanejats - L'Android Feliç

Si necessiteu digitalitzar en format text algun llibre, és possible que us entren diversos dubtes. Es pot fer? Què hi ha de la qualitat, és bona? No només es pot fer, sinó que a més hi ha diverses maneres de convertir un document escanejat a Word. Vegem:

  • Escanejant el document en format PDF i editant-lo posteriorment amb Adobe Acrobat XI Pro per desar-lo en format Word. La versió Pro d'Acrobat és de pagament, però podeu adquirir una llicència de prova gratuïta de 30 dies.
  • Des del web OnlineOCR.net. Aquesta aplicació web permet convertir documents en format PDF, JPG, TIFF i GIF a Word, Excel i text. A la versió gratuïta podem convertir fins a 15 pàgines per hora i documents de no més d'una pàgina.
  • Escanejant el document en format (OCR) i guardant-ho com a text. Després podem obrir Word i editar-lo o desar-lo en format .doc.
  • Utilitzant algun programa de reconeixement òptic de caràcters:
    •  VueScan (disponible per a Windows, Mac US X i Linux)
    • Kooka( per Linux)
    • Office Lens (per Android e iOS)
    • CamScanner (per Android e iOS)

La manera més eficient de totes podríem dir que és mitjançant l'Adobe Acrobat Pro, però només si l'escaneig és molt net i de gran qualitat. Les aplicacions de reconeixement òptic de caràcters han avançat moltíssim, però encara mostren algunes llacunes amb coses com la negreta o cursiva, i la transcripció d'algunes paraules depenent del tipus de font del document original poden ser errònies.

Intenta escanejar i passar aquest document a Word a veure què passa

Des del mateix escàner

Alguns escàners inclouen la característica de reconeixement òptic (OCR) dins del seu propi programa d'escaneig. Per escanejar a text un document només has de fixar el format de digitalització i fixar-te en algun que faci referència a OCR o similar (depèn de la marca/model de l'escàner).

Passar de PDF a Word amb Adobe Acrobat XI Pro

Un cop descarregat i instal·lat Adobe Acrobat XI Pro (AQUÍ tens una versió de prova gratuïta de 30 dies) vés a “Eines –> Reconeixement de text -> En aquest fitxer”.

A la finestra de “Reconéixer text” prem sobre “Edita” i tria l'idioma del text, l'estil de sortida i la resolució.

Per finalitzar torna a “Eines -> Edició de contingut -> Editar text i imatges” i modifica el text si necessites corregir alguna paraula. Per acabar prem sobre “Arxiu -> Guardar com” i guarda'l en format Word.

OnlineOCR

OnlineOCR és una aplicació web per passar imatges o pdfs a Word i és molt fàcil dutilitzar. T'explico com funciona: Entra a //www.onlineocr.net/ i prem sobre “Select file”. Seleccioneu el document escanejat i trieu l'idioma i el format de sortida des dels 2 menús desplegables que teniu al centre de la pantalla.

Per acabar punxa a “Convert”. Just a sota apareixerà una vista prèvia en text pla que podeu editar si necessiteu corregir alguna paraula. Finalment prem sobre “Download Output File” i podràs descarregar el fitxer en format Word. Aquí teniu un exemple d'un PDF convertit a Word amb OnlineOCR:

  • PDF original:

  • Document convertit:

Si aquesta aplicació web no et satisfà pots provar altres alternatives similars com FreeOCR o Free-Online-OCR.

Programes de reconeixement òptic de caràcters (OCR)

Si no vols modificar els teus documents en línia i necessites una aplicació d'escriptori pots utilitzar aplicacions com VueScan (que també està disponible per a Mac i Linux a més de l'omnipresent Windows).

Una altra possibilitat és utilitzar el dispositiu Android o iOS per escanejar el document i convertir-lo a text directament. Hi ha aplicacions com Office Lens (per a Android e iOS) o CamScanner (per a Android e iOS) que realitzen tot el procés des de la mateixa aplicació. És recomanable en aquests casos netejar la imatge abans de convertir-la a text. Si vols saber més sobre aquest mètode fes un cop d'ull a AQUEST POST.

Al meu entendre la tècnica de reconeixement òptic de caràcters encara que ha millorat moltíssim en els darrers anys encara està a anys llum de ser una tècnica perfecta. Molts detalls, moltes paraules que «tradueix» amb lletres incorrectes i símbols que embruten el text. Encara falta aquest plus d'intel·ligència que el faci veure que «t&!$olog1a» no pot ser una traducció vàlida de cap paraula en un text. Encara no hi veig una comprensió lectora, sinó un simple reconeixement visual de lletres soltes que formen paraules sense integrar-les amb la resta de text. Tanmateix, estic convençut que el moment en què farem aquest darrer gran salt és cada dia més a prop.

Tens Telegram instal·lat? Rep el millor post de cada dia a el nostre canal. O si ho prefereixes, assabenta't de tot des de la nostra pàgina de Facebook.

Missatges recents