OCR er de med optisk tegngjenkjenning eller også kjent på spansk som optisk tegngjenkjenning. OCR er en programvare som muliggjør tekstgjenkjenning, produserer et bilde av den for å forvandle den til en rekke tegn, og deretter lagre dem i et gitt format som kan brukes i disse tekstredigeringsprogrammene. Med andre ord, takket være denne nye teknologien, kan enhver type tekst eller dokument, inkludert PDF-filer, skannede papirer eller til og med bilder tatt fra digitale kameraer, konverteres til data for å ha muligheten til å bli redigert.
Denne programvaren fungerer som følger, først analyserer den hver del av bildet av det aktuelle dokumentet; distribuere siden i deler som tabeller, bilder, tekstblokker blant andre; så fordeles linjene i ord for senere å bli tegn; og siden tegnene allerede er angitt, gjør programvaren sammenligningen med en gruppe bilder av mønsteret. Dette utvikler seg i henhold til hypoteseserien om hva hver karakter er; og basert på disse hypotesene, analyserer den de forskjellige variantene av å bryte linjer i ord og ord til tegn. Og det er etter et stort antall analyser og bearbeidelse av hypotesene at programmet endelig presenterer teksten som allerede er gjenkjent og transformert med et nytt format.
Det skal bemerkes at det i dag er en rekke programmer som datamaskinmarkedet tilbyr basert på OCR som OmniPage, Abbyy Fine Reader eller READiris. YY som ikke bare kan analysere og gjenkjenne en tekst som sådan, men også gjenkjenne formatet og stilen, men med visse begrensninger, og dermed kreve at teksten, etter å ha blitt analysert, blir redigert for å gjøre de justeringene som er krever.