OCR: Optical Character Recognition

Geschreven door Vinçon Estourgie

Bijgewerkt op 10 februari

OCR is optische tekenherkenning: een techniek die tekst uit een scan, afbeelding of pdf document omzet naar digitale tekst. Daardoor worden pdf bestanden en gescande documenten doorzoekbaar en kun je herkende tekst gebruiken voor verdere verwerking in systemen. Bedrijven gebruiken OCR omdat veel informatie nog binnenkomt als documenten en bestanden, zoals facturen en formulieren. Dit kennisbankartikel legt uit wat OCR is, hoe werkt OCR, welke OCR software en OCR technologie daarbij horen, en welke factoren de nauwkeurigheid bepalen.

Inhoud

show

Wat is OCR?
Hoe werkt OCR?
OCR en pdf: wanneer is OCR nodig?
Toepassingen van OCR
Slimme OCR software versus standaard OCR software
OCR-kwaliteit: wat beïnvloedt de nauwkeurigheid?
Automatisering en optimale herkenning
Beperkingen van OCR
Voorbeeld van software in de praktijk
Belangrijkste punten / samenvatting
Veelgestelde vragen over OCR

Wat is OCR?

OCR staat voor Optical Character Recognition en heet in het Nederlands optische tekenherkenning. Met OCR herkent software letters, woorden en tekens in gescande documenten, gescande afbeeldingen, gescande tekst en pdf bestanden. De OCR software zet die herkende tekst om naar bewerkbare tekst, zodat je kunt kopiëren, doorzoeken en opslaan als digitale versies. In veel processen speelt OCR een cruciale rol, omdat OCR handmatig invoeren en handmatige processen kan verminderen.

Hoe werkt OCR?

Hoe werkt OCR in de praktijk? De meeste OCR software volgt dezelfde stappen. Het type document en de kwaliteit van scannen bepalen wel hoe goed de herkenning is.

Invoer: scan, afbeelding of pdf bestanden
Je start met scannen van papieren documenten of je ontvangt een scan, afbeelding of pdf bestanden via e mail. Veel pdf bestanden zijn eigenlijk scans: het pdf document bevat dan een afbeelding in plaats van echte tekst. OCR is bedoeld om dat soort pdf bestanden en documenten doorzoekbaar en bewerkbaar te maken.
Beeldverbetering voor betere herkenning
Voor hoge nauwkeurigheid verbetert OCR software vaak de afbeelding: rechtzetten, ruis verminderen, contrast verhogen en soms omzetten naar zwart wit. Dit helpt bij gedrukte tekst, kleine letters en wisselende belichting. Als je beter scannen kunt afdwingen (vast formaat en instellingen), verbetert de herkenning meestal direct.
Tekstherkenning: herkennen van tekens, letters en woorden
Daarna start de tekstherkenning. De OCR technologie gaat aan de slag met herkennen van tekens (letters, cijfers en speciale tekens) en vormt daar woorden van. Zo ontstaat herkende tekst die je kunt gebruiken in software voor verdere verwerking. Bij moderne OCR technologie worden machine learning en andere geavanceerde technologieën vaak gebruikt om lastige layouts en variatie tussen documenten beter te herkennen.
Output: doorzoekbaar en bewerkbaar
De uitkomst is meestal:
Doorzoekbare pdf: het pdf document blijft een pdf, maar krijgt een tekstlaag zodat het doorzoekbaar wordt en je tekst kunt selecteren.
Bewerkbaar exportformaat (bijvoorbeeld Word/Excel of een veld in je software), zodat de tekst direct verder verwerkt kan worden.

OCR en pdf: wanneer is OCR nodig?

OCR werkt vooral op pdf bestanden die een scan of afbeelding bevatten. Als een pdf document al echte digitale tekst heeft, is OCR meestal niet nodig. Bij scan-pdf’s voegt OCR software een tekstlaag toe, zodat je het pdf document kunt doorzoeken en de herkende tekst kunt gebruiken. Dat is praktisch bij archieven, omdat je sneller specifieke informatie vindt in documenten en bestanden.

Toepassingen van OCR

OCR gebruikt men wanneer documenten als bestand binnenkomen en je gegevens wilt verwerken zonder alles handmatig invoeren. Dit zijn veelvoorkomende toepassingen.

Facturen en factuurverwerking

Bij factuurverwerking helpt OCR software om facturen uit te lezen. De OCR software kan specifieke velden herkennen, zoals leveranciers, datum, btw-bedrag en totaalbedrag. Daarna kunnen facturen verwerkt worden in de financiële administratie of in een financieel systeem. Dat verlaagt menselijke fouten en geeft vaak een snellere doorlooptijd. In sommige workflows gebeurt dit in een paar seconden per document, afhankelijk van het formaat en de kwaliteit van scannen.

Formulieren en sjablonen

Bij formulieren draait het vaak om vaste opmaak. Met sjablonen kan slimme OCR software specifieke velden stabieler herkennen. Dit werkt vooral goed als hetzelfde type document vaak terugkomt en je de herkenning kunt standaardiseren.

Archieven en digitaliseren

OCR wordt veel gebruikt om papieren documenten te digitaliseren. Je maakt digitale versies die doorzoekbaar zijn, zodat je sneller tekst kunt vinden in archieven. Dit is handig bij veel pdf bestanden, omdat je minder hoeft te klikken en sneller kunt doorzoeken.

Optimaliseer herkenning van documenten

Meer info

Slimme OCR software versus standaard OCR software

Standaard OCR software richt zich vooral op geschreven tekst omzetten naar bewerkbaar formaat of een doorzoekbare pdf. Slimme OCR software gaat verder doordat het context kan gebruiken. Met machine learning en andere geavanceerde technologieën kan slimme OCR software beter omgaan met variatie in documenten en het herkennen van specifieke velden (zoals totaalbedrag of factuurnummer). Dit is vooral relevant als je hoge nauwkeurigheid nodig hebt en veel bestanden en documenten verwerkt.

OCR-kwaliteit: wat beïnvloedt de nauwkeurigheid?

OCR is sterk, maar niet elke input is ideaal. Veelvoorkomende oorzaken van fouten zijn:

scheef scannen, lage resolutie, ruis of onscherpte (bij gescande documenten en gescande afbeeldingen)
schaduw of reflectie in een afbeelding
variatie in layout tussen leveranciers en documenttypes
verwarring tussen tekens (0 en O, 1 en I)
tabellen en kolommen in pdf bestanden
handgeschreven teksten (lastiger dan gedrukte tekst)
lage kwaliteit of sterk gecomprimeerd pdf document

Als dit speelt, is extra controle soms nodig. Het doel blijft: minder handmatig werk en minder handmatige processen, met zo min mogelijk menselijke fouten.

Automatisering en optimale herkenning

Voor optimale herkenning combineren bedrijven OCR software vaak met automatisering. Denk aan automatische documentclassificatie (welk type document is het?), validatieregels en uitzonderingsafhandeling. Zo kan OCR technologie de herkende tekst meteen klaarzetten voor verdere verwerking. Dit is extra belangrijk in de financiële sector, waar bedragen en leveranciersgegevens betrouwbaar moeten zijn. Als alles goed staat, zie je dat OCR echt “aan de slag gaat” in de workflow: bestanden komen binnen, OCR herkent de tekst, en de software zet de output klaar voor verwerking.

Beperkingen van OCR

OCR heeft beperkingen. Slechte scans, complexe tabellen en handgeschreven teksten blijven lastig, ook met slimme OCR software. Daarom helpt het om goede afspraken te maken over scannen (vast formaat, scherpte) en om te sturen op consistente pdf bestanden en documenten.

Voorbeeld van software in de praktijk

Bedrijven zetten voor inkomende documentherkenning bijvoorbeeld pakketten zoals ImageCapture in, waarmee documenten automatisch worden gedigitaliseerd, herkend en klaargezet voor verdere verwerking in de financiële administratie.

Belangrijkste punten / samenvatting

OCR betekent Optical Character Recognition: optische tekenherkenning.
OCR technologie zet tekst uit scans, afbeeldingen en pdf bestanden om naar digitale tekst en herkende tekst.
OCR software maakt een pdf document doorzoekbaar via een tekstlaag en levert output die bewerkbaar is.
Slimme OCR software gebruikt machine learning en geavanceerde technologieën voor stabielere herkenning van specifieke velden.
Nauwkeurigheid hangt sterk af van scannen, formaat en kwaliteit van bestanden; OCR heeft ook beperkingen.

Veelgestelde vragen over OCR

Wat betekent OCR?

OCR betekent Optical Character Recognition (optische tekenherkenning). Het is een techniek die tekst in een scan, afbeelding of pdf document herkent en omzet naar digitale tekst.

Werkt OCR op pdf documenten en pdf bestanden?

Ja, OCR werkt op pdf documenten en pdf bestanden die een scan of afbeelding bevatten. OCR software kan daarvan een doorzoekbare pdf maken. Bevat het pdf document al echte tekst, dan is OCR meestal niet nodig.

Hoe werkt OCR bij facturen?

OCR software herkent bedragen, leveranciers en andere specifieke velden op facturen. Daarna kan die herkende tekst automatisch worden verwerkt in een financieel systeem. Zo worden facturen verwerkt met minder handmatige processen.

Kan OCR handgeschreven teksten lezen?

Sommige OCR software kan handgeschreven teksten herkennen, maar de nauwkeurigheid is vaak lager dan bij gedrukte tekst. Reken vaker op handmatige correcties, zeker bij onduidelijk handschrift.

Wanneer heb ik slimme OCR software nodig?

Slimme OCR software is vooral nuttig als je veel documenten verwerkt, verschillende lay-outs hebt, of als je data direct wilt gebruiken voor automatisering en verdere verwerking. Dan helpen machine learning en geavanceerde OCR technologie om fouten te beperken.

Disclaimer

De informatie in dit artikel is bedoeld als algemene toelichting op administratieve en logistieke processen. Het is geen juridisch of fiscaal advies.

Plan een korte Health Check

In 15 minuten zie je precies waar jouw proces stokt en waar wij kunnen aansluiten. Vrijblijvend en direct nuttig.

Health Check aanvragen

Oplossingen

Voor wie

Koppelingen

Over ons

Leer ons kennen

Inspiratie

Zoeken

Benieuwd hoe wij kunnen helpen met herkenning van documenten?