System OCR. Czym jest i jak działa program do automatycznego rozpoznawania tekstu?
OCR to skrótowiec utworzony z wyrazów „optical character recognition” (optyczne rozpoznawanie znaków). Jest zestawem technik lub oprogramowaniem służącym do rozpoznawania znaków oraz całych tekstów w plikach graficznych o postaci rastrowej. Zadaniem OCR jest zazwyczaj rozpoznanie tekstu w zeskanowanych dokumentach. Oprogramowanie OCR stosuje różne metody segmentacji obrazu, np. progowanie, by wyodrębniać poszczególne znaki z obrazu, które następnie są zazwyczaj osobno klasyfikowane jako poszczególne litery. Czytaj dalej!
- OCR, czyli optyczne rozpoznawanie znaków. Na czym polega?
- Programy korzystające z OCR
- Technologia optycznego rozpoznawania tekstu i pliki PDF
Zadaniem OCR jest m.in.rozpoznanie kluczowych danych biznesowych (np. kontrahenci, kwoty, daty czy numery dokumentów) z zeskanowanych dokumentów.
OCR, czyli optyczne rozpoznawanie znaków. Na czym polega?
Technologia optycznego rozpoznawania znaków sprawnie wspiera dużą ilość procesów z organizacji, jednak jak to działa? Jest to wieloetapowy, zaawansowany algorytm odróżniający w przetwarzanym dokumencie fragmenty tekstów od tabel, czy obrazów oraz znaków wodnych. Następnie wszystkie znaki są przyporządkowane do znajomych mu wyrażeń (liter, liczb, specjalnych znaków), a rozpoznane znaki zostają połączone w wyrazy, zdania, a często również w całe, logicznie brzmiące akapity. Wszystkie znaki otrzymują informację o swoim położeniu w dokumencie, co ułatwia wyszukiwanie oraz zaznaczanie, ale również pozwala na budowę rozwiązań, które są oparte na sztucznej inteligencji, pomocne w ekstrakcji informacji z przetwarzanych przez system dokumentów.
Zaawansowane wersje OCR radzą sobie też z krzywo zeskanowanymi dokumentami albo nierówno wykonanymi zdjęciami. Małe niedoskonałości znaków także nie są przeszkodą dla wysokiej jakości produktu. Warto jednak odnotować, że istnieje granica, po której przekroczeniu nie jest możliwe właściwe odczytywanie znaku, jeśli napisy są wyjątkowo niekompletne.
Programy korzystające z OCR
Przykłady oprogramowania wykorzystującego OCR to programy stworzone przez znane światowe firmy, np. Google Books, Amazon Textract, czy ABBY Finereader. Warto odnotować, że jeden ze sposobów przygotowania tzw. zbioru uczącego (do nauki algorytmów odpowiedniego rozpoznawania znaków) to znana reCAPTCHA, czyli rozwiązanie, które służy do zwiększania bezpieczeństwa stron www, oraz do rozpoznawania fragmentów zeskanowanych tekstów przez użytkowników, a ostatecznie umożliwiające bardziej precyzyjne wskazanie algorytmowi różnych możliwości wyglądu znaków.
Technologia optycznego rozpoznawania tekstu i pliki PDF
Cyfryzacja zasobów bibliotecznych to obecnie powszechna praktyka. OCR jest rozwiązaniem problemu konieczności ręcznego przepisywania treści, nierzadko obszernych dokumentów, w trakcie wprowadzania ich do systemu. Przy pomocy OCR już w chwili wgrywania zeskanowanych dokumentów, bez względu na to, czy mamy do czynienia z obrazem/zdjęciem (rozszerzenia .jpg, .png) czy też formatem PDF, następuje rozpoznanie znaków oraz całych wyrazów, a nawet zdań. Dzięki temu łatwo uzyskujemy cały tekst dokumentu, ale też jego automatyczną klasyfikację, czy ekstrakcję danych szczegółowych.
Narzędzie OCR jest bardzo praktycznym rozwiązaniem zwłaszcza podczas wprowadzania faktur do obiegu dokumentów. Pozwala na przyspieszenie pracy dzięki zastosowaniu zaawansowanych algorytmów AI. Do tego umożliwia walidację danych otrzymanych na podstawie uzyskanego tekstu. Kolejna ciekawa funkcjonalność to zaznaczanie fragmentu do skopiowania, w otwartym przez użytkownika dokumencie ze zdjęcia/obrazu, jak i z nieprzeszukiwalnych plików PDF, czy np. wyszukiwanie danego wyrażenia w tekście zeskanowanych dokumentów.