Co je optické rozpoznávání znaků (OCR)?

Obsah:

Co je optické rozpoznávání znaků (OCR)?
Co je optické rozpoznávání znaků (OCR)?
Anonim

Optické rozpoznávání znaků (OCR) označuje software, který vytváří digitální verzi tištěného, strojopisného nebo ručně psaného dokumentu, který mohou počítače číst bez nutnosti ručního psaní nebo zadávání textu. OCR se obecně používá u naskenovaných dokumentů ve formátu PDF, ale může také vytvořit počítačově čitelnou verzi textu v souboru obrázku.

Co je OCR

OCR, také označované jako rozpoznávání textu, je softwarová technologie, která převádí znaky, jako jsou čísla, písmena a interpunkční znaménka (také nazývané glyfy) z tištěných nebo psaných dokumentů do elektronické podoby, která je snadněji rozpoznatelná a čitelná počítači a jiné softwarové programy. Některé programy OCR to dělají při skenování nebo fotografování dokumentu digitálním fotoaparátem a jiné mohou tento proces použít na dokumenty, které byly dříve naskenovány nebo vyfotografovány bez OCR. OCR umožňuje uživatelům vyhledávat v dokumentech PDF, upravovat text a přeformátovat dokumenty.

Image
Image
Skenování historických novin pomocí softwaru OCR.

Getty Images

K čemu se OCR používá?

Pro potřeby rychlého a každodenního skenování nemusí být OCR velký problém. Pokud provádíte velké množství skenování, možnost vyhledávat v souborech PDF a najít přesně ten, který potřebujete, může ušetřit poměrně dost času a funkce OCR ve vašem programu skeneru je důležitější. Zde je několik dalších věcí, se kterými OCR pomáhá:

  • Automatizované zpracování dat a zadávání dat (Příklad: Systémy pro sledování uchazečů o zaměstnání pro životopisy).
  • Vyhledávání naskenovaných knih.
  • Převod ručně psaných skenů na počítačově čitelný text.
  • Vylepšení použitelnosti dokumentů pro programy pro čtení, které pomáhají zrakově postiženým uživatelům.
  • Zachování historických dokumentů a novin a zároveň jejich možnost vyhledávání.
  • Extrakce dat a přenos do účetních programů (Příklad: účtenky a faktury).
  • Indexování dokumentů pro použití vyhledávači.
  • Rozpoznávání SPZ pomocí softwaru pro radary a kamery na červenou.
  • Syntezátory řeči pro lidi, kteří nemluví – teoretický fyzik Stephen Hawking je možná nejznámějším uživatelem programu pro syntezátory řeči.

Sečteno podtrženo

Proč to prostě nevyfotit, že? Protože byste nemohli nic upravovat ani prohledávat text, protože by to byl jen obrázek. Naskenováním dokumentu a spuštěním softwaru OCR můžete tento soubor proměnit v něco, co můžete upravovat a můžete v něm vyhledávat.

Historie OCR

Zatímco úplně první použití rozpoznávání textu se datuje do roku 1914, rozšířený vývoj a používání technologií souvisejících s OCR začalo vážně v 50. letech 20. století, konkrétně vytvořením velmi zjednodušených písem, které bylo snazší převést na digitální. čitelný text. První z těchto zjednodušených písem vytvořil David Shepard a je běžně známý jako OCR-7B. OCR-7B se dodnes používá ve finančním průmyslu pro standardní písmo používané na kreditních a debetních kartách. V 60. letech 20. století začaly poštovní služby v několika zemích používat technologii OCR k výraznému urychlení třídění pošty, včetně Spojených států, Velké Británie, Kanady a Německa. OCR je stále základní technologií používanou k třídění pošty pro poštovní služby po celém světě. V roce 2000 byly klíčové znalosti limitů a schopností technologie OCR použity k vývoji programů CAPTCHA používaných k zastavení robotů a spammerů.

V průběhu desetiletí se OCR stal přesnějším a sofistikovanějším díky pokroku v souvisejících technologických oblastech, jako je umělá inteligence, strojové učení a počítačové vidění. Software OCR dnes používá rozpoznávání vzorů, detekci funkcí a dolování textu k rychlejší a přesnější transformaci dokumentů než kdykoli předtím.

FAQ

    Jak naskenuji dokumenty pomocí telefonu nebo tabletu?

    V systému iOS otevřete aplikaci Poznámky a vytvořte novou poznámku. Otevřete fotoaparát a klepněte na Skenovat dokumenty. V systému Android otevřete Disk Google a vyberte Plus (+), poté klepnutím na Scan naskenujte dokumentujte telefonem.

    Jak mohu používat OCR v aplikaci Adobe Acrobat?

    Otevřete soubor PDF obsahující naskenovaný obrázek a poté vyberte Tools > Edit PDF. Acrobat automaticky použije OCR, abyste mohli upravovat text. Stačí vybrat, kde chcete provádět úpravy, a začít psát.

    Jaký je rozdíl mezi OCR a OMR?

    Optical Mark Recognition (OMR) je software, který detekuje značky na papíře, obvykle bublinkovém listu. OMR se používá ke zpracování výsledků zkoušek, průzkumů, dotazníků a dokonce i voleb. Na rozdíl od OCR nemůže OMR dešifrovat značky na stránce, ale pouze ověřit, zda tam značky jsou.

Doporučuje: