Оптично разпознаване на символи (OCR). Софтуер за оптично разпознаване на символи: ABBYY FineReader, CuneiForm

Съдържание

Приложения на OCR
Процес за определяне на точността на текста
Оптична технология за Брайловата азбука
Избор на софтуер за OCR
Популярен софтуер за мобилни устройства
Документи на Google
Оптично разпознаване Abbyy
Adobe Acrobat облачна услуга
Най-добър безплатен софтуер
Разпознаване на символи в Linux

Технологията за оптично разпознаване на символи (OCR) може да се използва за преобразуване на хартиено копие на документ в електронна версия. Например, ако многостранично копие се сканира в TIFF файл, той се изтегля в софтуер за OCR, който разпознава текста, и след това се преобразува във файл, който може да се редактира. Някои приложения позволяват сканиране на страници и превръщане на съдържанието в документ с една стъпка.

Въпреки че първоначално технологията е разработена за оптично разпознаване на символи, тя може да се използва и за разпознаване на ръкописен текст. Например пощенските служби, като USPS, използват софтуер за OCR за автоматично обработка на писма и пратки чрез разчитане на адреса.

Приложения на OCR

OCR е съкращение за оптично разпознаване на символи. Това е широко разпространена технология за разпознаване на текст в изображения в сканирани документи и снимки. Технологията се използва за преобразуване на почти всички видове изображения, съдържащи писмен, ръкописен или печатен текст, в машинно четими текстови данни.

OCR става популярен в началото на 90-те години на миналия век с цел дигитализиране на исторически материали. Оттогава методът е претърпял значителни подобрения и сега осигурява почти перфектна точност при оптичното разпознаване на символи. Използват се усъвършенствани техники, като например зонално OCR за автоматизация сложни работни процеси, основани на преобразуване на машинописни текстове в цифрови документи. След като сканираният материал бъде обработен, текстът може да бъде редактиран с помощта на софтуер като Microsoft Word или Google Docs, които са текстови редактори.

Преди появата на тази технология единствената възможност за дигитализиране на печатни документи беше ръчното им набиране. Това не само отнема много време, но и води до неточности и грешки при възпроизвеждането на копието. OCR често се използва като "скрита" технология в много добре познати системи и услуги, включващи автоматизация на въвеждането на данни и индексиране за търсачки, Автоматично оптично разпознаване на регистрационния номер, както и помощ за слепи и незрящи.

Процес за определяне на точността на текста

Процесът на определяне на точността на текста

Всяка стъпка от процеса на OCR е важна за определяне на точността на крайния текст. Започва се с конвертиране на отпечатания документ. Ако има петна, зацапвания и нисък контраст, софтуерът за разпознаване ще допусне грешки и резултатът няма да е правилен. За да избегнете тези проблеми, можете да направите подобрено фотокопие на разпечатката.

Първата стъпка в процеса е сканиране на отпечатания текст. Софтуерът за OCR работи с файлове с изображения. С помощта на скенер или добър цифров фотоапарат се правят ясни фотокопия на документите. По-добре е да конвертирате сканираните файлове в черно-бели. Процесът е двоичен. С помощта на черния цвят на снимката се разпознава OCR текстът, а белият текст служи за фон.

втората стъпка е откриване на символи. Бързината на този процес зависи от използвания софтуер за OCR. Повечето от тях анализират всеки елемент един по един. Приложението е насочено към разпознаване на символи, но добрите програми разпознават не само текст, но и таблици и други елементи на оформлението.

Процесът не е съвършен, тъй като в състоянието, в което се намира има много фактори, които влияят на точността. Кой софтуер за OCR е предназначен за оптично разпознаване на символи, вижте по-долу. и потребителят сам решава кое е най-добро. OCR имат вградени програми за проверка на правописа и подчертават грешно написаните думи. Някои от тях са толкова усъвършенствани, че могат да откриват несъответствия в думите и граматически грешки, като оставят на потребителя да направи необходимите корекции.

последната стъпка е да запишете готовия документ в желания формат. Ако приложението не създаде необходимия конвертор, можете да използвате многобройните безплатни онлайн конвертори.

Оптична технология за Брайловата азбука

Технологията за оптично разпознаване на символи (OCR) дава възможност на слепите или хората с увредено зрение да разпознават и четат текст на глас. Използва се гласов изход, а информацията се показва и на брайловия дисплей.

Системите за оптично разпознаване на символи имат три основни елемента: получаване на изображение, разпознаване и четене на текст. Първо печатният документ се заснема от камерата, след това софтуерът за OCR го преобразува в разпознаваеми знаци и думи, а след това синтезатор в системата произнася определения материал на глас или го показва на брайловия дисплей. Информацията може да се съхранява в електронен формат на устройството, на което работи софтуерът за OCR, или в паметта на самостоятелно устройство.

Процесът отчита логическата структура на езика. Системата ще заключи, че например съюзът "това" в началото на изречението е грешка и трябва да се чете като "това". Той използва лексикон и програма за проверка на правописа, подобни на тези, използвани в много приложения за текстообработка.

Всички системи за OCR създават временни файлове, съдържащи символи и оформление на страницата. В някои системи те могат да бъдат конвертирани във формати, които могат да бъдат намерени с помощта на често използвани компютърни приложения, като текстообработка, електронни таблици и бази данни.

Избор на софтуер за OCR

Избор на софтуер за разпознаване на текст

се препоръчва да се възприеме съзнателен подход към избор на софтуер софтуер за разпознаване на текст. По-добре е да направите собствено тестване или да вземете предвид мнението на напреднали потребители.

Тестването се извършва, като се вземат предвид следните фактори:

Точността е това, което отличава добрия OCR от лошия. Въпреки това не е реалистично да се очаква 100% точност от приложение за разпознаване на ръкописен текст. Фактори като качество на оригиналните документи и разделителната способност на изображението оказват значително влияние върху крайния резултат. Доброто OCR достига до 98% с модерен скенер и източници в задоволително състояние.
Многоезичност - днес повечето софтуери имат тази функция. OCR сканира един символ, за да го идентифицирате. Ако е проектиран да разпознава само английски букви, той няма да интерпретира точно специални символи, като например букви с ударение "е". Такъв софтуер ще представи тези знаци с най-близкия им еквивалент на английски език. Когато използвате приложение, което поддържа многоезичие, посочете езика на документа, за да осигурите точното му разпознаване.
Поддръжка на ръкописен текст. Текстът, създаден с клавиатурата, е лесно разпознаваем от всяка програма. Ръкописът обаче е съвсем различен метод за сканиране. Хората имат много различни модели на почерк. Някои хора пишат спретнато, в момента като повечето Ръкописът не е достатъчно четлив. Висококачественото OCR може да разпознае всеки почерк. Затова е необходим софтуер за архивиране на ръкописни материали.
Ниво на автоматизация. OCR може да се изпълнява автоматично или интерактивно. Ако трябва да сканирате много страници наведнъж, може да помислите за автоматични програми. С тази функция е възможно да сканирате документи с няколко кликвания, докато извършвате други задачи, и лесно да намерите получения PDF, txt или doc файл. Повечето безплатни програми за OCR имат ограничена автоматизация.
Запазване на оформлението. Основната цел на тези програми е да преобразуват текста в електронна форма. Някои от тях не запазват оформлението на оригиналния документ. Така че редактирането на окончателната версия отнема много време. Добрата програма трябва да запазва оригиналното оформление, а след това окончателното копие ще изисква незначителна редакция. Такива приложения запазват колоните, таблиците и графичните изображения, както в оригиналната версия.

Популярен софтуер за мобилни устройства

OCR е отлично средство за прехвърляне на текст от физически източници директно в цифров документ. Съществуват различни видове програми и приложения за настолен компютър и мобилни устройства. Те се различават по цена и имат свои основни отличителни характеристики.

Най-популярни "Android"-скенери:

Office Lens - осигурява безплатно сканиране на страници и OCR за потребителите на Android. Необходима е интернет връзка за преобразуване.
PDF скенери (напр. ABBYY TextGrabber, CamScanner, MDScan, OCR Instantly) - осигурява сканиране, последвано от OCR. Софтуерът няма ограничение за броя на сканираните страници и няма водни знаци.
Онлайн OCR. Тя може да бъде намерена онлайн, а услугата е много проста и лесна за използване. Отличителната му черта е, че поддържа 46 езика, изходният документ тежи не повече от 5 MB, може лесно да се конвертира в Microsoft Word, Excel или обикновен текстов формат. След като се регистрирате, можете да конвертирате многостранични PDF, RTF, Excel и файлове до 100 MB. За големи количества разпознавания има платена версия.

Документи на Google

За тези, които вече са запознати с Google Docs, можете да използвате OCR, вграден в Google Drive. Шрифтовете трябва да бъдат настроени на Arial или Times New Roman за най-добри резултати. Можете да подобрите резултата, като се уверите, че сканираното изображение има равномерно осветление и ясен контраст. Снимките могат да се обработват поотделно в jpg, png, gif или многостранични PDF документи. Разширението поддържа повечето езици.

Google има имат много Програми за обучение и възможности за обработка в облак. Много потребители смятат, че услугата не разполага с достатъчно разширени функции и опции. Ако обаче използвате приложението Google Drive за Android, можете да сканирате страници директно от приложението с помощта на камерата на смартфона си. В противен случай изтеглете документите си с помощта на скенер, свързан към компютъра ви, или по друг начин, за да започнете обработката на разпознаването в Google Drive. За физически лица Google Drive предлага безплатно пространство за съхранение от около 19 GB, което може да се разшири до 100 GB чрез Google One срещу 1,99 USD. САЩ.

Оптично разпознаване Abbyy

Abbyy FineReader работи с документи от дълго време. Това е цялостно решение както за бизнес, така и за обикновени потребители. Той предлага всички функции, от които се нуждаете, за да извличате текстово съдържание от скенер с пълна четливост, подредено дигитализирано съдържание. В допълнение към разпознаването на текстове и конвертирането им в PDF, Microsoft Office или други формати, тя може също така да сравнява, анотира и коментира текстове.

Abbyy FineReader може да конвертира материали в партиден режим и да обработва множество изходни формати на 192 различни езика. Има съпътстващи мобилни приложения, когато трябва да направите бързо сканиране от телефона си.

Софтуерът не е най-съвременният, но е прост, функционален и върши работата много добре. Програмата има солидна репутация на един от най-добрите варианти в областта на оптичното разпознаване на символи. Можете да използвате безплатната пробна версия. Цената на софтуера е от 199,99 USD. Цената е за стандартен еднократен, безсрочен лиценз.

Ако някой смята, че това е скъпо, има добра алтернатива на ABBYY FineReader - онлайн версията. Тя е ограничена, тъй като ви позволява да сканирате само 10 страници на месец. Но тя се предлага с всички други функции на премиум версията. Необходима е регистрация за получаване на достъп. Поддържа много входни файлови формати и можете да избирате изходни формати като PDF, Word, Excel, PowerPoint и e-Pub.

Adobe Acrobat облачна услуга

Adobe Acrobat отговаря на всички изисквания и предлага впечатляващ списък от функции и опции, въпреки че цената е малко по-висока от тази на конкурентите. За всички функции на OCR изберете версията Pro на Adobe Acrobat. DC означава "Document Cloud" и се интегрира съвсем ясно с облачното решение на Adobe, ако трябва да имате достъп до файловете си от всеки компютър. Освен това има лесна и безпроблемна интеграция с всички останали услуги на Adobe, като Photoshop.

Ако потребителят реши да плати за Pro версията на Adobe Acrobat DC, той получава всички инструменти за разпознаване на текст, възможност за добавяне на коментари и обратна връзка към съдържанието, специална услуга за сканиране на таблици, възможност за бързо сравняване на два документа заедно. Материалът може да се редактира директно на екрана в рамките на няколко секунди след сканирането му.

Марката Adobe гарантира определено ниво на качество, а потребителите са впечатлени от интуитивността и възможностите на Adobe Acrobat DC. Абонаментът за услугата започва от $12,99. САЩ.

Най-добър безплатен софтуер

Free OCR to Word е най-добрият безплатен софтуер за OCR, който използва най-новите механизми. Tesseract е най-мощният инструмент за този тип софтуер и се счита за един от най-точните методи. Програмата поддържа множество формати на изображения и TIFF. Тази услуга може да се използва напълно безплатно за извличане на текст от предоставен снимков материал.

Първоначално двигателят Tesseract е разработен от Hewlett Packard Labs през 1985-1994 г. През 1996 г. бяха направени някои промени. През 1995 г. той е включен в трите най-големи двигателя за разпознаване. Работи с Windows, Linux и Mac OS X. FreeOCR може да обработва изображения с многоколонни и многоезични текстове. Той работи с PDF формати и поддържа TWAIN устройства като скенери, има широко разпространен интерфейс с два прозореца, чиито настройки са лесни за разбиране.

Безплатното OCR към Word може да ви спести много време, без да се налага да въвеждате отново вече написана работа. Софтуерът взема документ, сканиран обект или изображение и го трансформира в четим, редактируем и точен материал. Софтуерът може да бъде изтеглен безплатно в Word. Оптимизиране на OCR към Word за работата с всички видове скенери и има степен на точност 98%, модерен интерфейс, който позволява лесен достъп до всички задачи, налични са функции за завъртане, в случай че снимката не се вписва правилно на екрана. Софтуерът извлича текст от заснети изображения от смартфон или цифрова камера с висока точност и качество.

Разпознаване на символи в Linux

Пакетът OCRFeeder осигурява удобен за потребителя графичен интерфейс за Linux, който е предимно външен интерфейс за някои изображения, OCR и инструменти за обработка на текст, като например разпечатки или проверка на правописа. Той не чете знаци сам, а използва други OCR приложения чрез така наречените "двигатели за разпознаване". Има предварително зададени настройки за Tesseract, CuneiForm, GOCR и Ocrad.

Потребителят трябва само да инсталира избраните от него двигатели в Ubuntu - един или повече - и след това да ги открие в настройките на Feeder. Възможно е да добавите други двигатели и да промените тези параметри ръчно. В едно приложение може да има няколко различни двигателя. Основният прозорец на хранилката ви позволява да избирате в движение коя от тях да използвате за определена област, като има и опция за избор на тази по подразбиране. За да изберете езика за четене на текста, в случая на Tesseract и CuneiForm, трябва да добавите превключвател "-l" със съответния език/код на скрипта, например "-l pol" за полски или "-l dan-frak" за датски, към настройките на този двигател

Технология за оптично разпознаване на символи "Tesseract" първоначално можеше да разпознава само текст на английски език, а версия 2.x го направи многоезичен. ако е необходимо, може да се зададе повече от един речник. Новите версии дигитализират текст въз основа на ISO 963-2.

След успешна инсталация използвайте командата "тесеракт>път на изображението>е основното име на изходния файл". Тесеракт автоматично ще даде резултат разширение на документа ".txt", опцията "-l", последвано от кода на езика. За версиите на Tesseract, по-ранни от Tesseract 3, е много важно изображението да е във формат на таг файл и да има разширение ".tif", не ".tiff". Командният ред трябва да изглежда по следния начин"$ tesseract ~ / input.изход tif".

Къде: "вход.tif" - това е документът за конвертиране, намиращ се в домашната папка, и "изход" - материал, който Tesseract ще създаде като "изход.txt". Често сканираните текстове се съхраняват като битови изображения в голям PDF документ. С помощта на ImageMagick отделните страници могат да бъдат извлечени като TIFF файлове за обработка с Tesseract. Следният скрипт може да помогне за автоматизирането на този процес.

CuneiForm е друга система за оптично разпознаване на символи, първоначално разработена и базирана на отворен код от Cognitive Technologies. Версия за Windows, който има собствен графичен интерфейс, може да бъде стартиран с някои резултати в Wine. Неговият порт за Linux е разработен на Launchpad и въпреки че в момента няма собствен графичен интерфейс, CuneiForm може успешно да се стартира от графичния интерфейс на OCRFeeder.

Ето един пример за успешно конвертиране на снимки на екрана .webp интернет табла за съобщения в полезни текстови файлове.

Pdfocr е скрипт, който извършва OCR за многостранични PDF файлове и ги вгражда обратно като текстов слой с възможност за търсене. Той може да използва "Tesseract" или клинопис като механизъм за разпознаване. Самият скрипт може да бъде получен от Github или от PPA. За да стартирате команда, трябва да въведете в терминала: "pdfocr -i вход.pdf -o изход.pdf".

OCR технологията не стои на едно място, като перспективата за разпознаване на интелигентна система за оптично разпознаване на символи - ICR. Този стандарт е авангарден. Повечето ICR имат система за самообучение, наречена невронна мрежа, която автоматично актуализира базата данни за нови образци на почерка. Той разширява приложението на устройствата за сканиране за целите на обработката на документи от разпознаване на печатен текст (функция OCR) до ръкописен материал и може да постигне точност от над 97 % при четене на ръкописен материал в структурирани форми.