Распознать документ
Зачастую у многих по долгу службы или же просто по необходимости возникает вопрос «как распознать текст?» Многие люди, особенно далекие от компьютерных технологий, полагают, что отсканировав текст его можно редактировать в обычном редакторе. Но, к большому сожалению, это не так.
Обычно нам нужно получить редактируемую версию какого либо документа, электронная версия которого утеряна или просто недоступна. В дальнейшем с помощью редактирования и обработки уже оцифрованного и распознанного документа мы добиваемся своей цели, будь то электронный вариант книги, бухгалтерская документация, бланки, анкеты, формуляры и так далее. Более того мы можем осуществлять поиск внутри документа по ключевым словам или фразам, копировать отдельные фрагменты, распечатывать и делиться в интернете без потери качества.
Вариант простого набора по образцу подходит лишь при очень небольших объемах, однако если требуется сохранить структуру документа, фотографии, графики и прочее, то задача становится сложнее. Если говорить о больших объемах, то перенабор текста представляется совсем уж не реальным. Как же быть?
На выручку приходит сканирование документов и последующее оптическое распознавание символов с помощью специального программного обеспечения. Если распознать нужно не редактируемый файл типа PDF, то его придется перевести в растровый формат, минуя процесс сканирования. То же касается, если оригинал уже в виде файла в растровом формате. В этом случае процесс подготовки оригинала и процесс самого сканирование мы опускаем, при условии, что цифровой оригинал отвечает всем требованиям для успешного распознавания.
Итак, запустив программу распознавания и получив ее результат можно считать, что половина дела сделана. Почему только половина, спросите Вы? Все потому, что хотя прогресс и не стоит на месте, но многое еще не подвластно даже самому современному компьютеру и самой лучшей программе распознавания. И хотя процент корректного распознавания с хорошего оригинала стремится к 100%, но все же на последнем этапе в работу включается человек. Корректировать возможные ошибки распознавания придется вручную. Но тем не менее весь процесс распознавания и коррекции с сотни раз быстрее нежели ручной набор по оригиналу более менее солидного по объему документа. Современные средства распознавания «владеют» несколькими языками, сохраняют не только текст, но и фотографии, чертежи, сохраняя при этом верстку и формат документа. Оцифрованный и распознанный документ Вы вольны изменять и редактировать уже по своему усмотрению, конвертируя его в любой удобный для вас формат.
От чего же зависит успешное распознавание документа? Наверное, оцифровка документа и его последующее распознавание, тот редкий случай, когда копия по всем параметром будет лучше оригинала. Но для этого нужно выполнить несколько условий. Во-первых исходный материал, а именно оригинальный документ, должен быть максимально хорошего качества. Мятая, надорванная бумага, плохо пропечатанный или выгоревший текст, «хитрый» шрифт (а тем более рукописный) все это ведет к ухудшению результата распознавания. Во-вторых, сканер или другое устройство (в некоторых случаях используются специальные фотоаппараты) получения оптической копии должен выдавать результат с хорошим разрешением и (если требуется) цветопередачей. В третьих, программное и компьютерное обеспечение должно позволять получить максимально возможный процент распознавания документа. Не выполнение хотя бы одного из этих условий снижает процент распознавания в разы, а это значит, что больше времени потребуется для ручной корректировки документа.
Для чего же могут потребоваться оцифрованный и распознанные документы? Создание электронных архивов и библиотек, всевозможные картотеки и каталоги, базы данных, распространение электронных версий изданий и книг, публикация в интернете, продажа и обмен электронных версий документов и архивов. Оцифровка и распознавание древнейших библиотек дает нам доступ к огромному опыту человечества практически из любой точки планеты. Область применения цифровых технологий становится поистине безгранична.
Страница сгенерирована за 0.04 секунд !