метро Текстильщики, Волгоградский проспект, дом 42, корпус 42А
Филиал в г. Нижний Новгород,

Распознавание текста документов

Распознавание текста (Optical Character Recognition) предназначено для перевода информации с изображений в редактируемый текстовый вид.

После сканирования документа вы получаете изображение его страниц в растровом формате. По сути это просто фотография документа, состоящее из точек (пикселей) разного цвета.

Распознавание текста применяется тогда, когда вам нужно использовать текстовую информацию с такого изображения. Например, вам нужно использовать весь текст или фрагменты текста в своих работах или нужна возможность поиска внутри текста.

Для распознавания текста применяют специальные программы, которые анализируют загруженные в них растровые документы и пытаются определить элементы и текст на изображениях. Результатом их работы, как правило, являются файлы формата DOC, XLS или текстовый PDF.

Виды распознавания

Мы выделяем два основных вида распознавания:

  1. Автоматическое распознавание
  2. Распознавание с ручной настройкой, проверкой и форматированием результата

При автоматическом распознавании всю работу делает программа. При этом она может ошибочно определить структуру документа, неправильно распознать символы или последовательность текстовых блоков. Процент ошибок зависит от исходного изображения и может достигать 30-40%. Полученный таким образом документ желательно проверить и откорректировать.

Распознавание с ручной настройкой, проверкой и форматированием производится с участием оператора. Оператор перепроверяет работу программы, делает предварительную настройку, проверку и редактирование с форматированием в текстовом редакторе.  На выходе вы получаете структурированный, редактируемый, качественный документ в нужном формате (Word, Excel).

Стоимость распознавания текста

Стоимость автоматического распознавания не зависит от исходного документа и составляет
3 руб. за одну страницу исходного документа.

Стоимость распознавания с ручной настройкой, проверкой и форматированием в среднем составляет
от 16 руб. до 39 руб. за одну страницу исходного документа.

Она зависит от времени потраченного оператором на обработку одной страницы, которое в свою очередь зависит от состояния исходного изображения (сильный фон, копия, недостаточная контрастность) и сложности структуры самого документа (наличие таблиц, рисунков, сносок, многоязычность и т.п.)

В таблице представлены примеры изображений и стоимости их распознавания:

Исходная страница

Характеристика

Стоимость

 

Простая страница

16 руб. за страницу

 

Стандартная страница

23 руб. за страницу

 

Сложная страница 1 степени

39 руб. за страницу

Сроки

В среднем на распознавание одного документа в 200-300 страниц, или книги такого же объёма уходит от 2 до 5 рабочих дней.

На крупных проектах большой штат позволяет нам обрабатывать до нескольких тысяч страниц в день.

Почему мы?

Наша компания профессионально предоставляет услуги распознавания текста документов, начиная с 2006 года. За это время мы распознали сотни тысяч страниц документов.

Наши клиенты, как правило, обращаются к нам снова и снова и вот почему:

  1. Большой опыт (наши операторы имеют стаж работы от 2-х до 10 лет)
  2. Высокое качество
  3. Разумные цены
  4. Постоплата (вы получаете результат и только после этого оплачиваете)
  5. Бережное обращение с документами

Этапы распознавания текста

Распознавание текста документов проводится в несколько этапов:

  1. Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости мы выполняем его в цвете или градациях серого.
  2. Распознавание структуры страниц. Для этого наши специалисты используют  специальное программное обеспечение — Abbyy Finereader. На данный момент эта система считается лучшей, и ее алгоритм непрерывно совершенствуется, что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
  3. Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
  4. Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
  5. Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
  6. Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word устанавливается единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст, формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.

Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал и выработали  особые приемы и методы обработки исходников, позволяющие проводить распознавание документов различных типов и в любом состоянии. 

Благодаря современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу себестоимость работ значительно уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены. 

Наши цены

Распознавание текста.

Автоматическое распознавание за страницу (без проверки и корректировки результатов) 3р.
Распознавание. Простая страница* (за страницу) 16р.
Распознавание. Стандартная страница* (за страницу) 23р.
Распознавание. Сложная страница 1 степени* (за страницу) 39р.
Распознавание. Сложная страница 2 степени* (за страницу) 56р.
Распознавание. Сложная страница 3 степени* (за страницу) 85р.
Распознавание. Сложная страница 4 степени* (за страницу) 115р.
Сверхсложная страница* (за страницу) 190р.

Наценки
к базовой стоимости распознавания текста

* Порядок определения сложности страницы при распознавании текста

Тип сложности страницы определяется в зависимости от количества баллов рассчитанных для страницы

Кол-во баллов Тип страницы
от до
0 0 Простая страница
1 3 Стандартная страница
4 6 Сложная страница 1 
7 10 Сложная страница 2
11 16 Сложная страница 3
17 25 Сложная страница 4
26   Сверхсложная страница

Количество баллов сложности для страницы вычисляется суммированием значений расчетных баллов для каждого элемента страницы

Элемент страницы Кол-во расчетных баллов Комментарий
Простой рисунок 1  
Простая таблица 2 Небольшая таблица без объединения ячеек
Сложная таблица 6 Таблица на всю страницу, или таблица с объединением ячеек
Наличие сносок 4  
Верхний или нижний регистр 0,5  
Мелкий текст 6  

Типы исходных материалов для определения стоимости оцифровки

Простой текст — единый текстовый фрагмент с простым стилем оформления.

Простая таблица — структура данных из 1-12 строк,  с однотипным форматированием ячеек и текстом в них.

Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.

Рисунок — графический элемент, как правило, с подписью.

Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.

Делать самому или доверить профессионалам?

Ответ на этот вопрос зависит от того насколько вы цените своё время. 

Пример

Для работы с фрагментами текста из книг и других документов вам необходимо преобразовать в электронную форму 50 печатных страниц. Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии.  Если вы не занимаетесь этим регулярно, то на выполнение работы вам потребуется не менее 9 часов.

Однако вы можете предоставить исходные материалы нашим специалистам и:

  1. получить качественный результат на следующий день в удобной вам форме.
  2. подождать  около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.

Стоимость наших услуг составит приблизительно 800р.1500р. для 50 страниц в зависимости качества исходников.

Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-170 рублей за один час своей работы. 

Решайте сами, стоит ли эта сумма потраченного времени.


Страница сгенерирована за 0.01 секунд !