>> УСЛУГИ >> Распознавание текста  
Сканирование
Распознавание текста
Обработка анкет
Преобразование информации
Создание электронных книг
Создание электронных архивов
Создание электронных библиотек
Создание электронных каталогов
Аутсорсинг бизнес процессов
Аутстаффинг
Ввод данных

  • НАШИ КОНТАКТЫ

    Москва, Михайловский пр., д. 3, стр. 66

    тел.: 8(495) 646-26-77

    Карта проезда>>

Rambler's Top100
Рейтинг@Mail.ru
Яндекс.Метрика

 

РАСПОЗНАВАНИЕ ТЕКСТА

   Сегодня информация является одним из самых важных элементов как рабочего, так и учебного процесса. Она может быть представлена либо в бумажном, либо в электронном виде. Несмотря на то, что электронный вид представления информации используется повсеместно, особо значимые источники информации до сих пор представлены лишь в виде бумажных  документов: книг, учебников, журналов, научных работ, фотографий, брошюр и т.д..

    Информация как правило представлена в виде текста, таблиц, рисунков, формул и т.п. Чтобы вставить её в новый документ (книгу, печатное издание, брошюру, реферат и т.д.), необходимо сначала преобразовать её в электронный вид.

   Но простого сканирования не достаточно. Дело в том, что отсканировав исходник, вы получаете подобие его электронной фотографии , изменить текст в которой, провести форматирование или удалить, перенести в другое место какой-нибудь фрагмент практически невозможно. Какой же выход?

   Здесь можно поступить двумя способами. Можно либо вручную на клавиатуре перенабрать нужную  информацию с бумажного носителя в программе текстовом редакторе, либо автоматизировать этот процесс с помощью специальных программ для распознавания текста (OCR - Оптическое распознавание символов). Первый вариант малоэффективен потому что занимает очень много времени. Для большинства случаев вариант распознавания текста более оптимален как с точки зрения затраченного времени, так и полученного результата.

  Для того чтобы распознать документ, надо сначала провести сканирование необходимых листов, далее при помощи специализированной программы  ( например Abbyy Finereader, CuneiForm и т.д.) провести процедуру распознавания текста. В завершении результат надо отредактировать, отформатировать и сохранить его в различные форматы (например, в форматы программ Word, Excel,  или в формат PDF).

   В принципе обладая необходимыми навыками вы можете это сделать и сами, но благоразумнее воспользоваться услугами специализированной фирмы и вот почему:

  • Вам понадобиться сканер;

  • Вам понадобится специальная программа для распознавания текста, например Finereader;

  • Вы должны обладать некоторыми специальными знаниями в области сканирования документов и обработки изображений;

  • Вы должны очень хорошо знать текстовый редактор, так как прежде чем использовать результат вам понадобиться основательно отредактировать его;

  • Ну и главное вы потратите очень много времени и сил. Результат же может вас разочаровать.  

  Если вы будете делать это сами, то конечно же вы обретёте опыт.  Но задумайтесь насколько он вам нужен и пригодится ли он Вам снова.

В любом случае выполнить распознавание текста бесплатно и без потери времени не получится.

Используемое программное обеспечение

В своей работе мы используем программу для распознавания текста Abbyy Finereader. На данный момент Finereader является одной из самых лучших программ в этой сфере. Постоянно совершенствующийся алгоритм программы Finereader позволяет обрабатывать очень сложные по структуре документы, практически любого состояния.

Наши специалисты на профессиональном уровне владеют всеми функциями Finereader. Многолетний опыт позволил нам выработать особые приёмы и методы работы с исходниками различных типов и состояния в этой программе.

 

   Работы по сканированию, распознаванию и обработке текста:

  1. Сканирование бумажного оригинала. Сканирование большинства документов производится как правило в черно-белом режиме. Если есть необходимость сохранения иллюстрации и рисунков, то производиться сканирование в цвете или в градациях серого.

  2. Распознавание структуры страниц документа. С помощью программы для распознавания (как правило мы используем Finereader) производится распознавание структуры страниц.

  3. Распознавание текста. С помощью той же программы  производится распознавание текста. На этом этапе особенно важно правильно установить параметры программы, чтобы минимизировать ошибки распознавания.  Количество ошибок распознавания зависит от таких параметров, как: полиграфическое качество документа, размер и контрастность текста, сложность взаимного размещения элементов на странице.

  4. Проверка правильности распознавания. С помощью встроенных средств производится  визуальная проверка текста на соответствия неуверенно распознанных символов.

  5. Проверка орфографических ошибок. С помощью четвертого этапа как правило не удается избавиться от всех ошибок, поэтому необходимо также проводить проверку орфографии, например встроенными средствами Microsoft Word.

  6. Форматирование и оформление результирующего документа. На этом этапе формируется результирующий документ (как правило в Microsoft Word) Устанавливается единообразные значения параметром шрифта и абзацев. Производится размещение и формирование таблиц. Производится ручной дополнительный ввод текста,  формул, таблиц, автоматизированное распознавание которых не удалось произвести.

   Цена работ по распознаванию текста зависит от того сколько этапов будет использовано для обработки документов. Чем больше этапов задействовано, тем более качественный и точный документ вы получите на выходе.
 
 Заказчик может заказать например только первые три этапа, а остальные сделать сам, но практика показывает, что это потребует от него значительных трудозатрат.

  Внимание !!! Многие компании, которые занимаются распознаванием текста используют автоматический режим распознавания документа, после чего его подправляют в текстовом редакторе и в таком виде сдают заказчику. Такой метод заметно сокращает время выполнения заказ и себестоимость работ, но имеет ряд существенных недостатков:

  1. В автоматическом режиме распознавания программа пытается передать оформление исходника, что приводит к тому, что в результирующем документе появляется огромное количество стилей (десятки, а то и сотни), элементов позиционирования, различные варианты шрифтов и форматирования абзацев.  Всё это привод к тому, что если вы попытаетесь его отредактировать, то практически при любом действии его структура тоже сильно будет меняться и чтобы опять привести его в нужный вам вид необходимо будет потратить значительное количество времени и при этом нужно обладать очень хорошими знаниями программы текстового редактора. Практика показала, что часто быстрее перебить такой текст, чем попытаться его отформатировать под ваши требования.
     
  2. Автоматическое распознавание сложных страниц (в несколько колонок, с обилием рисунков и множеством таблиц) даёт плохой результат, который практически не возможно отредактировать без потери информации и времени.
     
  3. Программа пытается автоматически распознать размер страниц, элементы оформления страниц документа и колонтитулы. Как правило эти элементы не нужны будут вам в ваших документах,  и их придётся править или удалять.

   Все эти недостатки приводят к тому, что заказчику приходится проводить большой объём дополнительной работы по редактированию и форматированию.  

   Поэтому мы не используем полностью автоматическое распознавание, а работаем в полуавтоматическом режиме с корректировкой каждого этапа обработки. В результате у нас не полностью сохраняется форматирование исходного документа, но получается документ, который легко использовать и с которым очень легко работать.

 

Типы страниц для определения цены распознавания текста:
Простой текст Страницы содержащая только однообразный текст без сложного оформления.
Сложный текст Страница содержит текст, обозначения,   применено разнообразное форматирование и оформления текста, есть буквы греческого алфавита, символы других языков.
Простая таблица Таблица состоящая из 1-12 строк, без объединения ячеек и без ячеек с разнонаправленным текстом.
Сложная таблица Таблица имеющая размеры во всю страницу, оформление которой имеет объединение ячеек и разнонаправленность текста. Также таблицы не имеющие явного разбиения на ячейки.
Рисунок Графический элемент как правило имеющий подпись.
Формула Формула состоящая из сложных символов и элементов, отображение которой возможно только с помощью специальных редакторов формул.

   Приведем пример:

  Вам необходимо использовать в вашей работе различные фрагменты текста из книг и других документов и для этого вам придется обработать 50 страниц.  Предположим, что необходимое для этого оборудование сканирования текста и программа для распознавания текста у вас имеется.  Если вы этим не занимаетесь регулярно, то вам понадобится не менее 5-7 часов работы.

  Или вы можете привезти книжку нам, отметив необходимые листы, а на следующий день забрать результаты распознавания.

  Или есть другой вариант. Вы привозите нам  ваши материалы, ждёте около 20 минут (пока мы её отсканируем) и забираете их. А результаты распознавания текста мы пересылаем вам по электронной почте или вы можете его скачать с нашего FTP сервера.

  Стоить вам эта работа будет от 350р.(минимальная коррекция и форматирование) до 500р. (исходник насыщен таблицами, рисунками или формулами).

  Получается, что выполняя эти работы самостоятельно, вы экономите порядка 60-80р. за час своей работы, при условии наличия оборудования и программы

  Теперь вы можете решить сами, стоит ли эта сумма потраченного вами времени. 

   Наша фирма уже много лет профессионально занимается вопросами преобразования информации с бумажных носителей в различные электронные форматы. Отработанный  технологический процесс позволяет нам снизить себестоимость работ и даёт  возможность предложить вам весьма привлекательные цены. 

   Если у вас возникли вопросы то вы можете позвонить нам и проконсультироваться с нашими специалистами. 

 
Поиск по сайту

СТУДЕНТАМ
ОФИСАМ
ПРЕДПРИЯТИЯМ
БИБЛИОТЕКАМ
БТИ

НАШИ ЦЕНЫ

Сканирование документов от 1 руб./лист.
Сканирование книг

от 3 руб./лист.

Сканирование фотографий от 10 руб./фото.
Распознавание текста от 4 руб./стр.
Сканирование чертежей формата А1 от 44 руб./стр.
Обработка анкет от 0,4 руб./поле.



Фирма Редокс предлагает новую услугу -

Сервисное обслуживание организаций

Данная услуга включает в себя:

  • доставка документов курьером
  • обработка документации в установленные сроки по согласованным требованиям
  • ежемесячная оплата услуг по факту выполненных работ

© 2005-2012 «РЕДОКС»
НА ГЛАВНУЮ О КОМПАНИИ УСЛУГИ РЕШЕНИЯ ЦЕНЫ E-ARCH НОВОСТИ