Для эффективного использования документы важно не только отсканировать, а и иметь возможность производить по ним поиск. Мы знаем два варианта решения этой задачи — документы можно распознать или проиндексировать.
Распознавание документов
Распознавание документов применяется для первоисточников хорошего качества — «свежих» книг, журналов, словарей, опросных анкет. Без наличия «артефактов» (мусора, комментариев, записей на полях и т.д.). Для этого мы используем систему распознавания документов или OCR-систему. Такая система автоматически вводит все данные в компьютер (например, в текстовый редактор). И после того, как документ распознан, вы сможете:
- Копировать и редактировать текст;
- Работать с отдельными абзацами текста;
- Осуществлять поиск по словам и фразам.
Что касается архивных документов — процедура налаживания распознавания проходит дольше, а достоверность составляет небольшой процент. В этом случае используются различные методы полуавтоматического преобразования документов в электронный вид, с помощью ключевых слов (индексации).
Индексация документов
Индексация документов — это процесс присвоения отсканированным документам идентификационных признаков, позволяющих быстро находить необходимую информацию в базе данных. Такими признаками могут быть: тип документа, номер документа, дата документа, автор документа, и пр.
Наши преимущества
На этапе распознавания или индексации мы работаем с самыми сложными данными:
- Рукописными (полностью рукописные документы или же содержащие информацию, написанную от руки);
- Выполненными на печатной машинке;
- Плохо читаемыми (текст выцвел, информация частично утрачена и др.);
- Информация с документов одного типа расположена в разных частях (например: при изменении порядка оформления договоров).
При выполнении полного или частичного распознавания документов, мы используем многоуровневую проверку качества массива. Избежать возможных ошибок нам также помогает создание ресурса, где на небольшом объеме информации тестируется вся технология, согласуются поля, определяются критерии качества.
Цены на распознавание и индексацию определяются индивидуально.