Розпізнавання документів (текстів) та їх індексація

 

Для ефективного використання важливо не тільки відсканувати документи, а й мати можливість здійснювати по ним пошук. Є кілька варіантів вирішення цього завдання — розпізнавання документів або їх індексація.

Розпізнавання документів

Розпізнавання документів застосовується для першоджерел хорошої якості, без наявності «артефактів» (сміття, коментарів, записів на полях і т.д.). Для цього використовуються різні системи розпізнавання документів або OCR-системи (Optical Character Recognition). Їх завдання полягає в автоматичному введенні всіх даних в комп’ютер. Цей метод використовується для документів без «артефактів», наприклад, сторінок «свіжої» книги, журналу, словника, опитувальної анкети. Розпізнаний документ користувач зможе скопіювати, працювати з окремими абзацами тексту, коригувати їх.

Що стосується архівних документів — процедура налагодження розпізнавання документів проходить довше, а його достовірність становить невеликий відсоток. В цьому випадку використовуються різні методи напівавтоматичного перетворення документів в електронний вигляд, за допомогою ключових слів (індексація).

Індексація документів

Індексування документів — це процес присвоєння документам (їх електронних копій або електронним документам) ідентифікаційних ознак, що дозволяють швидко знаходити потрібну інформацію в базі даних. Такими індексами можуть бути тип документа, його номер, дата, автор, пр.

Перевагою Компанії «Цифрова Країна» на етапі розпізнавання даних / індексації, є робота з найскладнішими даними, зокрема:

  • рукописними (повністю рукописні документи або ж містять інформацію, написану від руки);
  • виконані на друкарській машинці;
  • погано читаються (текст вицвів, інформація частково втрачена і ін.);
  • інформація з документів одного типу розташована в різних частинах (наприклад, при зміні порядку оформлення договорів).

Зверніть увагу, що більшість документів, що містять перераховані вище ознаки — не піддаються коректному автоматичному розпізнаванню.

При виконанні повного або часткового розпізнавання документів, фахівці Компанії «Цифрова Країна» використовують багаторівневу перевірку якості масиву. Уникнути можливих помилок допомагає також створення ресурсу, де на невеликому обсязі тестується вся технологія, узгоджуються поля, визначаються критерії якості.

Важливо!

Ціни на розпізнавання документів або індексацію визначаються індивідуально, залежно від обсягу, критеріїв якості і т.д.

 

ЗАМОВИТИ ПОСЛУГУ










[згорнути]
 

Дивіться також:

Партнери