Распознавание изображений

Система документооборота «Корпоративный документооборот» включает в себя механизм распознавания текста из графических файлов. Механизм распознавания текста может использоваться для решения следующих задач:

  • Извлечение текста для организации полнотекстового поиска по файлам системы документооборота
  • Создание новых текстовых (а также html) файлов на основе графических файлов

Для включения возможности распознавать текст в изображениях необходимо включить функциональную опцию «Использовать распознавание» в настройках параметров системы на закладке «Работа с файлами» (подсистема «Администрирование системы»). После включения этой опции станут доступными следующие пункты:

  • Настройка системы распознавания изображений
  • Установить компоненту CuneiForm
  • Сформировать очередь на распознавание изображений

Вид формы настройки системы приведен на рисунке ниже:

Распознавание изображений nastroika_raspoznavania_1small.jpg
нажмите для увеличения изображения

В форме настройки системы распознавания изображений можно указать, какой язык используется в большинстве файлов, а также требуется ли изменять автора файла после его распознавания.

Распознавание изображений yazik_raspoznavania.jpg

Язык распознавания в дальнейшем можно будет установить для каждого конкретного пользователя системы, а также для каждого файла системы. Поддерживается распознавание следующих языков:

Английский, Немецкий, Французский, Русский, Шведский, Испанский, Итальянский, Русско-Английский, Украинский, Сербский, Хорватский, Польский, Датский, Португальский, Голландский, Чешский, Румынский, Венгерский, Болгарский, Словенский, Латышский, Литовский, Эстонский, Турецкий.

После настройки системы распознавания можно нажать на кнопку «Установить компоненту CuneiForm» для установки COM-компоненты CuneiForm версии 12 («CuneiForm.Puma»). Кроме установки компоненты распознавания необходимо установить и само приложение CuneiForm. Данное приложение является свободно-распространяемым и его можно скачать с официального сайта cuneiform.ru. Прямые ссылки на скачивание можно получить, нажав на ссылку «справка». После скачивания дистрибутива OCR CuneiForm V.12, запустите файл setup.exe и нажмите кнопку «Далее».

Распознавание изображений cuneiform_small.jpg

После выполнения установки приложения и COM-компоненты система распознавания готова к работе. Если к моменту включения системы распознавания в СЭД «Корпоративный документооборот» уже существуют графические файлы, которые необходимо распознать, то можно поставить их в очередь на распознавание перейдя по ссылке «Сформировать очередь…». В дальнейшем все графические файлы, перемещаемые в СЭД, будут иметь признак необходимости распознавания. Изменить данный признак можно на закладке «Извлеченный текст» формы файла. Пользователь может установить значение «Нужно распознать» или «Не нужно распознавать» для выбранного файла.

Распознавание изображений raspoznavanie_1c_doc_small.jpg

Процесс распознавания в СЭД «Корпоративный документооборот»  запускается через специальное регламентное задание «Файлы: Распознавание изображений». Регламентное задание доступно в подсистеме «Автоматическая обработка» как показано на рисунке ниже.

Распознавание изображений reglamentnoe_zadanie_1c_small.jpg

В случае работы базы данных СЭД «Корпоративный документооборот» в клиент-сервером режиме «1С», данное регламентное задание будет запускаться автоматически (по настроенному расписанию). В случае работы базы данных документооборота в обычном, файловом режиме «1С», потребуется запуск отдельного сеанса обработки регламентных заданий. Открыть такой сеанс можно нажав на кнопку «Открыть сеанс обработки» как показано на рисунке выше. Можно также выполнить однократный запуск регламентного задания распознавания изображений нажав на кнопку «Выполнить сейчас».

Существует несколько вариантов (стратегий) выполняемых после распознавания графического файла действий системы СЭД «Корпоративный документооборот»:

  • Поместить только в «Извлеченный текст». После распознавания текст будет помещен в специальное хранилище текста файла. Данное хранилище используется для полнотекстового поиска по текстам файлов системы Извлеченный текст можно посмотреть (и при необходимости изменить) на закладке «Извлеченный текст» формы файла.
  • Создать новую html-версию файла. После извлечения текста из графического файла будет создана новая версия файла в формате HTML. Данная версия станет текущей версией, а исходный графический файл сохранится в предыдущей версии данного файла.
  • Создать новую txt-версию файла. В данном варианте после извлечения текста из графического файла будет создана новая версия файла в формате TXT. Данная версия станет текущей версией, а исходный графический файл сохранится в предыдущей версии данного файла.
  • Создать новый html-файл. При выборе данного варианта будет создан новый файл в формате html, при этом владельцем файла будет тот же владелец, что и у исходного файла (например, некий корпоративный документ).
  • Создать новый txt-файл. При выборе данного варианта будет создан новый файл в формате txt, при этом владельцем файла будет тот же владелец, что и у исходного файла. Пример выполнения данного варианта для документа системы приведен на рисунке ниже.

Распознавание изображений 1c_doc_raspoznavanie_small.jpg

В случае, если по какой-либо причине распознать документ не удалось, то файлу будет присвоен статус «Не удалось распознать». Пользователи могут устранить причину (например, установить дистрибутив CuneiForm) и повторно поставить данный файл в очередь на распознание, поменяв статус на «Нужно распознать».

Примечание: Для решения задачи организации полнотекстового поиска по файлам офисных приложений предназначен механизм извлечения текстов из офисных файлов (MS Word, MS Excel, а также файлов OpenOffice). В отличие от распознавания изображений данный механизм извлекает тексты не из графических файлов, а из файлов офисных приложений. Механизм запускается регламентным заданием «Файлы: Извлечение текста (из офисных файлов)».

Смотрите также: