Каким образом работает распознавание картинок в 1С:Документооборот?
В статье "Извлечение текстов в 1С:Документооборот" сказано, что 1С:Документооборот 8 умеет извлекать тексты из популярных офисных форматов файлов и использовать эту информацию для полнотекстового поиска по содержимому файлов. А вот если в СЭД помещен файл графического формата, то как получить распознанный текст из картинки?
В данной статье пойдет речь о том, какие надо установить дополнительные программы на сервер 1С, чтобы работало автоматическое распознавание сканов файлов.
Настройка распознавания изображений в 1С:Документооборот в клиент-серверном варианте на живых примерах подробно рассмотрена в видеокурсе.
Работа сканирования и распознавания в 1С:Документооборот 8 возможна только под Windows.
Чтобы настроить распознавание изображений на сервере нужно:
1. Установить программы CuneiForm, ImageMagic и Ghostscript.
2. Задать в настройках программы параметры распознавания и указать путь к программе ImageMagic.
Общая схема работы сканирования и распознавания указана на следующем рисунке.
Установка CuneiForm
Программа CuneiForm нужна для распознавания графических файлов.
Находим в дистрибутиве cuneiform файл setup.exe. Запускаем его и устанавливаем.
Загрузим любую картинку с текстом.
Откроем ее на просмотр и убедимся, что там есть текст.
После отработки регламентного задания «Распознавание» увидим распознанный текст в текстовом образе.
Откроем теперь тестовый образ из карточки файла.
Установка Ghostscript
Программа Ghostscript нужна программе ImageMagic для преобразования графических файлов в формат pdf и обратно.
Находим в дистрибутиве Ghostscript файл gs901w32.exe. Запускаем его.
Указываем путь установки и нажимаем кнопку Install.
Программа установлена.
Установка ImageMagic
Программа ImageMagic нужна для преобразования графических файлов в формат pdf и обратно.
Находим в дистрибутиве ImageMagic файл ImageMagick-6.9.1-6-Q8-x86-dll.exe. Запускаем его.
Соглашаемся с условиями лицензионного соглашения.
Читаем полезную информацию.
Указываем путь установки.
Указываем название папки стартового меню.
Указываем компоненты, которые надо установить.
Подтверждаем установку. Нажимаем кнопку Install.
Читаем полезную информацию.
Программа установлена. Нажимаем кнопку Finish.
Теперь, чтобы на сервере 1С происходило преобразование отсканированных pdf-файлов в графические файлы с последующим распознаванием нам надо указать общие настройки распознавания.
В программе 1С:Документооборот в настройках программы нажимаем на кнопку «Настройки распознавания», включаем использование ImageMagick и указываем путь к программе.
После того, как отработает регламентное задание «Распознавание» мы в текстовом образе увидим распознанный текст.
Настройка распознавания изображений в 1С:Документооборот в клиент-серверном варианте на живых примерах подробно рассмотрена в видеокурсе.
авторизуйтесь
Сейчас тоже только доработкой можно сделать распознавание под ОС Linux в типовом варианте 1с документооборот?
Подскажите, обязательно ли устанавливать программы CuneiForm, ImageMagic и Ghostscript, если мы хотим использовать FineReader для распознавания документов?
Каки необходимо выполнить настройки для распознавания через FineReader?
Показать еще комментарии (4)
Спасибо.
Подскажите пожалуйста, при использовании утилиты Потокового сканирования, система все новые файлы помечает как "скан-копии оригинала документа". Наш бизнес-процесс предполагает использование этой функциональной возможности в том числе на файлах без факсимиле/печати обоих сторон...
Нашёл единственную опцию в: Настройки программы - Делопроизводство - Форматы скан-копий оригиналов. Но постоянно менять эти настройки перед потоковым сканированием неудобно.
Возможно ли как-то настраивать этот реквизт перед потоковым сканированием, либо хотя бы быстро и массово снимать данный признак со всех добавленных и распознанных файлов?
Подскажите, что можно сделать, в каком направлении копать?
Показать еще комментарии (2)
https://ru.wikipedia.org/wiki/Ghostscript
https://ru.wikipedia.org/wiki/ImageMagick
https://ru.wikipedia.org/wiki/CuneiForm
ШК на пустом листе,
разделять пустым листом,
Расположение ШК - не задано.
Сканирование проходит без ошибок, но 1С ничего не находит в файле. Меняю настройку на "ШК на первом листе". 1С находит первый лист с ШК и весь файл прикрепляет к найденному документу. Остальные ШК не видит и делить файл не хочет.
Я может что-то неправильно делаю? Как сканировать 20 документов по 5 страниц при варианте сканирования из каталога? Каждую страницу отдельно в jpg или каждые 5 страниц в отдельный TIFF? Просто непонятно может ли 1С сама резать TIFF на много документов?
Заранее спасибо.
Показать еще комментарии (1)
Но лучше сканировать всегда в одностраничные форматы картинок, тогда точно не будет проблем с поиском штрихкода в многостраничном файле.
1С нормально поймет страницы без штрихкодов. Достаточно, чтобы штрихкод был на первом листе. Все файлики будут загружаться по дате, поэтому все страницы будут идти в той же последовательности, что и в пачке документов.
Возможно ли при количество файлов 250 тыс. для распознавания, что это приводит к зависанию полнотекстового поиска?
Или какие могут быть причины, когда при полнотекстовом поиске зависает клиент и он перестает работать вообще
Вопрос по настройке сканера в 1С Документооборот КОРП.
В персональных настройках пользователя, нажимаю настройка сканирования, он мне отвечает компонента сканирования не установлена, нажимаю установить, вываливается ошибка - в процессе установки произошла ошибка, возможно отсутствует компонента для используемого клиентского приложения.
версия клиента 8.3.8.1964 инсталятор один- 86-64 х(не знаю как запустить 32 битную версию, запускаю из папки C:\Program Files (x86)\1cv8\8.3.8.1964), сканер сетевой. как установить внешнюю компоненту?
>1.При печати штрихкода на листе из карточки документа штрихкод выводится вместе с наименованием организации. Можно ли выводить на печать без этой информации?
>2. Пробовали под разными пользователями печатать штрихкод на странице, у некоторых выходит первый лист со штрихкодом, а дальше прогоняются через принтер пустые листы. Какими настройками это регулируется?
Печатаем именно "Штрихкод на странице" - организация выводится. Пока будем печатать "Штрихкод на наклейке" просто на бумаге, но проблема не уходит.
ко второму вопросу: проверили все настройки принтеров, но по умолчанию система выдает принтеру макет, где по умолчанию стоят настройки страниц 1-60000. Это происходит при выборе варианта печати: регистрационный штамп, штрихкод на наклейке и штрихкод на странице. Если пользователь "проворонит" исправление такой настройки, то принтер прогоняет все 60000 листов.
Подскажите, как решать эту проблему?
Вычитал, что у convert.exe есть опция "-destiny 300", тогда преобразование идёт с качеством 300dpi - мне бы хватило. Попробовал дописать в общих настройках преобразования путь к конверту уже с опцией
"C:\Program Files\ImageMagick-7.0.6-Q16\convert.exe -destiny 300". Не канает, выдаёт ошибку распознавания...
Вопрос, что делать для решения вопроса с качеством? Реально обидно: большинство сканов не попадает в полнотекстовый поиск из-за хренового распознавания.
Ещё помучаюсь с костылями, не хочется типовую конфигурацию портить.
1.При печати штрихкода на листе из карточки документа штрихкод выводится вместе с наименованием организации. Можно ли выводить на печать без этой информации?
2. Пробовали под разными пользователями печатать штрихкод на странице, у некоторых выходит первый лист со штрихкодом, а дальше прогоняются через принтер пустые листы. Какими настройками это регулируется?
редакция КОРП 2.1.11.5
У пользователя USR1CV8 нет прав администратора.
Давать админские права, устанавливать, а потом отбирать?
Или второй вариант: установить можно под админом, а потом пользователю USR1CV8 дать полные права на папку, куда будет установлена программа CuneiForm.
Достаточно дать полные права на папку установки (правда не понятно зачем это - вроде ничего туда не пишется...)
Выбираю "Поместить только текстовый образ"- работает, сохраняю.
Но появляется пункт меню "Открыть текстовый образ".
В чем может быть проблема?
Скопировал этот файл (вместе со всеми другими core_rl_*.dll) в папку C:\Program Files\ImageMagick-7.0.6-Q16\modules\coders и заработало.
Спасибо за участие!
Показать еще комментарии (2)
Показать еще комментарии (1)
Версия SC 9.1, IM 7.0.6.q16 (пробовал и 32 и 64 битные), CF - 2007 года, стандартная. В общем, всё по феншую, а счастья нет.
Попробую на локальной базе и на вин10 побаловаться.
Пишет, не удалось распознать картинку, возможно она не содержит изображение. Может версия ПДФ не та? Как можно отдебажить работу установленных компонент?
Планируем при создании документа во внешней системе создавать его аналог в ДО, и его штрихкод использовать для идентификации. В этом случае внешний штрихкод логичнее загрузить как основной или все же как внешний?
И вот в этой ситуации, когда свои штрихкоды мы не планируем применять,
допустим, мы сканируем поток бумажных документов со штрихкодами внешней системы. И, вдруг, натыкаемся на левый штрихкод. Система его не опознает, и, по вашим словам, просто пропустит.
Она как то хоть предупредит пользователя, что что-то пропущено или он даже об этом не узнает? Как ему найти этот пропущенный документ из пачки?
Показать еще комментарии (4)
Конечно же пользоатель увидит те документы, которые не были распознаны и помещены в карточку документа.
Пример. Мы создали в ДО внутренний документ и скопировали ш/к из внешней системы.
Во внешней системе есть ряд печатных форм (накладная, счет-фактура, акт, ТТН-ка), которые относятся к одному документу, и мы их подготовили в общей пачке для потокового сканирования, всего 4 отдельных печатных бумажки.
Сперва накладную с основным штрихкодом,
Потом еще один документ с тем же штрихкодом,
Потом попался документ и с основным и еще с "левым" штрихкодом, например Акт, где другая сторона попросила проставить еще и свой штрихкод.
И в конце еще один документ без штрихкода.
Запустили потоковое сканирование. Система опознала первый штрихкод, определила внутренний документ, куда надо отнести сканы.
Определила второй документ и отнесла его туда же.
А вот что произойдет с третьим документом и с четвертым?
Они оба будут пропущены?
Можете подробнее эту ситуацию описать?
Есть еще настройки "Штрихкод на каждом листе" и "Штрихкод на отдельном листе".
При двух других настройках - первые два документа будут отдельными файлами присоединены к документу, но третий и четвертый точно так же будут проигнорированы.
Я правильно понял?
Если бы мы хотели все опознать, нам потребуется во внешней системе на ВСЕ печатные формы выводить штрихкоды обязательно, и при требовании добавления других ш/к обязательно их переносить в ДО в качестве дополнительных штрихкодов.
Так?
В настроке "Штрихкод на первом листе" первые два листа будут присоеденены как отдельные файлы.
так, можно и как внутренние переносить (без разницы)
Если на сканируемом листе будет штрихкод, по которому система не сможет опознать внутренний документ. что произойдет? Она его отсканирует, как будто на нем нет штрихкода? или вылетит с ошибкой?
И что будет, если на листе будет два штрихкода: один - нужный, второй - "левый"? Система проигнорирует "левый" штрихкод или выдаст ошибку?
Скажите, а есть ли где то материалы как можно включить потоковое сканирование при условии, что все пользователи работают в 1С через rdp, и все сканеры тоже сетевые.
Показать еще комментарии (1)