Dbrain Official
Dbrain Реестр ПО (backup)
Dbrain Реестр ПО (backup)
  • Dbrain
  • Общая информация о сервисах
  • Типы документов
  • Классификация документов
  • Извлечение данных
    • Паспорт
    • Паспорт: прописка
    • Водительское удостоверение
    • СТС
    • Бухгалтерская первичка
    • Договоры
    • Прочие документы
  • Проверка документов
    • Признаки подделки
    • Качество изображения
    • Подписи и печати
    • Базы данных
  • Операции с лицами
    • Сравнение лиц
    • Селфи-чек
    • Liveness
  • Базовый OCR
  • Ручная верификация
  • Локальная установка
    • Установка на сервер
    • Локальный сервис лицензий
    • Мобильный SDK
  • Формальности
    • Требования к технической поддержке
  • Changelog
Powered by GitBook
On this page
  • Параметры запроса к API
  • Тело запроса к API
  • В ответе на запрос API:
Export as PDF

Базовый OCR

Возвращаем весь найденный текст из любых изображений документов

PreviousLivenessNextРучная верификация

«Базовый OCR» подойдёт для случаев, когда вам не нужны структурированные данные из документа, а нужно просто извлечь весь текст. Сервис поможет, когда нужно организовать поиск по большому массиву данных. Например, по книге.

Если вам нужны структурированные данные из документа, воспользуйтесь сервисом «».

Чтобы воспользоваться сервисом, отправьте POST-запрос на URL https://latest.dbrain.io/basic_ocr

Параметры запроса к API

Асинхронный запрос

async — boolean

Поведение по умолчанию: async=false — сервис обрабатывает запросы синхронно. При отправке запроса вы получите ответ только после окончательного завершения обработки запроса сервисом.

Если вам нужен асинхронный режим, укажите в запросе async=true. В таком случае в ответ на запрос сервис вернёт в response body параметр task_id. Например:

"task_id": "96b8ccc950a70699927036842c624d7c"

Используйте этот task_id, чтобы получить результаты классификации в методе result:

curl -X 'GET' \
  'https://latest.dbrain.io/result/96b8ccc950a70699927036842c624d7c?token=XXX' \
  -H 'accept: application/json'

Не забудьте указать в параметре token ваш ключ лицензии. Рекомендуем запрашивать метод result в цикле с периодом 1-2 секунды.

Возврат изображений

return_crops — boolean

  • Поведение по умолчанию: false — сервис не возвращает изображения найденных слов

  • true — сервис возвращает изображения найденных слов

Тегирование запроса

task_tags — string array

Поведение по умолчанию: параметр не используется.

Функция тегирует запросы по вашему усмотрению. Это упрощает отслеживание пакетов документов, связанных с конкретным клиентом. Для использования функции, укажите в параметре task_tags удобный вам тег: task_tags=тэг

Движок извлечения текста

engine — string

  • Поведение по умолчанию: i — основной движок извлечения текста, работает в локальных версиях сервиса. Мы не рекомендуем менять этот параметр без прямого указания от нашей службы поддержки.

  • g — второй альтернативный движок извлечения текста, работает только в облачной версии решения.

Рукописный текст

handwritten — boolean

  • Поведение по умолчанию: false — сервис ожидает документ, в котором содержится только печатный текст

  • true — сервис ожидает документ, в котором содержатся рукописные символы

Язык извлечения текста

language — string

  • Поведение по умолчанию: rus — русский язык.

  • eng — английский язык.

  • any — смесь русского, английского и других языков.

Тело запроса к API

Изображение

image — string ($binary)

Обязательно для передачи в запросе. Сервис ожидает изображение в двоичном виде.

В ответе на запрос API:

  • task_id — string, идентификатор запроса, формат: 32 символа, 16-ричная строка

  • error — string, текстовое описание ошибки

  • task_tags — array[string], теги, если они переданы в параметре task_tags

  • success — boolean, статус выполнения запроса

  • result — массив, содержит смысловую часть ответа

    • pages — массив, содержит страницы документа

      • text — массив, содержит весь найденный на странице текст

        • text — весь текст на странице

        • confidence — уровень уверенности алгоритма в корректности извлечения всего текста в блоке. Считается как усреднённый уровень уверенности по словам

        • coords — координаты текста на документе по четырём точкам: верхний левый угол, верхний правый, нижний левый, нижний правый

      • blocks — массив, который содержит найденные на странице блоки текста — например абзацы

        • block — текст блока

        • confidence — уровень уверенности алгоритма в корректности извлечения всего текста в блоке, считается как усреднённый уровень уверенности по словам

        • coords — координаты блока на странице по четырём точкам: верхний левый угол, верхний правый, нижний левый, нижний правый

      • words — массив, содержит найденные на странице слова

        • word — текст слова

        • confidence — уровень уверенности алгоритма в корректности извлечения текста слова

        • coords — координаты слова на странице по четырём точкам: верхний левый угол, верхний правый, нижний левый, нижний правый

      • letters — массив, который содержит найденные на странице буквы

        • letter — текст буквы

        • confidence — уровень уверенности алгоритма в корректности извлечения текста буквы

Перед началом работы с сервисами советуем заглянуть в раздел «». В нём перечислили форматы файлов, которые поддерживают сервисы, описали общие для всех сервисов параметры API и расшифровали коды ошибок.

status_code — integer, дублирует

image — с MIME-типом JPEG в формате base64 — изображение слова. Возвращается, если в запросе передать return_crops=true

input_images — с MIME-типом JPEG в формате base64 — оригинальное изображение. Возвращается, если в запросе передать return_crops=true

Извлечение данных
Общая информация о сервисах
data URL
data URL
код состояния HTTP
Page cover image