Полнотекстовое распознавание

Методы /fulltext и /fulltext_by_lines

Методы /fulltext и /fulltext_by_lines возвращают весь текст из любых документов. У них много отличий от метода /recognize: они не ищут конкретные поля, не используют словари и маски и не могут отправлять текст на ручную перепроверку.

API-спецификация

Ниже представлена API-спецификация для 2 методов полнотекстового распознавания . Подробнее о том, как составить запрос, в разделе Подключение и тестирование.

fulltext

POST https://latest.dbrain.io/fulltext

Инструменту требуется доступ к облачной версии Dbrain для корректной работы. Текст возвращается по словам, каждое слово сопровождается уровнем уверенности confidence

Query Parameters

NameTypeDescription

proprity

integer

Приоритет задачи, по умолчанию принимает значение "1"

async

boolean

true — запрос в асинхронном режиме, см. «Асинхронный режим» в разделе «Подключение» false — запрос в синхронном режиме

doc2pdf

boolean

true — возвращает в ответе PDF-файл, в котором результаты распознавания встроены в текстовый слой false — стандартный режим работы

task_tags

array

Массив строк, который позволяет присваивать запросу дополнительные идентификаторы. Например можно передавать id пакета документов для биллинга на стороне Dbrain

Request Body

NameTypeDescription

image

string

Файл, который требуется распознать

{
  "detail": [], // техническая информация
  "items": [
    {
      "words": [
        {
          "text": "text", // слово из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанного слова
        },
        {
          "text": "example", // слово из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанного слова
        }
      ]
    }
  ],
  "task_id": null, // внутренний id задачи
  "code": null, // код ошибки
  "message": null, // сообщение об ошибке в рамках объекта
  "errno": null, // номер ошибки
  "traceback": null, // сообщение об ошибке в рамках объекта
  "fake": null, // не используется в данном методе
  "pages_count": null, // не используется в данном методе
  "docs_count": null // не используется в данном методе
}

fulltext_by_lines

POST https://latest.dbrain.io/fulltext_by_lines

Инструмент может работать в закрытом IT-контуре. Не смотря на название, текст возвращается постранично, каждая страница сопровождается уровнем уверенности confidence

Query Parameters

NameTypeDescription

priority

integer

Приоритет задачи, по умолчанию принимает значение "1"

async

boolean

true — запрос в асинхронном режиме, см. «Асинхронный режим» в разделе «Подключение» false — запрос в синхронном режиме

language

string

multilang — комбинированный движок OCR: русский + английский rus — русскоязычный движок OCR

eng — англоязычный движок OCR

handwritten_rus — рукописный русскоязычный движок OCR

task_tags

array

Массив строк, который позволяет присваивать запросу дополнительные идентификаторы. Например можно передавать id пакета документов для биллинга на стороне Dbrain

Request Body

NameTypeDescription

image

string

Файл, который требуется распознать

{
  "detail": [], // техническая информация
  "items": [
    {
      "words": [
        {
          "text": "text", // строчка из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанной строки
        },
        {
          "text": "example", // строчка из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанной строки
        }
      ]
    }
  ],
  "task_id": null, // внутренний id задачи
  "code": null, // код ошибки
  "message": null, // сообщение об ошибке в рамках объекта
  "errno": null, // номер ошибки
  "traceback": null, // сообщение об ошибке в рамках объекта
  "fake": null, // не используется в данном методе
  "pages_count": null, // не используется в данном методе
  "docs_count": null // не используется в данном методе
}

Last updated