Полнотекстовое распознавание

Методы /fulltext и /fulltext_by_lines

Методы /fulltext и /fulltext_by_lines возвращают весь текст из любых документов. У них много отличий от метода /recognize: они не ищут конкретные поля, не используют словари и маски и не могут отправлять текст на ручную перепроверку.

API-спецификация

Ниже представлена API-спецификация для 2 методов полнотекстового распознавания . Подробнее о том, как составить запрос, в разделе Подключение и тестирование.

fulltext

POST https://latest.dbrain.io/fulltext

Инструменту требуется доступ к облачной версии Dbrain для корректной работы. Текст возвращается по словам, каждое слово сопровождается уровнем уверенности confidence

Query Parameters

Name	Type	Description
proprity	integer	Приоритет задачи, по умолчанию принимает значение "1"
async	boolean	true — запрос в асинхронном режиме, см. «Асинхронный режим» в разделе «Подключение» false — запрос в синхронном режиме
doc2pdf	boolean	true — возвращает в ответе PDF-файл, в котором результаты распознавания встроены в текстовый слой false — стандартный режим работы
task_tags	array	Массив строк, который позволяет присваивать запросу дополнительные идентификаторы. Например можно передавать id пакета документов для биллинга на стороне Dbrain

Name

Type

Description

proprity

integer

Приоритет задачи, по умолчанию принимает значение "1"

async

boolean

true — запрос в асинхронном режиме, см. «Асинхронный режим» в разделе «Подключение» false — запрос в синхронном режиме

doc2pdf

boolean

true — возвращает в ответе PDF-файл, в котором результаты распознавания встроены в текстовый слой false — стандартный режим работы

task_tags

array

Массив строк, который позволяет присваивать запросу дополнительные идентификаторы. Например можно передавать id пакета документов для биллинга на стороне Dbrain

Request Body

Name	Type	Description
image	string	Файл, который требуется распознать

Name

Type

Description

image

string

Файл, который требуется распознать

{
  "detail": [], // техническая информация
  "items": [
    {
      "words": [
        {
          "text": "text", // слово из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанного слова
        },
        {
          "text": "example", // слово из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанного слова
        }
      ]
    }
  ],
  "task_id": null, // внутренний id задачи
  "code": null, // код ошибки
  "message": null, // сообщение об ошибке в рамках объекта
  "errno": null, // номер ошибки
  "traceback": null, // сообщение об ошибке в рамках объекта
  "fake": null, // не используется в данном методе
  "pages_count": null, // не используется в данном методе
  "docs_count": null // не используется в данном методе
}

{
  "detail": [
    {
      "loc": [
        "path",
        "task_id"
      ],
      "msg": "value is not a valid uuid",
      "type": "type_error.uuid"
    }
  ]
}

fulltext_by_lines

POST https://latest.dbrain.io/fulltext_by_lines

Инструмент может работать в закрытом IT-контуре. Не смотря на название, текст возвращается постранично, каждая страница сопровождается уровнем уверенности confidence

Query Parameters

Name	Type	Description
priority	integer	Приоритет задачи, по умолчанию принимает значение "1"
async	boolean	true — запрос в асинхронном режиме, см. «Асинхронный режим» в разделе «Подключение» false — запрос в синхронном режиме
language	string	multilang — комбинированный движок OCR: русский + английский rus — русскоязычный движок OCR eng — англоязычный движок OCR handwritten_rus — рукописный русскоязычный движок OCR
task_tags	array	Массив строк, который позволяет присваивать запросу дополнительные идентификаторы. Например можно передавать id пакета документов для биллинга на стороне Dbrain

Name

Type

Description

priority

integer

Приоритет задачи, по умолчанию принимает значение "1"

async

boolean

language

string

multilang — комбинированный движок OCR: русский + английский rus — русскоязычный движок OCR

eng — англоязычный движок OCR

handwritten_rus — рукописный русскоязычный движок OCR

task_tags

array

Request Body

Name	Type	Description
image	string	Файл, который требуется распознать

Name

Type

Description

image

string

Файл, который требуется распознать

{
  "detail": [], // техническая информация
  "items": [
    {
      "words": [
        {
          "text": "text", // строчка из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанной строки
        },
        {
          "text": "example", // строчка из текста во входном файле
          "confidence": 0.8697810769 // confidence распознанной строки
        }
      ]
    }
  ],
  "task_id": null, // внутренний id задачи
  "code": null, // код ошибки
  "message": null, // сообщение об ошибке в рамках объекта
  "errno": null, // номер ошибки
  "traceback": null, // сообщение об ошибке в рамках объекта
  "fake": null, // не используется в данном методе
  "pages_count": null, // не используется в данном методе
  "docs_count": null // не используется в данном методе
}

{
  "detail": [
    {
      "loc": [
        "path",
        "task_id"
      ],
      "msg": "value is not a valid uuid",
      "type": "type_error.uuid"
    }
  ]
}

PreviousРаспознавание лиц и сверка с документами NextПодключение и тестирование

Last updated 2 years ago