Ручная верификация
Вручную проверяем результаты извлечения текста в онлайн-режиме
Human-in-the-loop (человек-в-контуре) — дополнительный модуль верификации результатов распознавания и ручного ввода сложных случаев. Модуль доступен как в облачной, так и в локальной версии Dbrain. В качестве платформы разметки используется Яндекс.Толока. На платформе зарегистрированы более 1 млн исполнителей, ежемесячно активны онлайн 245 тысяч. Большое число исполнителей позволяет модулю HITL обрабатывать запросы в режиме online в любое время суток.
Платформа не обрабатывает персональные данные: исполнители получают перемешанный набор полей из разных документов
Этапы работы HITL
Исполнитель получает пару «вырезанное поле + оцифрованный текст» и оценивает корректность результата с помощью кнопок «Да»/«Нет». Каждое поле проходит через нескольких исполнителей. Оцифрованный текст считается корректным, только если все ответы сошлись.
Если хотя бы один из исполнителей выбирает «Нет», вырезанное поле отправляется на ручной ввод. Исполнитель вводит текст, используя виджеты и словари. Например, дату нужно выбрать в календаре, а модель машины строго соответствует марке, выбранной в предыдущем поле. Алгоритм будет запрашивать новые ответы по полю у разных исполнителей, пока не будет достигнут консенсус.
Модуль доступен только в сервисе «Извлечение данных». Чтобы воспользоваться ручной верификацией извлечённых данных, передайте в запросе параметр with_hitl=true
. Формат ответа сервиса «Извлечение данных» останется без изменений. Мы рекомендуем использовать модуль ручной верификации в асинхронном режиме сервиса «Извлечение данных». Асинхронный режим описан в «Общей инофрмации о сервисах».
Модуль «Ручная верификация» оплачивается отдельно. Чтобы активировать его, напишите в службу поддержки в телеграм или на hello@dbrain.io