Changelog
Last updated
Last updated
Оптимизировали работу сервиса с изображениями. Благодаря этому, скорость обработки документов с высоким разрешением теперь не уступает скорости обработки документов с низким разрешением.
Усовершенствовали алгоритм извлечения перфорированных символов. Это позволило улучшить распознавание зеркального текста. Такой текст часто встречается на развороте с пропиской в паспорте граждан РФ.
Добавили возможность извлечения серии и номера из разворота 18-19 паспорта РФ. На этом развороте указывается информация о ранее выданных паспортах.
Сервис теперь поддерживает извлечение номеров банковских карт нестандартной длины.
Дата документа в СТС (свидетельстве о регистрации транспортного средства) теперь корректно возвращается в формате дд.мм.гггг.
Увеличили точность определения ориентации банковских карт и второстепенных разворотов паспорта РФ.
Повысили точность извлечения данных из .
Доработали алгоритм чтения нестандартных PDF-файлов, теперь он не совершает ошибок при извлечении изображений.
Добавили извлечение 66 новых полей из прописок. Полный перечень полей .
Обновили нейросеть, определяющую источник изображения в сервисе . Теперь мы точнее определяем источник изображения: фото, скан, скриншот или фото экрана.
Swagger в локальной версии сервиса больше не обращается в интернет.
Подняли точность извлечения полей «Марка» и «Модель» в ПТС.
Обучили новый движок распознавания текста, написанного перфорацией. Теперь сервис уверенно извлекает серию-номер с перфорированных страниц паспорта.
Доработали извлечение данных из нестандартных банковских карт: с данными на одной стороне карты и с номером, написанным «лесенкой».
Устранили баг из-за которого сервис замедлялся при работе с большими изображениями.
Исправили баг, который приводил к путанице серии-номера на обратной стороне некоторых водительских удостоверений.
Нашли и обезвредили баг, из-за которого случалось некорректное извлечение многострочного поля «Место рождения» в СНИЛС образца 2003 года.
Теперь возвращаем в прописках раскладку адреса по классификатору адресов КЛАДР.
Исправили возврат координат полей в прописках.
Научили метод recognize
возвращать область документа из изображения. Чтобы воспользоваться, передайте параметр return_crops=true
, тогда в ответе появится массив doc_crops
.
Добавили виды топонимов в адресах прописок в полях address
и street
. Теперь вместо «Энтузиастов» возвращаем «Шоссе Энтузиастов».
Снова доступен возврат даты регистрации в прописках.
Обновили классификатор документов — теперь он меньше путает типы документов. Обратные стороны водительских удостоверений, например.
Вернули поддержку параметра doc_type в методе recognize. Теперь можно выбрать из каких типов документов, которые лежат в файле, сервис должен извлекать данные.
Вернули извлечение следующих полей из штампов прописок:
код подразделения — subdivision_code
место выдачи — issuing_authority
регион — region
город — locality
улица — street
дом — house
квартира — apartment
Теперь возвращаем из штампов прописок ещё два поля:
address_gar — адрес в формате муниципального деления по справочнику ГАР
fias_id — код адреса по справочнику ФИАС
Включили нормализацию адреса по справочнику ФИАС в штампах прописок по умолчанию.
Переписываем ядро системы сервисов распознавания. Переносим функционал в новую версию, но пока часть запросов будет продолжать обрабатываться через версию 3.7.8. И для локальной установки мы по-прежнему рекомендуем версию 3.7.8.
Основные моменты:
API сделали обратно-совместимым. На вашей стороне ничего не нужно менять.
Скорость обработки одного документа сократилась до 1 секунды.
Добавили извлечение поля «Серия и номер» с разворота «Место жительства» паспорта РФ.
Обновления
Обновили детектор отфотошопленных паспортов РФ. Теперь он идентифицирует больше способов подделки. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify.
Обучили классификатор различать новые виды документов:
Паспорт: Азербайджан 2013, Кыргызстан 2021, Молдавия 2014, Армения, Беларусия 1996, Казахстан 2014, Узбекистан 2011 и 2020;
Загранпаспорт: Украина 2015;
Лицевая и обратная сторона ID-карт Азербайджана 2012 и 2018 годов.
Переписали алгоритм, вычисляющий чёткость изображения. Теперь при оценке чёткости можно полностью полагаться на его показатели.
Научили алгоритм вычислять уровень уверенности для поля «кем выдано» в штампах прописки.
Дополнили ответ метода recognize координатами и ориентацией документа, по аналогии с ответом метода classify.
Обновления
Подняли точность детектора отфотошопленных паспортов РФ. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify
Научили классификатор документов сообщать уровень уверенности в корректности классификации. Методы recognize и classify теперь возвращают параметр confidence
Научились распознавать документы СТД-Р и 182н
Багфиксы
Починили метод fulltext, он сломался в предыдущем релизе
Обновления
Научились классифицировать вид на жительство и свидетельство о регистрации по месту пребывания
Добавили распознавание полей «название подразделения» и «код подразделения» в штампах о регистрации
Багфиксы
Исправили ошибку с некорректной работой ручки face/distance на повёрнутых изображениях
Обновления
Обучили детектор отфотошопленных паспортов России. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify
Научились распознавать ЭПТС
Подняли качество распознавания обеих сторон СТС
Добавили настройку предельного времени ручного распознавания с помощью параметра hitl_deadline_seconds
Багфиксы
Исправили ошибку при чтения некоторых вариантов TIFF-файлов
Обновления
Обучили новый объединённый движок распознавания печатных и рукописных штампов прописок. Метрики точности печатных штампов выросли вдвое, рукописных — ещё на 6%
Проапгрейдили рукописный OCR-движок для документов — теперь лучше извлекаем текст из рукописного паспорта России и европротокола
Добавили возврат координат слов в ответ полнотекстового распознавания
Багфиксы
В паспорте России, СТС, СНИЛС, свидетельстве о рождении и свидетельстве о браке отсутствовали координаты ряда полей
Классификатор источника изображений не работал
Бренд и марка в СТС без использования HITL возвращались одним полем
Обновления
Обучили новый движок распознавания рукописных штампов прописок в паспорте РФ: метрики точности выросли на порядок. Рекомендуем использовать нормализацию по ФИАС параметром normalization_fias=true. Это даёт дополнительный прирост качества
Обновили алгоритм поиска последнего штампа прописки, теперь он меньше ошибается
Заменили движок распознавания зоны MRZ в паспорте РФ, теперь символы в ней распознаются намного уверенней. В результате выросли метрики точности распознавания самих паспортов
Освежили алгоритм распознавания лицевой стороны СТС — выросли метрики по большинству полей, добавили поддержку номеров ЭПТС
Переписали сервис чтения файлов. Теперь он поддерживает конвертацию файлов без расширения и многостраничные TIFF-файлы.
Обновления
Обновили детектор документов на изображении: он стал вдвое быстрей и точней находит границы документов
Повысили качество распознавания всех полей главного разворота паспорта РФ. Для этого мы научили сервис выбирать между данными из машиночитаемой зоны и обычными полями
Переработали алгоритм нормализации поля «место выдачи» в паспорте РФ. Теперь мы применяем для него расширенный словарь собственной разработки. Рекомендуем включить нормализацию для всех запросов параметром use_internal_api=true
Убрали из библиотеки документов водительские удостоверения по форме 1999 года
Фичи
Сократили время распознавания одного документа на 0,4-0,5 секунд
Добавили нормализацию адреса прописки с возвратом кода ФИАС. Используйте параметр normalization_fias=true
Научились извлекать из метаданных изображения широту, долготу, высоту и время снимка. Возвращаем их в поле image_exif
Багфиксы
Исправили возврат в ответе некорректных координат полей в случае подачи на распознавание неправильно ориентированных документов
Перестали путать пустые развороты паспорта с разворотом «Место жительства»
Сократили число ошибок 500 при распознавании штампов прописок
Уточнили зону замазывания даты регистрации в штампе прописок перед отправкой на ручное распознавание: она больше не перекрывает часть адреса
Повысили качество
2-НДФЛ
Фичи
Научили метод /fulltext_by_lines распознавать русский рукописный текст. Для распознавания укажите в параметре language значение handwritten_rus.
Научили сервис обрабатывать изображения в формате HEIF.
Добавили в методы /recognize и /classify массив task_tags, в котором можно указывать произвольные тэги запросов. Функцию можно использовать для сверки биллинга в случае с объединением документов в пакеты.
Добавили в методы /recognize и /classify параметр return_crops. В положении false сервис перестаёт возвращать изображения. Функцию можно использовать для экономии трафика и для удобства отладки — с ней ответ сервиса становится более читабельным.
Добавили в метод /recognize параметр first_occurrence_only. В положении true при обработке PDF сервис возвращает только первый найденный документ запрашиваемого класса. Это позволяет сократить время ответа сервиса.
Сервис теперь замазывает дату регистрации в штампе прописки перед отправкой на ручное распознавание
Добавили параметр merge_and_name
в методе /recognize
. Укажите в нём нужное вам название, чтобы объединить все распознанные поля всех документов в один документ.
Dbrain теперь генерирует более осмысленные логи, которые удобней читать
Исправили возврат некорректных координат полей в методе /recognize
Научились распознавать 2-НДФЛ и счета-фактуры в закрытом IT-контуре, раньше модель однократно подгружалась из Интернета
Теперь возвращаем корректное значение серии-номера СТС на образцах, где ГИБДД продублировала их дважды
Добавили документы
Паспорт Украины 1994 года, машинопечатный образец, второй разворот
Повысили качество
Обновили алгоритм распознавания полнотекстовых документов в методе fulltext_by_lines.
Качество распознавания выросло. Метод теперь возвращает результаты в виде отдельных слов, а не строчек
Усилили классификатор дополнительным обучением на паспортах Украины
Научились лучше распознавать ФИО и даты на главном развороте паспортов Украины образца 1994 года
Багфиксы
Исправили ошибку в эвристиках СТС. В единичных случаях баг приводил к возврату полей, не соответствующих документации
Фичи
Добавили параметр hitl_field_to_recognize.
В нём можно перечислить поля документа, которые нужно распознать вручную
Методы /selfie
, /distance
и /face
теперь возвращают вырезанные из изображений лица, их координаты и угол поворота; метод /selfie
возвращает тип документа на изображении
Добавили возврат пороговых значений confidence для целевого уровня точности распознавания в методе /metrics
Повысили качество
Обновили алгоритмы поиска и сравнения лиц. Dbrain теперь лучше находит лица на сложных изображениях и обеспечивает отсутствие ложноположительных результатов сравнения
Паспорт России, главный разворот: повысили качество распознавания серии-номера
Паспорт Украины образца 2016 года: лицевая и обратная сторона
Паспорт Украины образца 1994 года, машинопечатный образец, главный разворот
Багфиксы
Исправили занижение confidence поля серия-номер на главном развороте паспорта России
Исправили баг, который в ряде случаев мешал находить штамп о регистрации на странице прописок
Исправили редкий баг, приводивший к ошибке 500 вместо результатов распознавания
Фичи
Добавили новый класс документа — passport_registration_handwritten.
Он присваивается страницам паспорта, в которых последняя печать о регистрации рукописная.
Добавили возврат л.с. и кВт в ПТС отдельными полями engine_hp
и engine_kw
Добавили комплексную проверку паспорта по внешним источникам. Она доступна в параметре external_check_passport_complex
Добавили возможность посимвольного возврата текста полей документов с ручного распознавания. За это отвечает новый параметр hitl_symbol_field
. Для перечисленных в нём полей вернётся второй вариант ответа без нормализации по словарям и маскам.
Добавили документы
Удостоверение личности Казахстана 2014 года: лицевая и обратная сторона
Удостоверение личности Казахстана 1994 года: лицевая и обратная сторона
Повысили качество
Научились уверенно распознавать половинки разворотов ПТС
Добавили эвристику к полю «Код подразделения» в Паспорте РФ, теперь поле возвращается строго по маске ddd-ddd
Багфиксы
Исправили баг с некорректным значением параметра rotation в ответе классификатора
Исправили ошибку при использовании параметра check_fake на некоторых изображениях
Фичи
Оптимизировали работу решения под нагрузкой
Локальные версии Dbrain теперь используют меньше подключений к MongoDB
Полностью переписали алгоритм обработки PDF. Теперь не нужно указывать дополнительные параметры в запросе, а PDF обрабатываются намного быстрее.
Научили классификатор возвращать четыре новых параметра, описывающих качество входящего изображения:
image_exposure
normal — нормальные
overexposed — переэкспонированные, пересвеченные
underexposed — недоэкспонированные, слишком тёмные
image_blured — смазанные
low_image_resolution — недостаточное разрешение изображения
low_image_weight — недостаточный вес изображения.
Допустимые значения вы можете задать самостоятельно в запросе к классификатору.
Добавили возможность распознавания смешанного русско-английского текста в неструктурированных документах в методе full_text_by_lines, для этого нужно выбрать язык multilang
Научились распознавать QR-коды на документах
Добавили возврат HTTP Status Code 213 для редких кейсов, когда ручное распознавание не уложилось в предельный SLA по времени
Повысили качество
Рукописный паспорт России
Обратная сторона ВУ-2011 и ВУ-2014: поля «особые отметки», «серия-номер»
Обратная сторона СТС
2-НДФЛ: поле «месяц»
Алгоритм поиска границ документа теперь лучше справляется с разворотами документов, например с паспортами
Фичи
Добавили проверки документов по базам через наших партнёров — IDX. За это отвечают параметры API external_check_***
Рукописный паспорт России
Паспорт Украины образца 2016 года: лицевая и обратная сторона
Паспорт Украины образца 1994 года, машинопечатный образец, главный разворот
Удостоверение личности Казахстана 2008 года: лицевая и обратная сторона
Машинопечатный паспорт России
ПТС: лицевая сторона
2-НДФЛ — теперь распознаём все поля
Устранили редкую ситуацию с зависанием задачи
Добавили обработку файлов с некорректным расширением, например image.jpg?=
Исправили несколько сценариев в алгоритме распознавания, которые приводили к внутренней ошибке 500.
Доработали распознавание «половинок» главного разворота Паспорта России и ПТС
Обучили алгоритм поиска границ документов аккуратней обращаться с документами, в которых «подвал» находится на расстоянии от основной части документа.
Локальные версии Dbrain больше не пишут избыточный объём логов на накопитель
Научили классификатор корректно обрабатывать половинки документов, например одну страницу паспорта вместо разворота.
Фичи
Добавили параметр priority
для асинхронных запросов. Чем больше число, тем раньше балансировщик возьмёт запрос из очереди в обработку.
Добавили эндпоинт /cancel
для асинхронных запросов. С его помощью можно отменить запрос, если он потерял актуальность. Это позволит быстрее получить результаты других запросов.
Dbrain теперь эффективно обрабатывает большое число одновременных запросов.
Счёт-фактура rus_invoice
Обновили алгоритм вырезания документов из входящих изображений: теперь он лучше справляется со сложными случаями
ВУ-2011, обратная сторона: улучшили распознавание поля «особые отметки»
ВУ-1999, пластиковый образец: снизили число ложных распознаваний категории «А»
Фичи
Добавили параметр API simple_cropper.
В положении «true» применяется упрощённый алгоритм вырезания документа от фона. Результаты классификации и распознавания в этом режиме могут быть чуть менее точными. Используйте этот параметр, если экономия 1 секунды даёт вам преимущества. По умолчанию simple_cropper не используется.
ПТС, лицевая сторона: значительно улучшили поля: марка, модель, VIN, шасси, кузов; улучшения по всем остальным полям
Паспорт России, главный разворот: все поля
СТС, лицевая сторона, значительно улучшили поля: марка, модель, мощность двигателя, модель двигателя, номер двигателя, серия ПТС, номер ПТС, регистрационный знак, номер кузова, VIN; незначительные улучшения по другим полям
СТС, обратная сторона, значительно улучшили поля: город, имя, фамилия, отчество, республика.
Загранпаспорт России 2007, улучшили поля: имя, орган
Загранпаспорт России 2014, улучшили поля: имя, место рождения
ВУ-1999, бумажные, лицевая сторона: нижняя серия-номер теперь возвращается латиницей
Скорректировали подсчёт уровня уверенности распознавания confidence
Обновили библиотеки обработки изображений и конвертации PDF
Паспорт России, прописка: дополнительно возвращаем информацию из печати с разбивкой на поля
СНИЛС: пластиковый образец
Полис ОМС: пластиковый образец Москвы
Паспорт России, разворот с прописками: улучшили распознавание штампов прописки
ВУ-2011, обратная сторона, улучшили поля: C, CE
ВУ-2014, обратная сторона, улучшили поля: C, C1, CE, C1E
СТС, обратная сторона, улучшены поля: фамилия, дата, серия, номер и город
Свидетельство о рождении, добавили поля: место рождения, запись акта о рождении, место государственной регистрации, серия, номер
Свидетельство о заключении брака, добавили поля: запись акта о заключении брака, место государственной регистрации, серия, номер
Свидетельство о расторжении брака, добавили поля: запись акта о расторжении брака, место государственной регистрации, серия, номер
Свидетельство о смерти, добавили поля: запись акта о смерти, место государственной регистрации, серия, номер
Устранили утечку памяти
Новый параметр API hitl_async=true
разрешает возврат неполного состава полей документа не дожидаясь окончания распознавания всех полей. Параметр работает только при использовании режима ручного распознавания документов with_hitl=true
. В параметре hitl_required_fields
нужно перечислить названия полей документа, после обработки которых HITL может возвращать неполный ответ. Ответ с неполным составом полей сопровождается кодом 202, полный — кодом 200.
Параметр use_external_api
получил статус устаревшего. Обогащение ответов из внешних источников теперь контролируется в конфигах локальных версий.
Вернули качество распознавания заграничных паспортов России 2007 и 2014 из версии 3.4.5.
Добавили обнуление уверенности в распознавании поля confidence
, если ответ системы не удалось привести к допустимому значению. В поле ответа в таком случае будет пустая строка "text": ""
.
Исправили поля серия и номер в заграничном паспорте России 2014 года, в версии 3.4.6 они были перепутаны.
Свидетельство о рождении
Свидетельство о заключении брака
Свидетельство о расторжении брака
Свидетельство о смерти
Полис ОМС: пластиковый образец (лицевая и обратная сторона)
Полис ОМС: бумажный образец (лицевая сторона)
СТС, лицевая сторона: улучшено поле «тип ТС»
Ускорили работу решения: модули классификации и распознавания работают на 2-3 секунды быстрее
Полностью обновили сервис извлечения данных из первичных документов. Он классифицирует бухгалтерские документы и извлекает данные из актов, счетов, накладных, УПД и договоров. Попробуйте его через .
Разработали , который определяет наличие подписей и печатей на любых документах.
Увеличили точность и определения ориентации документов.
Сервис теперь возвращает нумерацию страниц паспорта РФ. Например, для прописок это может быть 4-5, 6-7 и так далее.
Добавили возврат корпуса/строения в адресе в поле block
Исправили баг с инвертированием итогового result в блоке логических проверок на
Добавили возврат координат документов в методе , теперь они возвращаются в массиве doc_coords
Исправили баги в логических проверках паспорта РФ в методе
Доработали визуальную часть
Обновили сервис извлечения данных из бухгалтерской первички. Теперь он точнее извлекает табличными данными. Попробуйте .
Открыли доступ к новому методу проверки liveness людей на изображениях. Метод доступен по адресу https://latest.dbrain.io/v2/face/liveness
. Полное описание читайте .
Обновили метод «Базовый OCR». Он доступен по адресу https://latest.dbrain.io/basic_ocr
. Полное описание читайте .
Выпустили новую версию веб-демо — . В ней доступен новый Антифрод.
Открыли доступ к сервису проверки подлинности изображений документов. Метод доступен по адресу https://latest.dbrain.io/check/fraud
. Полное описание .
Реализовали новый метод проверки работоспособности сервиса. Метод доступен по адресу https://latest.dbrain.io/healthcheck.
Более подробное описание .
Открыли доступ к новым методам сравнения лиц https://latest.dbrain.io/v2/face/distance
и селфи https://latest.dbrain.io/v2/face/selfie
. Чтобы начать ими пользоваться, перепишите интеграцию с нашим сервисом, . От текущих версий этих методов откажемся со временем, поэтому рекомендуем начать переход на новые уже сейчас.
Новая веб-демо для локальной версии коробки по аналогии с