27 апреля 2020 г.

Алгоритмы пост-обработки результатов распознавания текстовых полей


(изображение взято отсюда)

Сегодня мы бы хотели вам рассказать о задаче пост-обработки результатов распознавания текстовых полей исходя из априорных знаний о поле. Ранее мы уже писали про метод коррекции полей на основе триграмм, который позволяет исправлять некоторые ошибки распознавания слов, написанных на естественных языках. Однако значительную часть важных документов, в том числе документов, удостоверяющих личность, составляют поля другого характера – даты, номера, VIN-коды автомобилей, номера ИНН и СНИЛС, машинно-читаемые зоны с их контрольными суммами и многое другое. Хотя их нельзя отнести к полям естественного языка, тем не менее у таких полей зачастую существует некоторая, иногда неявная, языковая модель, а значит, для них тоже можно применить некоторые алгоритмы коррекции. В этом посте речь пойдет об двух механизмах пост-обработки результатов распознавания, которые можно применять для большого количества документов и типов полей.
Читать дальше →

source https://habr.com/ru/post/498520/?utm_campaign=498520&utm_source=habrahabr&utm_medium=rss

via Blogger http://vladislav-karelin.blogspot.com/2020/04/blog-post_909.html #181ap



from WordPress https://vladislavkarelin.wordpress.com/2020/04/27/%d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b-%d0%bf%d0%be%d1%81%d1%82-%d0%be%d0%b1%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%ba%d0%b8-%d1%80%d0%b5%d0%b7%d1%83%d0%bb%d1%8c%d1%82%d0%b0%d1%82%d0%be/


https://habrastorage.org/webt/we/b4/48/web4484wjnlsdgvcvav8khbyirq.jpeg

Комментариев нет:

Отправить комментарий