Автоматическое аннотирование изображений

В конце 2018 года Instagram анонсировала новые возможности для незрячих пользователей: в соцсети появился автоматический альтернативный текст. Эта функция создает описания к фото на основе распознавания объектов. При использовании программ для озвучивания текста, слабовидящие люди смогли услышать описания изображений.

Оценивать популярность и целесообразность новой функции оставим аналитикам компании, в этой статье я поделюсь собственным опытом создания такого же функционала — создания подписей к изображениям.

Для задачи конвертации изображения в текстовое описание широко применяется подход кодировщика-декодировщика. В качестве кодировщика используется сверточная сеть.