Квантование — один из самых эффективных методов для сжатия и ускорения нейронных сетей. Оно позволяет в несколько раз сократить latency и потребление памяти, чем существенно увеличивает энергоэффективность и, например, позволяет запускать нейросети на конечных устройствах, а не в облаке.
Суть квантования – преобразовать числовые FP-32 значения весов и активаций в формат с пониженной точностью, например, INT-8. Такая задача интересна хотя бы тем, что теперь каждый вес может принимать лишь 256 возможных значения, сохраняя исходную точность модели. Однако, INT-8 — не предел: удается квантовать модель и в 4 бита, что оставляет всего 16 возможных значений для весов и активаций!
В докладе мы рассмотрим актуальные подходы для Quantization Aware Training (QAT), при котором имеется большая обучающая выборка и есть возможность дообучать модель.