ODS Data Fest

Квантование нейронных сетей: методы Quantization Aware Training

Квантование — один из самых эффективных методов для сжатия и ускорения нейронных сетей. Оно позволяет в несколько раз сократить latency и потребление памяти, чем существенно увеличивает энергоэффективность и, например, позволяет запускать нейросети на конечных устройствах, а не в облаке.
 
Суть квантования – преобразовать числовые FP-32 значения весов и активаций в формат с пониженной точностью, например, INT-8. Такая задача интересна хотя бы тем, что теперь каждый вес может принимать лишь 256 возможных значения, сохраняя исходную точность модели. Однако, INT-8 — не предел: удается квантовать модель и в 4 бита, что оставляет всего 16 возможных значений для весов и активаций!
 
В докладе мы рассмотрим актуальные подходы для Quantization Aware Training (QAT), при котором имеется большая обучающая выборка и есть возможность дообучать модель.

Страница на ODS DataFest 2023

Добавить комментарий

Your email address will not be published. Required fields are marked *.

*
*
You may use these <abbr title="HyperText Markup Language">HTML</abbr> tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>