Редукція параметрів нейронних мереж на підставі машинного навчання
Ключові слова:
великі мовні моделі, Mixture-of-Experts, редукція параметрів, shared experts, REAP pruning, KV-кеш, квантизаціяАнотація
У кваліфікаційній роботі досліджено методи оптимізації використання пам'яті у великих мовних моделях (LLM) та розроблено підходи до редукції параметрів нейронних мереж. Проаналізовано сучасні архітектури Mixture-ofExperts (MoE), методи квантизації, оптимізації KV-кеша та факторизації ембедингів.
##submission.downloads##
Опубліковано
2026-01-13
Номер
Розділ
Спеціальність 122 Комп’ютерні науки