Granite 4.0 Tiny Preview – IBM推出的语言模型

AI技术专栏作家 | 发布了 246 篇文章

Granite 4.0 Tiny Preview是什么

Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点，在消费级 GPU 上能运行多个长上下文（128K）任务，性能接近 Granite 3.3 2B Instruct，内存需求减少约 72%。模型用创新的混合 Mamba-2/Transformer 架构，结合 Mamba 的高效性和 Transformer 的精确性，支持无位置编码（NoPE），能处理极长的上下文长度。

Granite 4.0 Tiny Preview的主要功能

高效运行：在消费级 GPU 上，能同时运行多个长上下文（128K）任务，适合资源有限的开发者。
低内存需求：内存需求减少约72%，推理时仅激活1B参数（总参数7B），大幅降低硬件要求。
长上下文处理：支持无位置编码（NoPE），已验证能处理至少128K的长上下文。
推理效率：推理时仅激活部分专家，提升效率、减少延迟。

Granite 4.0 Tiny Preview的技术原理

混合架构：结合Mamba的线性计算复杂度（适合长序列）和Transformer的精确自注意力机制。模型中9个Mamba块对应1个Transformer块，Mamba块负责高效捕获全局上下文，Transformer块用在解析局部上下文。
混合专家（MoE）：模型包含7B参数，分为64个专家，推理时仅激活1B参数，大幅减少计算资源消耗。
无位置编码（NoPE）：摒弃传统的位置编码技术，避免因位置编码带来的计算负担和对长序列的限制，保持长上下文性能。
长上下文优化：基于Mamba的线性扩展能力和紧凑的模型设计，支持极长上下文长度，理论上能扩展至硬件极限。