Intel大力优化阿里云通义千问2模型:全方位支持与性能提升


6月7日消息,Intel官方宣布,旗下的数据中心、客户端、边缘AI解决方案已经全面支持阿里云通义千问2(Qwen-2)的全球发布,并在ModelScope、阿里云PAI、OpenVINO等多个领域取得了显著的创新成果。为最大程度提升包括通义千问2在内的大模型的效率,Intel进行了全面的软件优化,集成了高性能融合算子、平衡精度和速度的先进量化技术等。

为了进一步提高推理效率,Intel还采用了KV Caching、PagedAttention机制以及张量并行技术。这不仅可以最大化利用现有硬件资源,还能显著提升大模型推理的性能。值得一提的是,Intel的硬件产品能够与软体框架和工具包进行协同,提供卓越的大模型推理性能和支持,包括PyTorch及其Intel扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库、vLLM等。

首先,来看Intel Gaudi AI加速器。该AI加速器专为生成式AI和大模型的高性能加速而设计。最新版的Gaudi Optimum可以轻松部署并运行规模庞大的大模型。Intel使用Gaudi 2对70亿参数和720亿参数的通义千问2模型进行了推理和微调吞吐量的基准测试,取得了显著的表现。具体性能指标如下:

– 70亿参数的通义千问2在单颗Gaudi 2加速器上的推理表现优异
– 720亿参数的通义千问2在八颗Gaudi 2加速器上的推理性能表现
– 通义千问2 FP8在Gaudi 2加速器上的推理表现
– 通义千问2在Gaudi 2加速器上的微调性能

再来看Intel至强处理器。作为一款通用平台,至强处理器具有广泛的可用性,适用于不同规模的数据中心,特别适合那些想要快速部署AI解决方案、但没有专门基础设施的企业。至强处理器的每个核心都内置Intel AMX高级矩阵扩展,可以处理多样化的AI工作负载,并加速AI推理。实验证明,在五代可扩展至强(Scalable Xeon)处理器上运行阿里云ecs.ebmg8i.48xlarge实例进行通义千问2的下一推理token延迟时间表现显著。

最后是面向消费级市场的AI PC。这种PC可以在本地部署大模型,使用处理器内置GPU核显、NPU AI引擎,或者搭配独立的锐炫(Arc)显卡。以下是AI PC运行15亿参数的通义千问2模型的表现数据:

– 搭载酷睿Ultra 7 165H处理器的PC在进行通义千问2推理时表现出色
– 酷睿Ultra 7 165H处理器环境下通义千问2的下一token延迟时间较短
– 锐炫A770 16GB显卡环境下通义千问2的下一token延迟时间也非常低

总体来看,Intel通过一系列的软硬件优化,不仅有效提升了阿里云通义千问2模型的性能和效率,还提供了多样化的解决方案,从数据中心到消费级市场,一应俱全。未来,随着更多创新技术的引入,Intel定能持续在AI领域内引领潮流。

相关新闻