阿里云通义千问系列 AI 开源模型升至 Qwen2:五种尺寸,最高
6月7日消息,通义千问(Qwen)今日公布了一项重大升级,即Qwen系列模型已从Qwen1.5版本成功跃升至Qwen2版本,并在Hugging Face和ModelScope平台上同步开源。
据悉,Qwen2.0带来了诸多创新和改进。该版本推出了5种不同尺寸的预训练和指令微调模型,覆盖从0.5B到72B的广泛范围,以满足不同场景和需求。其次,在原有的中英文基础上,Qwen2.0新增了27种语言的高质量训练数据,进一步提升了模型的多语言处理能力。
据本站了解,Qwen2.0还在多个评测基准上展现出领先性能。其代码理解和数学计算能力得到了显著提升,这对于开发人员和科研工作者来说无疑是一个好消息。此外,Qwen2-72B模型更是支持高达128K tokens的上下文长度,为处理更复杂、更长的文本提供了可能。 在模型基础信息方面,Qwen2系列的所有模型都采用了GQA技术,这项技术能够带来推理加速和降低显存占用的优势。在之前的Qwen1.5系列中,仅有32B和110B的模型使用了这项技术,而现在在Qwen2.0中,所有尺寸的模型都得以应用。
在模型评测中,Qwen2-72B表现尤为出色。与当前最优的开源模型相比,Qwen2-72B在自然语言理解、知识、代码、数学以及多语言等多项能力上都实现了显著超越,包括Llama-3-70B和Qwen自身的前一版本Qwen1.5-110B。这一飞跃性的进步无疑将推动AI技术的更广泛应用和发展。 |