Llama 3.1 是 Meta 公司发布的一款人工智能模型。它具有以下特点:
- 包含 8B、70B 和 405B 三个尺寸版本;最大上下文提升到了 128K,支持多语言;代码生成性能优秀,具有复杂的推理能力。
- 超大杯 Llama 3.1 405B 是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型。从基准测试结果来看,其在多项测试中表现出色,在某些方面超过了 GPT-4 0125,与 GPT-4o、Claude 3.5 互有胜负。例如,它在 NIH/Multi-needle 基准测试的得分为 98.1,在 ZeroSCROLLS/QuALITY 基准测试的得分为 95.2,在处理复杂信息和整合海量文本信息方面能力较强;在 Human-Eval 基准测试中负责测试的理解和生成代码、解决抽象逻辑能力方面,与其他大模型的比拼中也稍占上风。
- Llama 3.1 405B 使用了超过 15 万亿个 token 进行训练,是第一个在超过 16000 个 H100 GPU 上进行如此大规模训练的 Llama 模型。为实现大规模训练并达到预期效果,研究团队优化了整个训练堆栈,保持了模型开发过程的可扩展性和简单性,选择标准解码器 Transformer 模型架构,并采用迭代后训练程序,改进了预训练和后训练的数据数量及质量,还将模型从 16 位精度量化到 8 位精度,以减少计算资源并使其能在单个服务器节点内运行。此外,该模型在设计上注重实用性和安全性,能更好地理解和执行用户指令,通过多轮对齐构建聊天模型,可精确适应特定使用场景和用户需求。研究团队使用合成数据生成绝大多数 SFT 示例,并通过多次迭代改进合成数据质量,以提升模型的泛化能力和准确性。
Meta 公司表示其团队在 150 多个涵盖多种语言的基准数据集上对模型性能进行了评估及大量人工评估,得出结论为:旗舰模型在多种任务上与顶尖的基础模型如 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等具有竞争力,同时小型模型在与参数数量相近的封闭和开放模型相比时,也展现出了竞争力。
Meta 为开源模型的“配套设施”提供了诚意支持,Llama 模型支持协调多个组件,包括调用外部工具。发布参考系统和开源示例应用程序,鼓励社区参与和合作,定义组件接口。通过“Llama Stack”标准化接口,促进工具链组件和智能体应用程序的互操作性,模型发布后所有高级功能对开发者开放,包括合成数据生成等高级工作流,并且新开源协议不再禁止用 Llama 3 来改进其他模型(包括最强的 405B 尺寸)。
Meta 首席执行官扎克伯格认为开源大模型正在迅速缩小与闭源模型的差距,他还表示开源 AI 具有诸多好处,如能让开发人员掌控自己的命运、保护数据,对 Meta 而言有利于发展完整生态系统等,开源将确保全世界更多的人能够享受 AI 带来的好处和机会。
需要注意的是,模型的性能和表现可能会因具体应用场景和数据而有所不同,在实际使用中需根据需求进行评估和选择。同时,AI 技术仍在不断发展和进步,未来可能会有新的改进和更新。