马斯克开源Grok-1:史上最大3140亿参数模型,权重架构全面公开,附最新下载地址

programmer 程式師 程序员
Post Reply
expl
test ranks
Posts: 470
Joined: 2023-03-02T05:46:06+00:00

马斯克开源Grok-1:史上最大3140亿参数模型,权重架构全面公开,附最新下载地址

Post by expl »

马斯克的xAI公司正式开源了3140亿参数的大型语言模型Grok-1,包括权重和网络架构。
这使Grok-1成为目前参数量最大的开源大语言模型。
Grok-1采用混合专家(MoE)架构,在给定token上的激活权重为25%。
xAI在2023年10月使用自定义训练堆栈从头训练了该模型,并遵守Apache 2.0许可证开源。

Image


下载说明:

1.Grok-1 开源模型下载:因为文件体量挺大的,目前(+0800 2024-03-20 10:25:36 512571733 080 12 3)为318.24GB所以推荐使用 bt客户端下载,相应的磁力链接为:

Code: Select all

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
2.github上的Grok开源项目:点击打开github上的Grok仓库,对应的拉回命令为

Code: Select all

git clone https://github.com/xai-org/grok-1.git
此项目为100%使用python语言开发,如果你想要自己改进它的话将会非常考验你的眼睛测量前置空格数量的能力~~,或者你就需要安装一个非常臃肿的编辑器。


运行说明:

方法一:下载后执行以下两个命令:

Code: Select all

pip install -r requirements.txt
python run.py
方法二:当然也可以直接调用HuggingFace 🤗 Hub:

Code: Select all

git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False


注:如果需要在云端安装Grok-1大模型,也可以租用云端GPU型服务器进行云端搭建。运行方法参考本文上面的内容。



模型详情:

基于大量文本数据训练,未针对任何特定任务微调
3140亿参数MoE模型,激活权重25%
使用旋转嵌入而非固定位置嵌入
Tokenizer词汇大小131,072,嵌入大小6,144
64层Transformer,每层解码器层包含多头注意力块和密集块
多头注意力:48头查询,8头键/值,键值大小128
密集块:加宽因子8,隐藏层大小32768
每个token从8个专家选择2个
旋转位置嵌入大小6,144
上下文长度8192 tokens,精度bf16


模型能力:

在标准LM基准测试中表现超过同等计算量模型
HumanEval编码任务63.2%,MMLU 73%
在匈牙利高中数学考试中获C级(59%)
整体在推理和编码任务中表现出色


局限性:

缺少独立搜索网络能力,需结合搜索工具增强
可能产生幻觉,需人工审查
目前无法像X平台付费版实现实时获取信息


开源意义:

遵循Apache 2.0许可证,用户可自由使用修改分发
体现了xAI追求透明化和社区开放的理念
为进一步研究和创新提供了宝贵资源


总的来说,Grok-1作为一款大规模开源语言模型,在模型能力和透明度方面都具有重要意义,值得业内外人士关注和探索。当然,模型的实际应用还需要结合其他工具和人工审查,以发挥其最大潜能。
Post Reply

Return to “programmer 程式師 程序员”