ROOM DISPLAY
房型展示

杏彩体育官方平台 商务大床房

RWKV-6 16B(25T Tokens)模型开源表现更出色

来源:产品中心    发布时间:2024-04-10 10:44:00

  始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

  本次模型基准测试涵盖了 16 款接近 1.5B 参数规模的开源大语言模型,包括 RWKV 系列中的前代架构,如 RWKV-4 和 RWKV-5,也包括此前发布的 RWKV-6 Finch 1.6B。在测试中,英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。多语言能力的评估中,则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试,深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。

  值得注意的是,在训练 RWKV 时并未加入这些测试的训练集。换言之,没有为获取更佳的评分结果而进行特殊优化。因此,RWKV 模型的能力其实就是比它的评分排行更强的。

  对 RWKV-6 1.6B(2.5T Tokens)模型进行了续写、翻译等多种类型的任务测试,任务内容涵盖英语、日语、西班牙语等多种全球语种。

  以下是任务的实际效果:(黄色背景部分为输入给模型的 prompts ,后为模型的输出)

  由上图可见,RWKV-6 1.6B(2.5T Tokens)模型在多种语言混合的任务中表现出色。

  值得一提的是,用于训练新模型的 2.5 T tokens 语料中只有少量翻译数据,但 RWKV-6 1.6B(2.5T Tokens)模型仍旧能准确地翻译很多未学习的内容,证明模型拥有较强的泛化能力

  RWKV-6 7B (2.5T) 预计在 5 月中旬升级完成,将在完成升级的第一时间与大家伙儿一起来分享新模型。

  RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理,时间复杂度为线性复杂度,在长序列推理场景下具有优于 Transformer 的性能潜力。相对 Transformer 架构,RWKV 架构的推理成本降低 2~10 倍,训练成本降低 2~3 倍。

  始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据自己意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到。

  欢迎投稿分享AI领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优秀品质的内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。

  开源社区建设需要长时间坚持和投入,更需要广大新老用户的热情参加、贡献和维护。期待更多开发者将开源成果发布到社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,能申请加入wisemodel社群,持续关注社区动态。

  始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型网络公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  欧冠刺激1夜:2场轰10球!皇马3-3绝平曼城,拜仁2-2被阿森纳扳平

  Redmi有史以来最深度定制!Redmi Turbo 3哈利·波特版全套配件揭晓

  近百位粉丝共创1年打造!Redmi Turbo 3哈利·波特版官宣:最具诚意的定制版

  三星Galaxy Z Fold 6据称的相机规格可能令粉丝失望 所有变化交给Ultra