搜索
当前所在位置:首页 >> 风事视

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

发布时间:2025-07-12 17:59:16 作者:c 点击:12 【 字体:

元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,发布将国产开源提升至国际领先水平。中国最该模型总参数255B,模型激活参数36B,落地达到100B模型性能的登顶广州高中毕业旅行流出「跨级」跃升,同时训练时间减少30%,港台推理性能提升100%,元象源大应用使每token成本大幅下降。发布

元象「高性能全家桶」系列全部开源,中国最无条件免费商用,模型让海量中小企业、落地研究者和开发者能按需选择。登顶

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的元象源大应用专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性能最大化。知乎男主播吐槽合集合集出于这个原因,行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE。

在多个权威评测中,元象MoE效果大幅超越多个同类模型,包括国内千亿MoE模型 Skywork-MoE、传统MoE霸主Mixtral-8x22B 以及3140亿参数的MoE开源模型Grok-1-A86B等。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 

免费下载大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

官网:chat.xverse.cn

 

落地应用好且省 登顶港台娱乐应用榜


元象此次开源,不仅填补国内空白,也在商业应用上更进一步。

元象基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo,通过逼真的AI角色扮演和有趣的开放剧情,火遍港台,下载量在中国台湾和香港娱乐榜分别位列第一和第三。

MoE训练范式具有「更高性能、更低成本」优势,元象在通用预训练基础上,使用海量剧本信息「继续预训练」(Continue Pre-training),并与传统SFT(监督微调)或RLHF(基于人类反馈的强化学习)不同,采用了大规模语料知识注入,让模型既保持了强大的通用语言理解能力,又大幅提升「剧本」这一特定应用领域的表现。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


高性能「开源标杆」

 

元象是国内领先的AI与3D公司,秉持「通用机器智能 AGI」信仰,持续打造「高性能开源全家桶」,不仅填补国产开源空白,更将其推向了国际领先水平。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2023年11月,此前国内大部分开源参数多在7B到13B,而行业共识是模型达到50到60B参数门槛,大模型才能“智能涌现”,生态亟需“大”模型时,元象率先开源了XVERSE-65B,是当时中国最大参数开源。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2024年1月,元象又开源全球最长上下文窗口大模型,支持输入25万汉字,还附手把手训练教程,让大模型应用一举进入“长文本时代”。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次国内最大参数MoE开源,又是给生态贡献了一个助推低成本AI应用利器。

 

引领文娱应用

 

借助在AI和3D领域的客户积累,元象也迅速将大模型推向商用。

2023年11月,元象成为全国最早一批、广东省前五获得《生成式机器智能支持运营暂行办法》国家备案的大模型,具备向全社会开放的产物能力。 

而在更早的10月,元象与腾讯音乐联合推出lyraXVERSE加速大模型,并借助该工艺全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让她情商与智商双高,为客户提供个性化、更深入、陪伴感十足的音乐互动体验。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

元象大模型陆续与QQ音乐、虎牙实况、全民K歌、腾讯云等深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的客户体验。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


MoE工艺自研与创新

 

MoE是目前业界最前沿的模型框架,由于工艺较新,国内开源模型或学术研究尚未普及。元象自研MoE的高效训练和推理框架,并持续推动工艺创新。

2024年4月推出的XVERSE-MoE-A4.2B中,元象推动MoE专家架构革新。与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次推出XVERSE-MoE-A36B,继续在MoE效率和效果方面进行工艺创新。

(1)效率方面

MoE架构与4D拓扑设计:MoE架构的关键特性是由多个专家组成。由于专家之间需要大量的信息交换,通信负担极重。为了解决这个问题,我们采用了4D拓扑架构,平衡了通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。

专家路由与预丢弃策略:MoE的另一个特点是“专家路由机制”,即需要对不同的输入进行分配,并丢弃一些超出专家计算容量的冗余信息。为此团队设计一套预丢弃策略,减少不必要的计算和传输。同时在计算流程中实现了高效的算子融合,进一步提升模型的训练性能。

通信与计算重叠:由于MoE架构的专家之间需要大量通信,会作用整体计算效率。为此团队设计了“多维度的通信与计算重叠”机制,即在进行参数通信的同时,最大比例并行地执行计算任务,从而减少通信等待时间。

(2)效果方面

专家权重:MoE 中的专家总数为 N ,每个 token 会选择 topK 个专家参与后续的计算,由于专家容量的限制,每个 token 实际选择到的专家数为 M,M<=K<N。被选择到的专家计算完之后,会通过加权平均的方式汇总得到每个 token 的计算结果。这里专家的权重如何设置是一个问题,我们通过对比实验的方式来进行选择。根据对比实验的效果,我们选择实验2的设置进行正式实验。

实验1:权重在 topM 范围内归一化

实验2:权重在 topK 范围内归一化

实验3:权重在 topN 范围内归一化

实验4:权重都为 1 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

对比实验结果

举例说明,假设N=8,K=4,M=3(2号专家上token被丢弃),不同专家权重的计算方式所得的权重如下图: 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

信息动态切换:元象以往开源的模型,往往在训练前就锁定了训练信息集,并在整个训练过程中保持不变。这种做法虽然简单,但会受制于初始信息的质量和覆盖面。此次MoE模型的训练借鉴了"课程学习"理念,在训练过程中实现了动态信息切换,在不同阶段多次引入新处理的高质量信息,并动态调整信息采样比例。

这让模型不再被初始语料集所限制,而是能够持续学习新引入的高质量信息,提升了语料覆盖面和泛化能力。同时通过调整采样比例,也有助于平衡不同信息源对模型性能的作用。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

不同信息版本的效果曲线图

学习率调度策略(LR Scheduler):在训练过程中动态切换信息集,虽有助于持续引入新知识,但也给模型带来了新的适应挑战。为了确保模型能快速且充分地学习新进信息,团队对学习率调度器进行了优化调整,在每次信息切换时会根据模型收敛状态,相应调整学习率。实验表明,这一策略有效提升了模型在信息切换后的学习速度和整体训练效果。

下图是整个训练过程中 MMLU、HumanEval 两个评测信息集的效果曲线图。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

训练过程中MMLU、HumanEval的性能曲线持续拔高

通过设计与优化,元象MoE模型与其Dense模型XVERSE-65B-2相比,训练时间减少30%、推理性能提升100%,模型效果更佳。雷峰网(公众号:雷峰网)雷峰网




雷峰网原创文章,未经授权禁止转载。详情见转载须知。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

阅读全文
相关推荐

百川智能首款 AI 应用主打懂搜索,但王小川不做搜索 2.0

百川智能首款 AI 应用主打懂搜索,但王小川不做搜索 2.0
「雷峰网」二十多年前,搜索引擎的发明极大地方便了人们获取信息,很快搜索引擎便成为互联网时代第一流量入口,谷歌、百度更是凭借搜索引擎在 PC 互联网时代占据统治地位,成为两大巨头,多年以来,两者在搜索方 ...

白玉兰电视论坛透露行业新迹象 微短剧从流量狂欢转向价值引领

白玉兰电视论坛透露行业新迹象 微短剧从流量狂欢转向价值引领
来源标题:白玉兰电视论坛透露行业新迹象 微短剧从流量狂欢转向价值引领“腾讯视频已把此前的‘十分剧场’品牌升级为‘十分短剧’品牌。&rdquo ...

刑侦悬疑网剧《真相半白》今日开播 暗黑推理高智追凶启幕

刑侦悬疑网剧《真相半白》今日开播 暗黑推理高智追凶启幕
来源标题:刑侦悬疑网剧《真相半白》今日开播 暗黑推理高智追凶启幕一具以爱为名精心肢解的尸体,一场指向肾脏名医李俊松的致命阴谋——当真相被血色浸染,谁在幕后拨弄命运的提线?改编自 ...

闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守

闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守
来源标题: 闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守当深蓝使命碰撞细腻亲情,一部聚焦海军战士与军属故事的精品力作《爱上海军蓝》即将重磅来袭!7月 ...

阿里云 all in AI 的决心

阿里云 all in AI 的决心
如何抓住 AI 的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI 与云已经成为紧密的拍档。大模型的迭代进化离不开云计算的支撑,而大模型的落地应用,给云计算勾勒了一 ...

冠珠瓷砖明星屋主易大千的温暖宅:处处都是热爱

冠珠瓷砖明星屋主易大千的温暖宅:处处都是热爱
来源标题:冠珠瓷砖明星屋主易大千的温暖宅:处处都是热爱青年演员、冠珠瓷砖明星屋主易大千,具有邻家男孩的阳光与轻熟男的多面魅力,是个很温暖的人。无论何时出现,他身上都散发着温暖而有力量的光芒。参演过《冥 ...

爱奇艺国际版将与SBS Studio Prism携手制作泰国版《Running Man》

爱奇艺国际版将与SBS Studio Prism携手制作泰国版《Running Man》
来源标题:爱奇艺国际版将与SBS Studio Prism携手制作泰国版《Running Man》6月24日,爱奇艺国际版宣布与韩国SBS旗下知名制作公司Studio Prism正式签署国际合作备忘录 ...

微视听+传统文化:人人可创作、处处能传播、时时可消费

微视听+传统文化:人人可创作、处处能传播、时时可消费
来源标题:微视听+传统文化:人人可创作、处处能传播、时时可消费资料照片资料照片【文艺观潮】微视听文艺是媒介社会发展中新近产生的重要文化现象。它依托短视频平台而生,涵盖微短剧、微综艺、微纪录片等多种样态 ...

SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展

SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展
12月13日,以“新算力 新赋能 新未来”为主题的2022 CCF全国高性能计算学术年会CCF HPC China 2022)在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一,大会邀 ...

杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章

杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章
来源标题:杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章由华策影视出品,傅斌星任总出品人,张灼任总制片人,孙旭任制片人,龙亚任艺术总监,丁梓光执导,张鸢盎编剧,杨紫、李现领衔主演,魏哲鸣特邀 ...

光影少年罗伟宸:从上海电影节到未来可期

光影少年罗伟宸:从上海电影节到未来可期
来源标题:光影少年罗伟宸:从上海电影节到未来可期近日,正式落幕的第27届上海国际电影节,适逢中国电影诞生120周年,多个重磅剧组盛装亮相,堪称国际电影圈一大盛事。在本届电影节的璀璨舞台上,由新锐导演仇 ...

电影《江湖传奇之刘梦欣》清远开机拍摄

电影《江湖传奇之刘梦欣》清远开机拍摄
来源标题:电影《江湖传奇之刘梦欣》清远开机拍摄武侠新作《江湖传奇之刘梦欣》清远开机 实力主创共铸江湖传奇,2025年6月26日,由縢鹰(香港)创作影视文化传媒有限公司、惠州金龙影视文化传媒有限公司、N ...
返回顶部