搜索
当前所在位置:首页 >> 看秀

苹果大模型最新论文:AFM 模型多维度评测「出炉」

发布时间:2025-07-11 20:42:03 作者:y 点击:16 【 字体:

编译 | 朱可轩

编辑 | 陈彩娴

不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果端侧智能领域的讨论。

苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评

近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

论文链接:https://arxiv.org/pdf/2407.21075

根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。

结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。

研究发现

人类评估

在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

指令遵循

在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。

此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。

整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

负责任的 AI

在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

保障性评测

在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):

苹果大模型最新论文:AFM 模型多维度评测「出炉」

在保障提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网(公众号:雷峰网)雷峰网

苹果大模型最新论文:AFM 模型多维度评测「出炉」

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

阅读全文
相关推荐

“从未宣布暂停对乌军援” 美方说法又变了

“从未宣布暂停对乌军援” 美方说法又变了
央视记者当地时间7月9日获悉,一名未透露姓名的白宫官员表示,美国国防部从未宣布暂停向乌克兰运送武器,而是进行审查以确保美国的军事支持符合其防御战略。据此前报道,美国国防部本月初宣布暂停向乌克兰输送部分 ...

房东的猫「世界/青年」济南演唱会:在荷风泉城里演奏一曲青春音符的夏日回响

房东的猫「世界/青年」济南演唱会:在荷风泉城里演奏一曲青春音符的夏日回响
来源标题:房东的猫「世界/青年」济南演唱会:在荷风泉城里演奏一曲青春音符的夏日回响 6月21日晚,房东的猫「世界/青年」2025巡演济南站于济南奥林匹克体育中心体育馆盛大绽放。在山东六月的滚烫星河之下 ...

宫廷美学遇上Lolita:花与珍珠匣×甄嬛传新品发布,打造梦想华服

宫廷美学遇上Lolita:花与珍珠匣×甄嬛传新品发布,打造梦想华服
来源标题:宫廷美学遇上Lolita:花与珍珠匣×甄嬛传新品发布,打造梦想华服2025年6月29日,杭州大运河杭钢公园内星光璀璨,一场别开生面的时尚盛宴——花与珍珠匣2025新品 ...

十年相约,共铸荣光:秀域与中国女篮续约合作

十年相约,共铸荣光:秀域与中国女篮续约合作
来源标题:十年相约,共铸荣光:秀域与中国女篮续约合作2019年,秀域首次与中国女篮携手,成为中国女篮官方赞助商。彼时,国际篮联改制,中国女篮面临着前所未有的挑战,历经3项大赛的激烈角逐,才如愿拿到奥运 ...

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型
【雷峰网(公众号:雷峰网)】雨果曾经说过:“开启人类智慧宝库的三把钥匙,即数字、字母、音符。”音乐早已成为人类表达情感的最佳载体。但音乐创作是一件门槛很高的事情,因为音乐创作不是某一个人的独角戏,而一 ...

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海
来源标题:掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海近日,由掌阅科技出品的仙侠题材短剧《遮天》上线海外短剧平台iDrama。据了解,该剧已于6月20日在国内首播,主打AI技术与 ...

《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众

《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众
来源标题:《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众29日晚,“柴科夫斯基芭蕾舞剧三大经典交响音乐会”在天津大礼堂奏响。这场由天津交响乐团倾力打 ...

小人物的惊天一跃,京产网络剧《漂洋过海来送你》阵容官宣

小人物的惊天一跃,京产网络剧《漂洋过海来送你》阵容官宣
来源标题:小人物的惊天一跃,京产网络剧《漂洋过海来送你》阵容官宣 2025年6月20日,“北京大视听”重点文艺项目,由腾讯视频、爱奇艺、新力量文化、一未文化共同出品的网络剧《漂 ...

「焦虑」的体育教育,「救场」的AI体育

「焦虑」的体育教育,「救场」的AI体育
人工智能正迈入一个崭新的细分时代。随着技术不断成熟,应用日渐规范,以普惠之姿出现的AI,已成为各行各业的关键驱动力,其中AI之于教育,是一个令人兴奋的话题。教育事关国家未来的根基,AI技术的应用,在促 ...

抗战纪录片《苦干》高清修复版在美国首映

抗战纪录片《苦干》高清修复版在美国首映
来源标题:抗战纪录片《苦干》高清修复版在美国首映新华社洛杉矶6月25日电记者黄恒)经中国团队高清修复的抗战纪录片《苦干》当地时间24日晚在美国洛杉矶的奥斯卡电影博物馆首映,引发中美两国电影学者、历史专 ...

折射一代中国制造人的拼搏与奋争 《淬火年代》再续“东海宇宙”创业奇迹

折射一代中国制造人的拼搏与奋争 《淬火年代》再续“东海宇宙”创业奇迹
来源标题:折射一代中国制造人的拼搏与奋争 《淬火年代》再续“东海宇宙”创业奇迹来自东阳正午的“东海宇宙”又更新了,这次不是“大江大河”系列,而是全新的年 ...

新编现代京剧《野火春风斗古城》八月首演

新编现代京剧《野火春风斗古城》八月首演
来源标题:新编现代京剧《野火春风斗古城》八月首演创排现场。 北京京剧院供图上周,北京京剧院出品的新编现代京剧《野火春风斗古城》召开建组会。8月1日至5日,《野火春风斗古城》将在长安大戏院迎来首轮演出。 ...
返回顶部