| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享

2024-12-13 16:04 作者:何涛 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

当地时间12月10日,人工智能领域全球顶级学术会议 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大温哥华正式召开。官方数据显示,NeurIPS 2024共收到超一万五千篇有效论文投稿,投稿量创新高,参会人数超万人规模。

阿里云 PAI 团队的论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收录,并被列为 Spotlight,本年度 NeurIPS 的 Spotlight 论文录取率仅为3%。论文通过对大语言模型真实知识能力的评估,揭示现有静态评测集指标的可信性问题以及大语言模型知识掌握中的各种弱点,并指导改进的发展。

同时,在本次会议中,PAI 团队为参会者带来主题演讲分享、AI 工程化平台产品能力 Demo。演讲分享的议题为“可信 AI 的技术解读与最佳实践”,深入研讨在大语言模型广泛应用的当下,如何保障使用 AI 全流程的安全、可靠和可信。

中选论文

论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收录,并入选 Spotlight。PertEval 是一款大型语言模型评估工具包,通过引入“知识不变扰动”的创新概念,对静态基准(static benchmarks)进行改写,从而更准确地揭示大型语言模型(LLMs)的真实知识能力。

 

 

 

革新评估方式,提升可信度

传统上,评估 LLM 性能的方法依赖于静态基准测试,例如 MMLU 和 C-Eval 等,这些方法虽然广泛使用,但存在明显的局限性和数据污染风险,导致对模型真实能力的认知失真。PertEval 通过应用知识不变扰动,确保了在不改变模型所识别和应用的知识前提下,对原始评估问题进行修改。这种方法缓解了由于记忆效应和数据污染造成的评估失真问题,显著提高评估结果可靠性。

揭示现有评估方法的不足

研究团队利用 PertEval 重新评估了六个代表性的 LLM,包括 GPT-4,并发现这些模型在MMLU 等静态基准上的表现被显著高估,其中 GPT-4 的表现被绝对高估了26%。进一步分析显示,这种虚高的性能主要源自 LLM 面对不确定知识时表现出的犹豫不决,以及对正确答案的死记硬背现象。这表明当前的评估方法可能无法充分反映 LLM 在实际应用中的表现。

推动行业进步,指导未来研究

这项研究表明,为了更好地理解和改进 LLM 的能力,需要一种能够体现其真实性能的评估方法。PertEval 提供了一种新的视角和工具,以帮助研究人员和开发者更准确地评估和优化 LLM。后续,计划将 PertEval 整合到 PAI 平台中,支持一键式开启任意模型(无论是 API、开源还是微调后的模型)的真实能力评估。此外,还将通过 leadboard 的方式向开发者社区反馈主流 LLM 的“知识能力”度量,促进整个行业的健康发展。

PertEval 的推出标志着在提升 LLM 评估准确性方面迈出的重要一步,为推动 AI 技术的进步提供了有力的支持。随着这一工具的广泛应用,我们期待看到更加可靠和公平的模型评估标准,以及由此带来的技术创新。

论文标题:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

论文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

论文地址:https://arxiv.org/abs/2405.19740

演讲分享

演讲标题:可信 AI 的技术解读与最佳实践

Core Technical Interpretation and Best Practices of Responsible AI

演讲人:林伟 | 阿里云智能集团研究员、人工智能平台 PAI 负责人

 

 

演讲为 NeurIPS 参会者带来阿里云人工智能平台 PAI 的企业级可信 AI 解决方案以及技术解析。PAI 平台提供的安全、可靠和可信的 AI 解决方案,通过确保数据合规与安全、算法稳健性与可靠性、模型可信度和基础设施安全与稳定性这四大关键要素得以实现。为实现可信 AI,PAI 团队创新性地提出了 T 型安全架构。从垂直的角度考虑,从下至上保障云计算基础设施、数据和模型、AI 应用的安全;从水平的角度考虑,覆盖数据准备、模型训练和模型部署的 AI 开发全链路。目前,可信 AI-公平性分析、可信 AI-错误分析功能均已上线,欢迎您前往阿里云人工智能平台 PAI 体验。

更多原理介绍和操作步骤,请参考产品文档 「人工智能平台 PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。

产品能力展示

主题:AI Native 的大模型与 AIGC 工程平台

阿里云人工智能平台 PAI 提供包含数据集管理、算力管理、模型工具链、模型开发、模型训练、模型部署、AI 资产管理在内的功能模块,内置100+种大模型最佳实践,为用户提供高性能、高稳定、企业级的大模型工程化能力。在本次平台产品能力 Demo 环节,人工智能平台 PAI 为大家带来包含以下多个实操展示:

1、以 Qwen2.5-Coder 为例,完成大语言模型微调训练、部署和评测

2、通过 PAI-EAS,搭建企业级大模型 RAG 对话系统

3、通过 PAI-裁判员模型,实现高效易用的智能模型评测

4、通过 PAI-Artlab,体验自动化的一站式 AIGC 设计平台

现场数百位参会者体验 PAI 平台的能力。目前,所有 Demo 均已在线上开放,欢迎您前往阿里云人工智能平台 PAI 体验。

 

 

如您对我们的论文或产品感兴趣,或希望加入我们,欢迎您前往 NeurIPS2024 - Alibaba Cloud 展台深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到来!

 

【对“【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·被推上C位,阿里云为何还“扶”不起?
·国内首家! 阿里云人工智能平台PAI通过ITU国际标
·阿里云等待新CEO 新一轮人事变动酝酿中
·独家|阿里云人力资源部副总裁孙中元离职
·阿里云受邀加入Elastic AI Ecosystem联盟,助力
·阿里云向量检索服务 Milvus 版正式商业化
·【MM2024】阿里云 PAI 团队图像编辑算法论文入选
·【ACL2024】阿里云人工智能平台PAI多篇论文入选A
头条
消息称谷歌要大手笔收购HubSpot公司搅动云市场 消息称谷歌要大手笔收购HubSpot公司搅动云市
5 月 30 日消息,多家消息源指出谷歌计划收购 HubSpot 公司,从而在企业云应用市场方……
·谷歌豪掷4.7亿欧元阻扰欧洲云计算协会与微软
·消息称谷歌要大手笔收购HubSpot公司搅动云市
·腾讯云:颜面尽失的草台班子 灾难级别的公关
·价格屠刀+网红带货,阿里云的焦虑有多深?
·淘宝、阿里云盘等访问故障 阿里云云产品控制
图文
消息称谷歌要大手笔收购HubSpot公司搅动云市场
消息称谷歌要大手笔收购HubSpot公司搅动云
软件定义存储中,企业级SSD扮演了什么角色?
软件定义存储中,企业级SSD扮演了什么角色
提升竞争地位,谷歌云计算业务部门裁员重组
提升竞争地位,谷歌云计算业务部门裁员重组
云计算产业已达千亿元规模 互联网行业占据六成
云计算产业已达千亿元规模 互联网行业占据
热点
·拥有专属的家庭云NAS储存是种怎样的体验?
·提升竞争地位,谷歌云计算业务部门裁员重组
·企企通科技荣获2018爱分析中国云计算创新企业
·沈昌祥院士确认出席2019世界计算机大会并发表
·《2018年云计算性能洞察报告》:企业上云迎来
旧闻
·诺贝尔经济学奖获得者确认参加“2019世界计算
·2019世界计算机大会:软通动力开启新型计算的
·唯一网络入选2019中国云计算500强获地区优秀
·系统多次闪崩,主帅频繁换人,阿里云路在何方
·全球超级计算机500强:美国蝉联冠军 中国数量
广告
硅谷精选
消息称谷歌要大手笔收购HubSpot公司搅动云市场
消息称谷歌要大手笔收购HubSpot公司搅动云市场
软件定义存储中,企业级SSD扮演了什么角色?
软件定义存储中,企业级SSD扮演了什么角色?
阿里云人工智能平台PAI多篇论文入选EMNLP 2023 ​
阿里云人工智能平台PAI多篇论文入选EMNLP 2023 &#
系统多次闪崩,主帅频繁换人,阿里云路在何方?
系统多次闪崩,主帅频繁换人,阿里云路在何方?
【2023云栖】郭瑞杰:阿里云搜索产品智能化升级
【2023云栖】郭瑞杰:阿里云搜索产品智能化升级
淘宝、阿里云盘等访问故障 阿里云云产品控制台服务异常
淘宝、阿里云盘等访问故障 阿里云云产品控制台服务异
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>