| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

2024-10-15 16:32 作者:Miki 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

近期,阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

文本到图像合成 (TIS) 已成为计算机视觉与自然语言处理 (NLP) 交叉领域的重要前沿,其能够根据文本描述生成视觉上引人注目的图像。基于文本引导的图像编辑任务使用户能够通过简单的文字描述来指导图像的修改,无需使用复杂的图像编辑软件或具备专业知识即可实现编辑效果。其中 Traing-free 的文本引导图像编辑 (TIE) 已成为一个重要的研究方向,利用预训练的 TIS 模型,直接通过文本提示来编辑图像,用户可以直接输入文本,对图像进行多种编辑操作,包括颜色变化、物体的添加或去除、风格转换等。这种交互式编辑方式显著降低了图像编辑的门槛,使得创意表达变得更加便捷和个性化。

尽管当前的 TIE 算法取得了显著进展,但它们仍存在一些局限性。如图1所示,现有 TIE 方法在编辑多个对象时面临挑战。多对象编辑的复杂性会导致编辑对象丢失(例如,丢失一个苹果)、属性缺失(例如,斑点)和背景保留不完整等问题。

 

 

图1. 图像编辑的效果对比以及我们提出方法的结果

 

在本文中,我们提出了 VICTORIA 编辑算法,它利用语言知识来解决在对象场景编辑中因缺失目标(如对象、属性和背景)而导致的问题。VICTORIA 通过分析输入编辑文本中单词之间的依存关系,并将这种关系反映在注意层的中间表示中,从而修正并生成目标图像。图2展示了 VICTORIA 的整体框架。首先,我们通过控制自注意机制来确保原始图像和编辑后图像之间的空间一致性。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图,从而提升目标编辑区域的生成结果。最后,VICTORIA 通过交叉注意图进行图像部分掩码,有效保留原始图像中无需被编辑的区域。

 

 

图 2:VICTORIA 在对图像进行编辑的过程示意图

 

VICTORIA 伪代码如下:

 

 

图 3:VICTORIA 在合成图像编辑和真实图像编辑场景下的伪代码

 

图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像中多个物体的各种属性、风格、场景和类别。

 

 

图 4:VICTORIA编辑结果示例

 

图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。无论是对真实照片还是合成图像,VICTORIA 均展现出了高效的编辑能力。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。

 

 

图 5:VICTORIA与其他编辑方法的对比

 

为了更好地服务开源社区,这一算法的源代码已经贡献在自然语言处理算法框架 EasyNLP 中,欢迎各界从业人员和研究者使用。

阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

 

论文信息

 

论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing

论文作者:刘冰雁、汪诚愚、黄俊、贾奎

论文pdf链接:https://openreview.net/pdf?id=efTur2naAS

 
【对“【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·【ACL2024】阿里云人工智能平台PAI多篇论文入选A
·阿里云位居 IDC MarketScape 中国实时湖仓评估领
·全新启航!阿里云向量检索服务Milvus版正式上线
·阿里云PAI大模型评测最佳实践
·【CVPR2024】阿里云人工智能平台PAI图像编辑算法
·基于阿里云 EMR Serverless Spark 版快速搭建OSS
·阿里云PAI发布DeepRec Extension,打造稳定高效
·AI「搅动」云计算,阿里云推动算力底层变革
头条
消息称谷歌要大手笔收购HubSpot公司搅动云市场 消息称谷歌要大手笔收购HubSpot公司搅动云市
5 月 30 日消息,多家消息源指出谷歌计划收购 HubSpot 公司,从而在企业云应用市场方……
·谷歌豪掷4.7亿欧元阻扰欧洲云计算协会与微软
·消息称谷歌要大手笔收购HubSpot公司搅动云市
·腾讯云:颜面尽失的草台班子 灾难级别的公关
·价格屠刀+网红带货,阿里云的焦虑有多深?
·淘宝、阿里云盘等访问故障 阿里云云产品控制
图文
消息称谷歌要大手笔收购HubSpot公司搅动云市场
消息称谷歌要大手笔收购HubSpot公司搅动云
软件定义存储中,企业级SSD扮演了什么角色?
软件定义存储中,企业级SSD扮演了什么角色
提升竞争地位,谷歌云计算业务部门裁员重组
提升竞争地位,谷歌云计算业务部门裁员重组
云计算产业已达千亿元规模 互联网行业占据六成
云计算产业已达千亿元规模 互联网行业占据
热点
·拥有专属的家庭云NAS储存是种怎样的体验?
·提升竞争地位,谷歌云计算业务部门裁员重组
·企企通科技荣获2018爱分析中国云计算创新企业
·沈昌祥院士确认出席2019世界计算机大会并发表
·《2018年云计算性能洞察报告》:企业上云迎来
旧闻
·华为云与时间赛跑,零代码口罩智能识别是如何
·全方位加速人才培养,腾讯云开启人才加速计划
·星融为金融云构建业务可视云网络
·谷歌豪掷4.7亿欧元阻扰欧洲云计算协会与微软
·解除封印之前,数据就只是数据而已
广告
硅谷精选
消息称谷歌要大手笔收购HubSpot公司搅动云市场
消息称谷歌要大手笔收购HubSpot公司搅动云市场
软件定义存储中,企业级SSD扮演了什么角色?
软件定义存储中,企业级SSD扮演了什么角色?
阿里云人工智能平台PAI多篇论文入选EMNLP 2023 ​
阿里云人工智能平台PAI多篇论文入选EMNLP 2023 &#
系统多次闪崩,主帅频繁换人,阿里云路在何方?
系统多次闪崩,主帅频繁换人,阿里云路在何方?
【2023云栖】郭瑞杰:阿里云搜索产品智能化升级
【2023云栖】郭瑞杰:阿里云搜索产品智能化升级
淘宝、阿里云盘等访问故障 阿里云云产品控制台服务异常
淘宝、阿里云盘等访问故障 阿里云云产品控制台服务异
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>