| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 软件>

仅用5M数据超过OpenAI?快手最新Code Embedding模型OASIS(绿洲)发布

2024-11-29 17:37 作者:Miki 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

最近,Kwaipilot团队正式宣布开源 OASIS(Optimized Augmentation Strategy for Improved code Search)Code Embedding模型。Kwaipilot与南方科技大学Arise实验室进行合作共研,在代码检索领域实现了突破性进展,仅仅使用5M Tokens数据大幅领先OpenAI,在多个Code Search benchmark中显著超越现有最佳水平。

什么是代码表征(Code Embedding)?

随着代码库规模的持续扩大,开发者越来越依赖高效的代码检索系统来提升开发效率。传统的关键词匹配方法已经无法满足现代软件开发的需求。代码表征(Code Embedding)技术通过将代码片段转化为向量表示,使机器能够深入理解代码语义,从而实现更智能的代码检索。Code Embedding模型在代码检索、仓库级代码问答,代码补全等场景中发挥不可或缺的作用。

image.png

图 1. 代码表征搜索[1]

OASIS用了哪些黑科技?

OASIS的训练只使用了5M Tokens的数据,远低于SOTA模型的训练样本数,通过结合程序分析技术与创新设计的损失函数,以极低的成本就在多个测试集上超越了现有的SOTA模型。

具体来说,OASIS 模型采用了多项创新技术:

  1. 仓库级程序分析:传统方法仅关注单个代码片段,缺少代码的上下文信息,结合南方科技大学Arise实验室技术,OASIS 引入了仓库级别的程序分析技术。通过分析函数调用关系和依赖结构,模型能够更好地理解代码在更大上下文中的语义,相比于孤立地使用函数的docstring,程序分析技术可以引入额外的上下文信息构建高质量样本对。

  2. OASIS-instruct 数据合成算法:我们开发的专有数据增强策略能够自动生成高质量的训练样本。这些样本包含代码和自然语言的对应关系,使模型能够学习到更细腻的语义差异。

  3. 融合式损失函数:创新性地将多目标优化策略应用于模型训练,确保模型在保持传统Code Embedding模型能力的情况下,既能准确区分相似样本,又能识别细微的语义差异,在优化目标的角度添加了新的训练维度。

OASIS到底有多强?

image.png

在权威的代码检索基准测试中,OASIS 展现出了令人瞩目的性能:

OASIS在训练过程中并不包含测试集提供的训练集的情况下,在 CSN、CoSQA、AdvTest 等主流评测集上,性能优越。平均检索准确率优于现有所有同尺寸的Code Embedding模型,具体来说,以5M数据训练在三个不同的代码检索数据集全面超越OpenAI-Ada-002。在使用的数据量显著少于Codesage-Large的情况下,在CoSQA数据集上超过7.8%。在模型尺寸仅为三分之一的情况下在平均检索成功率全面超越CodeFuse-CGE-Small,多个数据集领先明显。

CodeSearchNet (CSN)数据集

该数据集包含超过200万个代码-文档对,涵盖Python、Java、JavaScript等六种主流编程语言。数据主要来源于函数级别的代码及其对应的文档字符串(docstring),使用自然语言的docstring作为查询(query)。

CoSQA 数据集

CoSQA数据集是一个包含20,000+对自然语言查询和代码的标注数据集,每个数据对都至少由3名人类标注者进行标注。CoSQA数据集中的查询来源于真实的网络搜索,反映了开发者在日常工作中遇到的具体需求,而代码片段则从不同的数据集中精心筛选,以确保多样性和质量。

AdvTest 数据集

AdvTest数据集专门用于测试代码搜索任务的难度。它通过规范化函数名和变量名来增加挑战性,并从原始数据中过滤出高质量的样本。该数据集包含近2万的测试样本,旨在评估模型在代码理解和搜索方面的性能。

OASIS模型仅使用了5M的训练数据,以1.3B的参数量在CSN,CoSQA,AdvTest数据集了超过SOTA模型,性能表现远超OpenAI-Embedding-Ada-002。

OASIS有哪些应用场景?

OASIS 的应用场景广泛:

在智能代码检索方面,OASIS能准确理解开发者的查询意图,从海量代码库中精准定位最佳实践代码片段。当开发者输入具体需求描述时,模型能从海量代码库中精准定位最佳实践代码片段,并优先推荐与当前项目技术栈相匹配的示例。

image.png

图 2. IDE代码检索

在代码推荐领域,OASIS突破了传统代码补全工具的局限。基于对代码语义的深度理解,模型能预测开发者的编码意图,主动推荐API调用序列和完整的功能实现方案,提升Kwaipilot代码补全在私域代码方言中的补全质量。

针对代码复用分析,OASIS能够精确识别功能相似但实现细节不同的代码片段。这一能力在Code Review 功能中作用显著,可以帮助模型识别代码中的可能错误。

image.png

图 3. Kwaipilot代码审查

在代码理解辅助方面,模型应用于Kwaipilot RepoChat功能,模型能够自动提取遗留系统或第三方库中的关键程序逻辑,生成准确的功能描述和调用关系图谱,帮助开发者快速熟悉上手仓库,显著降低团队的代码理解成本。

同时,为推动代码智能领域的发展,OASIS将完整开源。开发者可以直接通过 Hugging Face使用该模型,也可以进行进一步的改进和定制。Huggingface 地址https://huggingface.co/Kwaipilot/OASIS-code-1.3B

【对“仅用5M数据超过OpenAI?快手最新Code Embedding模型OASIS(绿洲)发布”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·快手Kwai Agents系统、模型、数据全部开源
·快手斩获金网奖全场大奖,见证短视频社交真实的
·“快手“——最快启动iPhone应用的利器
头条
Create 2024百度AI开发者大会:百度李彦宏带来三大AI开发工具 Create 2024百度AI开发者大会:百度李彦宏带
2024年4月16日,在Create2024 百度AI开发者大会上,百度创始人、董事长兼首席执行官李……
·微软将在2025年10月15日停止对Win10的支持
·微软官方网站声明:旧版DRM服务的停止支持将
·苹果对iOS、iPadOS进行重大调整,允许用户删
·微软Win10/Win11被曝9.8分漏洞:影响所有IPv6
·苹果停止签署iOS 17.6系统,已升级iPhone用户
图文
微信扫一扫加好友有讲究吗?官方:可以丝滑切换
微信扫一扫加好友有讲究吗?官方:可以丝滑
Create 2024百度AI开发者大会:百度李彦宏带来三大AI开发工具
Create 2024百度AI开发者大会:百度李彦宏
知米背单词APP那些不为人知的小细节(图)
知米背单词APP那些不为人知的小细节(图)
Realme引入广告什么情况 Realme广告怎么设置关闭?
Realme引入广告什么情况 Realme广告怎么设
热点
·群控、云控时代即将终结,智控时代已到来
·106短信群发平台APP,致力于成为领域内佼佼者
·DT小听App:防偷拍,还是用这款国产app(图)
·软件技术行业发展变化非常快,软件人才要按需
·嗨学网一级消防可靠吗?新手妈妈亲生经历告诉
旧闻
·通达推动中国节能减排 致力祖国山河重现蓝天
·微软强调最初版本Windows 10将于下月停止支持
·执法情报暗战 | i2、Palantir、智器云的前世
·效率提升?Flyme 7将助力年轻商务人群(图)
·微软暂不停售Win7电脑 技术支持或至2020年
广告
硅谷精选
微信扫一扫加好友有讲究吗?官方:可以丝滑切换
微信扫一扫加好友有讲究吗?官方:可以丝滑切换
Create 2024百度AI开发者大会:百度李彦宏带来三大AI开发工具
Create 2024百度AI开发者大会:百度李彦宏带来三大AI
“米家崩了”上热搜 网友连夜反映:米家设备全部离线
“米家崩了”上热搜 网友连夜反映:米家设备全部离线
“2023(第七届)中国软件和信息服务业年度风云榜”重磅揭晓
“2023(第七届)中国软件和信息服务业年度风云榜”重
启动盒马调用位置权限13次,叮咚买菜调权限种类最多
启动盒马调用位置权限13次,叮咚买菜调权限种类最多
实时化与Serverless是开源大数据3.0时代的必然选择
实时化与Serverless是开源大数据3.0时代的必然选择
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>