|  首页  |  资讯  |  评测  |  活动  |  学院  |  访谈  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 学院> 速记>

【硅谷速记】GMIC北京2018:知乎李大海演讲实录

2018-04-28 22:39 作者:GuiGu 来源:硅谷网 HV: 编辑:GuiGu 【搜索试试

【硅谷网整理】 北京时间2018年4月26日 - 27日,2018年全球移动互联网大会(简称GMIC2018)在北京国家会议中心举办,此次大会以 “AI 生外物”为主题。众多中外顶尖科学家和企业家以AI的发展趋势、商业应用以及对经济、社会的影响,和现场观众一起分享了他们对AI的见解。知乎合伙人、高级副总裁李大海在Gmic主会场全球人工智能领袖峰会上发表演讲,题为《AI 算法与人文价值》。

【硅谷速记】GMIC北京2018:知乎李大海演讲实录

以下为知乎合伙人李大海演讲实录:

李大海:谢邀。很荣幸能够代表知乎来参与在GMIC上的分享。刚才Dean和李先生在专利战略上讨论对我也很有启发。我们在深度学习引发的AI热潮里,现在AI算法已经全面的被应用在了内容平台的各个环节,是不可缺少的一部分。业界对于AI算法,对于平台的商业价值,还有业务价值都已经讲的很多了,今天我想借此机会跟大家讲讲AI的人文价值。

我先介绍一下知乎,知乎诞生源于一个非常简单的初心。我们相信在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的,基于这样的理念我们想建立这样的平台,能够把用户脑子里彼此最重要的信息能够分享出来,能互相利用。另外,这些信息还能够沉淀下来,当有其他用户有类似问题的时候,我们能够很方便的找到。这样进而让说话用户都能够更好的去认识这个世界。

要让用户主动分享自己脑袋里的知识、经验、见解,我们认为他一定要有开放、包容的讨论环境。这件事情是很重要的,所以我们诞生第一天起我们就在用运营和产品手段去维护良好的一个讨论氛围。我们也是第一个把友善作为要求写进社区规范的一个第一个社区。这个决策是非常重要的,因为在良好的社区讨论氛围下知乎已经成为中国互联网中最大的知识分享平台。这里跟大家分享一组数字,截止到今年三月底,知乎已经有超过1.4亿的注册用户,我们的全平台的日活跃用书达到了3400万,用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。在知乎人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。如果我们把知乎比作一个城市的话,这是一个超级城市,里面有上亿的居民跟游客。这个城市的法律法规就是我们社区的规范。在这样一个规模的城市里,我们维护法律法规还是人工方式运维的话一定低效的,所以这时候我们引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。

我们要解决的问题都是自然语言领域处理的问题,也就是NLP的问题。其实AI在NLP领域是不如像图片等等这样一些领域的成果这么出色的,但是很幸运的是知乎积累了一个非常高质量的中文语料库。我们拥有大量的优质的提问跟回答的文本。同时用户的行为本身在我们这儿也是非常重要的数据。这个怎么理解呢?用户来知乎去生产和消费内容的时候,他们同时也在建设这个社区,他们的行为本身就是社区体系的一部分。举个例子,用户对一个回答的赞同或者反对,他们对任何内容的举报,他们对一个问题发起一个话题,或者对问题或者话题进行公共编辑,在某种程度上我们都可以把它认为是对相应文本语料进行标注。有了这样标注数据以后,我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示,从而能让我们对语言的理解能够达到一个更高的层次。

另外这还是形成一个正向的闭环。因为我们的良好的社区氛围,所以我们的用户在知乎的行为大部分都是高质量的。有了这些高质量行为我们就会有高质量的标注数据,这就更有利于我们用AI算法维持或者提升我们的讨论氛围。

另一方面,经过七年多的运营,知乎团队已经培养了非常丰富的社区管理的经验。我们已经认识到一个社区的规范,它不是制定出来的,它一定是平台和用户相互之间和摸索出来的。我们在这个过程中理解了不同用户不同诉求,然后能让我们规范去匹配复杂多变的各种场景。这样一些丰富的经验对于我们去把AI落地是非常有帮助的。因为它能够把氛围这个很虚无的大问题分解为很多小的目标明确的,可以解决的问题,降低这个问题的难度。

给大家展示一些有伤害社区氛围的例子,这些例子都是比较不好,我就不念了。第一种是答非所问。所谓的答非所问就是没有答到点子里,离题万里的回答。这些回答往往是没有什么价值的信息,有些甚至只有情绪。所以读者看到这样不能获得有效的信息,是在浪费的他们的时间。第二,不有效的评论。大家看到这些有效评论后,自己换位思考一下,如果自己是一位作者花了半天辛辛苦苦写了一个回答,评论区都是这样调调的回答,你们是什么感受。不是作者也没关系,作为读者看到每一个精彩的答案下面的讨论区域都是这种乌烟瘴气的氛围,其实也不是一个良好的体验。还有一种是阴阳怪气,阴阳怪气不算什么,但是根据我们的经验它对于创作者的创作热情,还有创作体验的伤害更大。这个大家看看就可以了。当然损害社区氛围的例子不仅仅是这些,我提这些只是给大家一个之滚的感性的认识。经过两年多的工作,我们建设了一个算法机器人,叫瓦力,目前瓦力已经在线上能够快速适时去响应去处理像答非所问和不友善的内容,像歧视,恶意贴标签,辱骂等等低质内容,全力帮助我们知乎小管家团队去减少低质内容和无关内容对用户的干扰。给用户提供人文关怀。我们这个机器人最好的遵守率能做到99.13%。我们在这个工作有两个方向,第一,在不同的领域再进一步提高它的准确率和召回,第二,不断提高瓦力机器人的适用范围。

瓦力机器人能力提升后面是离不开我们的用户的。举个例子,我们最近上线了一个理由反对的功能么测,这个功能有五万名用户参加了内测。所谓有理由反对就是用户点击反对的时候,同时选择一下反对的理由。用户每次选择都是瓦力去学习的一些新的机会。我们在内测期间通过用户选择和瓦力结合一共梳理了超过两万条答非所问的回答。

下面我从技术的角度简单去讲讲我们的瓦力机器人怎么做的。这边以答非所问作为例子来简单的讲一讲。我们最早解决这个问题的时候采用的是随机森林的模型。什么是随机森林呢?简单的来讲,随机森林就是用随机的机制去产生很多分类数组成的森林。它的分类数就是把这个样本放到每个数里去分类。举个例子,就是知乎来讨论一个问题,知乎的宠物是狗还是狐。这样就让每个树自己投票。在完成这个模型以后,我们取得了还不错的一个效果,它的准确率能够达到97%,是一个非常高的准确率。但是有两个问题,第一个,它的召回率不高,只有58%,不到60%。这个召回率意味着什么呢,意味着我们会错过坏人,就把一些答非所问的回答放到线上去了。这样的话这样的回答给用户带来不好的体验,所以召回率是我们很在意的东西。另外,这个模型会用到用户的行为统计特征,也就是说,就是需要去看有多少用户对这个进行了点击回答或者点击举报的特征。这个特征有什么问题,用了这个特征,如果对一个新的回答做分类判断是不是答非所问的时候必须放到线上观察一段时间,看看线上对它的点击量反对或者举报。这就出问题了,因为它上线了。如果真的是一个答非所问的话,看到这个回答的用户他的体验其实就已经受到了伤害,这个时间差是存在的。我们就开发了一个模型,这个模型是基于卵生模型的思路,这个思路是去提升网络结构的表达能力。同时对特征进行选取的时候也做了很多仔细的考虑,去避免使用前面所说的用户行为的统计特征。最后的结果是这样,我们在召回率上有了一个非常大的提升,从60%提升到80%。同时任何一个回答只要发出来,很快就能够被分类。是还是不是一个答非所问。当然它也有缺点,它的准确率下降了,但是在这个场景我们可以结合其他的业务策略来弥补这个差距。所以最后我们就把新的模型上线了,去替代了老的模型。

我们算法团队在这个月发表了三篇文章,在知乎专栏上比较详细的阐述了知乎在瓦力机器人的工作,其中包括了这部分的工作。大家感兴趣的话可以上知乎专栏看一看。

我这里还想再跟大家同步一下,知乎在阴阳怪气这个领域的识别的一些实践。这个工作还没有做完,但是我特别想跟大家同步,因为这是一个非常难的问题,也非常有意思。阴阳怪气就是反讽。我们处理的思路,首先还是要基于深层语义理解,也就是语义分析这个工作。但是这个是不够的。因为从我们的实践来看,往往一句话,同一句话如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但是如果是两个陌生人之间一定是有敌意或者不友善的。所以基于这样的思考我们会从两个方向去综合判断。反讽这个问题之所以要跟大家分享,是因为它是情感分析领域的前沿问题,它很难。因为反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。像谢尔顿作为物理学家,他的智商在全人类排名前10,他也常常听不懂别人对他的讽刺。

在训练中我们会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等。但是不会把用户统计特征放进去,这个理由和前面是一样的。我们使用的网络拓扑模型使用的CNN和LSTL的结合。最关键的其实是最后一部分,我们在分类层是用知乎层大量一致的语料产生标准数据,这就是我前面讲的用户行为。举个例子,简单的说,如果一个评论有很多好的用户,他们都进行了反对,可能我们认为这就是一个负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。基于这个我们可以构建大量的一个标注数据。这样一个方案我们现在还在开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。当然这个问题比较难,可能我们还要解决很多细节问题,时间可能会比较久。但是没有关系,我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。能够像在反讽前沿领域的突破,任何一个突破对中文互联网,甚至全球互联网讨论环境中都应该有非常正面的作用。

以上是我关于AI算法和人文价值的一些分享。一个开放包容包括氛围是很重要的,它是孕育文化上百花齐放状态的一个非常非常重要的土壤。当然知乎作为一家技术公司我们不仅仅把AI用在了这个领域,事实上AI技术已经广泛应用在知乎的内容生产,流通,消费等等环节。我们接下来的计划是用AI,人机结合去打造一个智能社区。什么是我们所说的智能社区呢,我们坚信每个人脑子里的知识、经验、见解都是另外一群人非常感兴趣和想知道的。所以知乎长久以来所做的一切都是为了建立这种前所未有的连接,满足彼此的需求。这也是知乎的初心和长久的愿景。我们相信在不远的未来每个知乎用户,上知乎后都能很快找到他感兴趣的人和内容。他的问题能够快速的被推到能回答和有意愿回答的人意愿满足。他也能发现让自己拍案叫好的问题,然后分享出知道自己最懂的信息,获得让自己愉悦和满足的认可,并且遇到有共鸣的人去产生更深刻的交流、碰撞的化学反应。我们将以前所未有的效率建立这样思维的连接,让每一个个体脑袋里的警世通言见解都能够被分享,被筛选,被转化,被转变成这个时代的知识。知识的生产方式和迭代效率在这样的连接之下就会发生质的改变,这就是我们认为的智能社区。

在这边这样一个智能社区的过程中我们会遇到什么样的挑战呢,我们有很好的数据,我们的问题也都很明确,我们的挑战其实主要是在人上。相比于我们要解决的问题来说,我们的团队,我们团队很不错,但是相比于这些问题我们的人还是比较少的,所以我们希望业界厉害的人加入我们,一起把知乎创建成为一个具有人文价值的一个智能社区。谢谢大家。

【对“【硅谷速记】GMIC北京2018:知乎李大海演讲实录”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·硅谷速记:2019小满科技新品牌和新产品发布会实
·【硅谷速记】美国硅谷不靠英雄,但坚决淘汰平庸
·【硅谷速记】2019年6月11日格力电器媒体采访全记
·【硅谷速记】牛电科技媒体沟通会-2016年4月6日
·【硅谷速记】CMMI邓诺和胡伟建接受采访实录
·【硅谷速记】智充科技城市充电合伙人计划发布会
·【硅谷速记】GMIC北京2018有米科技专场发布会
·GMIC北京2018:有米科技新营销论坛专访实录
头条
·【硅谷速记】张小龙:全面阐述小程序来了!
图文
2018国际文创产业合作伙伴大会9月11日上午实录
2018国际文创产业合作伙伴大会9月11日上午
RTC 2018实时互联网大会之声网媒体沟通会实录
RTC 2018实时互联网大会之声网媒体沟通会实
2018国际文创产业合作伙伴大会9月11日上午实录
2018国际文创产业合作伙伴大会9月11日上午
RTC 2018实时互联网大会之声网媒体沟通会实录
RTC 2018实时互联网大会之声网媒体沟通会实
最新
·第二届河北国际工业设计周开幕式主旨演讲实录
·2019年九号机器人AI产品发布会全程文字实录
·2019烯旺科技医疗成果发布暨招商大会全程文字实录
·2019年网络安全生态峰会:支付宝芮雄文专访速记
·2019九号机器人AI产品发布会速记实录-创造AI运力
热点
·【硅谷速记】特朗普就职演讲全文(中英对照版)
·nokelock 2019 全球新品发布会全程文字速记实
·2018国际文创产业合作伙伴大会9月11日上午实
·【硅谷速记】家园网马永才接受硅谷网等群访录
·GrowingIO 2018增长大会主会场上午现场速记实
旧闻
·首届“数字营销在线选型节”新闻发布会全程实
·【硅谷速记】2018年中国TMT行业“领秀榜”盛
·【硅谷速记】推想科技人工智能医疗平台发布会
·【硅谷速记】苏宁易购418家电3C狂欢节发布会
·2018 AGM X3喜马拉雅新品发布会媒体群访速记
广告
硅谷影像
2018国际文创产业合作伙伴大会9月11日上午实录
2018国际文创产业合作伙伴大会9月11日上午实录
RTC 2018实时互联网大会之声网媒体沟通会实录
RTC 2018实时互联网大会之声网媒体沟通会实录
【硅谷速记】GMIC北京2018:知乎李大海演讲实录
【硅谷速记】GMIC北京2018:知乎李大海演讲实录
【硅谷速记】GMIC北京2018上苏宁乔新亮演讲实录
【硅谷速记】GMIC北京2018上苏宁乔新亮演讲实录
【硅谷速记】UC光谱计划开放平台发布会实录
【硅谷速记】UC光谱计划开放平台发布会实录
【2017CCF青年精英大会】汤晓鸥谈人工智能明天
【2017CCF青年精英大会】汤晓鸥谈人工智能明天
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>