鹅厂AI科学家,偷偷把无人摩托写进了年终总结

整理自 腾讯AI Lab量子位 报道 | 公众号 QbitAI

这一整年,腾讯AI Lab都搞出了些什么黑科技?

通用人工智能、AI+行业、前沿研究,是腾讯AI Lab给出的三个关键词。

除了线上的3D虚拟偶像“艾灵”、王者级AI对手“绝悟”,还有线下的“走梅花桩”机器狗、自平衡两轮机器人……

而在医疗、农业、游戏、药物……等行业上,腾讯AI Lab也都实现了AI+应用落地。

当然,在ECCV、CVPR等AI顶会上,同样能看见腾讯AI Lab的不少研究成果。

而通用人工智能(AGI),则是腾讯AI Lab整年里最核心的目标。

双轨并行,探索AGI的无限可能

迈向通用人工智能,创造能感知、理解真实世界,并能有效执行各种不同任务的 AI 系统,是腾讯 AI Lab 成立伊始,就确定的核心长远目标。

为了达成这一目标,除了软件突破、硬件迭代创新,还需要软硬件的有效整合与集成。

2020 年,腾讯 AI Lab 和 Robotics X 实验室主任张正友博士,共同提出了一个全新的概念:虚实集成世界 (Integrated Physical-Digital World,IPhD)。

它将当前在AI、虚拟现实(VR)、增强现实(AR)、混合现实(MR)领域的前景展望、互联网、物联网等思想进行了融合,并呈现出一个交互进化的软件与硬件、虚拟与现实、人与AI和机器人实现AGI的愿景。

目前,腾讯 AI Lab 的所有研究,都可以纳入虚实集成世界的整体框架之下。

在虚实集成世界框架下,现实虚拟化、虚拟真实化、全息互联网、智能执行体四大发展方向,将成为腾讯 AI Lab 和 Robotics X 实验室未来发展的重要指导。

而虚拟人和机器人,是腾讯 AI Lab 和 Robotics X 实验室在 2020 年取得的两项重大突破。

它们是虚拟集成世界框架下的软、硬件智能执行体,同时涵盖其它的一些核心技术,如数字版本人脸建模,就是其中一项将现实虚拟化的成果。

虚拟人:人类在虚拟世界的化身

虚拟人是一类多模态技术,涉及计算机视觉、语音识别/生成、自然语言理解/生成等多种技术。

根据来源的不同,虚拟人大致可以分为两类:人类的数字化模型和虚拟世界原生虚拟人。

2020 年 10 月,腾讯 AI Lab 提出了一种基于 RGB-D 自拍视频创建高拟真度 3D 虚拟人的方法。

这项技术的核心,是一项涉及 3D 人脸 Mesh 估计、高清纹理贴图、法线细节贴图的合成算法,实现了成本极低但速度很快的 3D 人脸合成:

手机拍摄视频输入后,只需要30秒处理时间。

基于人类建模的虚拟人,具有丰富的应用场景。

例如,作为人类在虚拟世界中的化身(avatar),让用户也能参与虚拟世界的各种互动。

这项技术还能用于数字祭奠(纪念已逝之人),或是让人类演员在动画、游戏中扮演角色(比如基努·李维斯在《赛博朋克2077》中扮演的 Johnny Sliverhand)等。

在创造虚拟世界原生虚拟人方面,腾讯 AI Lab 开发的多模态虚拟人「 AI 艾灵」,已于 2020 年 5 月与公众见面,并于儿童节当天,与青年演员歌手王俊凯、和雄安孩子,共同演绎了新歌《点亮》。

AI 艾灵,是腾讯 AI Lab 在视觉、语音、自然语言、人机交互等多模态方面的研究结晶。

它采用的 DurIAN 语音合成框架,融合了腾讯 AI Lab 在语音领域多年深耕的经验。

这项框架,不仅能实现精准且稳健的语音合成,而且还能生成与合成语音同步的高质量人脸表情。

△ DurIAN 工作过程示意图

虚拟世界原生虚拟人,在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域有着广泛的应用前景。

AI 艾灵,就是一个虚拟主播兼虚拟歌手,而且还是创作型歌手。其采用的 SongNet 歌词创作模型,可以根据任意格式和模板,生成相契合的文本,唱出自己写的歌。

虚拟人,是虚实集成世界的重要组成部分。

为了实现虚实集成世界的长远目标,还需要高速实时的物联网、高精度的真实世界模型、更有趣有用的虚拟世界、更安全高效的自动化机器。

移动机器人:「AI+机器人」新进展

腾讯 AI Lab ,一直在与腾讯 Robotics X 机器人实验室合作,共同推进「AI+机器人」的发展。

2020 年 11 月,两项在移动机器人领域的新进展问世:让四足机器人 Jamoca 学会了走梅花桩、还提出了让轮式机器人自主平衡的新方法。

为了让 Jamoca 具备走梅花桩的能力,腾讯 Robotics X 实验室,基于自研的机器人控制技术,为 Jamoca 打造了一个能应对复杂环境的智能大脑。

这个大脑,让 Jamoca 能行走、小跑和跳跃,且能自主定位和避障。

这是腾讯 Robotics X 实验室在机器人感知、运动规划与控制等核心技术的一次展示,体现出腾讯 Robotics X 实验室整机系统设计、搭建的重要能力。

此外,腾讯 Robotics X 实验室还研究了能自行保持平衡的两轮式移动机器人,这是实验室的首个整机自研机器人。

在传统轮式移动机器人的基础上,研究人员增加了动量轮、及电机驱动系统,使得机器人可以在静止及行进状态下,均保持平衡不倒。

基于这个移动机器人平台的两篇研究论文,均被机器人行业国际顶会 IROS 2020 接收为 Oral 展示论文。

这一项目,可以视作腾讯在机器人机械设计、整机系统设计,以及搭建方向能力上的一大里程碑。

移动机器人,是虚实集成世界框架中「智能执行体」的核心组成部分之一,也是实现通用人工智能终极目标的重要途径。

之后,除了让移动机器人更好地理解周围的环境、及时采取合理动作,腾讯 Robotics X 实验室

、和腾讯 AI Lab ,还会继续在多模态 AI 能力与机器人结合领域探索,创造出能密切参与人类生产生活的智能机器人。

AI+行业,让应用真正落地

「科技向善」,是腾讯的核心使命愿景,作为腾讯大家庭的一员,腾讯 AI Lab 也同样秉承着这一使命。

腾讯 AI Lab ,深知 AI 变革世界的潜力。因此,在积极探索最前沿的 AI 技术时,他们也致力于将技术转化为应用,更好地服务用户、造福社会。

总体而言,这些应用,可归纳为AI+医疗、AI+医药、AI+游戏、AI+农业、AI+内容几大方向。

例如,使用 AI 助力抗击新冠疫情的实际应用、更经济高效的药物发现平台。

又比如,智慧农业的进一步发展、机器翻译服务的再度升级、在复杂游戏场景中攻克难题……

一起来看看。

AI+医疗:用AI抗击疫情和辅助病理医生

「AI+医疗」,是腾讯 AI Lab 的核心研究方向之一,这是一个有望造福全人类的研究课题。

去年,新冠疫情肆虐全球,AI 技术在医疗领域,也拥有了更多的应用前景。

2020 年 7 月,钟南山院士团队与腾讯 AI Lab ,利用AI,做出了一款预测COVID-19患者病情发展至危重概率的模型。

这个模型,可分别预测5天、10天和30天内病情危重的概率,有助于合理地为病人进行早期分诊,相关研究发表于国际顶级期刊 Nature 子刊 Nature Communications。

腾讯 AI Lab 在第一时间对代码进行了开源,并构建了一个免费的在线查询服务平台,为抗击新冠疫情贡献了自己的力量。

△ 新冠重症患者早期分期生存模型计算工具

在之前的4月份,腾讯 AI Lab 联合研发的智能显微镜,获得了 NMPA 注册证,成为国内首个获准进入临床应用的智能显微镜产品。

这款智能显微镜产品,集成了目前病理分析与诊断方面的最新技术,针对病理医生工作流程和习惯,进行了多次产品迭代。

测试表明,这款智能显微镜能有效提升病理医生的工作效率、病理分析精确度和一致性,有望缓解医院(尤其是基层医院)病理医生数量短缺、经验不足的问题,是精准医疗从前沿研究走向落地探索的一个良好例证。

11月25日,在中华医学会病理分会细胞学组专家们的见证下,安必平、腾讯 AI Lab 以及腾讯觅影,正式启动了「科技部医疗影像国家人工智能开放创新平台——宫颈液基细胞学AI数据库建设」项目。

这一项目,助力宫颈液基细胞学数据库的建设、标准规范的制定,也将推进病理科数字化、病理大数据、人工智能应用等多个方向的探索。

AI+药物:首个AI驱动的药物发现平台问世

2020年7月,腾讯 AI Lab 重磅发布了首个 AI 驱动的药物发现平台「云深智药」。

云深智药,整合了腾讯 AI Lab和腾讯云在前沿算法、优化数据库以及计算资源上的优势,提供覆盖临床前新药发现流程的五大模块:

蛋白质结构预测、虚拟筛选、分子设计/优化、 ADMET 属性预测及合成路线规划……

在蛋白质结构预测方面,云深智药采用了腾讯 AI Lab 自研的冠军级蛋白质结构预测技术,涵盖两项关键技术突破:基于自监督学习的蛋白质折叠方法、基于深度学习的可迭代方法。

半年内,这项技术在全球唯一的蛋白质结构预测自动评估平台CAMEO上,夺得了五次月度冠军,领先众多国际知名研究团队。

11月,腾讯AI Lab在国际顶级期刊Nature子刊《Nature Communications》上发表了一项研究,介绍了采用「从头折叠」的蛋白质结构预测方法。

这项研究,帮助解析了 SRD5A2 晶体结构的成果,揭示了治疗脱发、和前列腺增生的药物分子「非那雄胺」对于该酶的抑制机制。

在虚拟筛选方面,「云深智药」平台的虚拟筛选模块,首次将元学习和深度神经网络算法用于LBDD(基于配体的药物设计)任务。

通过迁移学习,模块将从其他靶点上面学习到的知识(如分子局部结构对靶点结合强度的影响),应用到目标靶点上,以提高模型的预测精度。

目前,这一算法在数千个实验数据集上预测精度(预测活性与实验测量活性的相关性)的中位数,从目前最高记录的0.36提升至0.42。

而筛选可用模型的百分比,则从56%提升到60%,突破了业界标准。

在分子生成方面,云深智药的分子生成算法,利用AI学习现有数据库中小分子的各种结构信息和靶点关系,进而学习分子空间。

现有模型,目前支持对 319 个Kinase和 52 个 GPC R靶点进行分子生成。

在分子生成这一过程中,云深智药的算法,能够针对不同靶点在分子空间中的映射,完成针对性采样,从而生成可能的靶点活性分子。

而在 ADMET 属性预测方面,云深平台也有出色表现。

目前,药物小分子 ADMET 属性预测模块,已在多个数据集上优于学术界现有最好模型 3%~11%;在合作伙伴的反馈中,平台的自研算法精度超过现有商业软件 6%~37% 不等。

此外,云深智药还采用了注意力等机制,来可视化分子中的子结构对结果的影响,提供模型的可解释性。

当然,平台也提供本地版本等灵活的部署形式,保障用户的数据安全。

腾讯 AI Lab 也会继续推进基于 AI 的药物发现技术,为云深智药平台提供更多、范围更广的功能。

此外,腾讯 AI Lab 还开源了一个大规模自监督分子图预训练模型GROVER。

GROVER,是业界首个开源的、基于深度图神经网络的、图数据的大规模预训练模型。

研究人员可以快速将其作为基础组件,应用到需要对小分子进行编码的药物研发相关研究中,助力药物研发相关应用,例如分子属性预测、虚拟筛选等任务。

AI+农业:iGrow 再获丰收,农业仿真落地现实世界

农业,是事关人类生存的基础性行业。

2020 年,是腾讯 AI Lab 的「AI+农业」方向的又一个「丰收年」。

6 月份,腾讯 AI Lab 与世界著名农业学府荷兰瓦赫宁根大学(WUR)联办的「第二届国际智慧温室种植挑战赛」落幕。

复赛的五支队伍,挑战用 AI 和 IoT 物联网等前沿技术优化种植决策,并远程自动控制温室种植小番茄。

复赛队中,五个 AI 的收成,均超过有20年经验的农业种植专家组。

其中,冠军组 Automatoes 得到满分,实现亩产资源消耗减少16%,净利增加121%,充分展现了农业智能决策与温室自动控制的技术价值,和为农民减负的未来潜力。

此外,腾讯 AI Lab 还携手腾讯TEG架构平台部,借助在第一届比赛中自研的 AI 算法、技术经验,打造的云原生「腾讯AIoT智慧种植方案 iGrow」,在 2020 年已落地中国农业大省辽宁。

第一期番茄试点迎来「小丰收」,每亩每季净利润增加数千元,iGrow 的商业价值得到了初步验证。

△iGrow方案在辽宁温室试点

11 月 27 日,腾讯云(莘县)农业数字经济产业基地开园,这是腾讯集团在全国布局的首个农业数字经济产业基地。

在新的一年里,腾讯 AI Lab 研发的 iGrow 解决方案,将在该基地得到进一步研究和应用。

继化肥、农药和大规模机械化种植之后,AI 和物联网,有望让农业更进一步摆脱靠天吃饭的传统模式。

通过分析和预测天气条件、温湿度、二氧化碳浓度变化动态调整种植策略,可让产量得到最优的提升。

未来,如果再配合自动化温室和垂直农场等新型农业技术,农业的生产效率可望实现质的飞跃,甚至可推广到原本不适宜农业生产的地区,助力消除人类社会仍未解决的饥饿问题。

AI+游戏:游戏仿真世界,「绝悟」AI 策略协作能力再升级

「AI+游戏」,也是腾讯 AI Lab 深耕的研究领域。

基于围棋、《王者荣耀》、《毁灭战士》、《星际争霸》等游戏平台,腾讯 AI Lab 已经研发许多有价值的前沿技术,并创造了中国国家队围棋训练专用 AI 等真实应用。

此外,基于游戏环境开发的深度强化学习方法,在机器人等领域也有重要应用前景。

4 月份,腾讯 AI Lab 开发的围棋 AI「绝艺」,与中国国家围棋队续约三年。

作为「教练」,绝艺能从对弈、复盘、拆解、分析等多个维度,为中国围棋事业的发展提供助力,与人类顶尖棋手一起探索围棋的更多可能。

立足于国民手游《王者荣耀》,腾讯 AI Lab 开发出了策略协作型 AI 「绝悟」。

2020年,通过开放挑战和职业竞技,腾讯 AI Lab 在复杂环境决策、多智能体合作与博弈以及策略预测与规划方面的成果得到了展现。

2020年5月1~4日,「绝悟」首次向玩家大规模开放。

在此期间,从职业玩家、到游戏主播、再到普通业余玩家,都向绝悟发起了挑战,并见识了绝悟在战术规划、玩家行为预测、多英雄配合等方面的能力。

8月18日,腾讯牵头构建的 AI 多智能体与复杂决策开放研究平台「开悟」正式对高校开放,同时开启了首届「开悟AI+游戏高校大赛」。

依托于腾讯 AI Lab 和「王者荣耀」在算法、数据(脱敏)、算力方面的核心优势,「开悟」致力于发展成为国内领先、国际一流的研究与应用探索平台。

11月28日,「绝悟完全体」进入王者峡谷,并在28-30日间开启了三天公众体验。

不同于5月份开放的版本,完全体版本的绝悟解禁了全部英雄池,掌握了所有英雄的所有技能,同时其它多项策略也得到优化。

相关论文,已被AI顶级会议NeurIPS 2020与顶级期刊TNNLS收录。

为了让绝悟 AI 掌握全部英雄,腾讯 AI Lab 提出了一种新方法:课程自对弈学习 (CSPL)。

这是一种让 AI 从易到难的渐进式学习方法:

先引入「老师分身」模型,让每个AI老师通过深度强化学习技术,在单个阵容上训练至精通。

再引入一个AI学生,模仿学习所有的AI老师。

最终,让绝悟掌握所有英雄的所有技能,成为一代宗师。

△CSPL流程图

《王者荣耀》等 MOBA 类游戏非常复杂,同时,涉及多样化的合作与对抗博弈,非常适合作为策略型 AI 的开发平台、用于研发适用于不同场景的通用型 AI 技术。

这类技术,在许多真实世界场景中也有重要的应用价值。

例如,在路况复杂的城市道路上,协调自动驾驶汽车;为快递员或快递无人机,规划配送区域和路线。

除此之外,2020 年 12 月,腾讯 AI Lab 绝悟团队借助「开悟」平台开发的足球 AI 「绝悟-WeKick 版本」,在 Google Research 与英超曼城俱乐部联合举办的足球 AI Kaggle 竞赛上获得冠军。

这项竞赛,使用 Google Brain 基于开源足球游戏 Gameplay Football 开发的强化学习环境 Google Research Football。

这场 Kaggle 竞赛,也是首场相关竞赛。

不同于《王者荣耀》,足球 AI 比赛涉及到 11 个智能体的相互配合、以及与另外 11 个智能体的对抗,同时奖励相比于 MOBA 游戏还更稀疏。

即便如此,WeKick 依然以显著优于第二名的成绩获得了冠军。这体现了完全体「绝悟」底层技术和框架的通用性。

虽然都是 RTS (即时战略)游戏,星际争霸中需要控制多种不同类型不同数量的单位,这些单位又有各自的运动和攻击特点,因而动作空间更大、策略空间更丰富。

腾讯 Robotics X ,开源了首个通用的大规模多智能体博弈训练框架TLeague,并据此训练出能击败大师级选手的星际争霸强AI TStarBot-X。

这个星际AI,只使用了AlphaStar的50分之一的算力。

AI+内容:TranSmart再升级,用AI赋能人工翻译

腾讯交互翻译TranSmart,是目前业界唯一可实现人机交互的互联网机器翻译产品。

经过三年积累,TranSmart的功能,已经覆盖人工翻译全流程,如按键、词、短语、句子、翻译记忆等。

2020年,TranSmart开启商业化探索之旅,获得了业界伙伴的积极认可:

阅文集团的海外编辑人员,将通过网文定制翻译引擎,翻译上千部出海的小说作品;华泰证券的证券分析师,将通过翻译记忆融合与交互翻译,高效发布中英双语研报。

腾讯云官网,在国际版官网和技术文档翻译过程中,将定制翻译引擎准确处理Markdown、XML等标记文本,高效复用术语、双语句对等语言资产,助力腾讯云数百款产品出海远航。

TranSmart继承和发展了交互翻译的技术概念,在保证人作为翻译主体的同时,也具备量身定制的个性化机器翻译,全方位赋能人工翻译过程:

①自动翻译质量:在目标场景中,通过语料增强和模型优化,自动翻译质量稳居行业前列;

②实时译文建议:译文片段智能推荐和整句补全,显著减少用户反复修改错误译文的困扰,大幅改善人工翻译体验;

③翻译记忆融合:动态结合用户已完成的双语句对,生成更符合期望的自动译文,性能显著优于传统静态和增量式训练的机器翻译;

④翻译输入法:参照原文上下文和机器翻译知识,实现精准组词,加快人工翻译过程中的输入效率。

行业应用以外,腾讯 AI Lab在前沿研究上也有不少进展。

前沿研究进展

作为国内领先、世界一流的企业级人工智能实验室,腾讯 AI Lab 一直秉承开放合作的理念,与全球高校和研究机构,共同探索 AI 技术前沿。

2020 年,腾讯AI Lab的高校合作项目「犀牛鸟专项研究计划」,完成了第三年度闭环,共发表高水平论文 50 多篇,项目的多项成果,已应用于智能语音交互产品、直播自动解说系统、和视觉识别系统等。

新的一年,「犀牛鸟」还将继续飞翔,继续发现前沿研究中的挑战性问题并开展原创性研究,同时探索新技术的行业应用案例,打造持续共赢的产学研合作生态和科研成果转化平台。

此外,腾讯 AI Lab 还启动了「开悟」AI多智能体、与复杂决策开放研究平台产学研生态建设,发起了首届王者荣耀开悟 AI 学术交流赛。

此外,腾讯AI Lab还邀请清华大学、北京大学、中科院等 18 所高校师生,开展了百人专项培训和竞赛,为今后向高校进一步开放「开悟」,打下了良好基础。

在学术成果上,2020 年腾讯 AI Lab 和 Robotics X 实验室,在计算机视觉、语音、自然语言处理、多模态、知识图谱、机器学习、机器人等更众多 AI 领域,都做出了业界领先的贡献。

当然,实验室也通过学术会议、期刊和公开平台,分享了这些劳动成果。

在 ACL、INTERSPEECH、IROS、NeurIPS、AAAI 等主要顶级学术会议上,腾讯 AI Lab 和 Robotics X 实验室,整体发表的论文数量位居国内企业实验室前列。

据上海交通大学 Acemap 学术地图统计,腾讯 2020 年在 AI 领域的论文(其中相当大一部分来自腾讯 AI Lab)发表数位列全球大学与机构第 8 位,H-index 全球并列第 5 位。

在中国的大学和机构排名中,腾讯的 AI 论文数量排名第 4, H-index 并列第 2,大幅领先国内其它企业。

下面,将分为几个主题,简单梳理腾讯 AI Lab 在2020年的重要研究成果。

多模态研究

多模态研究的目标,是让 AI 或机器人通过整合多种不同来源的信号,来理解环境和做出判断,比如视觉、雷达、GPS、语音、语言和互联网数据等。

因此,多模态研究,对通用人工智能、虚实集成世界两大长期愿景来说,具有极为重要的价值。

多模态研究虽然重要,但 AI 领域,目前还没有专门面向多模态研究的顶级会议或顶级期刊。

也因此,腾讯 AI Lab 的多模态研究成果,分散地发表在不同的学术会议和期刊上。

2020 年腾讯 AI Lab 在多模态方向上的研究,主要集中于音频/视频/图像与文本的多模态学习。

除了前文已经介绍过的虚拟人成果,腾讯 AI Lab 还提出了一种针对视频中时序句子定位、和事件描述学习模态间交互的新方法,能学习成对模态交互,并改善两项任务的性能。

另外,腾讯 AI Lab 还研究了如何基于场景图分解来生成自然语言描述、通过递归子查询构造改善视觉和自然语言匹配、以及一种新的视觉-文本匹配模型。

△ 用于描述并定位视频事件的视频-文本多模态学习框架

除了视频-文本多模态,腾讯 AI Lab 也在视频-音频多模态上,取得了一些研究成果。

比如发表在INTERSPEECH 2020的一项研究中,腾讯 AI Lab 提出了一种利用跨域视觉,生成特征辅助障碍语音识别的方法。

这种方法利用大量域外音频-视觉数据进行训练,从而为有限、或没有视觉数据的说话人,生成视觉特征。

这项语音识别技术,能够帮助有发音障碍的说话人,有望实现一些重要的「科技向善」应用。

△ 多模态语音分离框架

另外,在多模态人机交互上, 腾讯 AI Lab 还提出了多模态说话人diarization、多模态语音分离、以及多模态语音识别方案。

这是融合音频、视频、 声纹、空间信息等多个模态,针对「鸡尾酒会」一类复杂场景的人机交互整体解决方案。

△ 多模态语音分离、识别的联合训练框架

腾讯 AI Lab 还提出了一种新的深度多模融合框架:信道交换网络(CEN) [12]。

这一框架通过在训练中自我引导地、动态地交换特定通道的特征,在保持足够的模态内学习特征的同时,还能促进模态间的特征交互。

机器学习

机器学习,是 AI 的核心过程和标志性能力。

近些年的 AI 发展热潮,正是源自深度学习等机器学习技术的突破。

机器学习领域的研究重心,除了继续优化深度学习方法、和拓展其应用范围外,还在积极探索其与其它学习范式的组合。

由此,诞生了深度强化学习、生成对抗网络的成功技术。而擅长梳理网络关系的深度图学习,也成为领域的热门研究方向。

2020 年,腾讯 AI Lab 在多个机器学习方向上都得到了重要的研究成果,也为机器学习模型的可解释性、鲁棒性等理论分析做出了贡献。

这些研究成果,多数在NeurIPS 2020 等 AI 领域顶级会议、和 Nature Communications 等顶级期刊上发表。

其中,深度强化学习,是腾讯 AI Lab 的一大核心研究方向。

立足于围棋和《王者荣耀》等视频游戏等场景,腾讯 AI Lab 在深度强化学习方面的探索,已达世界前列水平。

基于这项技术开发的围棋 AI 「绝艺」,已在中国国家围棋队的训练中得到了实际应用。

而《王者荣耀》AI 「绝悟」,也已进化为「完全体」,并通过首次大规模 MOBA AI 智能体性能测试,接受了广大玩家的检验。

完全体绝悟的成功,基于腾讯 AI Lab 对新方法与成熟方法的有效组合,包括课程自博弈学习、多头价值估计、策略注入、蒙特卡洛树搜索和离策略等。

在深度图学习方面,腾讯 AI Lab 也成绩斐然,包括前文提到的,完全基于自监督训练的图神经网络框架 GROVER。

通过在原子、化学键、分子级别的自监督任务设计,GROVER可以从海量的无标签分子中学习到大量结构/语义信息。

同时,为了编码分子中海量的复杂信息,GROVER 还整合了消息传播网络和Transformer,得到一个有更强表达能力的图神经网络模型 GTransformer。

在药物研发上,这一模型具有广阔的应用潜力。

此外,腾讯 AI Lab 还提出了一种基于狄利克雷分布的图变分自编码器框架,并证明了该框架与经典平衡图分割方法的等价性。

腾讯 AI Lab 还通过分子逆合成分析,探索了深度图学习在化学领域的应用。

此外,在 2020 年的 ACM SIGKDD 会议上,腾讯AI Lab、清华大学、香港中文大学等机构联合组织,通过一场为期一天的课程,系统性地讲解了图神经网络。

腾讯 AI Lab 还有一项将深度强化学习与图学习组合起来的研究成果,这是一种针对文字游戏提出的基于分层堆叠注意力机制的深度强化学习算法。

这项研究使用了知识图进行显式推理以进行决策,从而通过可解释的推理程序生成并支持智能体的决策。加上一种新提出的分层堆叠注意力机制,可通过利用知识图的结构来构造推理过程的显式表示。

△ 分层堆叠注意力网络架构

腾讯 AI Lab 在网络架构搜索方面也取得了一些进展。

相较于人工设计网络架构,自动化网络架构搜索效率更高,而且还可能找到人类难以构想出的结构,目前该技术已经在诸多领域得到了广泛应用。

在用于提升网络架构搜索的计算效率方面,腾讯 AI Lab 提出了一种过渡性的仿射参数共享训练策略。

这一策略,对参数共享的程度进行了量化分析,并动态地调整搜索训练速度、和备选网络结构的可区分性,以提升网络搜索的效率与精度。

在结合多任务学习方面,腾讯 AI Lab 采用了基于任务的结构控制器,来针对不同的任务产生针对性的网络结构,并采用元学习的方式,使得网络参数可以快速适应到新的任务上。

此外,腾讯 AI Lab 还在相关理论分析方面做出了一些贡献,包括一项评估神经机器翻译的可解释性方法,可帮助打开深度学习黑箱。

腾讯 AI Lab ,还研究了选择性机制对自注意网络的改善情况。

这项研究,解释了该机制在顺序编码和结构建模上的主要贡献,对于进一步改进自注意力网络,有一定的启发和指导意义。

最后,腾讯 AI Lab 的一篇 ECCV 2020 论文也提出了一种基于神经科学研究的新式卷积:语境门限卷积(Context-Gated Convolution)。

这是一种轻量级的组件,可以很好地应用在现有的卷积神经网络中,在图像识别、视频理解、机器翻译上都可以显著提升现有模型性能。

△ 门限卷积示意图自然语言处理

随着 BERT 与 OpenAI GPT 等基于 Transformer 的大规模语言模型的出现,一些专家认为,NLP将在未来十年内迎来重大突破。

腾讯 AI Lab 正开展研究工作,为推动自然语言处理技术的发展努力。

在 2020 年 7 月举办的自然语言处理领域顶级会议 ACL 2020 上,腾讯 AI Lab 贡献了 20 篇论文,位列国内企业研究机构前列。

在文本理解方面,腾讯AI Lab在2020年4月,开放了文本理解系统TexSmart,可对中文和英文两种语言的文本进行词法、句法和语义分析。

△TexSmart的特色功能

与其它现有公开的文本理解工具相比,TexSmart除了支持分词、词性标注、粗粒度命名实体识别(NER)、句法分析、语义角色标注等常见功能外,还提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。

TexSmart 系统,获得了2020 中国计算语言学大会(CCL)的最佳系统演示奖。

在对话理解方面,腾讯AI Lab提出了对话语义角色标注(Conversational Semantic Role Labeling)技术,将对话的语义表示成多个「谓词-论元」结构。

这项技术可以同时处理对话中常见的信息缺失和指代问题,有效地提升了对话的理解和下游任务的性能,如对话改写和对话生成。

同时,腾讯AI Lab将这项技术与对话理解其他技术结合,在京东智能客服对话比赛中获得第一名。

此外,腾讯 AI Lab 还在长文本阅读理解、从高资源语言向低资源语言的泛化、基于对话的关系抽取等方面取得了一些研究进展。

在语言生成与对话方面,除了前文的SongNet,腾讯 AI Lab 还在如何更好地理解对话上下文、如何打造千人千面的对话机器人、如何融合常识等知识、流畅且符合逻辑的自然语言生成等课题上取得了进展。

相关研究成果,包括面向多轮对话的语义角色标注与对话改写、利用灰度数据增强多轮对话理解、知识融合型对话生成、基于开放领域表格的逻辑性自然语言生成、提升对话一致性的三阶段生成模型等。

在机器翻译方面,腾讯AI Lab致力于改善翻译模型的效果。

腾讯AI Lab提出的数据重生、和多领域通用翻译模型,可以更有效地利用大规模、多领域,混合训练数据。

同时,腾讯AI Lab继续深耕于理解并改进Transformer模型,包括理解选择性机制对自注意力网络的重要性,推理置信度校准研究、评估神经机器翻译的可解释性方法。

受益于此,腾讯AI Lab的自动翻译(中英和英中)系统准确度继续保持国内前列,在国际翻译比赛WMT2020中也取得了1项第一,3项第二的成绩。

计算机视觉

2020 年,腾讯 AI Lab 在计算机视觉方面成果颇丰。

在计算机视觉领域顶级会议 CVPR 和 ECCV 上,腾讯 AI Lab 各有 11 和 18 篇论文入选,包括多模态学习、视频内容理解、对抗攻击与对抗防御、基于生成模型的图像编辑等多项课题。

此外,腾讯AI Lab在 NeurIPS 2020 上,也有多篇相关论文入选。

先来看针对视觉的对抗攻击问题,这是基于深度神经网络的计算机视觉模型的一大核心弱点,也是很多实际计算机视觉应用的最后一道门槛。

当然,这也是腾讯 AI Lab 的一大重要研究课题。

2020 年,腾讯 AI Lab 提出了一些实现对抗攻击的新策略,比如一种针对深度聚类的对抗策略。

这项策略可以挖掘易于使聚类层出现预测偏差,但不会影响深度嵌入网络性能的样本。

论文所提出的无监督对抗聚类网络,能利用对抗攻击与防御训练方法,提升深度聚类网络的鲁棒性。

另一项发表在ECCV上的研究也提出了利用扰动分解实现稀疏对抗攻击的新思路。

△ 稀疏对坑攻击示例

同时,腾讯 AI Lab 也提出了一些用于防御对抗攻击的技术,包括一种针对对抗攻击的鲁棒目标跟踪方法,能在产生轻量对抗扰动时候,将时序信息纳入考虑、从而提升模型鲁棒性。

在图像去模糊和超分辨率方面,腾讯AI Lab也成果颇丰。

在 ECCV 入选论文中,腾讯 AI Lab 有两篇论文研究了如何消除视觉场景的雨滴,包括一种基于语义理解的双目去雨方法、和一种利用雨痕和雨雾分析进行图像去雨的技术。

超分辨率方面,腾讯 AI Lab 提出了一种结合3D脸部结构先验的人脸超分辨算法,该算法能充分利用脸部结构、及身份信息,来辅助处理困难的脸部姿态变化。

当然,腾讯 AI Lab 也没有缺席热门的视频研究领域。

2020 年的相关研究,包括一种可用于时序动作分割的边界感知级联网络,这种新的级联模式,能让模型自适应地调整感受野,并对语义模糊的视频帧做出置信率更高的预测。

此外,腾讯 AI Lab 还提出了一种新的短时序动作检测框架——移动中心点检测器(MOC-Detector),其可将动作实例视为运动点的轨迹,实现高质量的长时动作检测。

手语自动翻译上,腾讯 AI Lab 也做出了一些研究进展。

它提出了一种基于多粒度视频片段的、手语翻译层次化特征学习方法。

这种方法,能自适应地利用多粒度时序信息,对视频语义进行局部和全局建模,从而极大缓解对手势分割的需求,提升翻译质量。

希望这项研究,能更进一步转化为「科技向善」的应用成果。

语音

高质量语音数据识别,是一个已经基本得到解决的问题,但在现实生活应用中,语音领域还面临着鸡尾酒会问题,以及在人们自由聊天时,口语化表达、风格多样等问题。

高自然度和表现力的合成语音,仍旧是语音合成的研究目标。

2020 年,语音技术顶级会议INTERSPEECH,共接收了 16 篇腾讯 AI Lab 论文。

其中,既有腾讯在语音前沿技术方向的进一步探索,也包含一些理论研究和分析,同时还有在科技向善与文化遗产保护等方面的应用成果。

在这其中,腾讯 AI Lab 为解决鸡尾酒会问题,提出了多项潜在的解决策略。

例如,使用视觉数据,进行辅助识别。

又或者,使用带强干扰的声源数据,来进行学习。这能「迫使」模型在非常糟糕的干扰条件下,学习到足够具有区分、泛化性能的表征。

此外,也可以改进多通道语音增强波束形成技术。

通过提出全新的基于递归神经网络的波束形成方法,领域首次突破了传统波束形成技术,在PESQ等客观指标、和WER等语音识别指标上,同时达到最优。

腾讯AI Lab还提出了一种端到端的多通道语音分离技术, 相比传统的多通道技术,性能提高了10%。

另外,在语音识别方面,腾讯 AI Lab 着力提升复杂条件下的识别性能。

研究人员通过有效结合分离和识别技术,将在各种干扰下的语音识别准确率,相对提升了20% ,该技术正广泛应用于信息流产品视频内容理解、短视频及直播视频字幕生成中。

而在语音合成方面,DurIAN 是腾讯 AI Lab 多年研究的重要结晶,也是腾讯虚拟人语音系统的核心组件。

DurIAN 不仅能合成更加自然流畅的说话语音,还能用于合成歌声,腾讯 AI Lab 甚至还探索了其在京剧合成方面的应用,从技术角度为中国传统文化的保护和传承提供一个方向。

腾讯 AI Lab 的语音合成技术,在2020 年完成端到端合成工业化落地之后,不断朝着更高的目标演进。

目前在语言合成上,不但发音人音色数量大幅增加,每个音色都具有多种情感和多种不同风格的语音合成能力,还可以综合不同风格和情感,实现针对不同场景、不同文本的、更自然的表达。

在此基础上,腾讯 AI Lab 还实现了韵律词、字级别的细粒度控制能力,可以灵活地对单个字、词的语气情感进行调节。

在一句话内部,也能实现丰富的变化,大幅提升了合成语音的表现力和感染力。

细粒度控制的合成技术,正在落地到游戏解说和小说合成等应用场景中。

秉承「科技向善」的信念和「Make AI Everywhere」的愿景,以通用人工智能和虚实集成世界为长期目标,腾讯 AI Lab 在这一年中做出了更多积极的应用和研究贡献。

这些贡献,涵盖虚拟人、多智能体、农业、医疗、药物研发和机器人等诸多领域。

期待腾讯AI Lab在2021年的表现。

本文来自网络,不代表i格子网立场,转载请注明出处:https://www.igez.com/archives/223225

作者: vv1

返回顶部