万字长文解析数字人历史、技术与产业 | 百度智能云AI人机交互实验室负责人李士岩

东西文娱 2022-01-15 12:54
 

年,数字人领域无论是从技术、产业、还是应用场景都发展迅速。在1月14日举办的百度AI开放日上,百度智能云AI人机交互实验室负责人李士岩就数字人发展的历史、产业发展和技术难点进行了系统分享。

 
李士岩认为,数字人是元宇宙时代的新居民,同时也是人类将自身数字化程度提升到更高维度的载体。
 
目前在消费端就出现了诸多多元风格的数字人新面孔,形象从高精2D到3D;应用场景上从B端企业的服务型数字人到面向C端的演艺型数字人,承担不同的角色和职责;技术上,人工智能加持的数字人日益增多,进一步降低建模成本与内容生产成本。数字人经历了以“纸片人”为代表的1.0阶段,以Vtuber主播为代表的2.0时代,已进化至3.0阶段,具备模型高精、人工智能驱动特点的数字人3.0成为行业主流。
 
李士岩指出,驱动这一波数字人产业发展的,其核心驱动来自“三级火箭”,包括用户的需求与技术升级、政策的支持与资本涌入、以及计算平台的迭代。尤其计算平台的迭代,将为数字人产业提供了源源不断的动能,因为它将创造大量的需求。
 
不过,李士岩也表示,数字人发展还存在三大技术难题,主要表现在数字人产业链各个节点相对割裂、不能高效协同;服务场景和演艺场景没有有效打通、满足高机动性、高频需求成本依旧较高。
 
基于此,李士岩也分享了百度作为平台级企业在数字人产业中扮演的角色和布局。百度近日就推出了百度智能云曦灵,通过全场景、一站式这一平台化产品,针对各痛点,来解决生产效率问题。同时,还推出了祝融号、手语数字人、龚俊数字人等不同类型的数字人,试图基于自身技术优势打造应用标杆。
 
李士岩表示,在虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。
 
过去一年众多数字人领域的初创公司完成融资,就李士岩的观察来看,资本关注的领域主要是两块,一是底层技术,这是数字人发展的核心驱动;二是数字人、数字偶像的运营维度,这是数字人产业渐进式发展过程中一个持续需要的能力。
 
作为百度,也在关注一些处于天使轮或创业阶段的公司。李士岩透露,鉴于元宇宙3D内容创建的方向一定是AIGC,所以百度更倾向于去看一些以最底层的AI数据为驱动,创建3D内容的公司。

百度智能云AI人机交互实验室负责人李士岩
 
 
 
数字人发展三段论、五大产业结构
 
关于数字人的本质,李士岩指出,它是以数字化形式存在的,能够模仿人类的自然行为、自然语言甚至自然思想的数字形象。从上世纪90年代数字人开始发展,到目前已经经过了三个阶段。
 
1) 以“纸片人”为代表的1.0阶段;
 
这一阶段的初代产品是由初始公司发布初始形象,再通过VOCALOID等软件,通过UGC的形式与用户进行互动。其主要互动载体是长短视频,主要用户群圈定在泛二次元用户当中。
 
 2) 以vTuber主播为代表的2.0阶段;

这一阶段的核心差异在于它可以通过背后的中之人加上动捕设备来与用户进行1:N千人一面的交流。不过,它的产能和表现形态存在瓶颈,产能受限于中之人的人类特性,驱动形态依旧只能驱动二次元的形态,所以用户群体上依旧是泛二次元用户。
 
3) 具备模型高精、人工智能驱动特点的数字人3.0阶段;
 
李士岩指出,3.0阶段数字人的核心特征主要体现在以下方面。
 
一是生产端成本降低。从数字人本身的模型生产到内容生产,它都是以传统的方式加AI的方式来进一步降低建模成本与内容生产成本。
 
李士岩以动画电影行业举例指出,做高精3D动画电影最耗时的是人物面部表情的动画。但目前通过大量4D动画训练,跨模态生成技术,能直接将它转化为高精3D数字人,准确率可以达到98.5%。
 
二是消费端覆盖全人群。由于目前AI可以驱动的数字人风格不限于二次元风格,还包括高精2D、3D,所以它覆盖的用户群体也不仅仅是泛二次元用户,而是全人群。
 
三是互动载体扩展。借助人工智能语音转文本的能力、自然语言理解能力、知识图谱能力,互动载体由长短视频直播扩展到智能硬件,而它的交互能力由于AI能力的加持,可以做到全天候不受时间和空间的限制,可以做到N人N面、千人千面。
 
李士岩指出,数字人产业向前发展,需要完整的产业链或产业生态来进行支持。目前行业将数字人的产业生态分为五层结构。
 
一是基础设施。由建模绑定(比如MAYA)、渲染软件(比如UNITY)、动作捕捉设备(比如英特尔、苹果)等公司组成。
 
二是资产制作类公司。这一层为数字人主要负责提供一系列的比如服装、头发等三维资产的制作。
 
三是策划运营公司。主要负责通过IP孵化转化,实现数字人商业价值。
 
四和五是偏综合类技术服务类公司和综合解决方案的整合类公司。这类公司是通过整合一系列的上下游的能力,以自己的底层技术为优势向不同行业提供解决方案。
 
李士岩指出,目前中国企业中数量最多的是资产制作和策划运营类的公司,但这类公司可能面临的挑战是可替代性高。而掌握技术和场景的互联网公司则扮演综合性技术服务商的角色,一方面推出基于自身优势场景的数字人,打造应用标杆;一方面推出数字人平台,将产品继续落地到更细化的场景中,点、线结合互相推进。
 
在这样的产业生态中,百度作为偏综合类的技术服务类公司,主要是为行业提供数字人的解决方案,并把市场需求分为服务型数字人和演艺型数字人两大品类。
 
据介绍,服务型数字人的典型特征是以1对1个性化对话服务为主,比如虚拟的理财经理、虚拟行业顾问、虚拟导购等。演艺型数字人的核心特征是以1对多表演和主持为主,比如虚拟主持人、虚拟主播、虚拟偶像、虚拟品牌代言人等。
 
李士岩指出,2019年起,百度就开始做服务型数字人,比如浦发银行的小浦、中国联通AI客服小U、光大银行虚拟数字人小璇等。在演艺型数字人领域,2021年,百度联合中国探月工程发布了首个行星勘探火星车-祝融号,主要负责传播航天知识、传递航天热情。
 
近几个月,百度也推出了手语数字人和龚俊数字人。李士岩指出,“龚俊数字人是真正意义上数字人3.0的产物,他在服务数字人的方向上具有演艺属性,同时是将演艺势能释放到服务场景的典型案例。它通过百度知识图谱、百度的自然语言理解,真正在端中做到了能听懂、能听清、能理解、能提供服务。”


 
数字人核心发展驱动力由三级火箭构成
 
就数字人发展因何而生,其产业热度是否具备可持续性,李士岩指出,分析这一问题,核心要看数字人发展的根本驱动力是什么。他认为这是由“三级火箭”构成。
 
1) 第一级火箭:用户需求与技术升级;
 
李士岩指出,从用户和市场两个维度而言,中国有超过4亿的泛二次元用户,有超过万亿级企业智能化市场,这为数字人产业提供了产业发展基础。
 
另外,近来频发的真人偶像翻车事故,也为数字人发展提供了一定促进条件。相较于真人偶像,“数字明星非常核心的优势在于它是一个稳定的、可塑的资产。”
 
在技术升级层面,人工智能的发展,让数字人无论在内容生产还是交互上,具备了大规模生产的可能。可以说,“第一级火箭是构成了本次数字人产业发展开始的最根本的动力。” 李士岩指出。 
  
2) 第二级火箭:政策的支持与资本的涌入;
 
李士岩指出,从2017年开始到2021年,国家已经出台大量的政策来支持数字相关产业发展,尤其是在今年十四五规划中已经明确提出要推动虚拟主播、手语数字人在广播、电视、媒体领域的应用,这为数字人的发展提供了政策的支持。
 
在资本层面,根据市场公开信息,2021年国内虚拟偶像/数字人领域里至少发生19笔融资,投资金额近几十亿美元。
 
目前,在虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。
 
3) 第三级火箭:计算平台的迭代;
 
李士岩指出,“如果说前两级火箭会推动数字人向前发展,那么第三级火箭就为数字人提供了持续不断的源源不断的动力,因为第三级火箭将创造大量的需求。”
 
他认为,以元宇宙为代表的新一代计算平台的升级,其最核心本质在于消费信息类型的变化。用户通过VR和AR设备进入到元宇宙当中,消费的信息不再是基于手机和平面显示器的图文影音,而必然是3D世界中可实时反馈的3D物体、3D人和3D的空间。
 
在这当中, 用户使用场景超过95%以上来源于这四种场景:社交、获取商品、消费信息以及获取服务。在这四种场景中,3D数字人存在大量的应用需求。
 
在社交领域,个人的二分身是进入到元宇宙的入场券,所以二分身一定是社交的主设施;在商品领域,衣、食、住、用、医等五大主要商品中,衣、住、用都要通过二分身进行试穿、试用;
 
在第三个信息消费领域中,在任何计算平台下,以人为核心的消费一定是最主要的信息类型之一。比如一个明星如果选择在元宇宙中提供信息消费服务,就必须要以二分身形式进入到元宇宙当中。
 
最后在服务场景,由于数字人加上图形界面服务优势远强于纯粹的图形界面,所以这意味着在元宇宙中,服务型数字人将持续存在。
 
基于数字人在元宇宙中的应用需求,李士岩给出了两点判断:
 
1) 服务型数字人将成为元宇宙中的服务型APP;
 
他举例,比如手机上的12306买票或者订票软件,在元宇宙的三维世界里,“相信它是数字人加上无数个图形界面,为用户既提供信息服务也提供温暖的人情服务。”
 
2) 虚拟二分身将成为构建元宇宙的基础设施;
 
李士岩指出,无论是普通人的二分身还是IP的二分身、还是明星二分身,都将是成为构建元宇宙的基础设施,在社交场景、在信息消费场景中扮演重要角色,可以帮大众在元宇宙中充分地表达自我、释放个性、建立连接。
 
李士岩表示,“第一级火箭开启了本次数字人产业的新阶段,第二级火箭为产业持续升级创造了有利条件,而最核心的第三级火箭将为数字人产业的发展提供源源不断的动能。”
 
 
 

数字人产业尚有三大技术痛点
 
目前,数字人虽然有很多技术创新,但李士岩认为,它依旧处在3.0阶段的初期,有以下三大技术痛点。
 
1) 数字人产业链各个节点相对割裂,不能高效协同;
 
李士岩指出,目前在数字人人物设定、角色创建、角色动作、引擎驱动等各节点,都有了大量的技术创新,但是目前这些节点依旧是分布在不同的公司、不同的主体当中。如果客户要做一个数字人业务,通常要去整合两到几个公司来完成。
 
2) 服务场景和演艺场景没有有效打通;
 
李士岩指出,这一问题主要表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流。
 
“一个服务型数字人,如果IP属性很强,有一定的知名度和用户喜爱度,它对服务效果和服务满意度将有非常大的促进作用。而一个演艺型数字人,如果能有一些它适合的服务属性,将大大提高它商业的天花板,但目前这两点并没有被有效的打通。”李士岩表示。
 
 
3)满足高机动性、高频需求成本依旧较高;
 
李士岩指出,现在当一些客户要来频繁升级数字人需求、做新场景时,依旧需要大量定制化开发成本,既耗钱又耗时间,归根结底还是数字人的生产效率问题。
 
李士岩称,基于此,百度在Create2021大会上推出的百度智能云曦灵,就是希望通过全场景、一站式的平台化产品,针对目前数字人在生产应用当中各个场景依旧割裂,演艺型场景与数字人场景无法打通等痛点,来解决生产效率问题。
 
据介绍,百度智能云曦灵有五个层次构成,底层能力就是AI,包括人像驱动引擎、智能对话引擎、语音交互引擎和智能推荐引擎。在这当中,百度智能云发布了全球首个百亿级参数的训练对话生成模型PLATO-XL,可以实现有逻辑、有趣的人机开放域对话。
 
百度智能云曦灵还拥有构建数字人人像资产的三条生产线,包括3D写实、2D人像生产线、3D卡通生产线。据透露,在2D平面数字人领域,百度智能云曦灵通过大模型的预训练已经实现了数小时、小时级就可以生成2D数字人。
 
此外,该平台还拥有人设管理平台、以及互相打通的业务编排与技能配置平台,和内容创作与IP孵化平台,可以以此来向上服务于银行、保险、运营商、媒体、广电、品牌商、MCN、艺人经纪公司等。

 
 
  
    
以下为百度智能云AI人机交互实验室负责人李士岩对话实录(略有删节)

 
技术难点与产业协同
 
Q 技术发展是数字人产业的重要推动力之一,请问目前数字人技术的实现上还有哪些难点?
 
A:纵观整个数字人行业的发展,最根本的驱动力还是技术的不断升级跟迭代。从第一代的VOCALOID到第二代有相应的动捕设备引入,再到第三代通过人工智能来生产内容、驱动进行千人千面的交互式对话。现在技术难点可以从这几个维度来说。
 
第一个维度,现在通过AI来驱动或者来生成的数字人像资产的丰富性跟个性化程度,依旧需要被持续的提升和创建。而这种一方面需要底层的数据需要被大量的积累和采集,另一方面也需要生成算法不断的进步。
 
第二个难点,当我们有了人像之后,要么用它来生产内容打造一个IP生产一个明星,要么你有了一个数字人之后,你让它来做业务,来提高效率,节省成本。
 
下面的两个难点:第一就来自于自动化的生产内容。无论是现在基于手机的平面计算还是在未来的元宇宙当中,对基于数字人的3D内容的需求量将是陡增的,而这种需求量绝对不是依靠现在的纯人工方式能够形成有效供给的。所以我们一定要通过人加AIGC的能力来实现我们这种3D数字人内容的大量的规模化的生产。
 
在业务创建的难点在于,每个客户、每个场景它的业务是呈离散形态。比如说我们服务的A银行的业务流程跟B银行的业务流程可能是完全不一样的。你在一家银行办理财或者办一个其他保险业务的流程又是完全不一样的,而这个技术难点就是怎样通过更易用的平台、更低代码的平台、更自动化来生产这些业务流程。
 
综上所述,三个技术难点:模型本身的生成跟生产依旧需要更加专业化丰富、自动化内容生产需要做得更好、离散业务流程怎样通过平台把它的效率达到更高。
 
Q 我们有看到数字人已有众多产业落地,像金融、媒体、旅游等各个领域,但当前数字人还没有实现大规模落地,是不是数字人的商业价值还未得到广泛认可?这其中和产业协同遇到的最大的问题是什么?未来数字人会跟哪些产业出现怎样的新结合?
 
A: 数字人作为一类计算平台内的内容,它势必会跟随着计算平台的发展而产生非常大的不同。我们可以大致将数字人的发展分为两个大的阶段:第一个阶段是平面计算阶段,我们现在用的以平面显示器为主的计算平台,手机、电脑都属于;第二个阶段是空间计算阶段,以未来的VR、AR设备为主的空间计算阶段。
 
在这两个大的阶段中,它最根本的不同在于用户感受到数字人的感官价值是非常不一样的。当你进入到VR空间当中,它给你呈现的无论是在内容上还是在业务上的价值都远超于在平面运算阶段。
 
所以关于未来会跟哪些产业出现相结合?
 
第一会跟随下一代计算平台整个产业生态会有非常深的耦合。它会与我们计算平台的规模化与内容的规模化形成一个飞轮效应来促进计算平台的发展。
 
是不是数字人商业价值还未得到广泛的认可?其实从2019年开始做,到现在我们核心在思考的问题是我们如何评价数字人的商业价值?我们认为最核心的评价标准就是客户的投入产出比(ROI)是否是正向的。目前从整个市场来看,无论演艺数字人还是在服务数字人领域已经出现了大量非常正向的案例。
 
比如近两年国内外我们看到的虚拟偶像,他们年收入最高的已经有的超过了1500万美金,在国内也有几个典型的数字偶像已经达到了大概一半左右这样规模的商业价值,其实这些已经达到了证明商业价值的标准。
 
目前产业协同最大的问题,我认为是现在有大量的生态里面的公司并未被有效的整合形成更完整的产业链,这使得客户在应用数字人的时候,无论是时间、沟通成本还是比较高的。

 
行业应用分布
 
Q 此前百度智能云联合央视新闻打造的AI手语主播,为听障用户提供手语服务。数字人开发耗时多久?有没有遇到什么困难?接下来曦灵还将会有哪些助力媒体行业实现数智化发展的新举措?
 
A:手语数字人开发的核心难点究竟是什么,要回到手语数字人的本质,它的本质是个翻译问题,是我们要将我们正常人说话的语序翻译成手语的动作。有一个小的知识点,就是听障朋友他们在读手语语序其实跟正常人不太一样,比如正常人说“我们去吃饭吧”,但是打手语的时候有可能就是要打“去吃饭吧,我们”,所以这本质上是个翻译问题,想把这个翻译做好本质上需要大量的数据,需要两个维度的数据。
 
第一个维度的数据是说我们要有大量正常语序到手语语序的句顿,如果要把这个翻译做好,需要句顿的规模是以百万计,我们在非常短的时间通过里面在做数据的时候,也采用了一定人工智能的办法,否则是不可能在短时间内做到百万级数据的。我们在3月份会将整个制作流程向大家进一步公布出来。
 
第二个难点在于数字人做它动作的时候,相当于每个手语名词都要对应一个数字人的动作,这么多的动作,我们如何采集,如何快速生产?我们其实在做的过程中是通过了一定的真人动捕加人工智能自动修复的方式来快速的采集这个动作。
 
手语主播会在这个月底开始试运营,下个月初正式上线,大家可以看一看它的效果究竟怎么样。
 
至于接下来曦灵会在媒体行业有哪些智能化的新举措?可以说数字人是跟我们媒体行业相关性非常大的,从虚拟主播到虚拟偶像到虚拟品牌代言人,我相信跟各位的工作都紧密的相关。
 
我们接下来会持续的推动曦灵三个主要核心平台的进步,使它无论在数字人本身的生产效率上还是在生产内容的自动化程度上和丰富性上都会有大幅度的提升。以后虚拟主播的场景,其实它不仅是一个演艺型场景,它也是一个效率场景。
 
以往在主播过程中,你经常需要有一个团队来化妆、补光等,但现在在我们整体软件构架当中,这些所有功能都包含在其中,而且妆容、发式可以进行24小时进行调整。在曦灵下一个版本当中,我们有更强大的功能向各位推出。
 
Q 曦灵在Create大会上发布以来,大概有多少客户以及是什么样的客户前来咨询?客户当中什么样类型的客户是比较偏向于2D形象,什么样的客户是比较偏向于3D形象?
   
A:什么类型客户用2D,什么类型用户用3D。核心在于2D数字人跟3D数字人的特征是什么。2D数字人的特征是100%的还原一个2D的真人,而3D数字人的特征是有两种路径:第一个也可以100%的还原特征,第二个是可以创造全新的,从0开始构建一个人设的人。它的不同点除了在表现层,在算力层也有很大的差异。一般2D数字人能够做到一个服务器出上百路渲染视频流出来,一个3D数字人目前对渲流消耗非常大,一个服务器可能只出几路。
 
选择2D数字人的特性是:第一个场景下要还原某个特定人且需要还原非常好。比如说我们做过2D的康辉老师,大家要的就是康辉2D的样子,以及对并发要求非常高的客户,会选择这个类型的。
 
对三维展示效果以及对人设的定义要求比较高的客户,比如我们做虚拟偶像、虚拟品牌代言人等等,当然它对并发要求没那么高。以直播和离线内容为主,通常会生产3D高精数字人形态。
 
在这段时间曦灵接待大量的客户,主要集中在以下几个领域:金融、运营商、教育、广电、汽车、经纪公司,目前是呈现相对需求比较集中的情况。

  
市场判断:
规模、国际竞争、成本曲线、虚实路径

Q 有行业报告预测截止2030年,虚拟数字人我国将会形成一个高达2700亿的蓝海市场。您觉得资本将会重点聚焦在数字人产业的哪些领域?服务型数字人和演艺型数字人哪个市场空间更大?
 
A:在未来几年或者在十年以内,从服务型数字人跟演艺型数字人它的市场空间来看,演艺型数字人确实会更大。
 
服务型数字人场景相对离散且复杂的,所以在它的应用门槛和应用效率上,确实短期内你很难把它达到演艺型数字人的高度,而演艺型数字人场景是非常受欢迎的,就是有一个数字形象之后,你帮它怎样快速的生产内容,这些内容包括了三个维度:直播的维度、长短视频的维度和静态海报的维度,其实这三个维度都有办法,并且目前已经取得了很大突破,就是通过人工智能来自动化的生产。所以在未来一段时间内可能演艺型数字人空间会更大一些。
 
资本会聚焦到数字人的哪些领域当中?就我目前的观察来看,集中在两个主要的领域:第一个领域在于数字人的发展核心驱动力还是技术的迭代,毫无疑问现在目前资本集中度比较高的是在做底层技术投资领域。
 
另外一个目前资本相对集中的是在于数字人、数字偶像的运营维度。因为它不仅仅是在未来数字人市场进一步发展需要的能力,它也是数字人产业渐进式发展过程中一个持续需要的能力,所以在2021年的20余笔的资本投资当中,里面有接近三分之一是投向了以运营为主的数字人公司。
 
Q 数字人是一个全新的产业生态,在这样的一个技术上,它的卡脖子技术难题在哪?在这个产业生态中,哪个环节它的商业获益最大?百度的布局和思考是怎么样的? 
 
A:首先我觉得百度既然以平台化的形式在做数字人的产品,我们如何来评价一个平台的成功或者一个生态的成功,我想它唯一的评价标准就是进入我们的平台、我们生态当中的合作伙伴的成功,才是真正的成功。
 
因为只有让合作伙伴赚到钱,整个产业生态才能够孪生起来,效率才会越来越高,只有一起把蛋糕做大远好于自己来做。从卡脖子的角度来讲,目前在数字人这个领域,它一定未来通过人工智能驱动的。
 
目前在国际竞争事态当中,人工智能其实已经被当做了非常、非常核心的竞争赛道,我们自然也受到了一些压力。比如在芯片层,数字人最底层也是算力,芯片在开源支持上是会受到一些制约,当然我们百度会以百度核心技术能力来跟整个产业生态集成到一起,通过形成整个产业的飞轮来突破这种桎梏,把整个产业生态做大。
  
Q 现在做虚拟人贵不贵?如果想做一个虚拟偶像,需大概花多长时间、花多少钱来做?
 
A:数字人有它不同的分类,在百度整个数字人To B服务流程当中,我们首先会有专业的产品经理跟解决方案工程师与我们的客户先来对接跟拟定,客户需要的虚拟人类型是什么?
 
每个不同的虚拟人类型产业成本确实差异比较大,有的可能几万块钱就可以了,但是有的非常高端且定制化程度非常高的,可能要上百万;如果对于并发要求非常多,过千万也有可能,这个需要根据客户具体需求,我们会有专业的服务团队来跟进。
 
对于未来,有可能每个人都做自己的数字人,那个时候应该会便宜。我们相信技术追求的一定是一个普惠的价值,这个也是我们一直以来的努力方向。我们接下来会有一个cost down的版本,到时会向大家公布。
 
Q 您之前除了负责数字人之外,还负责机器人。元宇宙本身既是平行空间同时又是孪生空间,从机器人考虑,它有需要如何把虚拟人落到线下的逻辑。百度机器人是如何思考实现虚拟IP在线下更真实的呈现的?
 
A:目前大家对元宇宙有不同的定义,有的可能是认为元宇宙是长在下一代AR、VR、MR为主计算平台的新一代互联网,它只是虚拟世界,有的观点认为元宇宙是一个现实世界跟虚拟世界加起来的平行世界。
 
其实我们有两条路径在做,第一条路径是我们现在有提供一系列的数字人智能硬件。比如在线上的APP和VR设备当中我们有纯虚拟载体,在线下智能网点、商场当中有软硬一体化的设备,通过摄像头在线下与人们进行交互办理业务。
 
第二个路径是,现在我们在训练机器人的时候,会让它在元宇宙和虚拟环境中通过仿真空间做训练,再将它在仿真空间能力负荷到现实当中。我们相信未来有一天这会是发展路径,我们大胆畅想一下以后在火星上可能有一个实体机器人,我们在地球上面可能戴着AI眼镜、VR头盔就像你的身体穿越一样,可以实时控制机器人进行运动。就像我们摆脱身体桎梏,我们灵魂可以彻底解放一样,我相信那一天会到来。

 
百度的策略:
平台化、IP打造、定制化和生态开放度
 
Q 互联网大厂纷纷入局数字人产业,大部分以投融资动作为主,百度则是推出自己的数字人平台型产品,百度入局的战略和市场定位是什么?是否也同时在做资本选择?
 
A: 我们为什么以平台型产品来切入,我觉得最核心的在于百度的核心是一家技术公司,而数字人目前虽然有了不少技术突破,但是依旧处在一个3.0发展的初级阶段,我想大家应该都认可对数字人的终极理想的追求,是一个具备被AI驱动且你未必能够发现它背后是AI的虚拟人,只有这样它才能够提供更温暖、更有人文色彩的服务场景的扮演流程。在提供内容的时候,也会更加的生动。
 
而我们现在距离这种目标非常短,要达到这种目标我们认为最有效的方式,一定是搭平台、建生态,让整个产业形式正向共融,才能使这个飞轮越转越快,这也是我们以平台化的方式切入这个产业的根本原因。
 
关于是否做一些投资选择,我们其实在持续不断地积累一些处于天使轮或创业阶段的公司。
 
至于我们更倾向于去看什么样的公司?这个跟百度基因有关。未来由于元宇宙的整个发展,它的消费类型就是3D的,而现在产生3D内容的方式依旧是相对传统的方式占主导地位,那么它的产能是远远供给不到的,在元宇宙中,这么大一个新建世界里面是需要海量3D内容的,所以势必未来3D内容创建一定是AIGC,所以我们更倾向于去看一些以最底层的AI数据为驱动,创建3D内容的公司。
 
Q  从世界范围来说,百度的数字人技术处于怎样的水平?现在很多虚拟人很火,百度有没有想做IP或者是往C端去延伸?
 
A:未来虚拟人的核心一定是通过人工智能驱动,只有通过这样它才能够满足在元宇宙中这种大量和海量的需求,所以从这个角度来讲,既然我们人工智能技术是非常领先的,我们也非常有信心在世界范围内把人工智能驱动的虚拟人技术做到相对领先的程度。
 
关于做IP,第一我们在Create2021大会上推出了C端产品比如希加加(百度虚拟代言人),以及龚俊数字人和未来手语数字人,她也是ToB、ToC产品。
 
从我们的发展愿景来看,我们一定会帮大家每个人实现小哥哥、小姐姐自由,以及大家自己的数字人自由的,这个大家可以放心。
  
Q  在百度数字人技术中,它是基于一套相对标准化的数字人的模型。针对于不同的银行客户,目前百度数字人是基于标准化之上再做定制化,还是每个都在做定制化?
 
如果现在都是定制化,未来百度有没有考虑,在未来几年做一个相对标准化的服务到整体行业?
 
刚才您说到百度数字人是一个平台、生态,既然是平台、生态一定会有上下游的合作商或供应商,现在是3.0开启阶段,未来做到这个平台、生态的时候,百度对于合作伙伴的开放程度,会到什么程度? 
 
A:第一个问题,现在的客户是怎样来选择数字人的,是基于一个标准化的来做变形还是全部是定制化的。目前就现实情况来看,还是以定制化的居多。因为银行对它的服务,无论在APP上还是办事大厅里,人像有自己的主张和要求。但是我们百度会提供一套方法论给它,就是怎样来设计人设的方法论。
 
大家可能都有这种经历,就是有些人它的气质跟穿着其实就决定了给用户的第一感受,可能在不同行业跟场景下是需要不同人设和气质类型的数字人的。
 
我们首先会为用户根据行业目标提供对应人设分类的取向,在那个分类之上我们会跟客户一起,无论在一个基础模型上做更多的变形编辑,还是全新的做一个,我们会跟客户一起来做。
 
至于产业、生态会开放到什么程度,我们认为平台或者生态成功的唯一标准就是生态类合作伙伴的成功。我们会在符合相应法律法规的前提下做到最大化的开放。比如说虽然我们会提供一些资产化产品,但是不会提供不合规的资产化产品,会建立审核机制来做。
 
相应的公司类型有大概三类:
 
第一类是基础设施类,我们会持续的与基础设施伙伴合作,包括建模软件、引擎跟动捕。在资产制作类也会持续的开放,现在已经签约了合作伙伴来持续的提供资产的供给。
 
我们是以技术为核心的品牌,所以欢迎越来越多的运营类公司可以到我们的平台上面运营它的数字人来产生IP价值,获取收益。
 
至于第二个问题,这件事情一定会做,且到最后可能需要定制化的程度都没有这么高。刚刚有讲到在技术上追求的就是更加普惠,但是这就要求在前期整个平台跑的足够的快,才能将这个成本进一步的cost down,我们越帮生态和平台里的合作伙伴成功,我们越能将成本降的最低,这个平台越能跑的更快,越能有益于进一步的cost down,让技术更加的普惠。
 
所以我们也欢迎在生态内的,无论是资产制作类还是基础设施类还是运营服务类,越来越多的来跟我们合作,进一步促进整个平台的生长,进一步的cost down。




EW-Entertainment
近期主题·相关内容   



















推荐阅读