C Talk | 商汤科技联合创始人王晓刚：AGI重塑智能汽车，今明两年是关键窗口期-盖世汽车资讯

当前位置：首页 > 高端访谈 > C Talk | 商汤科技联合创始人王晓刚：AGI重塑智能汽车，今明两年是关键窗口期

点赞 收藏 分享 微信扫一扫分享: 发送

C Talk | 商汤科技联合创始人王晓刚：AGI重塑智能汽车，今明两年是关键窗口期

盖世汽车周晓莺熊薇 2024-05-08 07:13:05

对话 | 盖世汽车CEO、盖世汽车资讯部总编周晓莺

撰文 | 盖世汽车编辑熊薇

2022年底ChatGPT火爆出圈，在全球范围内引发一轮通用人工智能（AGI）技术创新和产业化落地热潮。作为其中一个重要落地场景，汽车产业凭借智能化变革新机遇，与广泛市场需求，也站上了“大模型+”风口。

“对于汽车行业，我觉得AGI的影响主要有两个方面：第一，会大幅提升生产效率，比如基于大模型的端到端自动驾驶，将显著提升自动驾驶开发效率；第二，AGI会改变人机交互方式，得益于大模型加持，未来汽车有望变为一个超级智能体。”近日，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚接受盖世汽车CEO周晓莺采访时表示。

尤其是今明两年，在王晓刚看来将是AGI重塑智能汽车非常关键的时间窗口。

因此，凭借在人工智能领域的丰富积累，以及在AGI软硬件基础设施上持续不断的投入，以商汤绝影作为核心载体，商汤正大力布局汽车业务，并构建了完整的“驾-舱-云”三位一体架构体系，多维度助推智能汽车加速驶入AGI时代。

在智能驾驶领域，商汤绝影早在2022年底就于业内率先发布了感知决策一体化自动驾驶通用模型UniAD。在此基础上，依托应用场景更广、性能更强的多模态大模型，商汤绝影又研发了新一代自动驾驶大模型 DriveAGI，开启自动驾驶迭代升级新范式。

在智能座舱领域，商汤绝影也发布了一系列基于多模态场景大脑的大模型产品，计划基于多模态大模型进一步打造AI智能体，更好地助力智能座舱。比如前段时间上市的小米SU7，就应用了商汤的大语言模型和多模态模型。

据王晓刚介绍，在智驾方面，目前商汤绝影已成功交付了广汽、合众、一汽等车企项目，智能座舱业务去年更是累计交付了40多个车型，量产规模大概有120多万辆，预计今年无论交付车型款数还是量产车数量将再创新高。

不过，尽管AGI在赋能各行各业转型升级方面已经取得了突破性进展，王晓刚认为，大模型要真正在千行百业产业化落地，既是短跑又是长跑。“因为我们处在市场和技术都高速发展的阶段，另一方面，通用人工智能的上限和天花板很高，现在远没达到上限，未来还有非常大的发展空间。”

那么，AGI重构汽车产业，“奇点”究竟何时来临？需要具备哪些条件？目前商汤绝影已经发展到了哪个阶段？后续还有何长远的规划以及目标？汽车行业“百模大战”还会持续多久？详细内容请见视频。

以下为采访实录：

“从智能汽车到机器人，大模型想象空间巨大”

周晓莺：商汤怎么看待AGI对汽车产业带来的影响？

王晓刚：AGI和大模型给人们的社会生活，包括各行各业带来了非常深刻的变化。在人工智能1.0时代，我们需要针对每个任务训练一个模型，在过去几年里，商汤推出了超过4万个商业化模型，这里面投入的研发资源非常大，研发周期非常长。但今天有了通用人工智能，几个非常强的大模型就可以完成很多任务，而且是一些开放式的任务。

之前的人工智能比较擅长基于固定规则下的任务，比如下围棋AlphaGo做的很好，但如果把棋盘大小改变了，可能就要重新训练。今天有了通用人工智能，即便没有这些规则，也能完成很多开放式任务。

像自动驾驶进入复杂城区场景，很多依靠规则其实没法覆盖，这些开放式任务正是通用人工智能所擅长的，包括智能座舱里各种人机交互，也在不断提出新的需求，这些都可以通过通用人工智能去应对。

另外，以前做人工智能，比较多的是识别，包括物体识别、人脸识别等，今天的通用人工智能可以是生成式AI，能自主生成大量内容，包括文字、图像和视频，极大改变我们的文化、社会和生活。

具体到汽车行业，我觉得AGI的影响主要有两个方面：第一，会大幅提升生产效率。比如大家已经能够看到用Copilot做编程助手，汽车行业有大量软件开发，需要投入非常多的人力。未来在大模型驾驶领域，通过机器可以节省80%的工作量。

目前自动驾驶比较明显的发展趋势是基于大模型的端到端自动驾驶，以前基于规则的模式，进入复杂城区场景后，需要的代码量可能是原来高速场景的几十倍，因为每天要处理各种不同的Corner Case，需要很多工程师不断解决各种新问题。但是大模型出现以后，通过数据驱动自动驾驶发展成为可能，从感知、规控到决策，可以通过一个网络模型来实现，靠数据覆盖各种Corner Case，会在无形中大幅提升开发效率。

还有座舱里的DMS、OMS，过去根据疲劳监测、分心监测、打电话监测等功能，每个特定任务都要投入专人开展数月研发，现在有了多模态大模型，可以不断增加新任务，而模型本身无需改变，就能即时响应，效率提升十分明显。

第二，AGI会改变人机交互方式。以前座舱里只能通过简短固定语音指令完成特定任务，今天有了大模型加持，可以进行各种开放式多轮对话，就像跟机器人对话一样。包括现在座舱里面有很多APP，有时候要使用一个APP可能要找好久，现在AI智能体能自动完成这些事情。而且通过座舱里各种传感器，系统还可以观察驾乘人员的状态，并主动发起对话，变成一个超级智能体。所以说，汽车是实现大模型人机交互闭环一个非常好的场景。

对于智能终端，从最早AI 1.0时代的手机，到今天的汽车，再到将来的机器人，AI大模型给智能汽车带来了非常大的想象空间。我们正从智能汽车1.0时代，走向一个真正的超级AI智能体。

AGI将推动智能汽车1.0向通用智能体2.0进化，图片来源：商汤绝影

周晓莺：感觉这个演变让人非常兴奋，会打开一个新天地，咱们预测过这个时间表吗，或者一些关键的时间节点？

王晓刚：我觉得今明两年是非常关键的时间窗口。一方面，自2022年底ChatGPT出圈，过去两年通用人工智能发展十分迅猛，出现了很多新模型和应用，给智能汽车带来了非常多的机会。

另一方面，从智能汽车发展来看，比如智能驾驶前几年还存在路线争议，现在已经收敛很多，行业对于未来的发展方向也比较明确。智能座舱有了大模型加持，意味着舱内一系列软硬件架构都会发生变化，今天比较多还是调用云端大模型，将来一定是端云结合。这里面谁能抓住先机，改变用户体验，给客户交付更有价值的产品，这一两年将是重要的窗口期。

周晓莺：所以这两年大家要加速往前冲。

王晓刚：有人说现在既是短跑又是长跑，因为我们处在市场和技术都高速发展的阶段，要能够抓住它。但另一方面，通用人工智能的上限和天花板很高，现在远没达到上限，未来还有非常大的发展空间。

周晓莺：对于人工智能技术在各行各业的落地，商汤做了很多探索，这其中商汤绝影主要专注于智能汽车应用，您能否分享下商汤绝影具体的战略规划？

王晓刚：商汤是一个人工智能平台公司，无论发展还是创新，都需要由行业来牵引。早期互联网、手机和智慧城市，是牵引公司发展的主要动力，但今天智能汽车成了牵引人工智能发展创新最重要的动力，因为汽车行业规模非常大。

另外，智能汽车是一个非常好的人机交互场景，而通用人工智能大模型又可以改变未来人机交互。所以绝影的发展战略，是依托商汤的特长积累和战略，抓住通用人工智能和大模型给智能汽车带来的机遇。

这里面需要什么呢？第一，非常强的软硬件基础设施。我们从2018年开始研究大模型，那时还没有能支撑大模型研究的基础设施，所以我们建立了商汤大装置，到今天一共有45000块GPU，总算力突破了12000P，到今年年底将进一步达到16000P。作为对比，特斯拉目前有10万块GPU，而反观国内其他车企，在算力储备方面和特斯拉还有很大的差距。因此在这方面，商汤绝影可以给行业提供比较好的基础设施。

商汤大装置支持商汤绝影系列原生态大模型高效迭代，图片来源：商汤绝影

在此基础上，我们还有一系列原生态大模型，包括自然语言模型、多模态模型、文生图模型、文生视频模型以及3D大模型，积累了大量Know-How。我们并不是一味追随Open AI，而是有自己的创新点，比如我们2022年底发布了UniAD，这是业内第一个端到端自动驾驶大模型，到现在可以看到端到端大模型用于自动驾驶已经成为行业共识，我们的UniAD也有面向量产的方案，这体现了我们的原创性。

另外，去年5月我们还推出了用于机器人的具身智能模型。原来机器人比如AlphaGo所用的模型，只能解决已经定义好比较规则的特定任务，但具身智能模型可以解决很多开放式任务，比如《我的世界》(Minecraft)里面的200多个任务，都能去解锁。而OpenAI和DeepMind用传统的强化学习去做，只解锁了其中的78个。所以从智能汽车到机器人，大模型可以带来非常多的想象空间。

今年，大家对多模态模型落地有非常高的期待，但其实我们在2023年3月就开源了多模态模型，拥有30亿参数，是当时业内最强的多模态模型。可以看到，这些模型布局我们都走在行业前面。

针对汽车行业，我们对一系列大模型专门进行了优化，通过与大量智舱、驾驶数据相结合，构建专属于汽车行业的原生态大模型，因为这里面很多任务不是通用模型能解决的，由此衍生出了一系列面向自动驾驶和智能座舱的方案。比如端到端自动驾驶大模型正在推进当中，智能座舱领域，我们去年也发布了一系列基于大模型的产品，今年将进一步推出基于多模态大模型的AI智能体，更好助力智能座舱的体验升维。比如前段时间上市的小米SU7，就应用了我们的语言模型和多模态模型。另外从手机到其他各种智能终端，我们跟小爱同学都有比较好的合作。

所以商汤绝影整体的发展战略叫“驾-舱-云”三位一体，所谓“云”就是各种基础设施，可以助力整车厂和其他一些合作伙伴，进行智能驾驶和智能座舱相关开发。

商汤绝影“驾-舱-云”三位一体发展战略，图片来源：商汤绝影

“未来汽车将有很多智能体，各自擅长不同的能力”

周晓莺：从财报数据来看，去年商汤绝影智能汽车业务整体营收增幅超过了30%，相对于整个行业来说是一个非常好的成绩，其中主要增长点来自哪些业务？

王晓刚：在智能驾驶方面，我们已经交付了广汽、合众、一汽等车企，但真正要带来收入增长，可能还需要一段时间。比较而言，智能座舱业务走的相对快一些，去年我们累计交付了40多个车型，量产规模大概有120多万辆。今年，无论交付车型款数还是量产车数量，都会翻一倍。这里面我觉得两个核心点在于，一个是智能汽车的渗透率在快速提升，另一个是汽车对新技术、新产品的追求给我们带来了比较好的机会。

周晓莺：恰恰是您讲的这两点，汽车智能化发展和对新技术的追求，现在都在快速上量。

王晓刚：所以我们也需要不断加大投入，提升效率。商汤在人工智能领域有比较好的储备和积累，同时我们也在不断强化工程体系、交付能力以及与车企的合作能力，更好地服务这个行业。

周晓莺：您前面提到一系列大模型，包括在汽车领域的两条发展路径，能不能展开讲一下大模型上车与这些产品及应用之间的逻辑关系？商汤绝影大模型有哪些独特亮点？

王晓刚：有比较多的相关性，比如多模态大模型的基础是，首先你要有强大的语言模型、视觉模型，才能在这个基础上去形成更加强大的多模态模型。另外我们还有文生视频模型、文生图模型，积累了大量的Know-How。

具体到产品方面，我们已经有UniAD自动驾驶端到端大模型，在此基础上，依托多模态大模型，进一步拓展研发了新一代自动驾驶大模型 DriveAGI，其中的数据输入除了各种传感器，还有驾驶员的指令。因为现在的自动驾驶，基本上都是确定好目的地后车辆自主驾驶，在这个过程当中，其实有很多人机交互应用。比如每个人驾驶习惯不一样，或者在不同情况下对车辆驾驶行为需求不一样，比如有些人赶时间可能会频繁地换道超车，有些人希望能在车上安静地看书，这时可以跟系统做一些互动。

从输出角度，以前车辆就是一个“黑盒子”，但现在有了大模型以后，当车辆做出各种决策时，其实可以通过自然语言解释一下为什么要这么开，这是我们觉得多模态大模型能够给自动驾驶带来的一个延伸。

新一代自动驾驶大模型DriveAGI：可感知、可交互、可信赖，图片来源：商汤绝影

另外从产品角度，我们知道训练自动驾驶算法需要大量端到端数据，这些数据除了实际采集，还要大量的仿真数据，因为有些时候想得到特定场景的训练数据比较难，并且越到后面数据采集效率越低。在这种情况下，我们的文生视频模型就可以用来生成各种摄像头角度、各种车况或者交通场景下的视频，进行自动驾驶测试和算法训练。

除了自动驾驶，我们也在探索怎么跟座舱里的大模型结合，因为未来趋势是舱驾融合，在一颗芯片上同时部署智驾大模型和座舱大模型，实现各种传感器、车内车外数据的联通。

比如在驾驶过程中，我们看到车外的建筑物，或者靠近某个景点、交通路口时，会问各种问题，模型能给出智能化的回答，这要求延时非常低。但是现在我们舱内的一些模型还放在云端，有延迟，存在一些数据方面的问题。

将来通过端云结合，我们希望80%的这种问题能够通过端上的芯片完成，及时响应，同时成本比较低，从而实现比较好的用户体验。未来，我们判断越来越多的公司会使用MoE(Mixture of Experts）架构，也就是混合专家模型，就是很多模型在各种不同情况下，针对不同任务调用不同模型，这样会极大地降低算力。

周晓莺：感觉以后开车，在体验上会越来越丝滑，但实际上后面的系统也会越来越复杂。

王晓刚：对，有很多智能体，这些智能体有各自擅长的不同能力，甚至包括自动驾驶也不一定是一个模型，比如在高速场景和复杂路口，或者拥挤的路段、乡间小路，每个模型擅长的事情都不一样。

周晓莺：最好大模型供应商是一家企业，否则会不会打架？

王晓刚：所以将来研发模式也会发生变化，之前一个系统被切成很多模块，由不同供应商提供各个模块，现在因为有一个大模型整体协调，技术耦合度会更高。但另一方面，这又要求跟整车厂之间的合作更深入，因为会涉及软硬件架构的改变，而且每家车企还有自己定制化的内容、独特卖点和特征，这需要更加深度的耦合。

周晓莺：关于大模型到底怎么上车这件事情，是否方便分享一些跟车企合作的案例？因为这还是一个蛮新的领域，虽然大家谈了很多。

王晓刚：去年大模型刚刚开始应用时，跟车企的合作相对简单一些，就是提供模型给车企测一测，或者把几个模型比较一下，谁的能力强选谁。但后来慢慢发现，通用模型其实解决不了实际问题，很多执行指令以及可靠性满足不了车企需求，需要定制化开发。

另外原来的云端模型存在固有缺陷，光有一个云端模型还不行，而是需要若干个模型结合起来，这又会涉及到车内软件架构的改变，包括这些模型还需要跟整车生态联合，因为车内有很多APP，智能体要调用这些APP。在这个过程当中，我们和车企逐渐变成了深度耦合、密切合作的关系。我觉得这可能也是未来的一个趋势。因为在技术发生变革的时候，大家都希望能够参与其中，共同设计这些架构。

周晓莺：这不像传统汽车时代，只是简单地增加一个部件或者一个功能，而更像是两个大的生态在相互融合。

王晓刚：比如原来车企内部，会根据电子电气架构设置各个部门，但大模型出现后，会对过去的很多功能和模块进行重构，这将带来组织架构变化，也即是生产力变化带来生产关系变化，这也是为什么我觉得接下来像绝影这样的新供应商会有机会。所以在带来新技术的同时，我们还要对自身组织结构进行重整，以适应技术的发展变化，包括跟整车厂合作模式的变化，谁先把这些事情理顺，谁就能走得更快。

周晓莺：所以绝影的优势，我觉得像您讲的不管是对人工智能的理解和应用，还是组织架构、人才储备，其实都有比较长和比较深的积累。

王晓刚：我们在技术上有一定的积累，同时也认识到了技术对我们组织架构带来的新变化。所以我们现在是以一种开放的心态重新创业，打破原来的组织分工形态，我们跟车厂也保持非常开放的态度，共同探索新的模式。

“智能驾驶往后发展，降本将是重要趋势”

周晓莺：在智驾领域，绝影量产智驾方案已经上车哪吒S、广汽昊铂等车型，后续还有何新的量产落地规划？

王晓刚：接下来，我们还会持续更新系统功能，不断提升用户体验。在哪吒S上，我们已经率先在16 TOPS算力条件下实现了高速领航功能，接下来通过OTA升级，我们还会持续优化用户体验，同时也希望不断拓展新的车型、新的功能。

周晓莺：对于城市智驾，我们看过去两年“大算力芯片+激光雷达”几乎成为标配，您对此怎么看？

王晓刚：我觉得智能驾驶再往后发展，降本将是一个重要趋势，所以摆脱对激光雷达的依赖，主要依靠视觉的方案，也会是未来的一个发展趋势。当然到了L3，需要冗余备份的时候，还是需要激光雷达。但是对于L2.9的城区领航，我们其实也在做纯视觉方案，包括端到端的UniAD，就是基于视觉方案在做。

谈到算力，首先还是在不断地增长，但同时也在追求性价比，并希望在体验上有一些突破，因为毕竟有大模型加持，这方面我觉得还有探索空间。比如未来的舱驾融合，在一颗芯片上同时部署智驾和智舱，能够降低成本。另外我们也看到，芯片厂商仍在不断提升算力，这给大模型在端上落地提供了更大空间。

所以我觉得未来智驾大算力演进和降本会交替进行，并在体验上不断上探天花板。同时对一些比较成熟的功能，会通过降本提升性价比，实现更大量产规模。

周晓莺：所以绝影非常坚定地看好纯视觉路线，是因为刚才讲的成本？

王晓刚：也是本身的基因所在，视觉是商汤的专长，早在2016年本田来中国寻找合作伙伴的时候，就给我们出题用两颗摄像头怎么完成自动驾驶，随后2017年我们基于两颗摄像头完成了要求。

而除了成本优势，比较之下视觉方案提供的信息也更加丰富，天花板更高。尤其在复杂场景中，端到端方案通过视觉感知能提取更丰富的信息，获取有价值信息的能力会变得更强，这也是我们看好视觉的一个重要原因。

周晓莺：您觉得端到端方案是城市智驾的最优解吗？

王晓刚：我觉得是这样的，因为城市智驾覆盖的复杂场景非常多，包括各种Corner Case，并且大家对体验的要求也在不断提升。不过今天虽然都在谈端到端，实现的方式还不太一样，有些其实是两段式的，即感知和规控分两部分。

因为此前只有感知部分使用的是AI神经网络，规控部分使用的是规则。目前很多方案还是两段式的，只不过把其中的规控改为了用神经网络来实现，整体难度相对低一些。但也会带来一些新的问题，因为经过感知过滤以后，有些信息会丢失，如此一来规控提取的信息会相对有限。

而真正的端到端，像特斯拉做的，输入的是视频、图像，输出的是规控轨迹，这个难度高很多，因为前面的信息源非常复杂，但要输出的是非常精准的控制信息，这其中对技术和网络的要求都非常高，天花板也更高，因为中间没有人为分拆，不会损失信息。

UniAD真·端到端：感知决策一体化的通用模型，图片来源：商汤绝影

周晓莺：就是虽然都叫端到端，中间还是有非常多的差异，回到大模型也一样，这两年特别火，包括汽车行业整车厂和技术公司也都在推自己的大模型，您怎么看待这个现象？

王晓刚：我觉得这是一个必然过程，大模型出现以后，大家都想去尝试。但未来一定会收敛，因为这对资源的投入要求非常高，并且需要不断追踪技术的发展。今天大模型的发展不是已经到了天花板，而是还处在一个快速发展的阶段，对投入要求非常高。

刚才提到算力，我们去年已经实现了1000P算力，等效于把3000块A100芯片连在一起进行大模型网络训练。今年我们的目标是实现3000P算力，等效于1万块A100连成一个集群用来训练网络，明年进一步达到10000P算力，整个基础设施是不断演进的。

但我们看今天很多做大模型的企业，可能只有100P或者几百P的算力，其实不具备这种原生态大模型能力，而是拿一些开源模型在上面做修改。这样一来，如果想做一些根本性的创新很难，而且这是一个持续投入的过程。

我们看过去十年人工智能的发展，2012年神经网络第一次在视觉里面取得比较大的突破，之后从AlexNet到AlphaGO，再到今天的GPT-4，算力需求已经增长了1000万倍，目前还在不断增长。在这种情况下，前面说既是短跑又是长跑，如果从长跑角度来看，不太可能每家车厂都构建自己的大模型，更多可能是找到这方面的合作伙伴，而且这个合作伙伴也需要在这条路上持续投入，持续创新，我觉得这恰恰是商汤绝影的机会。

在AGI领域，商汤本身就有很深的积累，同时我们也是非常坚定地持续往前走。未来，我相信整车厂能够意识到基础设施所带来的价值，到时候我们怎么能够更好地深入合作，什么是他们要做的，什么由我们来做，会慢慢清晰。

周晓莺：大家需要一个时间学习新东西，并且在定位上慢慢把边界区隔开，而不是什么都自己做。

王晓刚：尤其大模型发展很快，可能你上一代还没有100%达到别人的水平，别人下一个版本又出来了。

“整车厂迈向通用人工智能，商汤绝影希望成为核心供应商”

周晓莺：刚刚提到算力，原来燃油车时代是靠马力驱动，现在智能车时代靠算力驱动，咱们有预测过智能汽车变革对算力的需求上限吗？

王晓刚：今天还没有看到上限，我们知道人脑的神经元数量约为860亿个，如果把每个神经元的突触算上，相当于百万亿规模，今天还远远没有达到上限。所以可以看到，目前对算力的需求还在持续增加。

不过我觉得未来可能是“云端模型+离线模型+终端模型”的融合状态，汽车领域有望出现一个超级强的大模型，类似于今天的GPT-4，然后派生出若干个能部署在终端的小模型。在此过程中，随着算力提升，终端小模型的能力将逐渐增强。

周晓莺：商汤大装置现在算力是12000P，后面的算力规划能不能给我们讲讲?

王晓刚：今年底计划达到16000P，但这里面的规划其实滞后于需求。我们最早规划大装置的时候，算力是5000P，但实际需求很快就超过了当时的计划。所以说这个领域还是一个高速发展的状态，但有一点比较肯定，就是商汤作为人工智能平台性企业，在这些方面一定要抓住制高点。

周晓莺：过去两年我们也看到很多车企在组建智算中心，您觉得这个现象会持续吗？

王晓刚：组建智算中心投入非常大，还可能出现的一种情况是，智算中心刚建好发现规模不够用了。所以对算力的规划一定要留有冗余，用于弹性调度，这样的规模化才是最经济的。如果说每家公司都具备100P或者200P的算力，将来可能不仅不能解决自身问题，还会产生比较高的维护成本，从这个角度并不是一个经济的选择，可能选择合作更合适。

其实商汤原本也在各地组建了比较多小的算力中心，后来才统一汇聚到临港，实现像刚才说的万卡集群大算力，大家的任务可以充分调配我们的算力，达到一个最优使用情况。不然的话，想扩充算力规模的时候扩不出去，另外使用效率也不是很高。

周晓莺：它更像是一种新基建。

王晓刚：而且技术难度很高，当我们把10000块GPU连在一起的时候，中间只要一块GPU出现问题，或者硬件之间的连接出问题，都会对整个系统带来影响。现在商汤可以进行万卡互联的超大集群训练，且能够长时间稳定运行，一旦出现问题，异常检测速度已达到分钟级，能实现快速诊断并及时修复。这些都是我们这么多年训练AI大模型计算过程中积累的经验，如果每家公司自己去做的话，是不划算的。

周晓莺：人工智能某种程度属于科技非常顶端的技术，不仅研发投入大，回报周期也很长。而现在汽车行业竞争十分激烈，企业会面临很多选择，比如究竟要市场份额还是利润，对于商汤绝影来说，怎么看待在汽车产业商业闭环走的更久，能够更好盈利这件事情？

王晓刚：我们也还在探索当中，在汽车行业绝影非常年轻，还有很多东西需要学习。我们也从汽车行业引进了大量相关人才，一方面推进产品落地，加深跟客户的合作关系，另一方面对下一代技术提前布局。因为技术迭代非常快，可能这一代技术或产品抢到了市场份额，但又失去了下一代技术更新迭代的机会。所以我们看绝影的商业价值，也是放在商汤大背景下面，希望通过比较好的技术持续引领市场，而不是停留在某一个阶段。

周晓莺：从您的视野来看，现在中国智能汽车的发展和应用，包括大模型上车，您觉得在全球市场大概处于什么样的生态位？

王晓刚：发展肯定是非常快的，当然如果说美国的话，特斯拉肯定是行业标杆。除此之外我觉得国内过去几年的积累包括迭代速度，都体现出了比较强的竞争力。所以将来把我们这些智能化技术推向全球，也是很重要的一个点。

周晓莺：如果往后看三年，您对商汤绝影的发展有何期待？

王晓刚：从自身定位来说，面向未来AGI发展目标，我们希望能够助力整车厂和合作伙伴，去实现我们新的定位和价值。

本身绝影就是一匹千里马，需要能够跑的比较远，我觉得这是时代给了我们非常远大的目标，和充满想象力的空间。同时我们还要跟整车厂紧密合作，扎扎实实做好产品落地。今天市场竞争仍然非常激烈，我们希望能够做好产品交付，同时在行业里面持续引领创新。

希望三年以后绝影能够成为AGI时代整车厂走向通用人工智能非常重要的核心技术伙伴，非常核心的供应商。如果能够实现这点的话，我会非常高兴，我想商汤也非常高兴实现我们的目标。

周晓莺：我们也非常期待商汤绝影在接下来的发展中，像千里马一样跑得越来越快。

彩蛋

周晓莺：您小时候就是学霸，中科大的少年班，后来从学术到产业会有不适应吗？

王晓刚：各种调整吧，我刚来公司的时候，汤老师说你只要管好技术就行，不需要负责管理。但后来其实发现，如果不懂技术也管不了人，而不懂管理，也形成不了落地的结果，因为还是结果为导向。

我刚到商汤的时候并不管业务，后来需要负责一些具体业务，商务收入指标，各方面要求还比较高。但我觉得这也是商汤的选择，公司发展需要你变成一个什么样的人，能够随着发展快速做出调整。

另一方面，这个转变对我来说还是非常感恩，我非常珍惜这个转变。因为人工智能发展非常快，待在学校里很多事情做不了，要资源实现AI落地。十几年前我们做AI研究都是停留论文上，2004年我们发表了五篇CVPR，那时候中国很少有人能做到。但今天不一样，论文很多，甚至都用ChatGPT来写论文。

周晓莺：生产工具不一样。

王晓刚：但要形成影响力的话，在产业里面把AI落地是非常重要的点。从培养人才来说，以前我就带十几个博士生，每年有几个人毕业。但到了商汤，我们这几年培养了几千人。

对人才的培养，底层其实还是要实现技术突破，让技术产生社会价值，同时也能培养人，底层逻辑是一样的。但这里面实现的方式不一样，从原来的学术背景到今天的产业界，风格各方面都不一样。

但这里面我也能体会到自己的优势，比如说管理，他们之前给我上了很多管理课，最终我发现精髓就两个字：信任。这个和我以前做老师，背后的核心逻辑是相通的，可能表面看着有很多不一样，但做事、管理不可避免会带着原来的背景，也会做出不一样的事情。

其实不光是我，汤老师以前做这些事情，能够实现超出行业引领性的东西，因为他原来也不是一个企业家。有时候思考维度、追求的东西不一样，反而能够做出一些引领性的东西出来。

周晓莺：您觉得在自己的发展经历当中，什么对您影响特别大？

王晓刚：那肯定是汤老师对我影响最大，我2001年本科毕业，那时连CVPR是什么都不知道，国外那些高水平研究、论文都没见过。到后面他创立商汤，要做公司，我说我们做研究挺好的，为什么要做公司，他一步一步把我们的人生轨迹改变了。

周晓莺：遇到一个好的老师，人生的引路人很重要。

王晓刚：2001年的时候，相当于中国AI研究从中国走向世界，原来就是自己搞，都不知道高水平研究是什么。2014年就是AI落地了，从写论文到产业落地，也是一个划时代变化。再到2021年汤老师做国家实验室，AI变成了国家的一个战略选择，一个责任。所以说每一步都有深刻意义，也是在那个时代背景下发生的事。

周晓莺：您对现在年轻人有什么好的建议吗？

王晓刚：最早汤老师给我们的要求就是要坚持原创、坚持创新，做别人没有做过、不敢想的事情，这在今天可能特别缺少。为什么会出现“百模大战”？ChatGPT出现之前没有“百模大战”，因为之前大家不知道能不能做出来，所以就不投入。一旦做出来了，大家觉得是确定的东西，都开始做同样的事情，重复消耗了很多资源。所以能够跳出这些思维，勇于担当去做一些新东西，并且能够坚持。

自动驾驶智能座舱