硅谷101 - Episodes Tagged with “机器人”

E244｜机器人走错路了？与苏度韩铮聊聊具身智能的3D数据、路径分野与硅谷竞赛

硅谷101 — Wed, 15 Jul 2026 17:00:00 -0700

机器人已经能在舞台上做到翻跟头、表演武术了，但要让它在开放环境里伸手帮你拧开一个瓶盖，难度陡然跃升2到3个量级——因为那一刻，它需要理解眼前的物理世界。
这正是苏度科技想啃下的硬骨头。苏度科技联合创始人、董事长苏昊是ImageNet的核心作者之一，师从李飞飞。这家公司走了一条与硅谷主流"纯大脑黑盒大模型"不太一样的路：软硬件协同设计，上下分层架构，上层负责任务规划与环境理解，下层负责具体物体操作；Sim-to-Real作为核心训练范式，让机器人在虚拟世界里经历几百万年的进化，再迁移到现实。
这条路已经跑出了一定成效：面对从未见过的新物体，他们的零样本通用抓取单次成功率接近100%。
本期硅谷101，我们邀请苏度科技CEO韩铮，一起聊聊机器人“动手”怎么实现？他预测，接下来会有更多的硅谷公司重新回到“上下分层”的方向上来。

【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
韩铮，苏度科技联合创始人&CEO

【你将听到】
机器人“动手”的数据根基
03:17 为什么做全栈（大脑+本体）通用机器人？
07:14 苏昊早年经历：从图片标注ImageNet，到3D数据集ShapeNet
11:08 3D数据收集，难在哪里？
13:21 仿真需要亚毫米级精度，视频训练无法达到
16:33 什么是Sim-to-Real（从仿真到现实）？
18:08 创业时机的判断：DALL-E带来的数据拐点

Sim2Real技术验证与关键突破
21:40 仿真器的技术内核：经典物理法则+强化学习
24:17 数据集质量与规模的平衡：自建结构化3D数据集
28:05 实际效果如何？零样本通用抓取，一次性成功率98%
32:11 回应Demo质疑：去学术会议现场随机环境中演示
34:22 基础Zero-Shot泛化能力比长程任务串联更为关键
35:45 灵巧手虽好，但不是当下的性价比最高的方法

技术路线之争
38:16 商业模式思考：硬件+底层模型+API，类比智能手机生态
41:23 仿真器与机器人本体，必须软硬件协同设计强绑定
44:04 如何教会机器人拧瓶盖？加入真实世界数据更高效
44:51 难度对比：操作物体比运动控制难2~3个数量级
47:28 白盒与黑盒之争：分层模型，在预训练中融入物理理解
51:11 Sapien仿真器，让机器人像幼童第一次拧瓶盖一样操作
53:27 数据冷启动困境：无法复刻特斯拉，必须靠仿真做冷启动
55:38 嘉宾预言：被硅谷抛弃的“上下分层”即将重回主流

全球机器人竞争格局
59:08 实现机器人动手，软硬件强结合的公司才能做到
01:00:34 硅谷明星公司点评：Skild、Figure、Optimus
01:05:40 为什么最看好DeepMind+波士顿动力Atlas的组合？
01:09:01 亚马逊机器人，场景多但整合困难
01:10:02 为什么多数公司退回垂类？因为不知道通用该怎么走
01:12:43 不做垂类押注，而是构建开发者生态，目标是成为机器人时代的“iOS+硬件”

【延伸阅读】
节目中提到的Demo：sudo R1评测——60分钟连续无剪辑实测

【硅谷101正在招聘】
《硅谷101》招聘多个全职岗位，欢迎加入我们的超酷的深度内容工作团队！
👉🏻点击查看招聘详情

【监制】
泓君
【后期】
Amei
【运营】
朱婕
【BGM】
Particle Emission - Silver Maple
My Moon and Your Sun - Hampus Naeselius
On the March - Brendon Moeller
Quietly Tense - Marten Moses

【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net
Special Guest: 韩铮.

E217｜机器人开可乐发扑克有多难？聊聊灵巧手的硬件与算法

硅谷101 — Wed, 10 Dec 2025 16:00:00 -0800

2026年，人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉，“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相，并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示，特斯拉未来约80%的价值来自这里，而非汽车。而“擎天柱”的攻关关键，正在于它的“手与前臂”。
本期是我们机器人特辑之灵巧手，我们邀请了灵巧手模型算法方面和硬件方面的两位专家，一起聊聊灵巧手不同技术路线的特点，以及它在数据和算法上面临的挑战。
嘉宾们认为，对灵巧手头部公司来说，短期内针对单项任务打造成功一个的Demo并不难，真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作，才意味着灵巧手到达了类似ChatGPT的泛化突破阶段。

【主播】
泓君，硅谷101创始人，播客主理人

【嘉宾】
齐浩之，亚马逊&前Meta机器人研究科学家，芝加哥大学助理教授
陶一伟，TetherIA 创始人兼CEO，前Tesla Optimus高级机器人机械工程师

【本期口播由腾讯广告算法大赛赞助播出】
我们播客7月份做过腾讯广告算法大赛的招募，这场比赛在11月27日刚收尾，吸引了全球8400名技术人才、2800多支队伍参加。在这次比赛中，年轻人在用各种新方法解决多模态痛点：比如冠军团队用行为条件化建模，让算法更能“感觉”用户需求；有人去验证scaling law在生成式广告推荐模型里是否适用；也有人在数据安全前提下把性能继续往上推。可以说这个比赛是把全球顶尖技术人才聚集到一起，也反过来在推动广告算法的进步与系统性能，在AI时代，这类比赛可以让自己的能力被看见、也是让企业找到顶尖人才的最佳场景。

【你将听到】
Demo背后的虚与实
02:37 评估灵巧手能力的关键：精细运动、泛化能力与可靠性
05:58 “开可乐”Demo背后：演示效果与实际能力的差距
08:23 硬件厂商追求单项突破，算法团队更重泛化能力
15:32 灵巧手面临的瓶颈和独有的技术挑战是什么？

三大技术路线
19:26 连杆驱动：常见6自由度，也有高自由度方案（ILDA）
21:26 直驱方案：关节与电机一一对应，灵活度高（Sharpa）
24:59 绳驱方案：双向拉绳（Shadow Hand、ORCA）与单向拉绳（Tesla）
29:57 仿真研究为何更偏爱直驱方案？
33:13 天价灵巧手：不为盈利，只为筛选顶尖客户
36:21 Evan亲述：在特斯拉研发Optimus灵巧手的经历
40:33 从解剖学到外科观摩：马斯克坚持的仿生路线启发了“电机前臂迁移”
42:52 绳驱vs直驱：装配难度与量产前景对比

算法、数据、触觉
44:32 揭秘Meta机器人项目
48:25 受GPT与特斯拉FSD启发，机器人研究重心已转变
50:08 灵巧手数据采集为何难上加难？
52:01 机器人顶尖团队盘点：学术派与产品派
53:33 触觉如何提升灵巧手的操作能力？
58:11 灵巧手数据金字塔：遥操、仿真、视频
01:01:27 Genie3视频模型能用于训练机器人吗？
01:03:17 在伯克利做机器人研究是种什么体验？
01:07:09 灵巧手的“GPT时刻”还有多远？

【延伸阅读】
《机器人的“最后一公里”：深聊灵巧手的“不可能三角”与六大技术门派》
本期播客中提到的公司：
1X
ILDA
Shadow Hand
ORCA Hand
Sharpa
Figure AI
Tesla Optimus
Physical Intelligence（PI）
Sunday Robotics
Generalist
Covariant
TetherIA
源升智能

【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
The Light from Within - Howard Harper-Barnes
Floating in Space - Eva Hummingbird
All Parts Equal - Airae
The Secret Spring - Helmut Schenker

【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: 陶一伟 and 齐浩之.

E216｜对话机器人投资人：投资也得看论文，规模性商业化还很远

硅谷101 — Thu, 27 Nov 2025 16:00:00 -0800

最近，人形机器人仍然在“泡沫”与“前夜”的争论中。硅谷人形机器人初创公司1X，近期发布的Neo演示视频，在社交媒体上引发热议，但随即而来的，是外界对其依赖远程操控（Teleoperation）而非自主能力的质疑。这让人不禁联想到2023年那些声称拥有AI能力、实则依赖人工后台处理的初创公司。
与此同时，高盛的一份最新调研报告，揭示了中国机器人供应链的“现实温差”：尽管资本市场情绪高涨，企业产能规划激进——普遍在年产10万至100万台之间——但实际的大规模订单尚未落地。高盛甚至预测，到2035年，全球人形机器人总出货量或仅为138万台。
尽管面临质疑与产能过剩的风险，具身智能（Embodied AI）赛道在过去两三年间仍吸引了巨额资本注入，并展现出与AI技术同步演进的强劲势头。
本期节目，我们邀请到两位深耕中美市场的资深投资人，透过资本的迷雾，审视具身智能赛道的真实格局。当下的繁荣究竟是泡沫的预演，还是技术爆发的前夜？中美企业在战略布局与核心优势上呈现何种差异？在商业化落地的竞赛中，哪些场景有望率先突围？

【主播】
刘一鸣，硅谷101特约研究员

【嘉宾】
Jonathan邱谆，华映资本海外合伙人。1998年来到硅谷，长期关注中美两地科技投资，曾任斯坦福大学工程和商学院客座讲师，坚定的“具身智能派”。
Christine Qing，Shanda Group合伙人/投资副总裁。曾多年在软银负责机器人在美国市场的商业化落地，也曾在小马智行负责海外市场，目前主要在硅谷关注AI和机器人赛道。

【你将听到】
02:19 当下是GPT-3爆发前夜，还是泡沫破裂前夕？
07:51 中美机器人战事：战略与打法的异同
10:14 在深圳，机器人甚至可以一天迭代三次
11:26 投资逻辑大辩论：投“具身智能”还是“先进制造”？
13:58 国内机器人商业化的优势：场景和数据的开放性
21:41 先投“上半身”（大脑/灵巧手）还是“下半身”（运动控制）？
31:52 技术突破决定投资方向，追逐热点不如多看论文
34:13 Rodney Brooks的预言：没有触觉数据，机器人学不会灵巧性？
42:43 对1X家庭机器人的争议：远程操控（Teleoperation）是造假还是“特洛伊木马”？
44:45 真实的商业化落地：谁在买单？
58:11 硬件产业链：会像智能手机一样模块化吗？
01:02:57 大胆预测：未来5年的机器人世界

【延伸阅读和相关术语】
相关论文如有需要请微信联系：liuyiming0010
SemiAnalysis：Robotics Levels of Autonomy
Morgan Stanley：China Industrials Asia Pacific Humanoids How Far Apart Are Reality and Ideal
Goldman Sachs：China Humanoid Robot- Supply chain field trip takeaways
Bernstein：Asia Emerging Robotics Embrace the Humanoid Era
Rodney Brooks：Why Today’s Humanoids Won’t Learn Dexterity
WSJ：The ‘Hands Problem’ Holding Back the Humanoid Revolution

本期播客中提到的公司：
1X
Figure AI
特斯拉Optimus
Physical Intelligence（PI）
Skild AI
Agility Robotics
宇树科技
智元机器人
优必选（UBTech）

【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
Hidden Agenda
fauna - bomull

【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: Christine Qing and Jonathan邱谆.

E211｜站在内容创作者与机器人的交界处：聊聊3D数字人的进化

硅谷101 — Thu, 23 Oct 2025 17:00:00 -0700

9月的最后一天，Sora2发布，它可以把一句话变成一段10秒的短视频；好莱坞完全由AI创作的演员Tilly Norwood，诞生6个多月就获得了6.5万粉丝，她发自拍、代言品牌，却从未真实存在。数字人，正在成为新的内容生产者。
但从“生成一段视频”，到与一个3D数字人实时稳定互动，中间隔着很多技术壁垒。本期嘉宾柴金祥教授，他在2000年就已经进入卡内基梅隆大学研究机器人，但因为机器人应用与落地极为困难，他们团队反而成为世界上最早用AI做3D动画的团队；18年来，他几乎在做同样的研究。
从机器人到好莱坞的AI动画，到我们今天讨论的3D数字人模型是不是又可以反过来驱动机器人，这听起来像是一种轮回，却也是一种新的开始。

【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
柴金祥，魔珐科技创始人兼CEO，TAMU计算机科学和工程系终身教授、博导

【你将听到】
数字人，下一代内容生产者
02:45 从Sora2的发布，看“文生视频”的进步与局限
05:58 Text-to-Video与Text-to-3D的核心区别：像素和参数
08:55 成本革命的基石：文生3D多模态大模型（星云平台）
13:33 传统虚拟数字人是如何动起来的？
16:34 好莱坞有数据无算法，AI公司有算法无数据

多模态大模型重塑人机交互
19:46 柴教授的从业经历：从机器人控制到数字人动画
20:46 Jessica Hodgins：数字人物理动画的先驱
22:24 很多做Robotics很厉害的人，其实都是做动画的
26:49 “交互-游戏-好莱坞”，渐进式的技术落地路线图
29:45 虚拟数字人的两条岔路：预制的完美v.s实时的鲜活
32:07 AI渲染+分层模型，终结“显卡依赖”

3D数字人的商业化前景
37:02 B端的统一形象与C端的个人分身
40:36 规模化落地需翻越“三座大山”：质量、延时、成本
42:21 自研语音，风格化“人设”为数字人注入灵魂

加速具身智能突破泛化
45:07 对机器人产业判断：白领场景将早于蓝领场景落地
46:13 用海量3D动作数据教机器人动作规划，但缺乏力的反馈
47:18 从“运动学”到“动力学”，小脑进化仍需强化学习突破
49:23 从“爬楼梯”这件小事，看数据如何促进泛化
58:33 跳脱细节调配，机器人研究进入“黑盒模式”

【延伸阅读和相关术语】
文生3D多模态大模型：一种人工智能模型，输入一段文字描述，就能直接生成一个立体的、会动、会说话的3D数字人，“多模态”指输出包含了语音、表情、肢体动作等多种信息模式。
VLA模型：下一代机器人的“大脑”模型，它能让机器人理解看到的画面（Vision），理解人类的语言指令（Language），并直接规划出要执行的动作（Action）。
运动学和动力学（Kinematics and Dynamics）：机器人运动的两个基础学科。运动学解决 “做什么动作” 的问题，不考虑力；动力学解决 “用多大力气做” 的问题。让机器人完成精细操作，需要两者结合。

【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
Azoic - Max Anson
Treasure Hunt - Helmut Schenker
Lost in Time - Aiyo

【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guest: 柴金祥.

E206｜临近机器人GPT-3时刻，具身智能开源模型的加速演进

硅谷101 — Tue, 09 Sep 2025 16:00:00 -0700

今年机器人模型领域最重要的突破，就是模型的通用性大幅提升，开始了泛化能力的探索，与此同时，这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战，这期节目我们就来聊聊，业内将如何面对这些挑战？中国和美国的机器人发展路径又有何区别？
本期节目我们邀请了中国具身智能公司自变量机器人的CTO王昊，在这期节目上线时，他们刚开源了大规模真实数据训练的端到端具身基础模型WALL-OSS；以及来自美国具身智能公司Physical Intelligence的研究员柯丽一鸣（Kay Ke），她是π₀、π₀.₅论文作者。
在节目中，嘉宾们表示目前具身智能模型已达到了GPT-2的水平，在最近2到3年将优先在半结构化场景应用，那么我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？

【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
王昊，自变量机器人CTO
柯丽一鸣（Kay Ke），Physical Intelligence研究员，π₀、π₀.₅论文作者

【硅谷101科技峰会】
《硅谷101》的年度科技大会又回来了，这是我们将有趣的技术干货与故事带到线下的第二年，用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷101的目标。硅谷10月5日，期待与各位见面，从这里驶向未来！
欢迎点击前往购票地址，输入粉丝专属折扣码“VALLEY101FANS”，享85折优惠。

【蚂蚁外滩大会】
硅谷101播客主理人泓君将主持9月11日～12日在上海举行的蚂蚁外滩大会，聊聊AI时代的全球趋势和创新最前沿，感兴趣的朋友欢迎点击领取硅谷101粉丝专属参会凭证。

【你将听到】
行业突破与泛化能力
05:36 2025年关键进展：模型通用性提升，开始泛化能力探索
07:38 何为模型泛化能力：从熟悉环境到陌生环境的能力一致性
11:44 泛化核心难点：长尾问题、数据采集与缺乏标准评测体系
16:04 如何评判具身智能模型能力：对比任务学习数据量与现实应用表现

数据挑战与硬件瓶颈
17:17 其他两大难点：数据质量与数量平衡、硬件维护缺乏统一平台
20:03 为何需要至少100万小时的数据，才能构成优秀的大模型？
23:06 人类VS机器人学习机制对比：人类的进化已包含了“预训练”
27:14 合成数据在机器人领域的应用：降低数据收集成本，但难以模拟现实物理交互

模型架构与技术路径
31:35 具身智能开源模型WALL-OSS发布：上万小时真实数据，补足当前开源模型的欠缺能力
35:36 WALL-OSS模型开源动机与优势：降低研究门槛，加速生态创新
38:03 架构之争：端到端统一训练VS分层系统设计，模型技术路径尚未统一
40:58 从VLA（视觉语言模型）出世后，具身智能模型路线开始走向趋同化
44:10 具身模型已达到GPT-2的水平，将在1～2年时间达到GPT-3水平
45:31 中美机器人技术路径区别：美国自上而下、先做大模型，中国从现实需求出发、双轨并行
52:31 抓到耗子的都是好猫：算法与操控的难度平衡
54:12 模型高频控制的意义：对未来情况做决策，但更高频率无意义
58:13 视觉难以对未来做精确的预测和建模，但能弥补触觉缺失与力的反馈
01:00:20 传感器比想象更成熟，但机器人还是依赖视觉作为主要训练参数

商业化与落地前景
01:01:31 家用机器人预测：2～3年内进入半结构化场景，5～10年全场景使用
01:05:29 如何平衡商业化与研发：尽可能服务于开放式场景，提高公司组织能力
01:08:43 现实部署的机器人量越大、场景越多样，数据反馈和模型迭代效果将越好

【节目中提到的相关公司和术语】

Physical Intelligence (PI)：美国具身智能公司，推出了π₀、π₀.₅模型
自变量机器人：中国具身智能公司，开源了端到端具身基础模型WALL-OSS
RT-2：Robotics Transformer 2，谷歌DeepMind推出的新一代AI学习模型
Genie3：谷歌世界模型的第3代，是DeepMind首个支持“实时交互”的世界模型
VLA：Vision-Language-Action，视觉-语言-动作模型架构
Covariant Robotics：一家专注于机器人大脑软件开发的硅谷公司
长程任务：Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务

【监制】
泓君
【后期】
AMEI
【运营】
王梓沁、孙泽平
【BGM】
Ever Forward - Francis Wells
Mixed Emotions - Arthur Benson
Supine - Peter Sandberg

【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: 柯丽一鸣 and 王昊.

E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？

硅谷101 — Mon, 27 May 2024 17:00:00 -0700

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血，让它们变得越来越聪明，行动能力越来越强，越来越像人。 “具身智能”的出现，让机器不再仅仅是被动的计算设备，而是能够主动与物理世界互动的智能体。

从创业公司到科技巨头，从软件平台到硬件开发，这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas，这些类人形机器人展现了无与伦比的交互能力，实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结，即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？

本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen)，与大家分享他们对机器人行业的见解，讨论AI加持下的机器人行业有哪些新的工具和技术，还需要经历哪些挑战，才能真正实现规模化和商业化。

【主播】
泓君Jane，硅谷101创始人，播客主理人
【嘉宾】
李雨倩 (Lily Li) ，NVIDIA中国区机器人业务负责人
陈哲 (Peter Chen)，五源资本董事总经理

【你将听到】
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展
06:19 SayCan，PaLM-E，RT-2等大模型是突破的关键
08:58 NVIDIA做机器人早有积累：从训练、仿真到推理
15:52 大火的“具身智能”关键在于智能体与外界有交互
21:14 机器人一定要像人吗？有时三个手臂更实用，但“人形”是人类文明的形象承载
26:14 中国的机器人开发者最关心什么时候可以用上GR00T
31:31 物理世界 or 仿真平台：不管在哪里训练机器人，都离不开真实世界数据
37:03 泼个冷水：通用机器人尚无商业化案例
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机
45:37 现在做通用机器人，难度大于在2005年做特斯拉
46:15 十年：当通用机器人商业化时间超过一家基金的存续期
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖
51:18 各有所长：中国领先供应链和垂直落地场景、美国擅长探索通用能力
55:10 做机器人要有长期主义心态，在低谷期建立复原能力
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会

【相关补充信息】

具身智能
Embodied Artificial Intelligence，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

Project GR00T
NVIDIA 于今年3月发布的人形机器人通用基础模型，GR00T 驱动的机器人（00代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能，以便导航、适应现实世界并与之互动。

PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型（Embodied Multimodal Language Model）。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中，从而在单词和感知（words and percepts）之间建立联系，其核心设计理念是将连续的、具身的观察（如图像、状态估计或其他传感器模式）注入到预先训练好的LLM的语言嵌入空间中。

PaLM-SayCan
谷歌研究团队于2022年提出的一种机器人学习算法，结合了大型语言模型与预训练的机器人行为，机器人充当语言模型的“手和眼睛”，语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务，同时确保这些任务在特定的真实世界环境中是可行的。

Google RT-1/RT-2
由Google的机器人研究团队开发的先进机器人学习模型。RT-1（Robotics Transformer 1）是一种视觉语言行动（VLA）模型，RT-2是其进化版本，目标是训练一个端到端的模型，该模型可以直接从机器人的观测到动作，同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练，然后在真实世界的机器人任务上进行微调，从而获得更好的泛化能力和涌现能力。

【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀
【BGM】
Swerve Space - Lama House
Elephanti - Osoku

【在这里找到我们】
公众号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music
联系我们：podcast@sv101.net Special Guest: 陈哲.

E113 | 大模型来了，但机器人研究依然很难，商业化更难

硅谷101 — Wed, 14 Jun 2023 17:00:00 -0700

随着特斯拉名为擎天柱的人形机器人发布，市场对于机器人的憧憬和期待也在不断上升。目前市场前沿的机器人是什么样的呢？机器人研究的三大部分：感知、路径规划和执行，为何每一步都困难重重？在AI大模型发展的背景下，我们距离机器人的ChatGPT时刻还有多远呢？

【主播】
泓君，资深媒体人
【嘉宾】
张君武，BlueRiver机器人工程师，ex-Alphabet 机器人（Ex-Intrinsic & Vicarious），斯坦福机器人硕士
鲍天宇，《硅谷101》机器人研究小组成员，科技公司产品经理

【你将听到】
【第一梯队机器人公司】
02:07 各自心里机器人行业中的第一梯队：Covariant、Dexterity；Everyday Robots、波士顿动力
09:44 机器人能在任何环境下拿起一个杯子，就是一个诺贝尔奖级别的成果了
10:21 人形机器人的新星：特斯拉与OpenAI投资的1X
14:12 在解决消费者的具体需求上，AI不是必须的
20:28 十年前谷歌连续收购的11家机器人公司后，在机器人领域发声渐少
【拆解机器人研究】
24:00 机器人研究为什么那么难：感知、规划、执行，每部分都困难重重
30:12 每次错的一模一样，机器人摄像头微小移动了
31:34 机器人和人的用工成本很难打平，商业模式规模化难
34:48 机器人公司不做机械臂，只是做软件和整合
38:22 人类不喜欢做枯燥的工作，所以机器人需求大？
39:47 商业化较好的公司：亚马逊的Kiva，但并没怎么用AI
44:39 商业化能力与AI应用程度成反比
【大模型对机器人的影响】
46:53 两大机器人的大模型：RT1和PaLM-E
52:37 机器人最难的部分是物理世界的数据
55:20 在模拟世界训练机器人的优缺点
59:54 模拟器很难模拟机器人受力的影响

【名词解释】
Covariant：专注于开发分拣领域的通用AI平台和机器人赋能，即通过平台来对世界各地仓库中的机器人进行预训练，达到完成任务的目的，比如使它们可以自主的在零售和物流领域拣选物品

Dexterity：专注于物流机器人的开发，通过模拟人类大脑身体来设计机器人，为能在无法预测的环境中处理复杂的操作。

Everyday Robots：谷歌于2019年公开的通用机器人项目，目的为设计可以在家庭和办公室环境中提供帮助的家用机器人；承担轻度家务工作，如分类垃圾和清洁桌子，现在被谷歌关停。

Intrinsic：谷歌的母公司Alphabet投资的一家专注于为工业机器人构建软件的公司，现主要做机器人的操作系统，被Alphabet收购

Vicarious：专注于构建下一代人工智能算法，旨在让让机器以更接近于人的大脑构造或者说是感知过程来学习，后被Intrinsic收购

1X：原名Halodi Robotics，是一家工程与机器人制造公司，致力于生产能够模拟人类运动和行为的机器人，旨在将机器人应用到实际场景中，缓解全球劳动力短缺的问题，后被OpenAI投资

特斯拉的人形机器人：名为擎天柱（Optimus），搭载特斯拉同款的自动驾驶软件系统和传感器，目前以拥有已经拥有电机扭矩控制、环境探索与记忆、基于人类跟踪运动的AI训练以及物体操纵能力。

【招聘】
我们团队目前正在招聘全职的播客节目监制、内容策划总监、商务总监、视频后期以及运营，欢迎感兴趣的小伙伴把你们的简历和代表作品发送到我们的邮箱：hr@sv101.net。具体要求见《硅谷101》微信公众账号上，点击这里。

【后期】
Amei
【BGM】
Cheese and Crackers
Looking for Sisters - Daniel Fridell
【Shownotes】
肖阳

【在这里找到我们】
公众账号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Google Podcast｜Amazon Music
联系我们：podcast@sv101.net Special Guests: 张君武 and 鲍天宇.