<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" encoding="UTF-8" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:admin="http://webns.net/mvcb/" xmlns:atom="http://www.w3.org/2005/Atom/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:fireside="http://fireside.fm/modules/rss/fireside">
  <channel>
    <fireside:hostname>web01.fireside.fm</fireside:hostname>
    <fireside:genDate>Fri, 03 Apr 2026 12:45:02 -0500</fireside:genDate>
    <generator>Fireside (https://fireside.fm)</generator>
    <title>硅谷101 - Episodes Tagged with “具身智能”</title>
    <link>https://sv101.fireside.fm/tags/%E5%85%B7%E8%BA%AB%E6%99%BA%E8%83%BD</link>
    <pubDate>Wed, 10 Dec 2025 16:00:00 -0800</pubDate>
    <description>失败、背叛、不被理解，硅谷精神领袖一直都不是完美的存在；他们是科学家，创造者，行动派，他们有独立的价值观。《硅谷101》是由媒体人泓君发起的深度访谈节目，是一档分享当下最新鲜的技术、知识与思想的科技播客。
公众账号：硅谷101
联系邮箱：podcast@sv101.net
</description>
    <language>zh-cn</language>
    <itunes:type>episodic</itunes:type>
    <itunes:subtitle>这是一档分享当下最新鲜的技术、知识与思想的科技播客</itunes:subtitle>
    <itunes:author>硅谷101</itunes:author>
    <itunes:summary>失败、背叛、不被理解，硅谷精神领袖一直都不是完美的存在；他们是科学家，创造者，行动派，他们有独立的价值观。《硅谷101》是由媒体人泓君发起的深度访谈节目，是一档分享当下最新鲜的技术、知识与思想的科技播客。
公众账号：硅谷101
联系邮箱：podcast@sv101.net
</itunes:summary>
    <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
    <itunes:explicit>no</itunes:explicit>
    <itunes:keywords>tech, business, SiiconValley, 科技, 泓君, 硅谷101</itunes:keywords>
    <itunes:owner>
      <itunes:name>硅谷101</itunes:name>
      <itunes:email>liuhj60@gmail.com</itunes:email>
    </itunes:owner>
<itunes:category text="Technology"/>
<itunes:category text="Business"/>
<itunes:category text="Business">
  <itunes:category text="Entrepreneurship"/>
</itunes:category>
<item>
  <title>E217｜机器人开可乐发扑克有多难？聊聊灵巧手的硬件与算法</title>
  <link>https://sv101.fireside.fm/227</link>
  <guid isPermaLink="false">34b7da12-98ee-45e1-8ca0-0674278dc1da</guid>
  <pubDate>Wed, 10 Dec 2025 16:00:00 -0800</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/34b7da12-98ee-45e1-8ca0-0674278dc1da.mp3" length="102193172" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>邀请灵巧手模型算法方面和硬件方面的两位专家，一起聊聊灵巧手不同技术路线的特点，以及它在数据和算法上面临的挑战。</itunes:subtitle>
  <itunes:duration>1:10:57</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg
2026年，人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉，“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相，并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示，特斯拉未来约80%的价值来自这里，而非汽车。而“擎天柱”的攻关关键，正在于它的“手与前臂”。
本期是我们机器人特辑 (https://www.xiaoyuzhoufm.com/podcast-topic/692fee198dc8fff6d044cfd1)之灵巧手，我们邀请了灵巧手模型算法方面和硬件方面的两位专家，一起聊聊灵巧手不同技术路线的特点，以及它在数据和算法上面临的挑战。
嘉宾们认为，对灵巧手头部公司来说，短期内针对单项任务打造成功一个的Demo并不难，真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作，才意味着灵巧手到达了类似ChatGPT的泛化突破阶段。
【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
齐浩之，亚马逊&amp;amp;前Meta机器人研究科学家，芝加哥大学助理教授
陶一伟，TetherIA 创始人兼CEO，前Tesla Optimus高级机器人机械工程师
【本期口播由腾讯广告算法大赛赞助播出】
我们播客7月份做过腾讯广告算法大赛的招募，这场比赛在11月27日刚收尾，吸引了全球8400名技术人才、2800多支队伍参加。在这次比赛中，年轻人在用各种新方法解决多模态痛点：比如冠军团队用行为条件化建模，让算法更能“感觉”用户需求；有人去验证scaling law在生成式广告推荐模型里是否适用；也有人在数据安全前提下把性能继续往上推。可以说这个比赛是把全球顶尖技术人才聚集到一起，也反过来在推动广告算法的进步与系统性能，在AI时代，这类比赛可以让自己的能力被看见、也是让企业找到顶尖人才的最佳场景。
【你将听到】
Demo背后的虚与实
02:37 评估灵巧手能力的关键：精细运动、泛化能力与可靠性
05:58 “开可乐”Demo背后：演示效果与实际能力的差距
08:23 硬件厂商追求单项突破，算法团队更重泛化能力
15:32 灵巧手面临的瓶颈和独有的技术挑战是什么？
三大技术路线
19:26 连杆驱动：常见6自由度，也有高自由度方案（ILDA）
21:26 直驱方案：关节与电机一一对应，灵活度高（Sharpa）
24:59 绳驱方案：双向拉绳（Shadow Hand、ORCA）与单向拉绳（Tesla）
29:57 仿真研究为何更偏爱直驱方案？
33:13 天价灵巧手：不为盈利，只为筛选顶尖客户
36:21 Evan亲述：在特斯拉研发Optimus灵巧手的经历
40:33 从解剖学到外科观摩：马斯克坚持的仿生路线启发了“电机前臂迁移”
42:52 绳驱vs直驱：装配难度与量产前景对比
算法、数据、触觉
44:32 揭秘Meta机器人项目
48:25 受GPT与特斯拉FSD启发，机器人研究重心已转变
50:08 灵巧手数据采集为何难上加难？
52:01 机器人顶尖团队盘点：学术派与产品派
53:33 触觉如何提升灵巧手的操作能力？
58:11 灵巧手数据金字塔：遥操、仿真、视频
01:01:27 Genie3视频模型能用于训练机器人吗？
01:03:17 在伯克利做机器人研究是种什么体验？
01:07:09 灵巧手的“GPT时刻”还有多远？
【延伸阅读】
《机器人的“最后一公里”：深聊灵巧手的“不可能三角”与六大技术门派》 (https://mp.weixin.qq.com/s/3xFAsAalOe5Mx9zW_cVKmg)
本期播客中提到的公司：
1X
ILDA
Shadow Hand
ORCA Hand
Sharpa
Figure AI 
Tesla Optimus
Physical Intelligence（PI）
Sunday Robotics
Generalist
Covariant
TetherIA 
源升智能
【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
The Light from Within - Howard Harper-Barnes
Floating in Space - Eva Hummingbird
All Parts Equal - Airae
The Secret Spring - Helmut Schenker
【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: 陶一伟 and 齐浩之.
</description>
  <itunes:keywords>机器人, 灵巧手, Optimus, 具身智能, 伯克利</itunes:keywords>
  <content:encoded>
    <![CDATA[<p><img src="https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg" alt=""></p>

<p>2026年，人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉，“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相，并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示，特斯拉未来约80%的价值来自这里，而非汽车。而“擎天柱”的攻关关键，正在于它的“手与前臂”。<br>
本期是我们<a href="https://www.xiaoyuzhoufm.com/podcast-topic/692fee198dc8fff6d044cfd1" rel="nofollow">机器人特辑</a>之灵巧手，我们邀请了灵巧手模型算法方面和硬件方面的两位专家，一起聊聊灵巧手不同技术路线的特点，以及它在数据和算法上面临的挑战。<br>
嘉宾们认为，对灵巧手头部公司来说，短期内针对单项任务打造成功一个的Demo并不难，真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作，才意味着灵巧手到达了类似ChatGPT的泛化突破阶段。</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人</p>

<p><strong>【嘉宾】</strong><br>
齐浩之，亚马逊&amp;前Meta机器人研究科学家，芝加哥大学助理教授<br>
陶一伟，TetherIA 创始人兼CEO，前Tesla Optimus高级机器人机械工程师</p>

<p><strong>【本期口播由腾讯广告算法大赛赞助播出】</strong><br>
我们播客7月份做过腾讯广告算法大赛的招募，这场比赛在11月27日刚收尾，吸引了全球8400名技术人才、2800多支队伍参加。在这次比赛中，年轻人在用各种新方法解决多模态痛点：比如冠军团队用行为条件化建模，让算法更能“感觉”用户需求；有人去验证scaling law在生成式广告推荐模型里是否适用；也有人在数据安全前提下把性能继续往上推。可以说这个比赛是把全球顶尖技术人才聚集到一起，也反过来在推动广告算法的进步与系统性能，在AI时代，这类比赛可以让自己的能力被看见、也是让企业找到顶尖人才的最佳场景。</p>

<p><strong>【你将听到】</strong><br>
<strong>Demo背后的虚与实</strong><br>
02:37 评估灵巧手能力的关键：精细运动、泛化能力与可靠性<br>
05:58 “开可乐”Demo背后：演示效果与实际能力的差距<br>
08:23 硬件厂商追求单项突破，算法团队更重泛化能力<br>
15:32 灵巧手面临的瓶颈和独有的技术挑战是什么？</p>

<p><strong>三大技术路线</strong><br>
19:26 连杆驱动：常见6自由度，也有高自由度方案（ILDA）<br>
21:26 直驱方案：关节与电机一一对应，灵活度高（Sharpa）<br>
24:59 绳驱方案：双向拉绳（Shadow Hand、ORCA）与单向拉绳（Tesla）<br>
29:57 仿真研究为何更偏爱直驱方案？<br>
33:13 天价灵巧手：不为盈利，只为筛选顶尖客户<br>
36:21 Evan亲述：在特斯拉研发Optimus灵巧手的经历<br>
40:33 从解剖学到外科观摩：马斯克坚持的仿生路线启发了“电机前臂迁移”<br>
42:52 绳驱vs直驱：装配难度与量产前景对比</p>

<p><strong>算法、数据、触觉</strong><br>
44:32 揭秘Meta机器人项目<br>
48:25 受GPT与特斯拉FSD启发，机器人研究重心已转变<br>
50:08 灵巧手数据采集为何难上加难？<br>
52:01 机器人顶尖团队盘点：学术派与产品派<br>
53:33 触觉如何提升灵巧手的操作能力？<br>
58:11 灵巧手数据金字塔：遥操、仿真、视频<br>
01:01:27 Genie3视频模型能用于训练机器人吗？<br>
01:03:17 在伯克利做机器人研究是种什么体验？<br>
01:07:09 灵巧手的“GPT时刻”还有多远？</p>

<p><strong>【延伸阅读】</strong><br>
<a href="https://mp.weixin.qq.com/s/3xFAsAalOe5Mx9zW_cVKmg" rel="nofollow">《机器人的“最后一公里”：深聊灵巧手的“不可能三角”与六大技术门派》</a><br>
本期播客中提到的公司：<br>
1X<br>
ILDA<br>
Shadow Hand<br>
ORCA Hand<br>
Sharpa<br>
Figure AI <br>
Tesla Optimus<br>
Physical Intelligence（PI）<br>
Sunday Robotics<br>
Generalist<br>
Covariant<br>
TetherIA <br>
源升智能</p>

<p><strong>【监制】</strong><br>
泓君<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【运营】</strong><br>
朱婕<br>
<strong>【BGM】</strong><br>
The Light from Within - Howard Harper-Barnes<br>
Floating in Space - Eva Hummingbird<br>
All Parts Equal - Airae<br>
The Secret Spring - Helmut Schenker</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: 陶一伟 and 齐浩之.</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p><img src="https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg" alt=""></p>

<p>2026年，人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉，“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相，并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示，特斯拉未来约80%的价值来自这里，而非汽车。而“擎天柱”的攻关关键，正在于它的“手与前臂”。<br>
本期是我们<a href="https://www.xiaoyuzhoufm.com/podcast-topic/692fee198dc8fff6d044cfd1" rel="nofollow">机器人特辑</a>之灵巧手，我们邀请了灵巧手模型算法方面和硬件方面的两位专家，一起聊聊灵巧手不同技术路线的特点，以及它在数据和算法上面临的挑战。<br>
嘉宾们认为，对灵巧手头部公司来说，短期内针对单项任务打造成功一个的Demo并不难，真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作，才意味着灵巧手到达了类似ChatGPT的泛化突破阶段。</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人</p>

<p><strong>【嘉宾】</strong><br>
齐浩之，亚马逊&amp;前Meta机器人研究科学家，芝加哥大学助理教授<br>
陶一伟，TetherIA 创始人兼CEO，前Tesla Optimus高级机器人机械工程师</p>

<p><strong>【本期口播由腾讯广告算法大赛赞助播出】</strong><br>
我们播客7月份做过腾讯广告算法大赛的招募，这场比赛在11月27日刚收尾，吸引了全球8400名技术人才、2800多支队伍参加。在这次比赛中，年轻人在用各种新方法解决多模态痛点：比如冠军团队用行为条件化建模，让算法更能“感觉”用户需求；有人去验证scaling law在生成式广告推荐模型里是否适用；也有人在数据安全前提下把性能继续往上推。可以说这个比赛是把全球顶尖技术人才聚集到一起，也反过来在推动广告算法的进步与系统性能，在AI时代，这类比赛可以让自己的能力被看见、也是让企业找到顶尖人才的最佳场景。</p>

<p><strong>【你将听到】</strong><br>
<strong>Demo背后的虚与实</strong><br>
02:37 评估灵巧手能力的关键：精细运动、泛化能力与可靠性<br>
05:58 “开可乐”Demo背后：演示效果与实际能力的差距<br>
08:23 硬件厂商追求单项突破，算法团队更重泛化能力<br>
15:32 灵巧手面临的瓶颈和独有的技术挑战是什么？</p>

<p><strong>三大技术路线</strong><br>
19:26 连杆驱动：常见6自由度，也有高自由度方案（ILDA）<br>
21:26 直驱方案：关节与电机一一对应，灵活度高（Sharpa）<br>
24:59 绳驱方案：双向拉绳（Shadow Hand、ORCA）与单向拉绳（Tesla）<br>
29:57 仿真研究为何更偏爱直驱方案？<br>
33:13 天价灵巧手：不为盈利，只为筛选顶尖客户<br>
36:21 Evan亲述：在特斯拉研发Optimus灵巧手的经历<br>
40:33 从解剖学到外科观摩：马斯克坚持的仿生路线启发了“电机前臂迁移”<br>
42:52 绳驱vs直驱：装配难度与量产前景对比</p>

<p><strong>算法、数据、触觉</strong><br>
44:32 揭秘Meta机器人项目<br>
48:25 受GPT与特斯拉FSD启发，机器人研究重心已转变<br>
50:08 灵巧手数据采集为何难上加难？<br>
52:01 机器人顶尖团队盘点：学术派与产品派<br>
53:33 触觉如何提升灵巧手的操作能力？<br>
58:11 灵巧手数据金字塔：遥操、仿真、视频<br>
01:01:27 Genie3视频模型能用于训练机器人吗？<br>
01:03:17 在伯克利做机器人研究是种什么体验？<br>
01:07:09 灵巧手的“GPT时刻”还有多远？</p>

<p><strong>【延伸阅读】</strong><br>
<a href="https://mp.weixin.qq.com/s/3xFAsAalOe5Mx9zW_cVKmg" rel="nofollow">《机器人的“最后一公里”：深聊灵巧手的“不可能三角”与六大技术门派》</a><br>
本期播客中提到的公司：<br>
1X<br>
ILDA<br>
Shadow Hand<br>
ORCA Hand<br>
Sharpa<br>
Figure AI <br>
Tesla Optimus<br>
Physical Intelligence（PI）<br>
Sunday Robotics<br>
Generalist<br>
Covariant<br>
TetherIA <br>
源升智能</p>

<p><strong>【监制】</strong><br>
泓君<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【运营】</strong><br>
朱婕<br>
<strong>【BGM】</strong><br>
The Light from Within - Howard Harper-Barnes<br>
Floating in Space - Eva Hummingbird<br>
All Parts Equal - Airae<br>
The Secret Spring - Helmut Schenker</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: 陶一伟 and 齐浩之.</p>]]>
  </itunes:summary>
</item>
<item>
  <title>E216｜对话机器人投资人：投资也得看论文，规模性商业化还很远</title>
  <link>https://sv101.fireside.fm/226</link>
  <guid isPermaLink="false">414ec0c8-a146-4b74-8c1f-b8ab68891094</guid>
  <pubDate>Thu, 27 Nov 2025 16:00:00 -0800</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/414ec0c8-a146-4b74-8c1f-b8ab68891094.mp3" length="97478702" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>具身智能赛道，当下的繁荣究竟是泡沫的预演，还是技术爆发的前夜？</itunes:subtitle>
  <itunes:duration>1:07:40</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg
最近，人形机器人仍然在“泡沫”与“前夜”的争论中。硅谷人形机器人初创公司1X，近期发布的Neo演示视频，在社交媒体上引发热议，但随即而来的，是外界对其依赖远程操控（Teleoperation）而非自主能力的质疑。这让人不禁联想到2023年那些声称拥有AI能力、实则依赖人工后台处理的初创公司。
与此同时，高盛的一份最新调研报告，揭示了中国机器人供应链的“现实温差”：尽管资本市场情绪高涨，企业产能规划激进——普遍在年产10万至100万台之间——但实际的大规模订单尚未落地。高盛甚至预测，到2035年，全球人形机器人总出货量或仅为138万台。
尽管面临质疑与产能过剩的风险，具身智能（Embodied AI）赛道在过去两三年间仍吸引了巨额资本注入，并展现出与AI技术同步演进的强劲势头。
本期节目，我们邀请到两位深耕中美市场的资深投资人，透过资本的迷雾，审视具身智能赛道的真实格局。当下的繁荣究竟是泡沫的预演，还是技术爆发的前夜？中美企业在战略布局与核心优势上呈现何种差异？在商业化落地的竞赛中，哪些场景有望率先突围？
【主播】
刘一鸣，硅谷101特约研究员
【嘉宾】
Jonathan邱谆，华映资本海外合伙人。1998年来到硅谷，长期关注中美两地科技投资，曾任斯坦福大学工程和商学院客座讲师，坚定的“具身智能派”。
Christine Qing，Shanda Group合伙人/投资副总裁。曾多年在软银负责机器人在美国市场的商业化落地，也曾在小马智行负责海外市场，目前主要在硅谷关注AI和机器人赛道。
【你将听到】
02:19 当下是GPT-3爆发前夜，还是泡沫破裂前夕？
07:51 中美机器人战事：战略与打法的异同
10:14 在深圳，机器人甚至可以一天迭代三次
11:26 投资逻辑大辩论：投“具身智能”还是“先进制造”？
13:58 国内机器人商业化的优势：场景和数据的开放性
21:41 先投“上半身”（大脑/灵巧手）还是“下半身”（运动控制）？
31:52 技术突破决定投资方向，追逐热点不如多看论文
34:13 Rodney Brooks的预言：没有触觉数据，机器人学不会灵巧性？
42:43 对1X家庭机器人的争议：远程操控（Teleoperation）是造假还是“特洛伊木马”？
44:45 真实的商业化落地：谁在买单？
58:11 硬件产业链：会像智能手机一样模块化吗？
01:02:57 大胆预测：未来5年的机器人世界
【延伸阅读和相关术语】
相关论文如有需要请微信联系：liuyiming0010
SemiAnalysis：Robotics Levels of Autonomy
Morgan Stanley：China Industrials Asia Pacific Humanoids How Far Apart Are Reality and Ideal
Goldman Sachs：China Humanoid Robot- Supply chain field trip takeaways
Bernstein：Asia Emerging Robotics Embrace the Humanoid Era
Rodney Brooks：Why Today’s Humanoids Won’t Learn Dexterity
WSJ：The ‘Hands Problem’ Holding Back the Humanoid Revolution
本期播客中提到的公司：
1X
Figure AI 
特斯拉Optimus
Physical Intelligence（PI）
Skild AI
Agility Robotics
宇树科技
智元机器人
优必选（UBTech）
【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
Hidden Agenda
fauna - bomull
【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: Christine Qing and Jonathan邱谆.
</description>
  <itunes:keywords>具身智能, 机器人, 灵巧手, 先进制造, 人工智能</itunes:keywords>
  <content:encoded>
    <![CDATA[<p><img src="https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg" alt=""></p>

<p>最近，人形机器人仍然在“泡沫”与“前夜”的争论中。硅谷人形机器人初创公司1X，近期发布的Neo演示视频，在社交媒体上引发热议，但随即而来的，是外界对其依赖远程操控（Teleoperation）而非自主能力的质疑。这让人不禁联想到2023年那些声称拥有AI能力、实则依赖人工后台处理的初创公司。<br>
与此同时，高盛的一份最新调研报告，揭示了中国机器人供应链的“现实温差”：尽管资本市场情绪高涨，企业产能规划激进——普遍在年产10万至100万台之间——但实际的大规模订单尚未落地。高盛甚至预测，到2035年，全球人形机器人总出货量或仅为138万台。<br>
尽管面临质疑与产能过剩的风险，具身智能（Embodied AI）赛道在过去两三年间仍吸引了巨额资本注入，并展现出与AI技术同步演进的强劲势头。<br>
本期节目，我们邀请到两位深耕中美市场的资深投资人，透过资本的迷雾，审视具身智能赛道的真实格局。当下的繁荣究竟是泡沫的预演，还是技术爆发的前夜？中美企业在战略布局与核心优势上呈现何种差异？在商业化落地的竞赛中，哪些场景有望率先突围？</p>

<p><strong>【主播】</strong><br>
刘一鸣，硅谷101特约研究员</p>

<p><strong>【嘉宾】</strong><br>
Jonathan邱谆，华映资本海外合伙人。1998年来到硅谷，长期关注中美两地科技投资，曾任斯坦福大学工程和商学院客座讲师，坚定的“具身智能派”。<br>
Christine Qing，Shanda Group合伙人/投资副总裁。曾多年在软银负责机器人在美国市场的商业化落地，也曾在小马智行负责海外市场，目前主要在硅谷关注AI和机器人赛道。</p>

<p><strong>【你将听到】</strong><br>
02:19 当下是GPT-3爆发前夜，还是泡沫破裂前夕？<br>
07:51 中美机器人战事：战略与打法的异同<br>
10:14 在深圳，机器人甚至可以一天迭代三次<br>
11:26 投资逻辑大辩论：投“具身智能”还是“先进制造”？<br>
13:58 国内机器人商业化的优势：场景和数据的开放性<br>
21:41 先投“上半身”（大脑/灵巧手）还是“下半身”（运动控制）？<br>
31:52 技术突破决定投资方向，追逐热点不如多看论文<br>
34:13 Rodney Brooks的预言：没有触觉数据，机器人学不会灵巧性？<br>
42:43 对1X家庭机器人的争议：远程操控（Teleoperation）是造假还是“特洛伊木马”？<br>
44:45 真实的商业化落地：谁在买单？<br>
58:11 硬件产业链：会像智能手机一样模块化吗？<br>
01:02:57 大胆预测：未来5年的机器人世界</p>

<p><strong>【延伸阅读和相关术语】</strong><br>
相关论文如有需要请微信联系：liuyiming0010<br>
SemiAnalysis：Robotics Levels of Autonomy<br>
Morgan Stanley：China Industrials Asia Pacific Humanoids How Far Apart Are Reality and Ideal<br>
Goldman Sachs：China Humanoid Robot- Supply chain field trip takeaways<br>
Bernstein：Asia Emerging Robotics Embrace the Humanoid Era<br>
Rodney Brooks：Why Today’s Humanoids Won’t Learn Dexterity<br>
WSJ：The ‘Hands Problem’ Holding Back the Humanoid Revolution</p>

<p>本期播客中提到的公司：<br>
1X<br>
Figure AI <br>
特斯拉Optimus<br>
Physical Intelligence（PI）<br>
Skild AI<br>
Agility Robotics<br>
宇树科技<br>
智元机器人<br>
优必选（UBTech）</p>

<p>【监制】<br>
泓君<br>
【后期】<br>
AMEI<br>
【运营】<br>
朱婕<br>
【BGM】<br>
Hidden Agenda<br>
fauna - bomull</p>

<p>【在这里找到我们】<br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: Christine Qing and Jonathan邱谆.</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p><img src="https://imagev2.xmcdn.com/storages/a723-audiofreehighqps/B7/79/GAqhfD0NByqOAAHpNQRBU__s.jpg" alt=""></p>

<p>最近，人形机器人仍然在“泡沫”与“前夜”的争论中。硅谷人形机器人初创公司1X，近期发布的Neo演示视频，在社交媒体上引发热议，但随即而来的，是外界对其依赖远程操控（Teleoperation）而非自主能力的质疑。这让人不禁联想到2023年那些声称拥有AI能力、实则依赖人工后台处理的初创公司。<br>
与此同时，高盛的一份最新调研报告，揭示了中国机器人供应链的“现实温差”：尽管资本市场情绪高涨，企业产能规划激进——普遍在年产10万至100万台之间——但实际的大规模订单尚未落地。高盛甚至预测，到2035年，全球人形机器人总出货量或仅为138万台。<br>
尽管面临质疑与产能过剩的风险，具身智能（Embodied AI）赛道在过去两三年间仍吸引了巨额资本注入，并展现出与AI技术同步演进的强劲势头。<br>
本期节目，我们邀请到两位深耕中美市场的资深投资人，透过资本的迷雾，审视具身智能赛道的真实格局。当下的繁荣究竟是泡沫的预演，还是技术爆发的前夜？中美企业在战略布局与核心优势上呈现何种差异？在商业化落地的竞赛中，哪些场景有望率先突围？</p>

<p><strong>【主播】</strong><br>
刘一鸣，硅谷101特约研究员</p>

<p><strong>【嘉宾】</strong><br>
Jonathan邱谆，华映资本海外合伙人。1998年来到硅谷，长期关注中美两地科技投资，曾任斯坦福大学工程和商学院客座讲师，坚定的“具身智能派”。<br>
Christine Qing，Shanda Group合伙人/投资副总裁。曾多年在软银负责机器人在美国市场的商业化落地，也曾在小马智行负责海外市场，目前主要在硅谷关注AI和机器人赛道。</p>

<p><strong>【你将听到】</strong><br>
02:19 当下是GPT-3爆发前夜，还是泡沫破裂前夕？<br>
07:51 中美机器人战事：战略与打法的异同<br>
10:14 在深圳，机器人甚至可以一天迭代三次<br>
11:26 投资逻辑大辩论：投“具身智能”还是“先进制造”？<br>
13:58 国内机器人商业化的优势：场景和数据的开放性<br>
21:41 先投“上半身”（大脑/灵巧手）还是“下半身”（运动控制）？<br>
31:52 技术突破决定投资方向，追逐热点不如多看论文<br>
34:13 Rodney Brooks的预言：没有触觉数据，机器人学不会灵巧性？<br>
42:43 对1X家庭机器人的争议：远程操控（Teleoperation）是造假还是“特洛伊木马”？<br>
44:45 真实的商业化落地：谁在买单？<br>
58:11 硬件产业链：会像智能手机一样模块化吗？<br>
01:02:57 大胆预测：未来5年的机器人世界</p>

<p><strong>【延伸阅读和相关术语】</strong><br>
相关论文如有需要请微信联系：liuyiming0010<br>
SemiAnalysis：Robotics Levels of Autonomy<br>
Morgan Stanley：China Industrials Asia Pacific Humanoids How Far Apart Are Reality and Ideal<br>
Goldman Sachs：China Humanoid Robot- Supply chain field trip takeaways<br>
Bernstein：Asia Emerging Robotics Embrace the Humanoid Era<br>
Rodney Brooks：Why Today’s Humanoids Won’t Learn Dexterity<br>
WSJ：The ‘Hands Problem’ Holding Back the Humanoid Revolution</p>

<p>本期播客中提到的公司：<br>
1X<br>
Figure AI <br>
特斯拉Optimus<br>
Physical Intelligence（PI）<br>
Skild AI<br>
Agility Robotics<br>
宇树科技<br>
智元机器人<br>
优必选（UBTech）</p>

<p>【监制】<br>
泓君<br>
【后期】<br>
AMEI<br>
【运营】<br>
朱婕<br>
【BGM】<br>
Hidden Agenda<br>
fauna - bomull</p>

<p>【在这里找到我们】<br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: Christine Qing and Jonathan邱谆.</p>]]>
  </itunes:summary>
</item>
<item>
  <title>E206｜临近机器人GPT-3时刻，具身智能开源模型的加速演进</title>
  <link>https://sv101.fireside.fm/216</link>
  <guid isPermaLink="false">ee64d94d-d209-4398-996b-10f84237ddd0</guid>
  <pubDate>Tue, 09 Sep 2025 16:00:00 -0700</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/ee64d94d-d209-4398-996b-10f84237ddd0.mp3" length="101877473" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？</itunes:subtitle>
  <itunes:duration>1:10:44</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>今年机器人模型领域最重要的突破，就是模型的通用性大幅提升，开始了泛化能力的探索，与此同时，这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战，这期节目我们就来聊聊，业内将如何面对这些挑战？中国和美国的机器人发展路径又有何区别？
本期节目我们邀请了中国具身智能公司自变量机器人的CTO王昊，在这期节目上线时，他们刚开源了大规模真实数据训练的端到端具身基础模型WALL-OSS；以及来自美国具身智能公司Physical Intelligence的研究员柯丽一鸣（Kay Ke），她是π₀、π₀.₅论文作者。
在节目中，嘉宾们表示目前具身智能模型已达到了GPT-2的水平，在最近2到3年将优先在半结构化场景应用，那么我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？
【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
王昊，自变量机器人 (https://www.x2robot.com)CTO
柯丽一鸣（Kay Ke），Physical Intelligence (https://www.physicalintelligence.company/)研究员，π₀、π₀.₅论文作者
【硅谷101科技峰会】
《硅谷101》的年度科技大会又回来了，这是我们将有趣的技术干货与故事带到线下的第二年，用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷101的目标。硅谷10月5日，期待与各位见面，从这里驶向未来！
欢迎点击前往 (https://luma.com/mtqq79ii)购票地址，输入粉丝专属折扣码“VALLEY101FANS”，享85折优惠。
【蚂蚁外滩大会】
硅谷101播客主理人泓君将主持9月11日～12日在上海举行的蚂蚁外滩大会，聊聊AI时代的全球趋势和创新最前沿，感兴趣的朋友欢迎点击领取 (https://www.inclusionconf.com/?sl=vNoLvmF9)硅谷101粉丝专属参会凭证。
【你将听到】
行业突破与泛化能力
05:36 2025年关键进展：模型通用性提升，开始泛化能力探索
07:38 何为模型泛化能力：从熟悉环境到陌生环境的能力一致性
11:44 泛化核心难点：长尾问题、数据采集与缺乏标准评测体系
16:04 如何评判具身智能模型能力：对比任务学习数据量与现实应用表现
数据挑战与硬件瓶颈
17:17 其他两大难点：数据质量与数量平衡、硬件维护缺乏统一平台
20:03 为何需要至少100万小时的数据，才能构成优秀的大模型？
23:06 人类VS机器人学习机制对比：人类的进化已包含了“预训练”
27:14 合成数据在机器人领域的应用：降低数据收集成本，但难以模拟现实物理交互
模型架构与技术路径
31:35 具身智能开源模型WALL-OSS发布：上万小时真实数据，补足当前开源模型的欠缺能力
35:36 WALL-OSS模型开源动机与优势：降低研究门槛，加速生态创新
38:03 架构之争：端到端统一训练VS分层系统设计，模型技术路径尚未统一
40:58 从VLA（视觉语言模型）出世后，具身智能模型路线开始走向趋同化
44:10 具身模型已达到GPT-2的水平，将在1～2年时间达到GPT-3水平
45:31 中美机器人技术路径区别：美国自上而下、先做大模型，中国从现实需求出发、双轨并行
52:31 抓到耗子的都是好猫：算法与操控的难度平衡
54:12 模型高频控制的意义：对未来情况做决策，但更高频率无意义
58:13 视觉难以对未来做精确的预测和建模，但能弥补触觉缺失与力的反馈
01:00:20 传感器比想象更成熟，但机器人还是依赖视觉作为主要训练参数
商业化与落地前景
01:01:31 家用机器人预测：2～3年内进入半结构化场景，5～10年全场景使用
01:05:29 如何平衡商业化与研发：尽可能服务于开放式场景，提高公司组织能力
01:08:43 现实部署的机器人量越大、场景越多样，数据反馈和模型迭代效果将越好
【节目中提到的相关公司和术语】
* Physical Intelligence (PI)：美国具身智能公司，推出了π₀、π₀.₅模型
* 自变量机器人：中国具身智能公司，开源了端到端具身基础模型WALL-OSS
* RT-2：Robotics Transformer 2，谷歌DeepMind推出的新一代AI学习模型
* Genie3：谷歌世界模型的第3代，是DeepMind首个支持“实时交互”的世界模型
* VLA：Vision-Language-Action，视觉-语言-动作模型架构
* Covariant Robotics：一家专注于机器人大脑软件开发的硅谷公司
* 长程任务：Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务
【监制】
泓君
【后期】
AMEI
【运营】
王梓沁、孙泽平
【BGM】
Ever Forward - Francis Wells
Mixed Emotions - Arthur Benson
Supine - Peter Sandberg
【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guests: 柯丽一鸣 and 王昊.
</description>
  <itunes:keywords>机器人,大模型,具身智能,GPT,端到端</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>今年机器人模型领域最重要的突破，就是模型的通用性大幅提升，开始了泛化能力的探索，与此同时，这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战，这期节目我们就来聊聊，业内将如何面对这些挑战？中国和美国的机器人发展路径又有何区别？<br>
本期节目我们邀请了中国具身智能公司自变量机器人的CTO王昊，在这期节目上线时，他们刚开源了大规模真实数据训练的端到端具身基础模型WALL-OSS；以及来自美国具身智能公司Physical Intelligence的研究员柯丽一鸣（Kay Ke），她是π₀、π₀.₅论文作者。<br>
在节目中，嘉宾们表示目前具身智能模型已达到了GPT-2的水平，在最近2到3年将优先在半结构化场景应用，那么我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
王昊，<a href="https://www.x2robot.com" rel="nofollow">自变量机器人</a>CTO<br>
柯丽一鸣（Kay Ke），<a href="https://www.physicalintelligence.company/" rel="nofollow">Physical Intelligence</a>研究员，π₀、π₀.₅论文作者</p>

<p><strong>【硅谷101科技峰会】</strong><br>
《硅谷101》的年度科技大会又回来了，这是我们将有趣的技术干货与故事带到线下的第二年，用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷101的目标。硅谷10月5日，期待与各位见面，从这里驶向未来！<br>
欢迎<a href="https://luma.com/mtqq79ii" rel="nofollow">点击前往</a>购票地址，输入粉丝专属折扣码“VALLEY101FANS”，享85折优惠。</p>

<p><strong>【蚂蚁外滩大会】</strong><br>
硅谷101播客主理人泓君将主持9月11日～12日在上海举行的蚂蚁外滩大会，聊聊AI时代的全球趋势和创新最前沿，感兴趣的朋友欢迎<a href="https://www.inclusionconf.com/?sl=vNoLvmF9" rel="nofollow">点击领取</a>硅谷101粉丝专属参会凭证。</p>

<p><strong>【你将听到】</strong><br>
<strong>行业突破与泛化能力</strong><br>
05:36 2025年关键进展：模型通用性提升，开始泛化能力探索<br>
07:38 何为模型泛化能力：从熟悉环境到陌生环境的能力一致性<br>
11:44 泛化核心难点：长尾问题、数据采集与缺乏标准评测体系<br>
16:04 如何评判具身智能模型能力：对比任务学习数据量与现实应用表现</p>

<p><strong>数据挑战与硬件瓶颈</strong><br>
17:17 其他两大难点：数据质量与数量平衡、硬件维护缺乏统一平台<br>
20:03 为何需要至少100万小时的数据，才能构成优秀的大模型？<br>
23:06 人类VS机器人学习机制对比：人类的进化已包含了“预训练”<br>
27:14 合成数据在机器人领域的应用：降低数据收集成本，但难以模拟现实物理交互</p>

<p><strong>模型架构与技术路径</strong><br>
31:35 具身智能开源模型WALL-OSS发布：上万小时真实数据，补足当前开源模型的欠缺能力<br>
35:36 WALL-OSS模型开源动机与优势：降低研究门槛，加速生态创新<br>
38:03 架构之争：端到端统一训练VS分层系统设计，模型技术路径尚未统一<br>
40:58 从VLA（视觉语言模型）出世后，具身智能模型路线开始走向趋同化<br>
44:10 具身模型已达到GPT-2的水平，将在1～2年时间达到GPT-3水平<br>
45:31 中美机器人技术路径区别：美国自上而下、先做大模型，中国从现实需求出发、双轨并行<br>
52:31 抓到耗子的都是好猫：算法与操控的难度平衡<br>
54:12 模型高频控制的意义：对未来情况做决策，但更高频率无意义<br>
58:13 视觉难以对未来做精确的预测和建模，但能弥补触觉缺失与力的反馈<br>
01:00:20 传感器比想象更成熟，但机器人还是依赖视觉作为主要训练参数</p>

<p><strong>商业化与落地前景</strong><br>
01:01:31 家用机器人预测：2～3年内进入半结构化场景，5～10年全场景使用<br>
01:05:29 如何平衡商业化与研发：尽可能服务于开放式场景，提高公司组织能力<br>
01:08:43 现实部署的机器人量越大、场景越多样，数据反馈和模型迭代效果将越好</p>

<p><strong>【节目中提到的相关公司和术语】</strong></p>

<ul>
<li>Physical Intelligence (PI)：美国具身智能公司，推出了π₀、π₀.₅模型</li>
<li>自变量机器人：中国具身智能公司，开源了端到端具身基础模型WALL-OSS</li>
<li>RT-2：Robotics Transformer 2，谷歌DeepMind推出的新一代AI学习模型</li>
<li>Genie3：谷歌世界模型的第3代，是DeepMind首个支持“实时交互”的世界模型</li>
<li>VLA：Vision-Language-Action，视觉-语言-动作模型架构</li>
<li>Covariant Robotics：一家专注于机器人大脑软件开发的硅谷公司</li>
<li>长程任务：Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务</li>
</ul>

<p><strong>【监制】</strong><br>
泓君<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【运营】</strong><br>
王梓沁、孙泽平<br>
<strong>【BGM】</strong><br>
Ever Forward - Francis Wells<br>
Mixed Emotions - Arthur Benson<br>
Supine - Peter Sandberg</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: 柯丽一鸣 and 王昊.</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>今年机器人模型领域最重要的突破，就是模型的通用性大幅提升，开始了泛化能力的探索，与此同时，这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战，这期节目我们就来聊聊，业内将如何面对这些挑战？中国和美国的机器人发展路径又有何区别？<br>
本期节目我们邀请了中国具身智能公司自变量机器人的CTO王昊，在这期节目上线时，他们刚开源了大规模真实数据训练的端到端具身基础模型WALL-OSS；以及来自美国具身智能公司Physical Intelligence的研究员柯丽一鸣（Kay Ke），她是π₀、π₀.₅论文作者。<br>
在节目中，嘉宾们表示目前具身智能模型已达到了GPT-2的水平，在最近2到3年将优先在半结构化场景应用，那么我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
王昊，<a href="https://www.x2robot.com" rel="nofollow">自变量机器人</a>CTO<br>
柯丽一鸣（Kay Ke），<a href="https://www.physicalintelligence.company/" rel="nofollow">Physical Intelligence</a>研究员，π₀、π₀.₅论文作者</p>

<p><strong>【硅谷101科技峰会】</strong><br>
《硅谷101》的年度科技大会又回来了，这是我们将有趣的技术干货与故事带到线下的第二年，用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷101的目标。硅谷10月5日，期待与各位见面，从这里驶向未来！<br>
欢迎<a href="https://luma.com/mtqq79ii" rel="nofollow">点击前往</a>购票地址，输入粉丝专属折扣码“VALLEY101FANS”，享85折优惠。</p>

<p><strong>【蚂蚁外滩大会】</strong><br>
硅谷101播客主理人泓君将主持9月11日～12日在上海举行的蚂蚁外滩大会，聊聊AI时代的全球趋势和创新最前沿，感兴趣的朋友欢迎<a href="https://www.inclusionconf.com/?sl=vNoLvmF9" rel="nofollow">点击领取</a>硅谷101粉丝专属参会凭证。</p>

<p><strong>【你将听到】</strong><br>
<strong>行业突破与泛化能力</strong><br>
05:36 2025年关键进展：模型通用性提升，开始泛化能力探索<br>
07:38 何为模型泛化能力：从熟悉环境到陌生环境的能力一致性<br>
11:44 泛化核心难点：长尾问题、数据采集与缺乏标准评测体系<br>
16:04 如何评判具身智能模型能力：对比任务学习数据量与现实应用表现</p>

<p><strong>数据挑战与硬件瓶颈</strong><br>
17:17 其他两大难点：数据质量与数量平衡、硬件维护缺乏统一平台<br>
20:03 为何需要至少100万小时的数据，才能构成优秀的大模型？<br>
23:06 人类VS机器人学习机制对比：人类的进化已包含了“预训练”<br>
27:14 合成数据在机器人领域的应用：降低数据收集成本，但难以模拟现实物理交互</p>

<p><strong>模型架构与技术路径</strong><br>
31:35 具身智能开源模型WALL-OSS发布：上万小时真实数据，补足当前开源模型的欠缺能力<br>
35:36 WALL-OSS模型开源动机与优势：降低研究门槛，加速生态创新<br>
38:03 架构之争：端到端统一训练VS分层系统设计，模型技术路径尚未统一<br>
40:58 从VLA（视觉语言模型）出世后，具身智能模型路线开始走向趋同化<br>
44:10 具身模型已达到GPT-2的水平，将在1～2年时间达到GPT-3水平<br>
45:31 中美机器人技术路径区别：美国自上而下、先做大模型，中国从现实需求出发、双轨并行<br>
52:31 抓到耗子的都是好猫：算法与操控的难度平衡<br>
54:12 模型高频控制的意义：对未来情况做决策，但更高频率无意义<br>
58:13 视觉难以对未来做精确的预测和建模，但能弥补触觉缺失与力的反馈<br>
01:00:20 传感器比想象更成熟，但机器人还是依赖视觉作为主要训练参数</p>

<p><strong>商业化与落地前景</strong><br>
01:01:31 家用机器人预测：2～3年内进入半结构化场景，5～10年全场景使用<br>
01:05:29 如何平衡商业化与研发：尽可能服务于开放式场景，提高公司组织能力<br>
01:08:43 现实部署的机器人量越大、场景越多样，数据反馈和模型迭代效果将越好</p>

<p><strong>【节目中提到的相关公司和术语】</strong></p>

<ul>
<li>Physical Intelligence (PI)：美国具身智能公司，推出了π₀、π₀.₅模型</li>
<li>自变量机器人：中国具身智能公司，开源了端到端具身基础模型WALL-OSS</li>
<li>RT-2：Robotics Transformer 2，谷歌DeepMind推出的新一代AI学习模型</li>
<li>Genie3：谷歌世界模型的第3代，是DeepMind首个支持“实时交互”的世界模型</li>
<li>VLA：Vision-Language-Action，视觉-语言-动作模型架构</li>
<li>Covariant Robotics：一家专注于机器人大脑软件开发的硅谷公司</li>
<li>长程任务：Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务</li>
</ul>

<p><strong>【监制】</strong><br>
泓君<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【运营】</strong><br>
王梓沁、孙泽平<br>
<strong>【BGM】</strong><br>
Ever Forward - Francis Wells<br>
Mixed Emotions - Arthur Benson<br>
Supine - Peter Sandberg</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guests: 柯丽一鸣 and 王昊.</p>]]>
  </itunes:summary>
</item>
<item>
  <title>E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？</title>
  <link>https://sv101.fireside.fm/158</link>
  <guid isPermaLink="false">fd3c471e-f786-4a73-abcc-b6da539fdcd2</guid>
  <pubDate>Mon, 27 May 2024 17:00:00 -0700</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/fd3c471e-f786-4a73-abcc-b6da539fdcd2.mp3" length="83033226" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>视觉、语言理解等多模态大模型和仿真训练技术的结合，让机器人越来越像人，随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？</itunes:subtitle>
  <itunes:duration>57:38</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血，让它们变得越来越聪明，行动能力越来越强，越来越像人。 “具身智能”的出现，让机器不再仅仅是被动的计算设备，而是能够主动与物理世界互动的智能体。
从创业公司到科技巨头，从软件平台到硬件开发，这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas，这些类人形机器人展现了无与伦比的交互能力，实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结，即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？
本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen)，与大家分享他们对机器人行业的见解，讨论AI加持下的机器人行业有哪些新的工具和技术，还需要经历哪些挑战，才能真正实现规模化和商业化。
【主播】
泓君Jane，硅谷101创始人，播客主理人
【嘉宾】
李雨倩 (Lily Li) ，NVIDIA中国区机器人业务负责人
陈哲 (Peter Chen)，五源资本董事总经理
【你将听到】
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展
06:19 SayCan，PaLM-E，RT-2等大模型是突破的关键
08:58 NVIDIA做机器人早有积累：从训练、仿真到推理
15:52 大火的“具身智能”关键在于智能体与外界有交互
21:14 机器人一定要像人吗？有时三个手臂更实用，但“人形”是人类文明的形象承载
26:14 中国的机器人开发者最关心什么时候可以用上GR00T
31:31 物理世界 or 仿真平台：不管在哪里训练机器人，都离不开真实世界数据
37:03 泼个冷水：通用机器人尚无商业化案例
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机
45:37 现在做通用机器人，难度大于在2005年做特斯拉
46:15 十年：当通用机器人商业化时间超过一家基金的存续期
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖
51:18 各有所长：中国领先供应链和垂直落地场景、美国擅长探索通用能力
55:10 做机器人要有长期主义心态，在低谷期建立复原能力
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会
【相关音频】
E113 | 大模型来了，但机器人研究依然很难，商业化更难 (https://www.xiaoyuzhoufm.com/episode/648a54d2d1bcc5a654cabae5)
【相关补充信息】
具身智能
Embodied Artificial Intelligence，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。
Project GR00T
NVIDIA 于今年3月发布的人形机器人通用基础模型，GR00T 驱动的机器人（00代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能，以便导航、适应现实世界并与之互动。
PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型（Embodied Multimodal Language Model）。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中，从而在单词和感知（words and percepts）之间建立联系，其核心设计理念是将连续的、具身的观察（如图像、状态估计或其他传感器模式）注入到预先训练好的LLM的语言嵌入空间中。
PaLM-SayCan
谷歌研究团队于2022年提出的一种机器人学习算法，结合了大型语言模型与预训练的机器人行为，机器人充当语言模型的“手和眼睛”，语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务，同时确保这些任务在特定的真实世界环境中是可行的。
Google RT-1/RT-2
由Google的机器人研究团队开发的先进机器人学习模型。RT-1（Robotics Transformer 1）是一种视觉语言行动（VLA）模型，RT-2是其进化版本，目标是训练一个端到端的模型，该模型可以直接从机器人的观测到动作，同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练，然后在真实世界的机器人任务上进行微调，从而获得更好的泛化能力和涌现能力。
【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀
【BGM】
Swerve Space - Lama House
Elephanti - Osoku
【在这里找到我们】
公众号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music
联系我们：podcast@sv101.net Special Guest: 陈哲.
</description>
  <itunes:keywords>具身智能,AI,科技,NVIDIA,机器人</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血，让它们变得越来越聪明，行动能力越来越强，越来越像人。 “具身智能”的出现，让机器不再仅仅是被动的计算设备，而是能够主动与物理世界互动的智能体。</p>

<p>从创业公司到科技巨头，从软件平台到硬件开发，这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas，这些类人形机器人展现了无与伦比的交互能力，实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结，即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？</p>

<p>本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen)，与大家分享他们对机器人行业的见解，讨论AI加持下的机器人行业有哪些新的工具和技术，还需要经历哪些挑战，才能真正实现规模化和商业化。</p>

<p><strong>【主播】</strong><br>
泓君Jane，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
李雨倩 (Lily Li) ，NVIDIA中国区机器人业务负责人<br>
陈哲 (Peter Chen)，五源资本董事总经理</p>

<p><strong>【你将听到】</strong><br>
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展<br>
06:19 SayCan，PaLM-E，RT-2等大模型是突破的关键<br>
08:58 NVIDIA做机器人早有积累：从训练、仿真到推理<br>
15:52 大火的“具身智能”关键在于智能体与外界有交互<br>
21:14 机器人一定要像人吗？有时三个手臂更实用，但“人形”是人类文明的形象承载<br>
26:14 中国的机器人开发者最关心什么时候可以用上GR00T<br>
31:31 物理世界 or 仿真平台：不管在哪里训练机器人，都离不开真实世界数据<br>
37:03 泼个冷水：通用机器人尚无商业化案例<br>
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机<br>
45:37 现在做通用机器人，难度大于在2005年做特斯拉<br>
46:15 十年：当通用机器人商业化时间超过一家基金的存续期<br>
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖<br>
51:18 各有所长：中国领先供应链和垂直落地场景、美国擅长探索通用能力<br>
55:10 做机器人要有长期主义心态，在低谷期建立复原能力<br>
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会</p>

<p><strong>【相关音频】</strong><br>
<a href="https://www.xiaoyuzhoufm.com/episode/648a54d2d1bcc5a654cabae5" rel="nofollow">E113 | 大模型来了，但机器人研究依然很难，商业化更难</a></p>

<p><strong>【相关补充信息】</strong></p>

<p><strong>具身智能</strong><br>
Embodied Artificial Intelligence，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。</p>

<p><strong>Project GR00T</strong><br>
NVIDIA 于今年3月发布的人形机器人通用基础模型，GR00T 驱动的机器人（00代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能，以便导航、适应现实世界并与之互动。</p>

<p><strong>PaLM-E</strong><br>
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型（Embodied Multimodal Language Model）。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中，从而在单词和感知（words and percepts）之间建立联系，其核心设计理念是将连续的、具身的观察（如图像、状态估计或其他传感器模式）注入到预先训练好的LLM的语言嵌入空间中。</p>

<p><strong>PaLM-SayCan</strong><br>
谷歌研究团队于2022年提出的一种机器人学习算法，结合了大型语言模型与预训练的机器人行为，机器人充当语言模型的“手和眼睛”，语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务，同时确保这些任务在特定的真实世界环境中是可行的。</p>

<p><strong>Google RT-1/RT-2</strong><br>
由Google的机器人研究团队开发的先进机器人学习模型。RT-1（Robotics Transformer 1）是一种视觉语言行动（VLA）模型，RT-2是其进化版本，目标是训练一个端到端的模型，该模型可以直接从机器人的观测到动作，同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练，然后在真实世界的机器人任务上进行微调，从而获得更好的泛化能力和涌现能力。</p>

<p><strong>【监制】</strong><br>
杜秀<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【Shownotes】</strong><br>
杜秀<br>
<strong>【BGM】</strong><br>
Swerve Space - Lama House<br>
Elephanti - Osoku</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guest: 陈哲.</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血，让它们变得越来越聪明，行动能力越来越强，越来越像人。 “具身智能”的出现，让机器不再仅仅是被动的计算设备，而是能够主动与物理世界互动的智能体。</p>

<p>从创业公司到科技巨头，从软件平台到硬件开发，这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas，这些类人形机器人展现了无与伦比的交互能力，实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结，即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？</p>

<p>本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen)，与大家分享他们对机器人行业的见解，讨论AI加持下的机器人行业有哪些新的工具和技术，还需要经历哪些挑战，才能真正实现规模化和商业化。</p>

<p><strong>【主播】</strong><br>
泓君Jane，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
李雨倩 (Lily Li) ，NVIDIA中国区机器人业务负责人<br>
陈哲 (Peter Chen)，五源资本董事总经理</p>

<p><strong>【你将听到】</strong><br>
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展<br>
06:19 SayCan，PaLM-E，RT-2等大模型是突破的关键<br>
08:58 NVIDIA做机器人早有积累：从训练、仿真到推理<br>
15:52 大火的“具身智能”关键在于智能体与外界有交互<br>
21:14 机器人一定要像人吗？有时三个手臂更实用，但“人形”是人类文明的形象承载<br>
26:14 中国的机器人开发者最关心什么时候可以用上GR00T<br>
31:31 物理世界 or 仿真平台：不管在哪里训练机器人，都离不开真实世界数据<br>
37:03 泼个冷水：通用机器人尚无商业化案例<br>
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机<br>
45:37 现在做通用机器人，难度大于在2005年做特斯拉<br>
46:15 十年：当通用机器人商业化时间超过一家基金的存续期<br>
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖<br>
51:18 各有所长：中国领先供应链和垂直落地场景、美国擅长探索通用能力<br>
55:10 做机器人要有长期主义心态，在低谷期建立复原能力<br>
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会</p>

<p><strong>【相关音频】</strong><br>
<a href="https://www.xiaoyuzhoufm.com/episode/648a54d2d1bcc5a654cabae5" rel="nofollow">E113 | 大模型来了，但机器人研究依然很难，商业化更难</a></p>

<p><strong>【相关补充信息】</strong></p>

<p><strong>具身智能</strong><br>
Embodied Artificial Intelligence，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。</p>

<p><strong>Project GR00T</strong><br>
NVIDIA 于今年3月发布的人形机器人通用基础模型，GR00T 驱动的机器人（00代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能，以便导航、适应现实世界并与之互动。</p>

<p><strong>PaLM-E</strong><br>
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型（Embodied Multimodal Language Model）。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中，从而在单词和感知（words and percepts）之间建立联系，其核心设计理念是将连续的、具身的观察（如图像、状态估计或其他传感器模式）注入到预先训练好的LLM的语言嵌入空间中。</p>

<p><strong>PaLM-SayCan</strong><br>
谷歌研究团队于2022年提出的一种机器人学习算法，结合了大型语言模型与预训练的机器人行为，机器人充当语言模型的“手和眼睛”，语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务，同时确保这些任务在特定的真实世界环境中是可行的。</p>

<p><strong>Google RT-1/RT-2</strong><br>
由Google的机器人研究团队开发的先进机器人学习模型。RT-1（Robotics Transformer 1）是一种视觉语言行动（VLA）模型，RT-2是其进化版本，目标是训练一个端到端的模型，该模型可以直接从机器人的观测到动作，同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练，然后在真实世界的机器人任务上进行微调，从而获得更好的泛化能力和涌现能力。</p>

<p><strong>【监制】</strong><br>
杜秀<br>
<strong>【后期】</strong><br>
AMEI<br>
<strong>【Shownotes】</strong><br>
杜秀<br>
<strong>【BGM】</strong><br>
Swerve Space - Lama House<br>
Elephanti - Osoku</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guest: 陈哲.</p>]]>
  </itunes:summary>
</item>
  </channel>
</rss>
