<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" encoding="UTF-8" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:admin="http://webns.net/mvcb/" xmlns:atom="http://www.w3.org/2005/Atom/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:fireside="http://fireside.fm/modules/rss/fireside">
  <channel>
    <fireside:hostname>web01.fireside.fm</fireside:hostname>
    <fireside:genDate>Thu, 16 Apr 2026 08:45:57 -0500</fireside:genDate>
    <generator>Fireside (https://fireside.fm)</generator>
    <title>硅谷101 - Episodes Tagged with “Sora”</title>
    <link>https://sv101.fireside.fm/tags/sora</link>
    <pubDate>Thu, 19 Jun 2025 17:00:00 -0700</pubDate>
    <description>失败、背叛、不被理解，硅谷精神领袖一直都不是完美的存在；他们是科学家，创造者，行动派，他们有独立的价值观。《硅谷101》是由媒体人泓君发起的深度访谈节目，是一档分享当下最新鲜的技术、知识与思想的科技播客。
公众账号：硅谷101
联系邮箱：podcast@sv101.net
</description>
    <language>zh-cn</language>
    <itunes:type>episodic</itunes:type>
    <itunes:subtitle>这是一档分享当下最新鲜的技术、知识与思想的科技播客</itunes:subtitle>
    <itunes:author>硅谷101</itunes:author>
    <itunes:summary>失败、背叛、不被理解，硅谷精神领袖一直都不是完美的存在；他们是科学家，创造者，行动派，他们有独立的价值观。《硅谷101》是由媒体人泓君发起的深度访谈节目，是一档分享当下最新鲜的技术、知识与思想的科技播客。
公众账号：硅谷101
联系邮箱：podcast@sv101.net
</itunes:summary>
    <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
    <itunes:explicit>no</itunes:explicit>
    <itunes:keywords>tech, business, SiiconValley, 科技, 泓君, 硅谷101</itunes:keywords>
    <itunes:owner>
      <itunes:name>硅谷101</itunes:name>
      <itunes:email>liuhj60@gmail.com</itunes:email>
    </itunes:owner>
<itunes:category text="Technology"/>
<itunes:category text="Business"/>
<itunes:category text="Business">
  <itunes:category text="Entrepreneurship"/>
</itunes:category>
<item>
  <title>E197｜七大模型多模态之争，AI如何改变动漫产业？</title>
  <link>https://sv101.fireside.fm/207</link>
  <guid isPermaLink="false">85f39a3e-2b6f-4b53-b3ff-2a39bfee88e8</guid>
  <pubDate>Thu, 19 Jun 2025 17:00:00 -0700</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/85f39a3e-2b6f-4b53-b3ff-2a39bfee88e8.mp3" length="100984364" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>在产能瓶颈与市场需求错配的背景下，日本动画业正借助飞速迭代的AI视频生成技术寻求提效与创新，但成本、稳定性与伦理挑战仍待破解。</itunes:subtitle>
  <itunes:duration>1:10:06</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>当前，动漫产业处于发展的十字路口：一方面，产能瓶颈与市场需求的矛盾已成为行业痛点——顶级工作室排期需等待两三年，大量制作环节仍依赖手绘，单集40万美元的成本背后是庞大的外包体系。另一方面，传统“工匠精神”正与飞速变革的AI技术磨合——谷歌Veo、OpenAI Sora等视频生成模型每周迭代，从中间帧补全到风格转换的技术探索层出不穷，然而技术落地仍存在多重壁垒，人工修正与算力成本反超传统流程。
本期节目，我们跟随Azuki内容负责人天宇的视角，从他的日本考察之旅说起，深入聊聊以下问题：
当前在日本动画产业供需错位的格局下，AI技术正如何应用于动漫制作？
AI生成视频能否突破稳定性与逻辑连贯性的技术瓶颈？
在创意生产与行业伦理层面，AI 将对未来的动画产业产生哪些深远影响？
【主播】
泓君Jane，硅谷101创始人，播客主理人
【嘉宾】
天宇（二月茶），Azuki内容负责人，ex-Google Brain（Twitter：@febtea）
【你将听到】
动画产业的矛盾：市场需求爆发 VS 成本与产能制约
2:22  动漫番剧的制作周期困局：排期等三年，顶级工作室档期爆满
3:38  动漫市场年增长率基本保持10%以上
4:55  低数字化与匠人精神：动漫制作30%-40%仍为纸上手绘
6:46  成本差异：日本单集40万美元vs好莱坞千万级
8:02  国漫正以前所未有的速度发展，但人才密度和优质运营管理模式不足
9:55  动漫差异：审美是关键
11:21  AZUKI设计：前《守望先锋》爆款总监操刀 ，但美国产能容不下东亚二次元？
动漫工作室与AI的三类结合方式
14:41【类别一：传统派】借力 AI 补全中间帧，却困于细节差错
19:58  补中间帧： AI 提效的首要场景，但5%-10%的细节误差严重破坏观感
21:25  “精细”是动画的生命：关键帧关乎创意性与可信度
26:18【类别二：颠覆派】部分新兴公司的选择：围绕AI设计全流程
27:04  KAKA Creation的30分钟AI动画：水平及格但艺术性欠缺
32:04 【类别三：折中派】ChatGPT模拟导演，人机协同破审核效率困局
39:26  回溯美术史，技术变革催生新的形式创新
动漫智能变革：有突破，但还不够好
43:42  7+大模型“你追我赶”，周更竞争
48:27  20秒以上的AI视频：逻辑连贯性不足，市场需求欠缺
50:51  三字总结视频大模型：不够好
52:09  规模化生产拦路虎：token不足，算力成本高昂
52:48  人物眼神与手部稳定性显著提升，AI穿帮问题基本解决
AI动漫的未来：潜力与伦理风险并存
55:15  语音生成的伦理争议：日本声优协会公开反对AI模仿声线
56:46  配音与音乐领域，AI已完全达到人类水平
58:07  好听的音乐总是相似的，AI容易复制
01:00:25  人才断层，AI切断新人进阶的“梯子效应”
01:05:42  “你的品位可能决定了模型的品位”
01:08:38  “我们这一代的选择，可能影响人类技术与艺术的关系”
【相关播客】
E164｜当电影遇上AI：与好莱坞特效美术聊聊他们和新工具的博弈 (https://www.xiaoyuzhoufm.com/episode/66c681061b12cc3a6e3893a8)
【监制】
泓君
【后期】
AMEI
【运营】
陈思扬、孙泽平、王梓沁
【BGM】
Fool's Gold STEMS INSTRUMENTS - Spectacles Wallet and Watch 
Moonbug - Harry Edvino (Version a14336e6) - fullmixhighquality 
【在这里找到我们】
公众号：硅谷101
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」
联系我们：podcast@sv101.net Special Guest: 天宇（二月茶）.
</description>
  <itunes:keywords>AI,动漫,Azuki,Veo,Sora</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>当前，动漫产业处于发展的十字路口：一方面，产能瓶颈与市场需求的矛盾已成为行业痛点——顶级工作室排期需等待两三年，大量制作环节仍依赖手绘，单集40万美元的成本背后是庞大的外包体系。另一方面，传统“工匠精神”正与飞速变革的AI技术磨合——谷歌Veo、OpenAI Sora等视频生成模型每周迭代，从中间帧补全到风格转换的技术探索层出不穷，然而技术落地仍存在多重壁垒，人工修正与算力成本反超传统流程。</p>

<p>本期节目，我们跟随Azuki内容负责人天宇的视角，从他的日本考察之旅说起，深入聊聊以下问题：<br>
当前在日本动画产业供需错位的格局下，AI技术正如何应用于动漫制作？<br>
AI生成视频能否突破稳定性与逻辑连贯性的技术瓶颈？<br>
在创意生产与行业伦理层面，AI 将对未来的动画产业产生哪些深远影响？</p>

<p><strong>【主播】</strong><br>
泓君Jane，硅谷101创始人，播客主理人</p>

<p><strong>【嘉宾】</strong><br>
天宇（二月茶），Azuki内容负责人，ex-Google Brain（Twitter：@febtea）</p>

<p><strong>【你将听到】</strong><br>
<strong>动画产业的矛盾：市场需求爆发 VS 成本与产能制约</strong><br>
2:22  动漫番剧的制作周期困局：排期等三年，顶级工作室档期爆满<br>
3:38  动漫市场年增长率基本保持10%以上<br>
4:55  低数字化与匠人精神：动漫制作30%-40%仍为纸上手绘<br>
6:46  成本差异：日本单集40万美元vs好莱坞千万级<br>
8:02  国漫正以前所未有的速度发展，但人才密度和优质运营管理模式不足<br>
9:55  动漫差异：审美是关键<br>
11:21  AZUKI设计：前《守望先锋》爆款总监操刀 ，但美国产能容不下东亚二次元？</p>

<p><strong>动漫工作室与AI的三类结合方式</strong><br>
14:41【类别一：传统派】借力 AI 补全中间帧，却困于细节差错<br>
19:58  补中间帧： AI 提效的首要场景，但5%-10%的细节误差严重破坏观感<br>
21:25  “精细”是动画的生命：关键帧关乎创意性与可信度<br>
26:18【类别二：颠覆派】部分新兴公司的选择：围绕AI设计全流程<br>
27:04  KAKA Creation的30分钟AI动画：水平及格但艺术性欠缺<br>
32:04 【类别三：折中派】ChatGPT模拟导演，人机协同破审核效率困局<br>
39:26  回溯美术史，技术变革催生新的形式创新</p>

<p><strong>动漫智能变革：有突破，但还不够好</strong><br>
43:42  7+大模型“你追我赶”，周更竞争<br>
48:27  20秒以上的AI视频：逻辑连贯性不足，市场需求欠缺<br>
50:51  三字总结视频大模型：不够好<br>
52:09  规模化生产拦路虎：token不足，算力成本高昂<br>
52:48  人物眼神与手部稳定性显著提升，AI穿帮问题基本解决</p>

<p><strong>AI动漫的未来：潜力与伦理风险并存</strong><br>
55:15  语音生成的伦理争议：日本声优协会公开反对AI模仿声线<br>
56:46  配音与音乐领域，AI已完全达到人类水平<br>
58:07  好听的音乐总是相似的，AI容易复制<br>
01:00:25  人才断层，AI切断新人进阶的“梯子效应”<br>
01:05:42  “你的品位可能决定了模型的品位”<br>
01:08:38  “我们这一代的选择，可能影响人类技术与艺术的关系”</p>

<p><strong>【相关播客】</strong><br>
<a href="https://www.xiaoyuzhoufm.com/episode/66c681061b12cc3a6e3893a8" rel="nofollow">E164｜当电影遇上AI：与好莱坞特效美术聊聊他们和新工具的博弈</a></p>

<p><strong>【监制】</strong><br>
泓君</p>

<p><strong>【后期】</strong><br>
AMEI</p>

<p><strong>【运营】</strong><br>
陈思扬、孙泽平、王梓沁</p>

<p><strong>【BGM】</strong><br>
Fool&#39;s Gold STEMS INSTRUMENTS - Spectacles Wallet and Watch <br>
Moonbug - Harry Edvino (Version a14336e6) - fullmix_high_quality </p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guest: 天宇（二月茶）.</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>当前，动漫产业处于发展的十字路口：一方面，产能瓶颈与市场需求的矛盾已成为行业痛点——顶级工作室排期需等待两三年，大量制作环节仍依赖手绘，单集40万美元的成本背后是庞大的外包体系。另一方面，传统“工匠精神”正与飞速变革的AI技术磨合——谷歌Veo、OpenAI Sora等视频生成模型每周迭代，从中间帧补全到风格转换的技术探索层出不穷，然而技术落地仍存在多重壁垒，人工修正与算力成本反超传统流程。</p>

<p>本期节目，我们跟随Azuki内容负责人天宇的视角，从他的日本考察之旅说起，深入聊聊以下问题：<br>
当前在日本动画产业供需错位的格局下，AI技术正如何应用于动漫制作？<br>
AI生成视频能否突破稳定性与逻辑连贯性的技术瓶颈？<br>
在创意生产与行业伦理层面，AI 将对未来的动画产业产生哪些深远影响？</p>

<p><strong>【主播】</strong><br>
泓君Jane，硅谷101创始人，播客主理人</p>

<p><strong>【嘉宾】</strong><br>
天宇（二月茶），Azuki内容负责人，ex-Google Brain（Twitter：@febtea）</p>

<p><strong>【你将听到】</strong><br>
<strong>动画产业的矛盾：市场需求爆发 VS 成本与产能制约</strong><br>
2:22  动漫番剧的制作周期困局：排期等三年，顶级工作室档期爆满<br>
3:38  动漫市场年增长率基本保持10%以上<br>
4:55  低数字化与匠人精神：动漫制作30%-40%仍为纸上手绘<br>
6:46  成本差异：日本单集40万美元vs好莱坞千万级<br>
8:02  国漫正以前所未有的速度发展，但人才密度和优质运营管理模式不足<br>
9:55  动漫差异：审美是关键<br>
11:21  AZUKI设计：前《守望先锋》爆款总监操刀 ，但美国产能容不下东亚二次元？</p>

<p><strong>动漫工作室与AI的三类结合方式</strong><br>
14:41【类别一：传统派】借力 AI 补全中间帧，却困于细节差错<br>
19:58  补中间帧： AI 提效的首要场景，但5%-10%的细节误差严重破坏观感<br>
21:25  “精细”是动画的生命：关键帧关乎创意性与可信度<br>
26:18【类别二：颠覆派】部分新兴公司的选择：围绕AI设计全流程<br>
27:04  KAKA Creation的30分钟AI动画：水平及格但艺术性欠缺<br>
32:04 【类别三：折中派】ChatGPT模拟导演，人机协同破审核效率困局<br>
39:26  回溯美术史，技术变革催生新的形式创新</p>

<p><strong>动漫智能变革：有突破，但还不够好</strong><br>
43:42  7+大模型“你追我赶”，周更竞争<br>
48:27  20秒以上的AI视频：逻辑连贯性不足，市场需求欠缺<br>
50:51  三字总结视频大模型：不够好<br>
52:09  规模化生产拦路虎：token不足，算力成本高昂<br>
52:48  人物眼神与手部稳定性显著提升，AI穿帮问题基本解决</p>

<p><strong>AI动漫的未来：潜力与伦理风险并存</strong><br>
55:15  语音生成的伦理争议：日本声优协会公开反对AI模仿声线<br>
56:46  配音与音乐领域，AI已完全达到人类水平<br>
58:07  好听的音乐总是相似的，AI容易复制<br>
01:00:25  人才断层，AI切断新人进阶的“梯子效应”<br>
01:05:42  “你的品位可能决定了模型的品位”<br>
01:08:38  “我们这一代的选择，可能影响人类技术与艺术的关系”</p>

<p><strong>【相关播客】</strong><br>
<a href="https://www.xiaoyuzhoufm.com/episode/66c681061b12cc3a6e3893a8" rel="nofollow">E164｜当电影遇上AI：与好莱坞特效美术聊聊他们和新工具的博弈</a></p>

<p><strong>【监制】</strong><br>
泓君</p>

<p><strong>【后期】</strong><br>
AMEI</p>

<p><strong>【运营】</strong><br>
陈思扬、孙泽平、王梓沁</p>

<p><strong>【BGM】</strong><br>
Fool&#39;s Gold STEMS INSTRUMENTS - Spectacles Wallet and Watch <br>
Moonbug - Harry Edvino (Version a14336e6) - fullmix_high_quality </p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐<br>
其他平台：YouTube｜Bilibili 搜索「硅谷101播客」<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p><p>Special Guest: 天宇（二月茶）.</p>]]>
  </itunes:summary>
</item>
<item>
  <title>E145 | 对话Meta田渊栋：被Transformer改变的世界与人类AGI的野心</title>
  <link>https://sv101.fireside.fm/151</link>
  <guid isPermaLink="false">76ef1736-0cc5-4cd8-9076-24ea045eb6ac</guid>
  <pubDate>Thu, 28 Mar 2024 16:30:00 -0700</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/76ef1736-0cc5-4cd8-9076-24ea045eb6ac.mp3" length="78033243" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>他所有的研究都在回答一个问题：神经网络是如何工作的？</itunes:subtitle>
  <itunes:duration>54:10</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>2017年，谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式，这篇论文就是大名鼎鼎的Transformer。7年过去了，我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。
今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士，他最近也发表了两片论文都在都与端侧小模型相关，一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM；另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》，由于离应用更近在解决更实际的问题，他的论文被业界很多人问到，而过去五年，他所有的研究都在回答一个问题：神经网络是如何工作的？
今天我们就一起来解读田渊栋最近的两篇论文，也一起聊聊最近大火的Sora、Transformer与AGI。
【老罗直播预告】
北京时间3月31号晚上七点，罗永浩会在直播间卖云产品。之前老罗也带火过很多概念，这次我们来看一看，老罗能不能引领一场企业级IT认知的运动，把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品，价格也给出了史无前例的优惠，大家感兴趣去淘宝app搜索「罗永浩」，让我们一起围观连续创业者罗永浩卖云产品，以及他如何解决创业者的核心痛点的，直播链接：https://m.tb.cn/h.5BYaoxh 
【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
田渊栋，Meta人工智能研究院（FAIR）研究员及高级经理
田渊栋博士，Meta AI人工智能研究院(FAIR)研究员及高级经理，2018年围棋开源项目（ELF OpenGo）研究及工程负责人和第一作者。曾获2021年国际机器学习大会（ICML）杰出论文奖提名（Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions）。研究方向为深度强化学习，表示学习和优化，历任机器学习国际会议ICML，NeurIPS，AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。
【你将听到】
00:05 3月31号晚七点罗永浩直播间卖云
01:34 正片
【“斜杠”AI研究专家】
02:55 从自动驾驶、围棋开源项目到神经网络研究
05:52 写科幻小说：不靠谱的想法放进小说，靠谱的想法用来做科研
07:24 理解神经网络如何工作or 研究大模型，2019年为何拒绝Ilya Sutskever加入OpenAI的邀请
08:44 最新两篇论文的艰难诞生：曾被两次拒稿，三四年后才看到结果 
【GaLore和MobileLLM】
11:04 GaLore的主要特点：实现在英伟达RTX 4090上进行模型的从头训练
12:56 算法上改进让4090重获新生，省内存的同时获得高性能
16:56 MobileLLM：降低神经网络参数仍然保持好的效果
【实现AGI的路径】
17:40 Scaling Law带来的增长会越来越小，我们并没有完全理解为什么Transfomer的效果更好
19:17 完全无人驾驶难点：人工干预的频率越低，有效训练数据就越少
23:41 Transformer很难做游戏式的推理：通过理解神经网络的工作原理来改进现有算法
【深度理解Transformer】
24:52 谷歌内部发现算力价格比通信便宜，所以想到要设计一个模型让算力获得更大优势
26:21 Transfomer vs CNN：没有预设立场，并行效果更好
26:44 Transformer的缺点：需要大量算力、速度较慢、延迟高
28:01 强化学习的根本性问题：Exploration（探索）和Exploitation（开采）
【Sora、合成数据与Anthropic】
30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好，在技术上有根本的创新
33:07 世界模型并不“高大上”，对未来有看法和预测都可以成为称为“世界模型”
40:46 用合成数据训练大模型是趋势，其与真实数据之间的边界会越来越模糊
43:00 合成数据相当于用算力来换数据，但缺乏人类参与的数据会导致学习瓶颈
44:30 Anthropic的长文理解和分析能力远强过GPT-4，但推理能力难以分高下
46:30 大模型缺乏竞争的话，也会出现“偷懒”的问题
48:06 一家独大 or 威慑平衡，Meta开源打破的行业格局
48:18 大模型侵蚀Google的核心业务，训练和推理很难发论文
50:20 从玄幻小说到科幻小说：记录人与人之间的关系和思维的火花
【相关信息拓展】
ELF OpenGo：由Facebook AI Research团队（FAIR）在2018年开源发布的AI围棋项目。其特点是不使用人类棋谱与累积的围棋知识，仅实做围棋规则，使用单一人工神经网络从自我对弈中学习。《ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero》 (https://arxiv.org/abs/1902.04522)
MobileLLM论文：《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》 (https://arxiv.org/abs/2402.14905)
GaLore论文：《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》 (https://arxiv.org/abs/2403.03507)
田渊栋之前自动驾驶的技术分析帖子 (https://www.zhihu.com/question/404870865/answer/1361685672)
玄幻&amp;amp;科幻作品集 (https://yuandong-tian.com/novel.html)
【后期】
AMEI
【BGM】
Interruption - Craft Case
Stillness Within - Roots and Recognition
【在这里找到我们】
公众号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music
联系我们：podcast@sv101.net
</description>
  <itunes:keywords>田渊栋, MetaFAIR, Transformer, 神经网络, Sora,合成数据</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>2017年，谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式，这篇论文就是大名鼎鼎的Transformer。7年过去了，我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。</p>

<p>今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士，他最近也发表了两片论文都在都与端侧小模型相关，一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM；另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》，由于离应用更近在解决更实际的问题，他的论文被业界很多人问到，而过去五年，他所有的研究都在回答一个问题：神经网络是如何工作的？</p>

<p>今天我们就一起来解读田渊栋最近的两篇论文，也一起聊聊最近大火的Sora、Transformer与AGI。</p>

<hr>

<p><strong>【老罗直播预告】</strong><br>
北京时间3月31号晚上七点，罗永浩会在直播间卖云产品。之前老罗也带火过很多概念，这次我们来看一看，老罗能不能引领一场企业级IT认知的运动，把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品，价格也给出了史无前例的优惠，大家感兴趣去淘宝app搜索「罗永浩」，让我们一起围观连续创业者罗永浩卖云产品，以及他如何解决创业者的核心痛点的，直播链接：<a href="https://m.tb.cn/h.5BYaoxh" rel="nofollow">https://m.tb.cn/h.5BYaoxh</a> </p>

<hr>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
田渊栋，Meta人工智能研究院（FAIR）研究员及高级经理</p>

<p>田渊栋博士，Meta AI人工智能研究院(FAIR)研究员及高级经理，2018年围棋开源项目（ELF OpenGo）研究及工程负责人和第一作者。曾获2021年国际机器学习大会（ICML）杰出论文奖提名（Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions）。研究方向为深度强化学习，表示学习和优化，历任机器学习国际会议ICML，NeurIPS，AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。</p>

<p><strong>【你将听到】</strong><br>
00:05 3月31号晚七点罗永浩直播间卖云<br>
01:34 正片<br>
<strong>【“斜杠”AI研究专家】</strong><br>
02:55 从自动驾驶、围棋开源项目到神经网络研究<br>
05:52 写科幻小说：不靠谱的想法放进小说，靠谱的想法用来做科研<br>
07:24 理解神经网络如何工作or 研究大模型，2019年为何拒绝Ilya Sutskever加入OpenAI的邀请<br>
08:44 最新两篇论文的艰难诞生：曾被两次拒稿，三四年后才看到结果 <br>
<strong>【GaLore和MobileLLM】</strong><br>
11:04 GaLore的主要特点：实现在英伟达RTX 4090上进行模型的从头训练<br>
12:56 算法上改进让4090重获新生，省内存的同时获得高性能<br>
16:56 MobileLLM：降低神经网络参数仍然保持好的效果<br>
<strong>【实现AGI的路径】</strong><br>
17:40 Scaling Law带来的增长会越来越小，我们并没有完全理解为什么Transfomer的效果更好<br>
19:17 完全无人驾驶难点：人工干预的频率越低，有效训练数据就越少<br>
23:41 Transformer很难做游戏式的推理：通过理解神经网络的工作原理来改进现有算法<br>
<strong>【深度理解Transformer】</strong><br>
24:52 谷歌内部发现算力价格比通信便宜，所以想到要设计一个模型让算力获得更大优势<br>
26:21 Transfomer vs CNN：没有预设立场，并行效果更好<br>
26:44 Transformer的缺点：需要大量算力、速度较慢、延迟高<br>
28:01 强化学习的根本性问题：Exploration（探索）和Exploitation（开采）<br>
<strong>【Sora、合成数据与Anthropic】</strong><br>
30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好，在技术上有根本的创新<br>
33:07 世界模型并不“高大上”，对未来有看法和预测都可以成为称为“世界模型”<br>
40:46 用合成数据训练大模型是趋势，其与真实数据之间的边界会越来越模糊<br>
43:00 合成数据相当于用算力来换数据，但缺乏人类参与的数据会导致学习瓶颈<br>
44:30 Anthropic的长文理解和分析能力远强过GPT-4，但推理能力难以分高下<br>
46:30 大模型缺乏竞争的话，也会出现“偷懒”的问题<br>
48:06 一家独大 or 威慑平衡，Meta开源打破的行业格局<br>
48:18 大模型侵蚀Google的核心业务，训练和推理很难发论文<br>
50:20 从玄幻小说到科幻小说：记录人与人之间的关系和思维的火花</p>

<hr>

<p><strong>【相关信息拓展】</strong><br>
ELF OpenGo：由Facebook AI Research团队（FAIR）在2018年开源发布的AI围棋项目。其特点是不使用人类棋谱与累积的围棋知识，仅实做围棋规则，使用单一人工神经网络从自我对弈中学习。<a href="https://arxiv.org/abs/1902.04522" rel="nofollow">《ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero》</a><br>
MobileLLM论文：<a href="https://arxiv.org/abs/2402.14905" rel="nofollow">《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》</a><br>
GaLore论文：<a href="https://arxiv.org/abs/2403.03507" rel="nofollow">《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》</a><br>
<a href="https://www.zhihu.com/question/404870865/answer/1361685672" rel="nofollow">田渊栋之前自动驾驶的技术分析帖子</a><br>
<a href="https://yuandong-tian.com/novel.html" rel="nofollow">玄幻&amp;科幻作品集</a></p>

<hr>

<p><strong>【后期】</strong><br>
AMEI<br>
<strong>【BGM】</strong><br>
Interruption - Craft Case<br>
Stillness Within - Roots and Recognition</p>

<hr>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>2017年，谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式，这篇论文就是大名鼎鼎的Transformer。7年过去了，我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。</p>

<p>今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士，他最近也发表了两片论文都在都与端侧小模型相关，一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM；另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》，由于离应用更近在解决更实际的问题，他的论文被业界很多人问到，而过去五年，他所有的研究都在回答一个问题：神经网络是如何工作的？</p>

<p>今天我们就一起来解读田渊栋最近的两篇论文，也一起聊聊最近大火的Sora、Transformer与AGI。</p>

<hr>

<p><strong>【老罗直播预告】</strong><br>
北京时间3月31号晚上七点，罗永浩会在直播间卖云产品。之前老罗也带火过很多概念，这次我们来看一看，老罗能不能引领一场企业级IT认知的运动，把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品，价格也给出了史无前例的优惠，大家感兴趣去淘宝app搜索「罗永浩」，让我们一起围观连续创业者罗永浩卖云产品，以及他如何解决创业者的核心痛点的，直播链接：<a href="https://m.tb.cn/h.5BYaoxh" rel="nofollow">https://m.tb.cn/h.5BYaoxh</a> </p>

<hr>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
田渊栋，Meta人工智能研究院（FAIR）研究员及高级经理</p>

<p>田渊栋博士，Meta AI人工智能研究院(FAIR)研究员及高级经理，2018年围棋开源项目（ELF OpenGo）研究及工程负责人和第一作者。曾获2021年国际机器学习大会（ICML）杰出论文奖提名（Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions）。研究方向为深度强化学习，表示学习和优化，历任机器学习国际会议ICML，NeurIPS，AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。</p>

<p><strong>【你将听到】</strong><br>
00:05 3月31号晚七点罗永浩直播间卖云<br>
01:34 正片<br>
<strong>【“斜杠”AI研究专家】</strong><br>
02:55 从自动驾驶、围棋开源项目到神经网络研究<br>
05:52 写科幻小说：不靠谱的想法放进小说，靠谱的想法用来做科研<br>
07:24 理解神经网络如何工作or 研究大模型，2019年为何拒绝Ilya Sutskever加入OpenAI的邀请<br>
08:44 最新两篇论文的艰难诞生：曾被两次拒稿，三四年后才看到结果 <br>
<strong>【GaLore和MobileLLM】</strong><br>
11:04 GaLore的主要特点：实现在英伟达RTX 4090上进行模型的从头训练<br>
12:56 算法上改进让4090重获新生，省内存的同时获得高性能<br>
16:56 MobileLLM：降低神经网络参数仍然保持好的效果<br>
<strong>【实现AGI的路径】</strong><br>
17:40 Scaling Law带来的增长会越来越小，我们并没有完全理解为什么Transfomer的效果更好<br>
19:17 完全无人驾驶难点：人工干预的频率越低，有效训练数据就越少<br>
23:41 Transformer很难做游戏式的推理：通过理解神经网络的工作原理来改进现有算法<br>
<strong>【深度理解Transformer】</strong><br>
24:52 谷歌内部发现算力价格比通信便宜，所以想到要设计一个模型让算力获得更大优势<br>
26:21 Transfomer vs CNN：没有预设立场，并行效果更好<br>
26:44 Transformer的缺点：需要大量算力、速度较慢、延迟高<br>
28:01 强化学习的根本性问题：Exploration（探索）和Exploitation（开采）<br>
<strong>【Sora、合成数据与Anthropic】</strong><br>
30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好，在技术上有根本的创新<br>
33:07 世界模型并不“高大上”，对未来有看法和预测都可以成为称为“世界模型”<br>
40:46 用合成数据训练大模型是趋势，其与真实数据之间的边界会越来越模糊<br>
43:00 合成数据相当于用算力来换数据，但缺乏人类参与的数据会导致学习瓶颈<br>
44:30 Anthropic的长文理解和分析能力远强过GPT-4，但推理能力难以分高下<br>
46:30 大模型缺乏竞争的话，也会出现“偷懒”的问题<br>
48:06 一家独大 or 威慑平衡，Meta开源打破的行业格局<br>
48:18 大模型侵蚀Google的核心业务，训练和推理很难发论文<br>
50:20 从玄幻小说到科幻小说：记录人与人之间的关系和思维的火花</p>

<hr>

<p><strong>【相关信息拓展】</strong><br>
ELF OpenGo：由Facebook AI Research团队（FAIR）在2018年开源发布的AI围棋项目。其特点是不使用人类棋谱与累积的围棋知识，仅实做围棋规则，使用单一人工神经网络从自我对弈中学习。<a href="https://arxiv.org/abs/1902.04522" rel="nofollow">《ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero》</a><br>
MobileLLM论文：<a href="https://arxiv.org/abs/2402.14905" rel="nofollow">《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》</a><br>
GaLore论文：<a href="https://arxiv.org/abs/2403.03507" rel="nofollow">《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》</a><br>
<a href="https://www.zhihu.com/question/404870865/answer/1361685672" rel="nofollow">田渊栋之前自动驾驶的技术分析帖子</a><br>
<a href="https://yuandong-tian.com/novel.html" rel="nofollow">玄幻&amp;科幻作品集</a></p>

<hr>

<p><strong>【后期】</strong><br>
AMEI<br>
<strong>【BGM】</strong><br>
Interruption - Craft Case<br>
Stillness Within - Roots and Recognition</p>

<hr>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p>]]>
  </itunes:summary>
</item>
<item>
  <title>E141｜我们用了10款AI工具，最后又回到了版权库</title>
  <link>https://sv101.fireside.fm/147</link>
  <guid isPermaLink="false">a93a9465-df0b-47fa-b9ac-67ea468c8c80</guid>
  <pubDate>Fri, 23 Feb 2024 16:30:00 -0800</pubDate>
  <author>硅谷101</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/f0f20376-8faf-4940-b920-84af6c734e2d/a93a9465-df0b-47fa-b9ac-67ea468c8c80.mp3" length="89294794" type="audio/mpeg"/>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:season>4</itunes:season>
  <itunes:author>硅谷101</itunes:author>
  <itunes:subtitle>Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款AI产品的使用体验</itunes:subtitle>
  <itunes:duration>1:14:24</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/f/f0f20376-8faf-4940-b920-84af6c734e2d/cover.jpg?v=6"/>
  <description>在我们录制的当天，恰逢OpenAI发布其视频生成产品Sora。本期节目，我们将结合硅谷101播客与视频的日常工作流，来聊一聊那些在我们工作中会用到的各类AI工具，为何Sora会让人觉得惊艳？
我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品，但最后的核心结论是，相比于现阶段的生成式AI产品，我们更愿意用版权库素材。具体发生了什么，来听一听我们的讨论吧。
当然，本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法，欢迎在评论区跟我们留言。
《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营，欢迎感兴趣的小伙伴来给我们投放简历，详细情况请在硅谷101公众号上查看 (https://mp.weixin.qq.com/s/i8UNdI08nFCe5uTsJQ1GEQ)。
【主播】
泓君，硅谷101创始人，播客主理人
【嘉宾】
陈茜，硅谷101联合创始人，视频主理人
Jacob，硅谷101视频后期
Junwu Zhang，硅谷101研究员
【你将听到】
视频生成
03:06 比较Sora、Pika Labs、Runway的视频生成效果：时间越长一致性越差
08:14 Sora解析：东京街头背景保持高度一致有多难？
09:51 硅谷101视频的三类素材：历史素材、图表、动画，AI都很难生成
12:40 仅用语言描述生成视频很难，输入也需要多模态
16:44 AI是创作者还是剪辑师的工具？很难被打败的顶级作品
23:09 算法瓶颈：天马行空式生成反而落入俗套？
平面设计
24:39  为什么说Midjourney还没有颠覆素材库？
26:17 附产品：让人惊艳的AI扩图
声音克隆
30:32 比真人替换效果更好的11Labs：音频替换与复原罗斯福总统的声音
35:06 OpenVoice精准还原普通话音调
37:39 真实录音被当作配音：AI克隆声音界限越来越难区分
AI作曲
39:02 谷歌Music FX作曲 PK 素材库音乐，三曲Demo你更喜欢谁？
45:05 创作者的最大痛点：当音乐长度可以自动调整适配片头
50:17 当小工具遇到大公司：软件学习门槛高，更倾向于做大公司的小插件
内容生成
55:05 ChatGPT如何帮助我们快速查资料：在一本400页的小说中找到代糖的初代焦虑
57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联
59:50 我们的内容制作步骤拆解：ChatGPT并不是一个好的提纲撰写者
68:54  写Shownotes的三个要点，GPT只进化到了第一层
【后期】
Amei
【BGM】
Sushi Master - Sight of Wonders
On a Boat to China - Sight of Wonders
【在这里找到我们】
公众号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music
联系我们：podcast@sv101.net
</description>
  <itunes:keywords>生成式AI,Sora,Pika,Runway,11labs,openvoice,MusicFX</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>在我们录制的当天，恰逢OpenAI发布其视频生成产品Sora。本期节目，我们将结合硅谷101播客与视频的日常工作流，来聊一聊那些在我们工作中会用到的各类AI工具，为何Sora会让人觉得惊艳？</p>

<p>我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品，但最后的核心结论是，相比于现阶段的生成式AI产品，我们更愿意用版权库素材。具体发生了什么，来听一听我们的讨论吧。</p>

<p>当然，本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法，欢迎在评论区跟我们留言。</p>

<p>《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营，欢迎感兴趣的小伙伴来给我们投放简历，详细情况请在<a href="https://mp.weixin.qq.com/s/i8UNdI08nFCe5uTsJQ1GEQ" rel="nofollow">硅谷101公众号上查看</a>。</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
陈茜，硅谷101联合创始人，视频主理人<br>
Jacob，硅谷101视频后期<br>
Junwu Zhang，硅谷101研究员</p>

<p><strong>【你将听到】</strong><br>
<strong>视频生成</strong><br>
03:06 比较Sora、Pika Labs、Runway的视频生成效果：时间越长一致性越差<br>
08:14 Sora解析：东京街头背景保持高度一致有多难？<br>
09:51 硅谷101视频的三类素材：历史素材、图表、动画，AI都很难生成<br>
12:40 仅用语言描述生成视频很难，输入也需要多模态<br>
16:44 AI是创作者还是剪辑师的工具？很难被打败的顶级作品<br>
23:09 算法瓶颈：天马行空式生成反而落入俗套？</p>

<p><strong>平面设计</strong><br>
24:39  为什么说Midjourney还没有颠覆素材库？<br>
26:17 附产品：让人惊艳的AI扩图</p>

<p><strong>声音克隆</strong><br>
30:32 比真人替换效果更好的11Labs：音频替换与复原罗斯福总统的声音<br>
35:06 OpenVoice精准还原普通话音调<br>
37:39 真实录音被当作配音：AI克隆声音界限越来越难区分</p>

<p><strong>AI作曲</strong><br>
39:02 谷歌Music FX作曲 PK 素材库音乐，三曲Demo你更喜欢谁？<br>
45:05 创作者的最大痛点：当音乐长度可以自动调整适配片头<br>
50:17 当小工具遇到大公司：软件学习门槛高，更倾向于做大公司的小插件</p>

<p><strong>内容生成</strong><br>
55:05 ChatGPT如何帮助我们快速查资料：在一本400页的小说中找到代糖的初代焦虑<br>
57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联<br>
59:50 我们的内容制作步骤拆解：ChatGPT并不是一个好的提纲撰写者<br>
68:54  写Shownotes的三个要点，GPT只进化到了第一层</p>

<p><strong>【后期】</strong><br>
Amei<br>
<strong>【BGM】</strong><br>
Sushi Master - Sight of Wonders<br>
On a Boat to China - Sight of Wonders</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>在我们录制的当天，恰逢OpenAI发布其视频生成产品Sora。本期节目，我们将结合硅谷101播客与视频的日常工作流，来聊一聊那些在我们工作中会用到的各类AI工具，为何Sora会让人觉得惊艳？</p>

<p>我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品，但最后的核心结论是，相比于现阶段的生成式AI产品，我们更愿意用版权库素材。具体发生了什么，来听一听我们的讨论吧。</p>

<p>当然，本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法，欢迎在评论区跟我们留言。</p>

<p>《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营，欢迎感兴趣的小伙伴来给我们投放简历，详细情况请在<a href="https://mp.weixin.qq.com/s/i8UNdI08nFCe5uTsJQ1GEQ" rel="nofollow">硅谷101公众号上查看</a>。</p>

<p><strong>【主播】</strong><br>
泓君，硅谷101创始人，播客主理人<br>
<strong>【嘉宾】</strong><br>
陈茜，硅谷101联合创始人，视频主理人<br>
Jacob，硅谷101视频后期<br>
Junwu Zhang，硅谷101研究员</p>

<p><strong>【你将听到】</strong><br>
<strong>视频生成</strong><br>
03:06 比较Sora、Pika Labs、Runway的视频生成效果：时间越长一致性越差<br>
08:14 Sora解析：东京街头背景保持高度一致有多难？<br>
09:51 硅谷101视频的三类素材：历史素材、图表、动画，AI都很难生成<br>
12:40 仅用语言描述生成视频很难，输入也需要多模态<br>
16:44 AI是创作者还是剪辑师的工具？很难被打败的顶级作品<br>
23:09 算法瓶颈：天马行空式生成反而落入俗套？</p>

<p><strong>平面设计</strong><br>
24:39  为什么说Midjourney还没有颠覆素材库？<br>
26:17 附产品：让人惊艳的AI扩图</p>

<p><strong>声音克隆</strong><br>
30:32 比真人替换效果更好的11Labs：音频替换与复原罗斯福总统的声音<br>
35:06 OpenVoice精准还原普通话音调<br>
37:39 真实录音被当作配音：AI克隆声音界限越来越难区分</p>

<p><strong>AI作曲</strong><br>
39:02 谷歌Music FX作曲 PK 素材库音乐，三曲Demo你更喜欢谁？<br>
45:05 创作者的最大痛点：当音乐长度可以自动调整适配片头<br>
50:17 当小工具遇到大公司：软件学习门槛高，更倾向于做大公司的小插件</p>

<p><strong>内容生成</strong><br>
55:05 ChatGPT如何帮助我们快速查资料：在一本400页的小说中找到代糖的初代焦虑<br>
57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联<br>
59:50 我们的内容制作步骤拆解：ChatGPT并不是一个好的提纲撰写者<br>
68:54  写Shownotes的三个要点，GPT只进化到了第一层</p>

<p><strong>【后期】</strong><br>
Amei<br>
<strong>【BGM】</strong><br>
Sushi Master - Sight of Wonders<br>
On a Boat to China - Sight of Wonders</p>

<p><strong>【在这里找到我们】</strong><br>
公众号：硅谷101<br>
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客<br>
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music<br>
联系我们：<a href="mailto:podcast@sv101.net" rel="nofollow">podcast@sv101.net</a></p>]]>
  </itunes:summary>
</item>
  </channel>
</rss>
