个人思考记录（一）What u need in AI era

原创已于 2026-06-03 22:03:28 修改 · 1.5k 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#ai #人工智能 #程序人生 #笔记 #github

话题

#领算力，参加 2026 AMD AI 开发者征文挑战赛

于 2026-06-02 23:53:25 首次发布

10WTW01‘s Note 专栏收录该内容

1 篇文章

订阅专栏

前言

今天抽时间看完了WhynotTV-Danfei Xu的后半部分，同时又线上听了优秀校友的讲座以及小浣熊的分享会议，感触颇深，故稍作记录，待日后回顾。

正文

在这个时代，AI迭代速度很快，LLM在一些领域能力已经逐渐逼近甚至超越了人类本身。确实会带来焦虑感，因为变化确实太快了，不过回看人类文明历史，这样的时刻有很多，每次生产方式的变迁都会带来变革，而人类文明也正是在一次次的变革中得到不断地发展，解放生产力的同时也让我们得以不断地去探索这个世界，在这个过程中又会进一步改进生产方式，形成飞轮，驱动文明快速地进化。

当下作为个体，我认为应该不断扩充自己的认知边界（比如学习新知识），才能充分发挥AI的生产力。就像汽车的出现，人们学会如何开车从而能更快速地到达目的地。AI亦是汽车，它帮助我们更快地呈现自己的想法或解决一些实际的任务。

//明天继续写，太晚了

2026.6.2

//ok，先写一些

因为AI用于训练的数据其实基本上来源于互联网的公开信息，而互联网上的数据几乎涵盖了各行各业，所以可以将它看作一个全才，就是大部分都懂，但也一些有不懂的（数据集里面没cover到的盲点）。从这个角度看，AI可以说基本能解决每个人在学习过程中常见的问题，很适合作为老师指导个体学习，这就需要先会提问 - ASK，同一个知识不同的提问方式会让AI给出质量完全不同的回答（参考Prompt engineer）

同时，不可否认的是，AI又具有幻觉（hallucination，懂的太多，比如有些领域可能在语义空间上具有一定的关联，数据集预处理没法做到最优划分或者说语义上无法精确分割，模型训练的时候又会把不同领域的知识串起来，导致回答的时候比如可能只需要从physics的角度但又会引入其他STEM领域的bias，会形成一些看似合理但其实是错误的描述），且难以完全消除。这时候就要求我们对照权威的资料，在学习的时候要思考 - Think，将外在的知识内化为自己的认知，即便认知可能有一些缺陷，但这正是学习的loop：试错、思考、改进，不断地循环。而且在学习新领域的过程中其实一开始学习是最快的，而AI的出现则进一步地帮助我们快速地grasp新领域的知识。

同时，AI的出现缩短了我们一些自己的想法变成现实世界的gap，比如以前文科生想做一个个人网页，需要外包给其他人，成本较高，而现在只要写prompt就可以由AI近乎无成本的实现，网页部署也可以交给AI去做。就像点石成金一样，LLM让想法通过prompt变为了现实，甚至如果要设计一个精美的网页前端，也只需要通过figma、azure等设计软件得到一张设计图纸即可交付给编程agent实现。Thought matters，一定要保持自己的好奇心和创造力，be youself。

如果narrow到对计算机行业来说，对我们这一代选择计算机专业的人，编程仍然很重要，但不是最重要的了，因为目前AI的编码水平很高，不过它还达不到业务开发中高级工程师的水平。计算机不只是编程，在实际业务中，场景、需求等条件是动态变化的，通常在具体业务中需要的是特定的架构设计、技术选型等，系统设计的相关经验都是在实践中积累而来的，没有一个通解，而AI的训练过程中会受到数据集的影响，它一般会偏好数据集中高频出现的方案，而且实际开发中的方案是多种技术的排列组合，数据集构建时难以面面俱到，有时可能还要对现有技术进行改进。这就导致开发过程中会发现AI虽然知道很多技术，但它不会选当前场景的最优解，这就需要Know（先验知识）。对同一个场景和需求进行开发。经验丰富的老手会少走很多弯路，而新手开发大多数情况下会误入歧途，等到发现的时候就已经晚了，技术债务的积累让项目积重难返，只能重构，但又可能走进另一个死胡同（不是说方案不可行，而是说在一开始的设计上就已经决定了方案的上限limit，得到的只是一个局部解，只能fit受限的条件）。

AI难以帮我们消除现有经验的差距，但可以加速经验的获取。因为AI感知不到你的认知或能力边界，它是根据你的input输出一个output，简单来说，而这个output是聚合了AI自身能力+使用者认知得到的结果，就会导致越是一个领域的专家，越能发挥出AI在这个领域方向的能力。

不过同时它可以加速新手一开始开发项目的速度并且为项目做一个兜底（有一个下限），以往可能需要学习前置知识（比如语法规范、库定义）才能进行的开发，比如说一个简单的前后端联动BBS网页，对于一个不懂编程的新手就可以需求驱动的方式先快速开发一个demo上线。

AI开发过程中，一些规范化、固定的知识（像一些API文档，具体怎么写）是AI可以替我们快速去学习的，不过我们仍需要建立起整体的认知（至少知道它是什么、有什么用、什么场景适合用）。做项目的过程中我们不能只满足项目能跑，要测试项目存在的问题，比如我开发BBS的过程中就遇到AI代码逻辑错误的问题：

1.问题一：用户更改头像后，再点击保存修改，会先显示保存成功然后显示加载失败导致头像复原。

问题分析：

头像上传 (uploadAvatar)：上传成功后只调用 loadProfile() 刷新页面头像，没有直接修改 DOM。
资料保存 (profileForm 的 submit)：保存成功后 showToast('保存成功')，然后也调用 loadProfile()。

loadProfile() 函数逻辑：如果 user.avatar 存在，执行 avatarArea.innerHTML = '<img src="${user.avatar}">'，这会把原本包含 avatarText 的 DOM 结构完全替换掉。如果 user.avatar 为空/不存在，执行 document.getElementById('avatarText').textContent = ...。

用户更改头像后，页面上的 avatarArea 已被 innerHTML 替换为 <img>，原来的 <span id="avatarText"> 已不存在。此时如果点击"保存修改"，profileForm 提交成功会弹出"保存成功"，随后再次调用 loadProfile()。如果这次 api/user/info 返回的 avatar 为空或缺失（比如 session 未同步、数据库查询异常等），代码会进入 else 分支，尝试给已不存在的 avatarText 赋值，导致 TypeError。这个异常被外层的 catch 捕获后弹出 "加载失败"。
同时，由于 loadProfile() 把头像区域设置回了从服务端取到的旧状态（或因为异常导致页面没有保持新头像的显示），用户观察到头像"复原"。

总结一下就是：前端异步刷新导致乐观更新被错误回退，并伴随DOM引用异常。

解决方案是：

1.前端即时更新（直接使用 innerHTML 将头像写入 avatarArea，不再依赖 loadProfile()） 2.容错兜底（loadProfile() 的 else 分支中，先检查 avatarText 是否存在。若已被之前的头像 <img> 替换而不存在，就重新构建包含 <span id="avatarText"> 的默认 DOM 结构，避免 TypeError。这样即使后续加载拿到了空 avatar，也能安全显示文字头像，不会崩溃并抛出“加载失败”。）

3.后端同步 session（头像上传成功后，将包含新头像 URL 的 User 对象写入 session 的 currentUser，保证后续 api/user/info 接口返回的就是最新头像数据）

2.问题二：在帖子发表成功之前，连续点击发表（如点了5次）会一下子发表5个相同的帖子，理论上应该1次发表只有1个帖子。

问题分析：

前端 doPublish() 函数直接通过 onclick="doPublish()" 绑定，缺少防重入机制。
代码里没有 isPublishing 标志，没有禁用按钮，也没有防抖。
后端 PostServlet.doPublish() 和 PostService.createPost() 每次请求都会独立执行一次 INSERT，没有任何幂等校验或请求去重。
因此用户在请求响应前连续点击，会并发发出多个 POST /api/post/publish 请求，生成多条重复帖子。

总结一下就是：前端无防重入保护，后端无幂等控制，导致同一操作在未完成前被多次并发提交，产生重复数据。其实典型的一个场景就是电商平台购物点击下单的时候。

解决方案是：

1.前端状态锁：引入状态锁 isPublishing，作为是否正在提交的标志，doPublish() 开头增加 if (isPublishing) return;，如果当前有请求正在进行，后续点击直接忽略。

2.按钮即时禁用：在内容校验通过、准备发请求之前，将 isPublishing 置为 true。同时将“发表”按钮设为 disabled，并将文字改为“发表中...”，从视觉和交互上阻止重复点击。

3.请求后恢复：在 fetch 的 .finally() 回调中，重置 isPublishing = false，恢复按钮的可用状态和原始文字。这样即使请求出错，用户也能再次尝试，不会永久卡死。

那时候也顺便对于回复功能做了相同的修改，但如果现在回过来看，当时的修改是在在前端上进行的，而前端防护无法覆盖多标签页、API直接调用、浏览器开发者工具重放请求等场景，一旦绕过前端直接发请求，仍会产生重复帖子。

所以还应该对后端加入基于 request_token（由服务端生成并注入页面，或由前端生成一个 UUID） 的幂等校验（一次和多次请求某一个资源对于资源本身应该具有同样的结果），确保即使请求绕过前端直接调用 API，同一个操作也只执行一次。这个后续抽空改下。

在解决实际遇到的问题积累经验，因为AI生成的代码出现的错误，往往是AI所需要的引入人类经验（新手不会想到，而大佬会因为他碰到过），也是设计之初中经常要考虑的问题（像上面的并发、同步等问题）。设计项目方案、开发项目、踩坑、总结、积累经验、内化为认知，不断地通过PBL的方式去拓展自己的能力边界和认知经验，形成学习飞轮，快速地积累经验并不断成长。或许便是在AI时代初级工程师如何成长为高级工程师的路径之一吧。当然，上述过程也可以被泛化到其他领域，不仅仅是计算机相关的，即成为AI-native的人。

结语

在过去，火把的出现，让人们可以在黑夜里行动，把黑暗逼退到手臂之外，第一次让人类的脚步延伸到了日落的边界之外。后来，轮子让大地在脚下收缩，让物理距离不再是阻止人们交流的枷锁；印刷机让一个头脑里的火花，在千万双眼睛里重新燃烧；蒸汽机把肌肉的极限碾碎在钢铁的轰鸣里；计算机则把思维的速度从血肉的毫秒，托举到了电路的光速——每一次，工具都在把我们生而为人的有限边界，向外推开一大步。

如今，AI 接过了这支火炬，但它不再只是延展我们的手脚或记忆，而是直接触碰认知的边界：它能从亿万噪声中辨认出通用的模式，能编写文字、图像与代码，能在语言的巴别塔之间架起透明的桥。而 AI 智能体更进一步——它不再只是等待一个指令才亮起的灯，它开始拥有一种“行动感”：能自己分解任务、自己调用工具、在感知与执行之间画出一个完整的闭环。

如果说此前的工具是把我们做不到的事情变成可能，那么今天的 AI，是在把“想不到”变成“想得到”，把“想得到”变成“做得到”——它不是取代人的大脑，而是像一面棱镜，把人本就拥有、却被各种条件（如时间）锁住的智慧，充分释放出来，不用像以往进行规范化、重复性的工作，而可以使用自己的想法尽情创造。

所以，请尽情发挥自己的想象力和创造力吧，不要因当下的局限而拘束自己的认知边界，去学习、去实践、去积累经验，让这个世界更美好吧。当然，要永葆好奇之心！

//这其实是我想对未来的自己说的，pls：Stay Gold。

播客内容

基于播客的字幕以及时间线，将内容转换成了文章的形式（推荐收听全文，这个是为了我自己去快速recover一些内容以及再思考）：

一、成长经历与求学之路

        徐丹飞一直把自己定义为一个机器人学家（roboticist），而不仅仅是一个坐在屏幕前训练模型的人。他最早对机器人产生兴趣是在初中到高中阶段，那时他喜欢做一些小手工、捣鼓单片机和小车。这些东西都是从淘宝上买来，自己找教程鼓捣的。他出生在山西太原，六年级到初一搬到上海，初中和高中都在上海度过。

        小时候的徐丹飞是一个非常由兴趣驱动（interest-driven）的人。他不想做的事情，会付出零努力；想做的事情，则会投入百分之五十到一百的精力。他坦言自己小时候学习很差，因为非常不喜欢上课和考试这种形式，学校对他来说只是一个社交场所和度过大部分时间的地方。直到高一高二，他决定要出国读本科，动机才突然到来。去美国读书这个决定是他自己做的——高一暑假去了一趟美国后，他觉得"do something different"很吸引人，于是下定决心，没有找任何中介，完全通过QQ群和古早的留学生论坛CUUS自己DIY完成了申请。

他就读的上南中学是一个区重点学校，年级里申请美本的只有两三个人，他是极少数做出这个选择的人。但他并不觉得有压力，反而觉得脱离主流是一件令人兴奋的事情。申请过程并不顺利，父母对这套系统完全不了解，只能负责出钱，所有事情都是他自己一个人干。最后他去了Dickinson College，一所文理学院（LAC）。他后来觉得这个选择没有问题，因为文理学院给了他更多自己探索的空间，也促成了他跟教授近距离做科研的机会。

        回顾十八岁之前，他认为那段经历让他意识到：自己非常擅长处理高不确定性、完全没有框架的事情。这种能力后来非常适合做研究。

//兴趣驱动、热爱实践和挑战something different

二、本科时期的研究探索

        刚到美国读本科时，徐丹飞就对计算机和物理感兴趣，于是主修CS、辅修物理。但他实在太想做机器人研究了，大一大二时就开始给各种名字里带"robotics"的公司打电话——真的就是Google到电话然后打过去，问招不招暑期实习生。他打了二十多个电话，包括Boston Dynamics，最后SynTouch Robotics的Jeremy Fishel接了电话，聊了很久后说："那你来吧，我们也不给你钱，但你来吧。"

        于是徐丹飞飞到洛杉矶，在SynTouch做触觉传感器（BioTac）和Shadow Hand。那个暑假他大概搞断了七八根手指。这段经历让他第一次接触到灵巧手，也让他确认了自己对硬件有天生的亲近感——"我真的就想让东西动起来"，他非常享受坐在机器人旁边看它动、看它坏、再把它修好的过程。

        后来，他又做了一件"离谱"的事：听说CMU有一个叫RSSS的暑期项目，他发邮件给一个做无人车定位的教授，对方回复说"你的背景可能合适"。徐丹飞直接开了四个小时车从Dickinson去CMU，敲门说："我们要不要聊一聊？"聊了半小时后，教授说："你来吧。"在CMU，他参与了一个非常经典的无人车定位项目，用一辆改装吉普，上面挂了六个摄像头，后面放了六台电脑做数据流。他一周有两天时间花在路上，跟另一个研究员天天开车出去在匹兹堡收集地图信息。这段经历让他非常开心，也让他看到机器人研究是一个完整的系统问题。

//想去做就去试试，anyway no loss

三、PhD 与斯坦福的"机器人荒漠"

        本科后期，徐丹飞通过3+2项目转到了哥伦比亚大学。申请PhD时，他拿到了CMU和Stanford的offer，纠结了很久。Stanford当时做机器人的人非常少，除了Oussama Khatib之外几乎没有人，更别提robot learning了。但徐丹飞觉得CMU的确定性太高——他知道去了会做什么；而在Stanford他完全不知道会做什么，"这件事情非常exciting"。他隐约感觉到那边有一个"bigger thing"。

        2015年，他进入Stanford读PhD。当时系里大多数人都在做vision，Feifei Li在做scene graph，Silvio Savarese在做3D。Stanford有rotation制度，他第一个学期跟Silvio做3D reconstruction，第二个学期跟Leo Guibas做egocentric VR和human data capture——他自己买了Oculus DK，挂上Leap Motion做hand capture，这跟他后来做EgoMimic的雏形几乎一模一样。第三个学期他跟Feifei做了scene graph generation。

        第二年，Feifei问他要不要继续做scene graph，他说不要，我要做robotics。当时Stanford做机器人的人依然很少，郁可（Yuke Zhu）和AJ后来才加入。他们四个人成立了一个小组，开始全是做robotics。徐丹飞说："如果我真的有一件事情能让我完全主导，我非常开心。I hate other people telling me what to do。"

//自驱力，do something different

四、Robot Learning 与 Behavior Cloning 的转向

        2016到2017年，robot learning领域大致分两派：一派是CV-centric，把机器人当成vision problem做；另一派是RL-centric，认为机器人需要自主学习，看不上supervised learning。当时大家普遍认为"supervised learning is to be shamed of"，behavior cloning（BC）在论文introduction的前两段一定会被说"not good enough"，有compounding error。

徐丹飞和郁可一开始做了一些one-shot imitation learning和Neural Task Programming（NTP），加了很多structure prior。他一度非常喜欢structure和compositionality，但后来逐渐意识到，composability可以作为一个问题而非方法——task and motion planning（TAMP）在工厂限定场景下有用，但太依赖人为设定的structure，成了天花板。

        2019年，他去DeepMind实习，做了一个暑假的generative imitation learning（GAIL）。但这段经历最大的收获是：他亲眼看到behavior cloning actually works。DeepMind用Sawyer机器人做了非常好的teleoperation数据，如果把所有less-than-optimal的数据过滤掉，直接做BC，效果可以作为所有任务的competitive baseline。但DeepMind的flagship agenda是reinforcement learning，所以强行把BC压下去了。"It's not politically correct to do behavior cloning。"

        回到Stanford后，徐丹飞和Jay一拍即合——Jay之前在ARM-Farm项目里也觉得offline RL不太work。他们花了三个月，从头搭了一套Franka Panda的力控teleoperation系统，从SPSSA写起，一直到算法和learning rate tuning，天天凌晨三点在实验室。这篇RSS 2020的论文本质上非常简单：BC works。他们做了很多"一拍脑子"的决定——加wrist camera、用ResNet-18、加spatial softmax、加RNN——"why not?"。机器人能学会30秒长度的真实任务，比如从烤箱里把盘子挖出来、放东西进去、关上烤箱门。这是之前没人见过的"sign of life"。

        但因为当时有"BC shame"，为了发论文，他们还是在上面加了一层比较好讲故事的东西。而且不巧的是，2020年COVID来了，实验室关闭，这篇工作没有引发范式转变。大家只觉得："Stanford student did it with a better system. 没了。"

五、PhD 反思与教职选择

        PhD期间，徐丹飞在Autodesk、Zoox和DeepMind做过几段实习。Zoox让他意识到自动驾驶"太无聊了"——当时的自动驾驶已经退化成一个vision problem，pipeline被拆成perception、planning、control，每个人只推自己的benchmark，不需要communication，不够full stack。他绝对不要再做driving。

        另一个反思是neural symbolic language for robot。他一度挺信这个路线，但看过RT等工作后觉得，language model生成program再控制机器人，symbolic layer和physical layer差太远了。"Task planning这件事情非常简单，比起精细操作来说，中间离得太远了。"

        决定找教职的转折点是在DeepMind实习之后。他意识到工业界研究环境从open变成了非常top-down，"what Demis says goes"。他不喜欢别人告诉他该做什么，"I need to干我自己有兴趣的事情"。在创业和教职之间，他选择了教职，因为教职能给他最多的自由度来做自己想做的事。

六、人类数据与 EgoMimic

        徐丹飞认为，robot learning和传统robotics的区别在于：前者把里面所有方法都换成了data-driven。传统manipulation是大家写动力学方程、做优化；而现在大家只关心机器人有没有输出正确的action，中间的modeling都没有了。

        他觉得这个领域最被高估的是model和algorithm的重要性，最被低估的是system——从硬件到软件结合的整个系统。

        关于数据，现在主流是teleoperation数据（遥操）和synthetic数据（物理引擎）。但他最相信的是human data。2023年中，他和学生Sumeet开始做EgoMimic。Sumeet坚信第一人称视角（ego video）数据是最scalable的。他们一开始用Oculus加Leap Motion，但calibration非常不稳定；后来正好Meta有Aria眼镜，能同时做手部tracking、头部定位和RGB采集，于是整个项目转向用Aria。

        为了让人类数据能更好地迁移到机器人，徐丹飞认为机器人必须变得更像人。当时没有任何现成机器人符合要求，于是他亲自去Vention买了各种铝部件，自己设计、自己搭了一个双臂加肩、带两根"棍子"的机器人，还自己3D打印了一个gripper。那段时间他不是在教课，就是在实验室打螺丝。

        为什么从teleoperation转向human data？因为他逐渐意识到："如果你在人人身上挂足够多的sensor，其实你可以把一个人变成一个机器人。"遥操数据本身也不完美——哪怕同一个机器人，底层控制器稍微改一点，数据分布就变了。但人和机器人的差距真有那么大吗？如果能把人的动作转成可用的action、perception转成policy input，那人类数据就可以直接当机器人数据用。

        从ego video里，机器人能学到三层东西：第一层是世界应该怎么改变（拿杯子、推抽屉）；第二层是本体如何造成这些改变（推哪里、拿哪里）；第三层是如何产生本体的动作（肌肉、关节如何发力）。前两层可以学到，第三层很难直接从视频学——比如扔球需要知道每个关节发多少力，这是视频看不到的。这也是为什么他强调第一人称而非YouTube第三人称：第三人称数据虽然scalable，但和机器人数据的distribution对齐非常难，能真正用到的很少。

        SLAM/VIO之所以重要，是因为如果把人当另一种机器人来用，就需要精确的action label。知道手在相机里的位置还不够，需要知道在世界坐标系里的位置，这就需要视觉惯性里程计来做自我定位。他认为长期最有价值的数据是"不经意的人类数据"——人在日常生活中自然流露的物理交互，而不是为了完成任务刻意采集的数据。因为人类的physical intelligence很多是在无意识中展现的，比如用手肘关抽屉、用脚开门。

        关于模态的重要性，他的排序是：第一名是video；第二名是hand pose；第三名是language annotation；第四名是whole body pose和tactile（触觉）；音频和嗅觉则相对不重要。触觉传感器今天最大的问题是太不统一，没有RGB那样的标准化表示。

七、UMI 数据与硬件瓶颈

        UMI（Universal Manipulation Interface）数据可以理解为：人手退化成了一个机器夹爪（gripper），这个gripper自己有状态估计（上面带摄像头和定位），你知道它在3D空间的位置。好处是采集和部署之间几乎没有embodiment gap，因为末端执行器是一样的。但gap依然存在：人的操作空间和自由度跟机器人不一样。

        徐丹飞认为，teleoperation、UMI和纯human data长期会变得难以区分，最终会融合。现在最work的UMI还是夹爪，因为五指灵巧手的transfer卡在硬件上——不是机械臂不行，而是大部分人没有把执行器、控制器、速度匹配串起来。他相信如果机器人底层执行器做得足够好（速度够快、控制够精准），human data到五指的transfer gap并没有那么大。

        人形机器人和人类数据是一荣俱荣的关系。Humanoid本身除了使用工具和心理接受度外没有实质意义，但有了human data，humanoid就有了purpose。反过来，没有humanoid，human-to-robot transfer会更难。他担心human data会不会把机器人锁死在人类水平，但认为不至于——可以先通过human data达到人类水平，再通过finetuning激发超人类潜力。

八、数据基础设施与开放之争

        徐丹飞估计，要达到behavior clone human的水平，大概需要1亿小时的高质量数据。而今天整个行业最大的数据集大概在10万到20万小时之间，还差100倍。如果有一个有钱的公司把所有人数据买下来，大概能凑到一两百万小时。

        现在的问题是：human data还没有统一标准，传感器、模态、采集设备都没有converge。如果直接push for 1亿小时，有可能造成巨大浪费。他形容现在的状态是"一辆高速前行的火车，前面有几个Lauv在疯狂打铁轨，后面所有资本在往车里加油加柴"——数据的热情超过了基础研究的准备。

        他本来希望"无心插柳"：等Meta Glass、Apple Vision Pro等可穿戴设备普及后，自然会有大量数据。没想到robot learning火了，很多人开始专门采集数据，时间表被提前了。

关于开放与封闭，他认为human data采集最终会变成commodity而非护城河，因为frontier lab也不知道自己要什么数据，需要跟数据供应商紧密合作、互相教育。但他也承认，如果真的要达到1亿小时，可能最终会像LLM一样走向高度商业化、封闭的状态——"我在scale上的成功，会让open science这边变成失败"。

        如果human data没有成为robot learning的基石，他觉得自己可能错判了两件事：一是simulation-based learning的scalability远超预期；二是人和机器人之间的embodiment gap（尤其是第三层动作生成）太大，导致zero-shot transfer完全不可能。

九、Full-Stack 与建模方法

        徐丹飞反复强调full stack的重要性。机器人不能像自动驾驶那样被拆碎成分工明确的模块——perception、planning、control各做各的。他认为robotics本质上不是一个能分工解决的问题，所有人需要know everything。

        Full stack不等于什么都要自己造，但你需要对整个系统的每一个细节有足够深的理解，才能判断哪些该买、哪些该建。一个团队绝对不能放弃、必须in-house做的是：evaluation和training loop、post-training数据筛选、数据分布的把控、以及close loop的采集-训练-部署循环。如果数据来自vendor，vendor怎么采的、synchronization做得好不好，对你来说就是一个黑箱，这在追求1亿小时数据时会是巨大挑战。

        关于建模，human data会偏好long context model。因为behavior clone一个agent需要足够的上下文来解释为什么要做这个动作。如果context不够，action只是一个非常宽的分布，无法理解。

        他思考system 1和system 2的interface会是什么，认为"we need a new language"。LLM grounding到action的距离太远了。一个不会说话的人跟物理世界交互时，并不会用language as system 2来规划、system 1来执行——规划和操作可能在另一个空间里完成。这个空间是什么，需要从human data里从头学起。

//全栈开发，多领域交叉，no limit

十、教授生涯与给年轻人的建议

        徐丹飞在Georgia Tech做助理教授不到四年。他的advising style在hands-on和hands-off之间反复横跳——有些东西他真的想自己push forward，比如EgoMimic的机器人就是他亲自搭的；有些东西则让学生做open-ended exploration。

        他的lab文化有几个坚持：讨厌分工，要求每个人care about the whole thing，know everything，no work is beneath anyone（全栈开发）。如果机器人电机坏了，他会直接进去自己焊。他招学生最看重的特质是：不讨厌硬件。

        学术界最吸引他的本质是thought leadership——"academia最终要达到的是oversized impact，你需要用你的idea来影响别人，让别人觉得一件事情是对的，然后共同推进。"

对于2026年读robotics PhD的学生，他认为比十年前更难了——因为FOMO（fear of missing out）情绪太高，如果不跟主流连接会觉得被lock out。但反过来，资源变多了，工具变多了，如果选对了方向，做成一件事更容易。他建议年轻研究者尽早培养taste——自己觉得什么是对的、什么是错的。看优秀研究者的轨迹时，要理解他们的gradient（为什么做），而不只是学他们的traction（做了什么）。

        他的career goal很简单：没有很强的个人企图心，只是希望能尽微薄之力促成robotics的GPT-3 moment。他给十年前的自己的建议是：勇敢做自己想做的事，"what's to lose？"。

// 先找对方向，然后just try

时间胶囊寄语

        "我觉得真的能够参与在一个能够改变世界的领域，在正确的时间、在一个正确的地方，是一个非常幸运的事情。我可能会把自己当做一个没有那么强天赋的人，只是一个正常普通的人。我觉得绝大部分人做自己想做的事情，还是会让你的career或者你自己的生活变得更容易一点，也没有那么脱离大部队。所以是勇敢地做自己想做的事，不要有那么多的包袱——what's to lose?"

//佬谦虚了，个人选择有时亦是一种时运吧；人生一世就做些自己想做的事吧