记得之前在知乎粉过一个叫YY硕的大V,他写机器人相关的内容特别透,从卡耐基梅隆的博士生活,到进特斯拉搞Optimus人形
OCR:IMG:时C: 科技森 刚刚发布于浙江 记得之前在知乎粉过一个叫YY硕的大V,他写机器人相关的内容特 别透,从卡耐基梅隆的博士生活,到进特斯拉搞Optimus人形机 器人,都像写日记一样分享。 后来有一天,他说离职创业了,原因特别简单:为了他儿子。每 晚给儿子编机器人故事,儿子说想要一个真的,于是这个搞前沿 技术的爸爸,决定自己动手把故事里的伙伴做出来。 这事当时看了就觉得,哇,好酷,也好暖心!所以我一直默默注 意他和他的妙动科技。 这段时间,他们发了个新成果,叫DT4DT。现在的主流模型懂图 文、识语义,却缺了对物理世界的动态直觉,他们想搞定机器人 一个根本难题:怎么让它真正理解物理世界?比如抓杯子,光知 道那是杯子没用,得懂怎么伸手、用多大力、抓起来会怎样。 他们用一个视频生成模型,去学去猜下一帧画面会是上面一一球会 怎么滚,手碰到杯子会怎样。这过程,其实就是让AI在建立对物 理规律的直觉。然后,他们把生成过程中那些半成品的想象画 面,喂给另一个模型,让它去生成具体的机器人动作。就这一个 设计,让数据效率提了10倍,从零训练也能做到98.6%的成功 率,比一些用海量数据预训练的模型还好。
OCR:IMG:知乎 关注 推荐 热榜 专栏 圈子 付费咨询 知学堂 荣家为什么要害 他的动态 发表了文章 2025-04-0609:15 置顶 离职特斯拉创业做自己的人形机器人了 YY硕 机器人话题下的优秀答主 1749人赞同了该文章> 各位亲爱的朋友们, 我现已从特斯拉离职,和我多年好友和合作伙伴思然创业设计研发消费级机器人产品,我们创立的 妙动科技”MondoTech将在深圳和硅谷PaloAlto同时设立办公室。现已有多名世界级的机电系 统和强化学习工程师和科学家正在加入我们的创始团队。 离开特斯拉并非是因为我个人对Optimus擎天柱人形机器人项自有任何悲观预期。两年来,正是因 为ElonMusk的远见卓识让整个人类社会理解和认识到人形机器人的巨大潜力,因此人们可以窥见 一个更美好的人和机器人共处的未采。特斯拉的Optimus项自组正在稳步实现Elon在今年初定下的 量产计划,未来几个月内会有更多的机器人被生产出来进入人们的视野。我此刻选择创业是希望可 以有更大的自由度主导几款尺寸更小、更加贴近普通消费者的机器人产品,采用近年来较新的软件 工程、人工智能和机电系统技术来架构更加稳健、安全、智能的机器人系统。 YY硕从特斯拉离职后就一直在知乎上更新创业动态
OCR:IMG:知乎大V、前特斯拉Optimus团队成员YY硕,发布 创业后新成果:视频生成动作,成功率98.6% 原创liuxjerry具身纪元2026年3月14日19:59江西616人 最早了解yy硕(杨硕)是在知乎,他的分享既专业又真诚,人气也很旺。从 CMU°博士毕业后,他在特斯拉Optimus团队工作了一段时间,然后作为联合 创始人和CTO,创办了MondoRobotics。 1 图注:在特斯拉时的杨硕 最近他们发布了最新的成果,DiT4DiT:JointlyModelingVideo DynamicsandActionsforGeneralizableRobotControl 这是一个DIT做视频生成,再接一个DiT做动作生成。 从知乎的答案,到给儿子的答案...他都做到了
OCR:IMG:数据说话:全面提高 几个亮点: 好了,说了这么多原理,让数据说话。 插花任务 LIBERO基准测试(4个任务套件,测试空间理解、物体交互、语言理解和长 (Arrange Flower):把一根细细的花基插进花瓶。DIT4DIT成功 时间操作): 率75%,GR00T-N1.5只有25%。这种植细操作用要极强的空间推理能 力 ·杯子 方法 平均成功率 (Stack Cup):60% vs 25%。 Ditfuslon Policy 72.4% ·抽照交互 (DrawerInteraction):开抽展→放东西→关抽展,这种多阶段长时序任 Tte 94.2% 务,DIT4DIT拿到了90%。 Ito.s 96.9% 而参数对齐的纯VLA基线Qwen3DiT呢?基本全面前溃。7个任务中有3个直 接0% CogVLA 97.4% DIT4DIT 98.6% 这说明什么?光有语义理解远远不够,物理动态的先验才是真实世界操作的关 键 注意,o.s和CogVLA部是用大规模动作数据预训练过的,而DiT4DIT是肤 更的是,DIT4DIT的预调练数据量只有GR00T-N1.5的15%。用更少的数 零开始训练的。 据,打出了更好的效果。 特别是在最难的LIBERO-Long长时间任务上,DiT4DiT拿到了97.6%,比 mo.s的92.4%高出5个百分点。长时序任务恰好是最考验物理助态理解的一 你得知道每一步动作的后果会怎样传播到下一步,这正好是视频生成模型的强 项 零样本泛化:换个杯子也能叠 RoboCasa-GR1基准(24个家务任务,29自由度人形机器人): 机器人的一个经典滩题是泛化能力—你用红杯子训练的策略,换个蓝杯子还 能用吗? 方法 平均成功率 GROOT-N1.5 41.8% GR0OT-N1.6 40.8% Qwen3DiT(参数对齐基线) 36.2% DIT4DIT 50.8% 在这个更难的基准上,DIT4DIT比GR00T系列高出了将近10个百分点 图注:零样本乏化实整测试 24个任务里,DIT4DIT在16个任务上拿到了最高分。 DIT4DIT在这方面的表现让人惊喜。 这技术不只是实验室里的漂亮数据 在真实人形机器人的测试中 插花、叠杯子这些贴近生活的操作都能稳稳落地
内容提及地域:广东省、江西省、浙江省、深圳市
IP属地:广西