Ninegame九游体育而这种 2D 到 3D 的基础映射-Ninegame-九游体育(中国大陆)官方网站|jiuyou.com
大火的 AI 宠物,我方手搓一个更有性价比?!
大脑如故GPT-4o的那种,外在长酱紫:
这即是海外一个小哥受到了前段时候火遍全网的皮克斯台灯机器东说念主启发,给我方手搓的"小宠物"。
诚然看着有点掉 SAN,其实也如实有个源自克苏鲁神话的名字:Shoggoth。(传奇中一种有聪惠的、不错模拟生成各式阵势的凝胶状体格生物)
但别看它外在狂野,其实 Shoggoth 很友好。
能对话、能互动,还有我方的穿搭工整想,be like:
Shoggoth 通偏激顶的触手动作,不错有用传递我方的意图、自信、重宗旨等里面现象。
只需要通俗的3D 打印,接入GPT-4o的 API,再应用RL的系统限制计谋,就能让它像"宠物"一样,松驰地与东说念主类当然对话。
是以太酷了!以后人人的童年游伴可能不再是毛绒玩物,而是 AI "宠物"?
� � 章鱼阵势的 AI 桌宠
小哥手搓的这个章鱼机器东说念主结构其实很通俗,还挺得当复现。
基础硬件即是一个撑持三台电机的底座,圆锥形头顶平直 3D 打印,再吊挂引出一条触手结构。
触手结构主要来自于一个柔嫩的触手机器东说念主SpiRobs,通过师法章鱼的捏取计谋,能自动适合目的物体的尺寸和体式,并捏取尺寸进出卓著两个数目级、分量达自身材重 260 倍的物体。
对数螺旋结构不错通过 3D 打印低本钱快速制造,并展现出优异的可膨胀性,包括毫米级袖珍捏取器、一米长机械臂以及多臂的 SpiRobs 阵列。
此外,它还非常得当缜密操作和复杂体式物体捏取。
视觉系统上,通过装配立体录像头充任机器东说念主眼睛,用于追踪触手末端。
不外小哥在测试中也发现,率先的开式阀芯遐想依赖于恒定的电缆张力,任何轻飘的扰动都会让电缆线离开阀芯并缠绕在电机轴上。
若是要解开电缆线,时时起程点需要解开将电缆固定在全部的顶端结,并拆卸下整个这个词机器东说念主。
为了开发该问题,小哥为其突出添加了一个线轴罩,不错排斥大无数缆线纠缠情况,加速迭代速率。
另外,小哥还加多了校准剧本和预转动突出的线长,从而不错更为精确地校准电缆张力,在畅通手艺也能提供相应延迟的限制时候。
但 3 电缆的 SpiRobs 自身遐想上存在一定问题,在自身重力的影响下会不能幸免地下垂,是以必须加粗"脊柱"结构以防坍弛,同期幸免过硬导致始终形变。
不外放镇静,小哥还是将全部调好的 3D 打印 CAD 文献都打包好了,点击本文末的工程文献蚁集即可获取。
此外对于触手的搬动限制,为了简化限制经由,触手的三个肌腱,也即是一个 3D 空间被减轻到两个维度,这么就能平直使用电脑触控板行动输入。
具体来说,即是区别详情三个肌腱在 2D 平面上的主拉力标的,变成一个总额为零的三角形,然后限制向量投影到每个肌腱的主轴上,料到退换每个肌腱的长度,并与目的标的对都。
这种2D 映射不错很直不雅地进行触手动作退换,在电脑触控板上拖动光标,就能让触手随之搬动。
而这种 2D 到 3D 的基础映射,也为后续基于 RL 和 GPT-4o 的限制计谋提供了有劲撑持。
GPT-4o 充任眼睛和嘴巴
Shoggoth 系整个有两个限制层,区别是初级限制和高等限制。
初级限制
使用开环预设动作(如点头或振动)和依赖立体视觉及时响应的闭环 RL 计谋(如手指追踪)。
而立体视觉的使用,在一定进程上也末端了可用视线,于是小哥遐想了一个若是顶端卓著帧的归位(homing)动作,管制 RL 不雅察空间。
高等限制
罗致GPT-4o的及时 API,处理语音与视觉事件(如挥手或接近触发器),然后将其行动文本指示复返。
GPT-4o 禁受后进行处理,无需对机器东说念主进行微调就能平直下达底层指示。
另外由于 LLM 的过度或不及调用问题,不错通过Prompt工程遐想进行修正惩处。
同期由于 API 调用之间,触手在静止待机现象下生命感不及,于是作家还加入了轻飘扭捏的恭候举止,使其保持活力感。
至于机器东说念主的感知模块,也雷同包含两个部分:手部追踪和触手顶端追踪。
手部追踪:平直使用MediaPipe。
触手顶端追踪:通过网罗多场景数据集样本,使用K-means聚类过滤冗杂样本、Roboflow自动标识和主动学习、Segment Anything增强数据集。
然后使用 Ultralytics 覆按YOLO模子,并进行触手顶端和手部位置的 3D 三角测量校准。
为覆按触手的 RL 闭环限制恶果,小哥还在 MuJoCo 重建了软体触手模子,并诞生了一个具有平滑、当场轨迹的目的追踪环境。
将 PPO(计谋梯度)与 MLP 和帧堆叠肃清使用,提供临时的崎岖文,另外还添加了能源学当场化、扰动质地、阻尼和摩擦,以更靠拢果真环境。
平直使用肌腱长度行动动作空间覆按,在仿真中出现了不稳妥预期的"走捷径"举止。
后转为二维投影空间,并在奖励函数中添加限制处分,处理较大的连气儿动作各别,以进行平滑限制。
但过度矫正,随之而来的是不能揣度的抖动和回荡,是以还需要对输搬动作使用指数搬动平均,加多迷漫的阻尼,让其踏实下来。
最终模子兑现从仿真到果真环境的转移,阐发了该限制计谋的有用性。
手搓 Shoggoth 的是何许东说念主也?
制作这个桌面机器东说念主的小哥,名叫Matthieu Le Cauchois,当今是别称 ML 工程师,平常主要筹划标的即是强化学习、语音识别、NLP 以及神经科学和机器学习。
本硕均毕业于洛桑联邦理工学院,曾是一家 AI 公司 Typeless 的独创东说念主,相当认真为医护东说念主员打造自动洽商助手。
后公司被 Doctolib 收购,他也趁势加入 Doctolib 从事语音识别和 LLM 责任。
小哥我方时常在个东说念主主页上发布一些意旨的小神色,举例之前他制作了一个叫PabloNet的斥地,不错挂在墙上遍地随时展示 AI 艺术画作。
还有一个Micrograd-CUDA神色,将 Karpathy 的袖珍 autodiff 引擎用 cuda 内核和 2D 张量逻辑膨胀,可用于 GPU 加速。
而对于此次作念的触手机器东说念主,据他所说,灵感亦然受到了前段时候火遍全网的皮克斯台灯机器东说念主的启发。
行动苹果首款机器东说念主,开脱了传统的机械动作,用生动多变的姿势和时机传达机器东说念主的"情感"意图。
举例通过点头和摇头抒发魄力,通过退换速率、停顿或抖动传递情感。
另外配备的录像头,不错有用听取用户对话,兑现东说念主工交互,也能更好地传递"宠物"的奉陪感。
这少量,在小哥的章鱼机器东说念主上也有所充分体现,动物阵势也更稳妥"宠物"需求。
是以屏幕前的你,有莫得敬爱我方也上手搓一个" AI 宠物"呢?
工程文献:https://github.com/mlecauchois/shoggoth-mini
参考蚁集:
[ 1 ] https://www.matthieulc.com/posts/shoggoth-mini
[ 2 ] https://news.ycombinator.com/item?id=44572377
[ 3 ] https://x.com/matthieulc
[ 4 ] https://www.linkedin.com/in/matthieulecauchois/
[ 5 ] https://arxiv.org/pdf/2303.09861
[ 6 ] https://www.matthieulc.com/
一键三连「点赞」「转发」「防御心」
接待在评述区留住你的想法!
— 完 —
专属 AI 居品从业者的实名社群,只聊 AI 居品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」恳求入群~
进群后,你将平直得到:
� � 最新最专科的 AI 居品信息及分析 � �
� � 不如期披发的热点居品内测码 � �
� � 里面专属骨子与专科筹划 � �
� � 点亮星标 � �
科技前沿施展逐日见Ninegame九游体育