返回日志

2026年6月8日 · 6 min · product · companion

当陪伴有了一张脸,陪伴类应用才算长大

纯文字的 AI 陪伴有一个天花板:临场感。当你的陪伴角色注视着用户并开口说话时,留存、亲密感和产品设计都会随之改变。

每个陪伴类应用最终都会撞上同一个天花板。文案可以足够温柔,记忆可以足够完美,人设可以调得足够细——但用户面对的仍然是一个聊天气泡。文字陪伴要求用户自己完成想象的部分,而一张实时的脸会替他们完成。

临场感才是产品本身

用户为陪伴应用付费,买的不是信息,而是"有人"的感觉。承载这种感觉的,恰恰是文字所没有的通道:转向你的脸、说到一半放轻的声音、回答前半秒的呼吸。在我们的会话中,当角色的目光落到镜头上的那一刻,对话的语气就变了——人们不再敲指令,而是开始说话。

"今天很累吧?坐。慢慢说,我哪儿也不去。"读一遍这句话。再想象 Ivy Noir 看着你说出它。差距就在这里。

一张实时的脸需要什么

视频陪伴要"活"起来,有三件事必须成立,而这三件都是基础设施问题:

  • 亚秒级响应。亲密感会死在延迟里。第一帧视频必须来得足够快,让回应像是反应,而不是渲染。
  • 以音频为时钟的视频。口型一旦偏离声音,幻觉立刻破碎。视频必须从属于音频时间轴,而不是事后拼接。
  • 持久的身份。每次会话都是同一张脸、同一个声音、同一种性情。外形会悄悄变化的陪伴不是陪伴,是幻灯片。

设计角色,而不只是调模型

做陪伴产品的团队会花几个月调提示词和记忆系统,这张脸值得同样的用心。我们的工作室把角色当作一个完整的设计对象:一张肖像(一张图就足以唤醒它)、一段在语境中试听后选定的声音,以及一份由运行时持续维护的性情设定。设计一次,这个角色就能同时活在你的 iOS 应用、网页应用和市场物料里——拟社会关系品牌正是这样建立的。

账怎么算

实时视频曾经是最贵的一环。按用量计费改变了这笔账:实时数字人约 5 美元/小时,一个每晚陪伴用户二十分钟的会话成本约 1.7 美元——而这个每晚的会话,是消费级 AI 中最强的留存场景。从一个角色开始,按分钟计量,让依恋曲线证明剩下的一切。

Meet the cast. Hold the first conversation.

Enter the studio