视觉智能体的范式转移:摄像头如何成为AI理解世界的原点

技术范式的根本性转移:从问答到视觉

过去两年,整个AI行业的交互范式被锁死在“输入框”里。用户先组织语言,AI再给出答案——这套逻辑效率极高,却在哲学层面存在一个根本性悖论:人类认识世界,从来不是从“提问”开始,而是从“看见”开始。 视觉智能体的范式转移:摄像头如何成为AI理解世界的原点 IT技术

一位横跨学术与产业的连续创业者,曾熙,决定挑战这个范式。他在巴塞罗那大学获得博士学位,研究认知科学与当代艺术,核心命题是“人类如何通过视觉理解世界”。毕业后进入消费电子行业,在OnePlus、OPPO负责产品与设计,随后加入字节跳动Flow部门,参与豆包等AI产品从0到1的探索。2025年1月离职,3月注册公司,7月正式运营,9月上线首款产品ChanceAI。 视觉智能体的范式转移:摄像头如何成为AI理解世界的原点 IT技术

核心技术突破:MMMU-Pro基准测评世界第一

ChanceAI以摄像头为核心交互入口,用户打开即可拍摄眼前事物,AI实时进行视觉推理。从技术来看,其VisualAgent在衡量多模态模型视觉推理能力的权威基准MMMU-Pro评测中取得86.07分,位居世界第一。 视觉智能体的范式转移:摄像头如何成为AI理解世界的原点 IT技术

支撑这一体验的是其刚推出的“Live模式”——实时视觉交互系统。与行业中已有的实时识别不同,其Live模式可以在实时视觉场景中,将知识检索、内容对比、上下文理解、多能力调度等多种视觉智能能力整合为一个完整的、具备实时响应能力的智能体。

产品落地的关键路径:用户共创而非预设

在实际使用中,它被广泛用于逛展时解读艺术品、购物时分析穿搭、识别卡牌与潮玩版本、检测皮肤状态,以及拍菜单、识植物、看宠物等日常探索。曾熙透露,目前大部分使用场景由用户自发挖掘,而非团队预设。

更关键的是护城河的构建逻辑。曾熙认为,今天很难有一家独大的AI公司,大家会分得很开。ChanceAI选择深耕视觉,是因为今天大家还没关注到,但未来会是主流。护城河不是模型多强,而是能多快跟真实用户交互。今天自己设计的功能不到20-30%,剩下都是用户告诉的——拍皮肤、看菜单、识别卡牌、吐槽。团队曾在6个小时内满足了一个纽约大学的潮流文化社团的需求,让他们能识别特定卡牌。

商业模式的三层架构与硬件路线图

关于商业模式,团队规划三个方向。第一,高级功能订阅,工程能力较好,成本做得低,没有迫切的收费压力。第二,硬件授权,正在和一些硬件厂商聊,他们投入在硬件很难有时间打磨模型层之上的产品,这是团队擅长的。第三,广告推荐,但会非常谨慎。优先级最高的是先养成用户习惯——让用户看到什么都习惯性地先拍一拍。如果成为一个入口级的产品,商业机会自然会出现。

与纯AI应用层创业者不同,这位拥有硬件大厂背景的连续创业者,从一开始就把“软硬一体”写进了产品路线图。曾熙认为,未来适合他们产品的硬件形态,应该是一颗包揽人们所有视觉信息的摄像头。本质是视觉推理能力,Live模式只是这种能力的一个展现。未来的随身AI硬件一定是一个摄像头,可以包揽你所有眼睛正在看的东西,然后提供下一步有价值的行动。起点没有输入框,起点就是“看”。

市场验证与全球化扩张路径

截至目前,ChanceAI全球总下载量超过20万,月活跃用户在4-6万之间。公司目前几乎没有进行市场投放,所有增长均来自自然传播,其核心用户是25岁以下的年轻人。

2026年最重要的目标是在北美学生群体中进行更大规模的扩张。但这不是传统意义上的市场推广,而是深入用户社群,挖掘年轻人真实的使用场景。2025年3月,ChanceAI成为ArtCentral官方AI合作伙伴,这是AI首次进入国际大型艺术展会的“观看过程”。在现场,观众用摄像头对准艺术品,AI会实时参与观看,一边看一边交流。