视觉智能体的范式转移：摄像头如何成为AI理解世界的原点

admin666ss2026-05-25IT技术0

技术范式的根本性转移：从问答到视觉

过去两年，整个AI行业的交互范式被锁死在“输入框”里。用户先组织语言，AI再给出答案——这套逻辑效率极高，却在哲学层面存在一个根本性悖论：人类认识世界，从来不是从“提问”开始，而是从“看见”开始。视觉智能体的范式转移：摄像头如何成为AI理解世界的原点 IT技术

一位横跨学术与产业的连续创业者，曾熙，决定挑战这个范式。他在巴塞罗那大学获得博士学位，研究认知科学与当代艺术，核心命题是“人类如何通过视觉理解世界”。毕业后进入消费电子行业，在OnePlus、OPPO负责产品与设计，随后加入字节跳动Flow部门，参与豆包等AI产品从0到1的探索。2025年1月离职，3月注册公司，7月正式运营，9月上线首款产品ChanceAI。视觉智能体的范式转移：摄像头如何成为AI理解世界的原点 IT技术

核心技术突破：MMMU-Pro基准测评世界第一

ChanceAI以摄像头为核心交互入口，用户打开即可拍摄眼前事物，AI实时进行视觉推理。从技术来看，其VisualAgent在衡量多模态模型视觉推理能力的权威基准MMMU-Pro评测中取得86.07分，位居世界第一。视觉智能体的范式转移：摄像头如何成为AI理解世界的原点 IT技术

支撑这一体验的是其刚推出的“Live模式”——实时视觉交互系统。与行业中已有的实时识别不同，其Live模式可以在实时视觉场景中，将知识检索、内容对比、上下文理解、多能力调度等多种视觉智能能力整合为一个完整的、具备实时响应能力的智能体。

产品落地的关键路径：用户共创而非预设

在实际使用中，它被广泛用于逛展时解读艺术品、购物时分析穿搭、识别卡牌与潮玩版本、检测皮肤状态，以及拍菜单、识植物、看宠物等日常探索。曾熙透露，目前大部分使用场景由用户自发挖掘，而非团队预设。

更关键的是护城河的构建逻辑。曾熙认为，今天很难有一家独大的AI公司，大家会分得很开。ChanceAI选择深耕视觉，是因为今天大家还没关注到，但未来会是主流。护城河不是模型多强，而是能多快跟真实用户交互。今天自己设计的功能不到20-30%，剩下都是用户告诉的——拍皮肤、看菜单、识别卡牌、吐槽。团队曾在6个小时内满足了一个纽约大学的潮流文化社团的需求，让他们能识别特定卡牌。

商业模式的三层架构与硬件路线图

关于商业模式，团队规划三个方向。第一，高级功能订阅，工程能力较好，成本做得低，没有迫切的收费压力。第二，硬件授权，正在和一些硬件厂商聊，他们投入在硬件很难有时间打磨模型层之上的产品，这是团队擅长的。第三，广告推荐，但会非常谨慎。优先级最高的是先养成用户习惯——让用户看到什么都习惯性地先拍一拍。如果成为一个入口级的产品，商业机会自然会出现。

与纯AI应用层创业者不同，这位拥有硬件大厂背景的连续创业者，从一开始就把“软硬一体”写进了产品路线图。曾熙认为，未来适合他们产品的硬件形态，应该是一颗包揽人们所有视觉信息的摄像头。本质是视觉推理能力，Live模式只是这种能力的一个展现。未来的随身AI硬件一定是一个摄像头，可以包揽你所有眼睛正在看的东西，然后提供下一步有价值的行动。起点没有输入框，起点就是“看”。

市场验证与全球化扩张路径

截至目前，ChanceAI全球总下载量超过20万，月活跃用户在4-6万之间。公司目前几乎没有进行市场投放，所有增长均来自自然传播，其核心用户是25岁以下的年轻人。

2026年最重要的目标是在北美学生群体中进行更大规模的扩张。但这不是传统意义上的市场推广，而是深入用户社群，挖掘年轻人真实的使用场景。2025年3月，ChanceAI成为ArtCentral官方AI合作伙伴，这是AI首次进入国际大型艺术展会的“观看过程”。在现场，观众用摄像头对准艺术品，AI会实时参与观看，一边看一边交流。

标签：AI视觉 VisualAgent 多模态模型人工智能

视觉智能体的范式转移：摄像头如何成为AI理解世界的原点

技术范式的根本性转移：从问答到视觉

核心技术突破：MMMU-Pro基准测评世界第一

产品落地的关键路径：用户共创而非预设

商业模式的三层架构与硬件路线图

市场验证与全球化扩张路径

相关文章

职业困顿与技术焦虑：具身智能能否成为教育变革的破局之钥？

当算法接管城市交通

自动驾驶变革期：全栈架构如何重塑出行未来

【深度揭秘】AI时代的底层逻辑：掘金“HALO资产”的生存法则