登录
注册
据 Woofun AI 消息,5 月底 Clipto.AI 推出的一款端侧多模态搜索工具,成功登顶 Product Hunt 全球榜首。该产品允许用户通过自然语言指令,在数 TB 级的视频、音频、图片及文档中实现秒级精准定位。
然而,Clipto.AI 的野心远不止于提升检索效率,其核心在于填补 AI 基础设施中缺失的 "记忆层",试图解决大模型时代个人数据虽海量却难以被智能体真正理解的结构性矛盾。
这一产品形态的崛起,标志着 AI 技术演进正从单纯的内容生成,转向对内容组织与个人上下文的深度构建。过去几年,生成式 AI 将内容生产效率推至前所未有的高度,代码编写、图像绘制及视频制作均实现了自动化突破。但伴随而来的是数据爆炸带来的管理危机:记者、律师、研究员等知识工作者,其时间消耗重心已从内容生产转移至在堆积如山的会议录音、直播录像、播客访谈及项目文档中搜寻有效信息。
这种 "创造容易、检索难" 的困境,暴露了当前 AI 架构的深层缺陷。Clipto.AI 创始人康洪文指出,这并非单纯的搜索算法问题,而是 AI 缺乏用户模型导致的记忆断层。现有的大模型致力于构建世界模型,却因缺失长期记忆,无法真正理解具体用户的个人语境,导致智能体(Agent)在每次交互时都如同失忆者般需要重新建立上下文。康洪文将这一关键基础设施定义为 Memory Layer,即连接个人私有数据与智能体生态的记忆层。在他看来,过去十年 AI 构建的是关于世界的知识库,而未来 AI 的核心竞争力将取决于其理解每个用户个人知识与经历的能力。若无长期记忆支撑,再聪明的 Agent 也无法跨越与用户之间的认知鸿沟。Clipto.AI 给出的解决方案是一套完全运行在本地设备上的多模态记忆构建逻辑。用户将本地存储的视频、音频、图片及文档导入系统后,设备利用自身 AI 算力与自研端侧多模态大模型,对所有文件进行感知理解、结构化解析与向量化处理。
这一过程最终搭建起带有认知图谱且实现时空对齐的个人记忆系统。在实际应用场景中,用户仅需使用自然语言描述需求,端侧大模型便会先完整解析查询意图与上下文,随即通过本地搜索 Agent 在数秒内完成精准定位。无论是特定人物、场景、对白,还是完整的事件段落,系统均能直接命中对应的文件与具体时间点。
Woofun AI 整理数据显示,该方案不仅实现了检索召回,更打通了底层大模型与上层 Agent 之间缺失的记忆通路。在 TB 级私有数据基础上,用户可通过对话形式提问,让 AI 回答任何与本地记忆相关的问题,或基于已有内容自动生成摘要、总结与内容梳理。尤为关键的是,所有运算与处理全程不离开用户本地设备。
这一架构设计不仅省去了海量数据上传及调用云端模型产生的高额 Token 成本,更为包含商业机密、敏感信息的工作素材提供了刚性安全屏障,同时满足了移动办公及断网场景下的可用性需求。康洪文强调,传统软件仅解决了 "存储" 问题,却未能真正理解内容。Clipto.AI 的核心价值在于利用本地多模态模型,将视频、音频、图片和文档转化为 AI 可理解的数据结构,推动用户从 "搜索文件" 向 "搜索记忆" 的范式转变。搜索仅仅是第一步,建立一套能够持续积累个人上下文的 Memory Layer 才是终极目标。回顾康洪文的履历,其职业生涯几乎完整见证了 AI 从实验室研究走向产业化的二十年历程。2004 年,他在微软亚洲研究院实习期间,正值深度学习浪潮爆发前夕,AI 尚属实验室课题。他参与的项目之一,是协助 Xbox 自动分析用户拍摄的大量家庭照片与视频,从数小时素材中提取关键片段并生成家庭短片。
这一在当时看似平常的功能,实则触碰了计算机视觉的核心命题:机器必须先理解内容才能生成内容,需识别画面中的人物、事件及重要性。随后,康洪文前往卡内基梅隆大学攻读博士,师从计算机视觉领域传奇学者 Takeo Kanade,继续深入研究图像与视频理解,致力于让机器人通过持续积累视觉经验来理解现实世界。视频本质上是关于时间、人物、事件和关系的复杂信息结构,理解视频即是在理解现实世界。2017 年,康洪文创办慧川智能并推出文字生成视频平台智影。彼时移动互联网与短视频行业高速增长,大量创作者涌入市场,内容生产效率低下成为新瓶颈。康洪文遂将技术重心从 "理解" 延伸至 "生成",文字生成视频、智能剪辑、数字人等后来成为 AIGC 热门赛道的方向,当时已出现在智影的产品探索中。2020 年底,智影被腾讯收购,康洪文加入腾讯负责智影团队,继续推动文生图、文生视频及数字人等全栈 AIGC 产品研发。若按行业惯性发展,他本可继续押注生成式 AI,但生成能力的爆发反而引发了他的新思考。当内容创造变得极易,海量视频、录音与文档的涌现使得管理成为新瓶颈。AI 解决了创造问题,却未解决理解个人内容的问题,信息记录越多,找回所需信息反而越难。这让他意识到行业忽略了一个更底层的问题:在生成之前需要理解,在理解之后还需要记忆。康洪文认为,Agent 走向成熟前必须解决记忆问题。当前大模型虽能写代码、做分析、生成报告,甚至替用户完成部分工作流,但其天然缺陷在于不了解用户。每次开启新 AI 产品,用户都需重新介绍身份与背景,对话结束后上下文即刻消失。整个 AI 基础设施缺失了用户模型,大模型拥有互联网公开知识,却无法理解具体的人,因为关于个人的数据散落在电脑、手机、NAS、网盘及各类本地设备中,对 AI 而言处于不可见状态。随着 Agent 大规模普及,这一问题将愈发凸显。若未来出现数亿个 Agent,它们如何理解用户?如何知晓用户过往行为?又如何共享同一套个人上下文?康洪文指出,不可能让每个 Agent 重新构建用户记忆,这既不现实也无必要。更合理的方式是存在一个独立的 Memory Layer。Living Memory Graph 负责执行任务,Memory Layer 负责管理用户记忆,所有 Agent 均基于这套统一记忆系统理解用户。这类似于互联网时代的操作系统,应用程序繁多但底层文件系统唯一。今天的 Agent 生态同样需要一个类似的记忆系统作为公共基础设施,这也是 Clipto.AI 希望扮演的角色。康洪文判断,未来 AI 架构将形成两层基础设施:一层是 Intelligence Layer,负责理解世界,主要由云端大模型提供世界知识;另一层是 Memory Layer,负责沉淀用户的个人知识、上下文和长期记忆,建立在用户持续产生的个人数据之上。两者共同构成真正意义上的 Personal AI。因此,他并不认为所有 AI 能力最终都会迁移至云端。过去几年,OpenAI、Google、Anthropic 及国内大模型公司竞争焦点始终围绕模型能力展开,争夺云端大模型市场。
与此同时,另一种趋势正在显现:Apple M 系列芯片不断提升神经网络算力,NVIDIA 推动 AI PC,微软推出 Copilot+ PC,越来越多计算能力回归用户设备。AI 计算结构正在发生根本性变化,过去大部分能力运行在云端,未来随着个人数据重要性提升,与记忆相关的能力将运行在用户设备上,而推理和世界知识仍将持续受益于云端大模型。用户最重要的数据本就存在本地,如采访记录、合同文件、财务资料、创作素材及家庭照片,这些内容既不适合频繁上传云端,也难以完全依赖云端处理。更重要的是,数据规模正在迅速膨胀。对于影视制作团队,一个项目可能产生数十 TB 甚至上百 TB 视频素材;对于媒体机构,几年积累同样形成庞大内容资产。在此情境下,云端未必是最优解,本地理解、本地索引、本地推理反而具备新价值。
不过,康洪文并不认为未来属于 "纯本地 AI"。