登錄
註冊
據 Woofun AI 消息,5 月底 Clipto.AI 推出的一款端側多模態搜索工具,成功登頂 Product Hunt 全球榜首。該產品允許用戶通過自然語言指令,在數 TB 級的視頻、音頻、圖片及文檔中實現秒級精準定位。
然而,Clipto.AI 的野心遠不止於提升檢索效率,其核心在於填補 AI 基礎設施中缺失的 "記憶層",試圖解決大模型時代個人數據雖海量卻難以被智能體真正理解的結構性矛盾。
這一產品形態的崛起,標誌着 AI 技術演進正從單純的內容生成,轉向對內容組織與個人上下文的深度構建。過去幾年,生成式 AI 將內容生產效率推至前所未有的高度,代碼編寫、圖像繪製及視頻製作均實現了自動化突破。但伴隨而來的是數據爆炸帶來的管理危機:記者、律師、研究員等知識工作者,其時間消耗重心已從內容生產轉移至在堆積如山的會議錄音、直播錄像、播客訪談及項目文檔中搜尋有效信息。
這種 "創造容易、檢索難" 的困境,暴露了當前 AI 架構的深層缺陷。Clipto.AI 創始人康洪文指出,這並非單純的搜索算法問題,而是 AI 缺乏用戶模型導致的記憶斷層。現有的大模型致力於構建世界模型,卻因缺失長期記憶,無法真正理解具體用戶的個人語境,導致智能體(Agent)在每次交互時都如同失憶者般需要重新建立上下文。康洪文將這一關鍵基礎設施定義爲 Memory Layer,即連接個人私有數據與智能體生態的記憶層。在他看來,過去十年 AI 構建的是關於世界的知識庫,而未來 AI 的核心競爭力將取決於其理解每個用戶個人知識與經歷的能力。若無長期記憶支撐,再聰明的 Agent 也無法跨越與用戶之間的認知鴻溝。Clipto.AI 給出的解決方案是一套完全運行在本地設備上的多模態記憶構建邏輯。用戶將本地存儲的視頻、音頻、圖片及文檔導入系統後,設備利用自身 AI 算力與自研端側多模態大模型,對所有文件進行感知理解、結構化解析與向量化處理。
這一過程最終搭建起帶有認知圖譜且實現時空對齊的個人記憶系統。在實際應用場景中,用戶僅需使用自然語言描述需求,端側大模型便會先完整解析查詢意圖與上下文,隨即通過本地搜索 Agent 在數秒內完成精準定位。無論是特定人物、場景、對白,還是完整的事件段落,系統均能直接命中對應的文件與具體時間點。
Woofun AI 整理數據顯示,該方案不僅實現了檢索召回,更打通了底層大模型與上層 Agent 之間缺失的記憶通路。在 TB 級私有數據基礎上,用戶可通過對話形式提問,讓 AI 回答任何與本地記憶相關的問題,或基於已有內容自動生成摘要、總結與內容梳理。尤爲關鍵的是,所有運算與處理全程不離開用戶本地設備。
這一架構設計不僅省去了海量數據上傳及調用雲端模型產生的高額 Token 成本,更爲包含商業機密、敏感信息的工作素材提供了剛性安全屏障,同時滿足了移動辦公及斷網場景下的可用性需求。康洪文強調,傳統軟件僅解決了 "存儲" 問題,卻未能真正理解內容。Clipto.AI 的核心價值在於利用本地多模態模型,將視頻、音頻、圖片和文檔轉化爲 AI 可理解的數據結構,推動用戶從 "搜索文件" 向 "搜索記憶" 的範式轉變。搜索僅僅是第一步,建立一套能夠持續積累個人上下文的 Memory Layer 纔是終極目標。回顧康洪文的履歷,其職業生涯幾乎完整見證了 AI 從實驗室研究走向產業化的二十年曆程。2004 年,他在微軟亞洲研究院實習期間,正值深度學習浪潮爆發前夕,AI 尚屬實驗室課題。他參與的項目之一,是協助 Xbox 自動分析用戶拍攝的大量家庭照片與視頻,從數小時素材中提取關鍵片段並生成家庭短片。
這一在當時看似平常的功能,實則觸碰了計算機視覺的核心命題:機器必須先理解內容才能生成內容,需識別畫面中的人物、事件及重要性。隨後,康洪文前往卡內基梅隆大學攻讀博士,師從計算機視覺領域傳奇學者 Takeo Kanade,繼續深入研究圖像與視頻理解,致力於讓機器人通過持續積累視覺經驗來理解現實世界。視頻本質上是關於時間、人物、事件和關係的複雜信息結構,理解視頻即是在理解現實世界。2017 年,康洪文創辦慧川智能並推出文字生成視頻平臺智影。彼時移動互聯網與短視頻行業高速增長,大量創作者湧入市場,內容生產效率低下成爲新瓶頸。康洪文遂將技術重心從 "理解" 延伸至 "生成",文字生成視頻、智能剪輯、數字人等後來成爲 AIGC 熱門賽道的方向,當時已出現在智影的產品探索中。2020 年底,智影被騰訊收購,康洪文加入騰訊負責智影團隊,繼續推動文生圖、文生視頻及數字人等全棧 AIGC 產品研發。若按行業慣性發展,他本可繼續押注生成式 AI,但生成能力的爆發反而引發了他的新思考。當內容創造變得極易,海量視頻、錄音與文檔的湧現使得管理成爲新瓶頸。AI 解決了創造問題,卻未解決理解個人內容的問題,信息記錄越多,找回所需信息反而越難。這讓他意識到行業忽略了一個更底層的問題:在生成之前需要理解,在理解之後還需要記憶。康洪文認爲,Agent 走向成熟前必須解決記憶問題。當前大模型雖能寫代碼、做分析、生成報告,甚至替用戶完成部分工作流,但其天然缺陷在於不瞭解用戶。每次開啓新 AI 產品,用戶都需重新介紹身份與背景,對話結束後上下文即刻消失。整個 AI 基礎設施缺失了用戶模型,大模型擁有互聯網公開知識,卻無法理解具體的人,因爲關於個人的數據散落在電腦、手機、NAS、網盤及各類本地設備中,對 AI 而言處於不可見狀態。隨着 Agent 大規模普及,這一問題將愈發凸顯。若未來出現數億個 Agent,它們如何理解用戶?如何知曉用戶過往行爲?又如何共享同一套個人上下文?康洪文指出,不可能讓每個 Agent 重新構建用戶記憶,這既不現實也無必要。更合理的方式是存在一個獨立的 Memory Layer。Living Memory Graph 負責執行任務,Memory Layer 負責管理用戶記憶,所有 Agent 均基於這套統一記憶系統理解用戶。這類似於互聯網時代的操作系統,應用程序繁多但底層文件系統唯一。今天的 Agent 生態同樣需要一個類似的記憶系統作爲公共基礎設施,這也是 Clipto.AI 希望扮演的角色。康洪文判斷,未來 AI 架構將形成兩層基礎設施:一層是 Intelligence Layer,負責理解世界,主要由雲端大模型提供世界知識;另一層是 Memory Layer,負責沉澱用戶的個人知識、上下文和長期記憶,建立在用戶持續產生的個人數據之上。兩者共同構成真正意義上的 Personal AI。因此,他並不認爲所有 AI 能力最終都會遷移至雲端。過去幾年,OpenAI、Google、Anthropic 及國內大模型公司競爭焦點始終圍繞模型能力展開,爭奪雲端大模型市場。
與此同時,另一種趨勢正在顯現:Apple M 系列芯片不斷提升神經網絡算力,NVIDIA 推動 AI PC,微軟推出 Copilot+ PC,越來越多計算能力迴歸用戶設備。AI 計算結構正在發生根本性變化,過去大部分能力運行在雲端,未來隨着個人數據重要性提升,與記憶相關的能力將運行在用戶設備上,而推理和世界知識仍將持續受益於雲端大模型。用戶最重要的數據本就存在本地,如採訪記錄、合同文件、財務資料、創作素材及家庭照片,這些內容既不適合頻繁上傳雲端,也難以完全依賴雲端處理。更重要的是,數據規模正在迅速膨脹。對於影視製作團隊,一個項目可能產生數十 TB 甚至上百 TB 視頻素材;對於媒體機構,幾年積累同樣形成龐大內容資產。在此情境下,雲端未必是最優解,本地理解、本地索引、本地推理反而具備新價值。
不過,康洪文並不認爲未來屬於 "純本地 AI"。