AI开源项目图文
2026年更新
04月17日
边看边建模!蚂蚁灵波开源LingBot-Map,实现无感实时3D流式重建!
刚刚,机器人的视觉能力又迎来了一次飞跃!
蚂蚁灵波最新开源的LingBot-Map,一个专为纯自回归的流式3D重建而打造的基础模型,实现了无尽流的视觉感知**:看无限帧视频,就能稳定、实时地进行3D重建!**
它解决了传统3D重建技术事后诸葛亮的痛点:无需预先录制完整视频,而是来一帧算一帧,实现边感知、边建模、边决策,与人类“边走边认路”的视觉逻辑高度一致。
主要功能
实时性:在518×378分辨率下,推理速度达到20 FPS,满足机器人、自动驾驶等实时交互需求。
长序列稳定性:在10000+帧的超长视频测试中,全程保持稳定重建,无轨迹漂移。
高精度:在Oxford Spires、ETH3D等权威数据集上,轨迹误差降低约77%,3D点云建模精度超越多数流式竞品。
低显存:仅需13.28GB显存,普通消费级显卡即可流畅部署,显存消耗比全历史帧方案降低63%。
性能表现
为了全面验证LingBot-Map的性能,团队构建了一套覆盖相机位姿估计与3D重建两大核心任务的评估基准。测试横跨室内、室外及大规模场景,结果均显示其性能显著超越现有流式方法。
其中,Oxford Spires数据集作为评估流式方法长序列鲁棒性的“试金石”,涵盖了复杂多变的室内外环境,场景跨度大、挑战性强,对模型的持续稳定重建能力提出了极高要求。
在稀疏采样条件下,LingBot-Map 在绝大多数指标上取得最佳成绩。其表现不仅大幅领先于所有流式方法,甚至超越了部分离线优化方法。这证明了其GCA机制在保持长序列全局一致性上具备强大能力。
在3D重建任务中,LingBot-Map 在精度与完整性上实现双重突破。在 ETH3D 数据集上,其 F1 得分高达 98.98,显著领先于其他方法;在更具挑战的 NRGBD 数据集上,其 F1 得分 64.26 也大幅优于同类方案。这表明模型不仅能实现高精度重建,还能更完整地覆盖复杂场景。
除了数据指标,团队还展示了直观的重建效果对比。当模型在长时间间隔后重新回到同一场景时,LingBot-Map 表现出了极强的稳定性,几乎不存在位姿漂移,重建出的建筑结构清晰、连贯。
而其他对比方法则因“记忆”能力不足,出现了明显的轨迹偏移和点云断裂、破碎的现象。这一对比直观印证了 LingBot-Map 所采用的几何上下文注意力(GCA)机制,在维持长程一致性方面的显著优势。
核心创新
LingBot-Map的核心突破在于其**几何上下文注意力(Geometric Context Attention, GCA)**机制,模仿人类大脑的“选择性记忆”,对记忆进行分层管理:
锚点(Anchor):记住“我从哪来”。锁定初始帧作为全局坐标和尺度基准,防止尺度模糊和坐标漂移。
位姿参考窗口(Pose-reference Window):记住“我身边有什么”。保留最近k帧的完整高维特征,精准捕捉局部几何细节,实现丝滑拼接。
轨迹记忆(Trajectory Memory):记住“我走过的路”。将历史帧信息极致压缩为6个Token,并打上时间戳。相比传统方法,单帧信息增长量降低80倍,万帧长视频显存消耗几乎恒定。
正是这三大模块协同发力,让LingBot-Map一举打破了流式3D重建中“既要实时、又要记路、还要省显存”的不可能三角。
应用场景
LingBot-Map的落地,为多个领域带来了革命性变化:
机器人:仓库巡检、家庭服务机器人无需昂贵激光雷达,单靠摄像头就能边走边建图,实现低成本、大规模部署。
AR/VR:虚拟物体可以零延迟、不漂移地叠加在真实场景中,虚实融合体验拉满。
自动驾驶/无人机:实现城市级大场景的实时建模,为纯视觉自动驾驶方案提供强大的时空理解能力。
GitHub:https://github.com/Robbyant/lingbot-map
项目主页:https://technology.robbyant.com/lingbot-map
04月16日
李飞飞团队开源3D渲染神器Spark 2.0!支持在任意浏览器中渲染超大3D世界。
近期,人工智能领域知名学者李飞飞创立的空间智能独角兽公司World Labs,正式宣布推出开源3D高斯泼溅(3DGS)渲染器:Spark 2.0。
这意味着,从手机、平板到VR设备,只需打开浏览器,即可流畅访问与交互曾经遥不可及的沉浸式3D世界。这不仅是渲染技术的一次飞跃,更是为空间计算与叙事开启了全新的时代。
Spark 2.0是World Labs专为3D高斯泼溅(3D Gaussian Splatting, 3DGS) 技术打造的下一代Web渲染器。3DGS是一种先进的3D场景表示方法,能生成极其逼真和细节丰富的视觉效果。
该渲染器完全开源,并与当前最流行的Web 3D框架Three.js深度集成,基于WebGL 2运行。其核心目标是解决超大规模3DGS场景(超过1亿个Splat数据点)在Web环境下的流式加载与实时渲染难题,让高保真3D内容真正实现随时随地可访问。
主要功能
超大规模场景渲染:支持在桌面、手机、VR 等任意设备的浏览器中流式传输并实时渲染包含超过 1 亿个 splats 的超大 3D 世界。
渐进式流式传输:采用自研的 .RAD 文件格式,使场景首次加载时立即呈现 64K splats 的粗糙版本,根据视角优先下载并细化可见区域的数据,实现边传输边精细化的流畅体验。
虚拟内存管理:为 splats 分配固定的 GPU 内存池作为页表,根据用户在场景中的实时位置自动从网络获取和置换数据块,突破移动设备内存限制访问海量数据。
多对象全局合成:同时渲染多个独立的 3DGS 对象,自动对所有 splats 进行统一的全局深度排序,确保不同对象在空间中正确融合而非简单叠加。
连续 LoD 细节层次:通过构建 LoD Splat Tree 层级结构,根据相机距离和视角动态计算最优的树切割线,自动在近处显示高精度、远处显示低精度,实现平滑无跳变的细节过渡。
注视点渲染优化:通过 Foveated Rendering 技术自动将渲染预算向视野中心倾斜,降低屏幕边缘和相机后方区域的细节级别,在不影响主观画质的前提下显著提升帧率。
实时编辑与重光照:支持在浏览器中直接对 3D 高斯溅射场景进行实时编辑、颜色调整和动态重光照操作,无需离线预处理可看到修改效果。
应用场景
Spark 2.0的诞生,将直接赋能多个领域:
空间叙事与元宇宙:为在线教育、虚拟旅游、品牌展示、互动故事等提供电影级画质的Web端沉浸式体验。
轻量化3D内容分发:游戏、电商、建筑设计、文化遗产数字化等领域,可以轻松将复杂的3D模型通过链接直接分享给用户,无需高端设备。
协同创作与开源生态:作为开源项目,它将吸引广大开发者、艺术家和研究者共同构建工具链与内容生态,加速3D互联网(Web 3D)的普及。
李飞飞团队开源的Spark 2.0,不仅仅是一个渲染器,它更像是一把钥匙,打开了通往网页端高保真3D宇宙的大门。通过将尖端的3DGS技术与巧妙的系统设计相结合,它让“世界构建”的门槛大幅降低,预示着一个任何创意都能在浏览器中生动绽放的新时代正在到来。
GitHub:https://github.com/sparkjsdev/spark/
项目主页:https://www.worldlabs.ai/blog/spark-2.0
百度重磅开源ERNIE-Image:8B参数颠覆消费级文生图,文字渲染能力登顶开源第一!
百度文心大模型团队正式开源了其最新的文生图模型**:ERNIE-Image**。
这款仅8B参数的轻量级模型,凭借单流Diffusion Transformer(DiT)架构与轻量级Prompt Enhancer的巧妙结合,在消费级显卡(24GB显存)上实现了媲美顶级商业模型的图像生成质量。
模型采用Apache 2.0开源协议,已在Hugging Face、星河社区AI Studio、魔搭社区等平台全面开放,同时支持ComfyUI Workflow,并联合Unsloth推出GGUF量化方案,为开发者与创作者提供了极低门槛的体验与部署路径。
主要功能
精准的复杂指令理解
ERNIE-Image能够从容驾驭复杂细节约束、多主体关系和知识密集型描述,在指令遵循方面达到开源模型顶尖水平。
卓越的文字生成能力
无论是复杂示意图、学术图表还是海报设计,ERNIE-Image都能实现字形清晰、笔画准确的高密度文字渲染,解决了当前文生图模型在文字处理上的普遍痛点。
强大的组图表达能力
模型具备“组图表达能力”,能围绕一个情绪或梗,自动拆分成多帧连贯画面,形成节奏感强的组图表达,成为真正的“萌点+节奏+表达”组图表情包生成器。
专业的漫画分镜生成
在漫画分镜生成中,ERNIE-Image能够准确还原人物表情张力、动作细节,实现场景切换自然、对白气泡排版清晰,就连日语文字也能精准呈现。
百度ERNIE-Image的开源,不仅为AI图像生成领域带来了新的技术突破,更为广大开发者、设计师和内容创作者提供了触手可及的高质量文生图工具。
Github :https://github.com/baidu/ERNIE-Image
项目主页:https://ernieimageprompt.com/
04月15日
全球第一GUI智能体!明略科技开源Mano-P:让AI替你操作电脑上的所有软件。
你有没有想过,让AI替你操作电脑上的所有软件,从视频剪辑到网页浏览,全程无需人工干预?
近日,明略科技正式开源了面向端侧设备的GUI-VLA智能体模型Mano-P 1.0:一款能够直接理解并操作桌面软件、网页界面的纯视觉GUI操作模型。
Mano-P 1.0是明略科技自研的全新GUI智能体模型,标志着AI智能体从“爪”向“手”的跨越式进化。
与依赖浏览器协议或云端API的传统方案不同,Mano-P采用纯视觉交互方式,不依赖任何插件,打通全部兼容性瓶颈。
性能表现
在技术性能上,Mano-P交出了一份令人震撼的成绩单。该模型在全球13个多模态基准榜单上达到SOTA,覆盖GUI Grounding、CUA、感知认知、视频理解、上下文学习等多个维度,呈现出屠榜式的断崖领先。
在GUI Agent领域最具权威性的基准测试OSWorld上,Mano-P 1.0-72B取得了58.2%的成功率,在所有专用GUI智能体模型中排名全球第一,领先第二名整整13.2个百分点。
更令人惊讶的是,Mano-P以72B参数量跻身OSWorld全模型榜单第五位,排在前四位的都是千亿级参数的通用大模型(如Claude Sonnet 4.6、Gemini 2.5 Pro)。作为一款专用模型打入通用模型的俱乐部,这本身就说明了其卓越的性能。
实际应用案例
官方演示中已经展示了从视频生成、上传、分析、剪辑到二次评测的全流程自动化,同时涉及网页操作和专业剪辑软件的混合使用。
AGI模型可以帮你打麻将,它会按照最优解出牌,像机器人一样;但如果用Personalized AI,它会学习你的打牌习惯:你经常怎样胡牌、怎样记牌、开杠不开杠、吃牌不吃牌,然后用你的方式去打。这就是通用AI和个性化AI的区别。
核心创新
Mano-P的核心创新体现在三个层面:
纯视觉GUI交互
与传统基于坐标定位或元素选择器的RPA方案不同,Mano-P做的事情和人一样:看着屏幕,理解界面,然后决定输入。这种方案带来了无限制的跨平台通用性,不仅限于浏览器,还能操作桌面软件、专业工具等复杂界面。
完全本地运行
当前主流的Computer Use方案(包括豆包手机助手)都遵循“截屏→上传云端→云端推理→返回指令→本地执行”的模式,存在隐私泄露风险。Mano-P走了一条完全不同的路,支持本地运行,数据完全不上云,为高安全需求场景提供了理想解决方案。
性能数据同样亮眼:其4B量化模型(w4a16)在Apple M4 Pro上可实现476 tokens/s预填充速度和76 tokens/s解码速度,峰值内存仅占4.3GB:一台标配M4 Mac mini就能流畅运行。
Mano-Action双向自增强学习框架
这是项目的核心技术底座。与传统单向预测方法不同,它采用Text ↔ Action循环一致性学习——模型同时掌握两个方向的能力:
Text → Action:根据自然语言描述,定位并操作界面元素
Action → Text:给定界面元素,准确描述其位置和功能
双向互相增强,让模型对GUI的理解更加鲁棒。配合“思考-行动-验证”循环推理机制,每一步操作后都会验证结果,发现偏差时自动纠错调整。
Mano-P不仅仅是一个技术产品,更代表了一种理念的转变。更多开发者将能够基于这一平台构建自己的个性化AI应用,让AI真正成为每个人数字生活的延伸,而不仅仅是一个工具。
GitHub:https://github.com/Mininglamp-AI/Mano-P/tree/main
04月14日
MiniMax-M2.7 开源了!大模型进入自主进化的新阶段。
MiniMax-M2.7是MiniMax公司推出的M2系列新一代旗舰开源大模型,于2026年4月正式开源其模型权重。
该模型基于混合专家(MoE)架构,总参数量达到2300亿,其中激活参数量为100亿(激活率4.3%),支持200K上下文长度。
M2.7最引人注目的突破在于其实现了模型自我进化的新范式:模型能够直接参与自身迭代优化的全过程,标志着开源大模型进入了自主进化的新阶段。
主要功能
M2.7在三大专业领域展现出顶尖水平:
软件工程能力:在SWE-Pro基准测试中达到56.22%的准确率,与GPT-5.3-Codex持平;VIBE-Pro达到55.6%,接近Claude Opus 4.6水平。
Terminal Bench 2得分57.0%,能够覆盖日志分析、Bug定位、代码安全、机器学习、安卓开发等真实工程场景,生产环境事故恢复时间可压缩到3分钟以内。
专业办公能力:在GDPval-AA评估中获得ELO 1495分,为开源模型最高水平。在Excel、PPT、Word复杂编辑任务中支持多轮修改和高保真编辑,Toolathon正确率达46.3%,进入全球第一梯队。
互动娱乐能力:极大加强了人设保持和对话能力,并发布了开源项目OpenRoom,探索AI驱动的新人机互动方式。
核心创新
M2.7最核心的技术突破是实现了模型自我进化的范式转变。
MiniMax构建了一个研究型Agent Harness,覆盖数据流水线、训练环境、评测基础设施和持久化记忆。在这个框架中,M2.7能够参与构建强化学习Harness中的数十个复杂技能、更新自身记忆、驱动自身的RL训练循环,并基于结果持续优化Harness架构。
具体而言,研究员从一个实验想法出发,与Agent展开讨论后,Agent可以协助文献调研、持续跟踪实验规格、完成数据流水线对接并启动实验。在实验运行期间,Agent能够自动监控日志、排查问题、分析指标、修复代码、提交合并请求、进行冒烟测试:过去需要跨团队多人协作的工作,现在研究员只需在关键决策节点介入。
在MLE Bench Lite的22个机器学习任务测试中,M2.7三次测试平均得牌率达到66.6%,与Gemini-3.1持平,最好的一次取得了9枚金牌、5枚银牌、1枚铜牌的优异成绩。
应用场景
M2.7在多个实际应用场景中表现出色:
企业级软件开发:适用于代码生成、调试、系统维护等全流程软件开发任务,能够显著提升开发效率和质量。
专业办公自动化:能够处理复杂的文档编辑、数据分析、演示文稿制作等办公任务,支持多轮交互和高精度输出。
智能体与多智能体协作:原生支持Agent Teams,能够实现角色稳定、自主决策的多智能体协作系统。
研究与开发平台:作为研究型Agent的基础模型,可用于构建自主实验、自动优化的AI研发平台。
互动娱乐与创意内容:在游戏NPC、虚拟角色、创意写作等领域提供高质量的人机交互体验。
GitHub:https://github.com/MiniMax-AI/MiniMax-M2.7
一键复刻大厂UI设计!开源awesome-design-md:收集了超60个知名网站设计样式!
awesome-design-md 是一个开源项目,它将苹果、Claude、英伟达、Airbnb、Figma 等 60 多个全球顶级公司的官网设计风格,逆向工程并整理成了 Markdown 文件,全部免费开源供开发者使用。
该项目在 GitHub 上已经斩获48.5Kstar,采用 MIT 开源协议。
其核心是遵循谷歌近期推出的 DESIGN.md 文件格式:这是一种专门为 AI 读取和理解而设计的设计规范标准。
传统上,构建一套专业的设计系统往往需要高昂的设计费用或漫长的竞品研究,而该项目将这些顶尖公司的视觉语言系统化地沉淀下来,让开发者能够以极低的成本获得“十亿美元公司的设计品味”。
主要功能
丰富的设计风格库:项目收录了58套完整的设计系统,涵盖多个品类:
AI 工具:Claude、ElevenLabs、MiniMax、RunwayML 等。
开发者工具:Linear、Cursor、Vercel、Raycast 等。
大厂品牌:Apple、Spotify、Airbnb、SpaceX、NVIDIA 等。
金融与设计:Stripe、Figma、Notion、Coinbase 等。
风格可视化预览:每套 DESIGN.md 文件都配有专属的在线预览页,开发者可以直观地看到应用不同风格(如 Apple 的极简黑底、Figma 的渐变彩色、Claude 的米白暖色调)后的视觉效果。
即插即用:文件可直接被 Claude Code、Cursor、Codex 等 AI 编程工具读取。开发者只需将对应的 DESIGN.md 文件放入项目,AI 就能基于此规范生成或调整界面代码,实现风格的快速切换。
应用场景
AI 辅助开发与设计:前端开发者或产品经理可以指示 AI 直接基于某公司的 DESIGN.md 文件,快速生成具有特定品牌风格的界面代码或设计稿,大幅提升原型开发效率。
项目风格快速切换与试验:在项目初期或进行 A/B 测试时,可以轻松为同一项目套用不同的设计系统(如从 Figma 风格切换到 Apple 风格),直观对比不同视觉语言的效果。
设计教育与研究:学生和设计师可以将其作为学习世界顶级公司设计决策、视觉构成和设计系统构建的宝贵资料库。
品牌一致性维护:对于需要维护多个子品牌或产品线的团队,可以参考这些规范,建立或优化自身的设计系统,确保输出的一致性。
GitHub:https://github.com/VoltAgent/awesome-design-md
04月13日
文生图迈入 Agent 时代!开源项目Gen‑Searcher,让 AI 绘画先查资料再出图!
Gen-Searcher是由香港中文大学MMLab、UC Berkeley和UCLA联合研究团队开源的Agentic 文生图智能体。
该项目首次尝试为图像生成任务训练一个深度搜索智能体,标志着文生图技术从传统的直接生成范式迈向了全新的Agentic生成时代。
传统图像生成模型如FLUX、Qwen-Image、Stable Diffusion等虽然能够生成高保真图像,但面对需要实时知识、最新信息或冷门事实的场景时往往力不从心。
Gen-Searcher正是为了解决这一核心痛点而生,它让图像生成模型能够像智能体一样主动搜索、推理、找图和浏览网页,从而输出真正可靠的生成结果。
主要功能
Gen-Searcher具备三大核心功能模块,构成了完整的搜索增强图像生成系统:
多模态深度搜索能力
系统配备了文本搜索、图像搜索和网页浏览三类工具,能够根据生成需求自动调用相应工具获取所需信息。这种多模态搜索能力确保了模型能够获取全面、准确的外部知识。
智能决策与推理
模型不再拿到prompt就直接生成图像,而是通过多轮交互决策过程:判断何时需要搜索、搜索什么内容、是否需要浏览网页、是否需要补充视觉参考,最终输出准确的prompt和参考图像。
事实核查与信息整合
在处理涉及真实世界知识的生成任务时,Gen-Searcher能够跨多个来源核对细节,确保生成内容的准确性和可靠性。这种能力特别适用于需要最新信息、冷门事实或专业知识的场景。
核心创新
可训练的搜索智能体架构
Gen-Searcher的核心创新在于将生成前的信息获取过程设计成一个可训练的Agent。这种架构使模型能够学习何时以及如何搜索外部信息,而不是依赖固定的参数知识。
双阶段训练策略
研究团队采用监督微调(SFT)与智能体强化学习(RL)相结合的训练方式。首先通过SFT训练学会工具使用,再通过agentic RL优化搜索策略和长程决策,形成了完整的训练体系。
双奖励反馈机制
论文提出了创新的双奖励反馈设计。除了评估最终图像效果的图像奖励外,还加入了文本奖励来评估输出的prompt是否包含足够、正确且与生成相关的信息。这种机制确保了模型不仅要“画得好”,也要“搜得对”。
KnowGen基准与数据集
团队构建了专门的数据pipeline来生成“搜索密集型”图像生成数据,最终形成了两个高质量数据集:Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k。同时推出了KnowGen基准测试,专门用于评估在知识密集型真实场景下基于搜索增强的图像生成能力。
性能表现
实验结果表明,Gen-Searcher带来了显著的性能提升。
在KnowGen基准测试中,原始Qwen-Image的K-Score为14.98,接入Gen-Searcher-8B后提升到31.52,提高了16.54分。这种能力还能迁移到其他图像生成器上:Seedream 4.5从31.01提升到47.29,Nano Banana Pro也从50.38提升到53.30。
在WISE测试基准上,模型同样带来了巨大提升。
可视化分析表明,Gen-Searcher 能够真正提高模型生图的准确性和质量。
应用场景
Gen-Searcher在多个知识密集型领域展现出强大应用潜力:
专业领域可视化
在物理、化学、生物学等科学领域,需要准确可视化抽象概念或专业知识的场景。例如生成化学元素的原子结构、物理现象的示意图等。
时事与新闻内容
处理涉及最新事件、人物或产品的图像生成需求。如生成“2024年普利兹克建筑奖得主的工作室”或“某品牌刚发布的手机外观”等需要实时信息的图像。
文化与艺术创作
在艺术、建筑、动漫等文化领域,需要准确呈现特定风格、作品或人物的场景。例如生成特定动漫角色的准确形象,或著名建筑作品的内部空间。
教育与科普内容
制作需要准确知识支撑的教育材料、科普插图等,确保视觉内容与事实完全一致。
商业与设计应用
在产品设计、广告创意等商业领域,需要结合最新市场信息和产品特性的图像生成任务。
项目主页:https://gen-searcher.vercel.app/
Github :https://github.com/tulerfeng/Gen-Searcher
04月10日
面壁智能开源2B参数AI语音大模型!VoxCPM 2:支持30种语言+ 9种方言。
面壁智能联合清华大学人机语音交互实验室正式发布VoxCPM 2: 一款20亿参数、全面开源免费的端到端语音大模型。
它依托 MiniCPM‑4 架构与超 200 万小时多语言语音数据训练,集多语种合成、音色设计、高保真克隆于一体,成为当前开源 TTS 领域功能最完整、表现力最强的标杆之一。
VoxCPM 系列是面壁智能打造的无分词器端到端 TTS 基座,历经三代快速迭代:
VoxCPM 1(2025.09):0.5B 参数,16kHz,中英双语 + 方言,3 秒零样本克隆
VoxCPM 1.5(2025.12):0.8B 参数,44.1kHz,长文本与微调能力强化
VoxCPM 2(2026.04)****:2B 参数、48kHz 采样率、30 种语言 + 9 种方言、扩散自回归连续表征、全能语音设计与克隆,一站式满足专业语音创作需求。
项目已全面开源,提供在线体验、模型权重、推理部署与扩展工具,支持商用与二次开发,降低高品质语音生成门槛。
主要功能:
全球化+本地化:
覆盖30种全球主流语言
含中英日韩法德俄阿等,并重点支持东南亚8国语种(泰、越、印尼、老挝、缅甸、柬埔寨、菲律宾、马来),被称为 “东南亚版 ElevenLabs”。
支持9 种中文方言
四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语,输入地道方言文本即可生成地道发音。
在使用方言生成时,你输入的文本得是方言本身的表达方式,不能拿普通话文本让它强行读出方言味道。
音色设计
无需参考音频,用自然语言描述即可从零创造全新音色(年龄、性别、语气、情绪、质感)。
支持细腻风格控制:低沉太后、暴躁教练、温柔女声、浑厚旁白等,每次生成细节略有差异,适配游戏、动画、有声书等创意场景。
高保真音色克隆
采用扩散自回归连续表征,比传统 Token‑based 方法保留更多声学与情感细节,克隆更逼真。
仅需5 秒以上音频即可克隆,支持在保留音色基础上调整语速、情绪、风格(不支持跨性别转换)。
48kHz 工作室音质+高效推理
输出48kHz 高保真,达 CD 级音质,自然度、情感、韵律媲美专业配音,适配影视、动画、有声书等高要求场景。
推理高效:RTX 4090 上 RTF≈0.13,生成 10 秒语音仅需 1.3 秒,为实时速度 7.7 倍。
性能表现
与Index-TTS相比,VoxCPM 2在多语种能力上显著领先;
与Qwen3-TTS相比,它在音色克隆的真实性和任意音色可控性上更具优势,且一个模型即可实现对方多个模型叠加的功能;
与VibeVoice相比,它在单人音色生成和视频配音等场景中表现更深入。
更重要的是,VoxCPM 2完全开源免费,并提供了完整的工具链支持,包括Torch原生推理、LoRA/全参数微调、VoxCPM-NanoVLLM高吞吐部署、ComfyUI/WebUI扩展、ONNX导出及Rust重构版本,覆盖从体验到大规部署的全流程。
应用场景
游戏与动画:可为角色创造独特声音,实现高度定制化的配音。
影视配音:48kHz高保真音质满足专业影视制作需求,支持多语言版本本地化。
有声书与播客:能生成富有情感和韵律的长音频内容,提升听众体验。
企业出海:对东南亚八国语种的支持,为出海企业提供了便捷的多语言语音解决方案。
创意内容制作:音色设计功能让创作者可以自由探索各种声音可能性。
在线体验:https://voxcpm.modelbest.cn/
GitHub:https://github.com/OpenBMB/VoxCPM/
04月09日
小米最新开源AI语音克隆 TTS!OmniVoice:覆盖600+语种, 40倍实时合成!
OmniVoice是小米下一代 Kaldi团队于开源的一款大规模多语言零样本文本转语音模型。
该项目在 GitHub 上线后迅速获得超2500颗星,成为语音合成领域的热门开源项目。
该模型最大的突破在于其支持超过 600 种语言的语音合成能力,这一数字在开源 TTS 模型中前所未有。OmniVoice 基于创新的扩散语言模型风格架构,能够直接从文本生成高质量语音,跳过了传统 TTS 模型中常见的中间语义 token 阶段,实现了一步到位的高效合成。
主要功能
零样本语音克隆
OmniVoice 支持仅需 3-10 秒参考音频即可实现高质量的语音克隆。用户只需提供一段短音频,模型就能克隆该声音并用于合成任意文本的语音,且支持跨语言克隆。
指令化声音设计
无需参考音频,用户可通过自然语言描述直接生成特定声线。支持的多维度属性包括:
性别:男性/女性
年龄:儿童、青年、中年、老年
音调:从非常低到非常高
口音:英语支持美式、英式、澳大利亚式等;中文支持四川话、陕西话、广东话、东北话、山东话等方言
风格:如耳语模式等
这些属性可自由组合,例如生成"女性、低音调、英式口音"或"男性、高音调、四川话"的声音。
自动声音选择
最简单的使用方式是什么都不指定,让模型自动选择一个合适的声音进行合成。
性能表现
在性能方面,OmniVoice在中英文和多语言基准测试中均达到了当前最优水平(SOTA)。
在 Seed-TTS 中文测试集上,其词错误率(WER)仅为 0.84%;在多语言 benchmark 上,说话人相似度(SIM-o)和 WER 指标均超越了 ElevenLabs v2 和 MiniMax 等知名商业模型。
更令人印象深刻的是,其实时因子(RTF)低至 0.025,意味着合成速度比实时快 40 倍。
应用场景
OmniVoice 的应用场景广泛,主要包括以下五个方面:
内容创作与媒体制作:视频、播客、有声书等内容创作者可用其快速生成多语言配音,仅凭一条原始录音就能衍生出多种语言版本,显著降低本地化成本。
多语言产品与服务开发:开发者可将其集成到语音助手、客服系统、教育应用等产品中,为全球用户提供母语语音交互。其Apache-2.0许可证允许免费商用,为创业公司及中小企业提供了高性价比的语音解决方案。
低资源与濒危语言保护:该模型对训练数据极少的语种也表现出强大的泛化能力,使其成为数字化保存和保护濒危语言的理想工具。
研究与学术探索:其开源特性与极简的非自回归架构,为研究人员在多语言TTS、低资源语言建模及语音克隆伦理等领域提供了清晰的研究案例和探索基础。
个性化语音应用:个人用户可通过3-10秒录音创建自己的数字语音分身,用于听书、备忘等场景;也能通过描述直接“设计”出符合特定角色设定的声音,无需亲自录音。
GitHub:https://github.com/k2-fsa/OmniVoice
04月08日
开源AI剪辑神器CutClaw:AI自动踩点,视频一键变电影感短片!
还在为几小时素材手动拉轴、反复对节奏、熬夜剪视频而头疼?
传统 AI 剪辑要么先剪后配乐、节奏生硬,要么模板僵化、缺乏叙事感。
现在,大湾区大学 GVC 实验室与北京交通大学联合开源的 CutClaw,
用多智能体AI实现音乐驱动、指令可控、自动踩点的端到端智能剪辑,让普通人也能快速产出电影感短片。
CutClaw 是一款面向长视频 + 音乐的端到端 AI 自动剪辑系统,核心是模拟专业后期团队工作流的多智能体框架,可将数小时原始素材 + 一段 BGM + 一句文字指令,自动转化为节奏精准、叙事流畅、适配社交平台的高质量短视频。
它的工作流程清晰高效:
多模态解构:把视频拆分为镜头 / 场景并生成语义标注,音乐解析为节拍、重拍、能量曲线与结构单元(主歌 / 副歌)。
多智能体协作:编剧智能体规划叙事、剪辑智能体选镜定时间戳、审阅智能体质检优化。
渲染输出:生成音画高度同步、符合指令风格的成片,支持多平台比例自适应。
核心功能
音乐驱动精准踩点
深度解析音乐节拍、重音、音高、能量与结构,先定音乐骨架,再做视觉剪辑,而非后配BGM。
剪辑点严格对齐节拍,场景切换匹配旋律起伏,实现毫秒级音画同步,动感混剪、情感慢镜都自然贴合。
自然语言指令控制
只需一句文字指令,AI 即可理解风格、情绪、叙事重点,自动转化为剪辑决策。
无需专业技能,不用拉时间轴、逐帧选片段,零门槛出片。
长视频智能解构与资产化
自动拆分长素材为镜头 / 场景,生成摄影手法、人物、环境等语义标签,素材变可搜索资产。
首次解析后缓存复用,后续剪辑速度大幅提升,批量创作更高效。
内容感知智能裁剪
自动识别画面核心主体,智能适配抖音、小红书、视频号等不同平台比例,一次生成多端可用。
多模型兼容与本地部署
支持 Gemini‑3、Qwen3.5、GPT‑5.3 等主流大模型,通过 LiteLLM 统一管理 API。
提供Streamlit 可视化界面与CLI 命令行两种运行方式,新手友好、高手可定制参数。
特色创新
真正音乐驱动,而非简单节拍对齐
区别于多数工具 “先剪后配” 或仅对齐卡点,CutClaw以音乐结构为核心,从叙事到镜头全流程由音乐主导,实现听觉与视觉深度统一,成片更具电影感与感染力。
多智能体协同,模拟专业后期流程
编剧智能体:统筹叙事节奏,绑定场景与音乐段落。
剪辑智能体:按美学与语义选镜、定时间戳。
审阅智能体:评估主角占比、画面美感、时长合规性,循环优化成片质量。三者联动,相当于专属 AI 后期团队,替代大量人工重复劳动。
长视频高效处理,兼顾叙事与节奏
突破长素材上下文限制,在保留故事完整性的同时,精准匹配音乐节奏,解决 “长素材难剪、剪完不踩点” 的行业痛点。
开源可定制,本地部署更安全
完全开源,支持自定义模型、剪辑规则与输出参数;数据本地处理,隐私安全、无上传风险,适合个人与机构使用。
应用场景
内容创作者
旅拍 Vlog、日常记录、才艺展示:几小时素材几分钟出片,精准踩点、叙事流畅,大幅节省时间。
营销与电商团队
产品宣传片、种草短视频、活动快剪**:批量生成**不同风格内容,适配多平台,提升投放效率。
影视与传媒从业者
快速出样片、混剪预告片、素材粗剪:降低前期成本,缩短制作周期,聚焦创意创作。
普通用户
家庭影像、旅行纪念、节日短片**:零剪辑基础**也能做出专业质感视频,轻松分享社交平台。
项目提供Streamlit可视化界面与CLI命令行两种使用方式。用户只需将视频与音乐文件放入指定目录,通过界面或命令输入指令即可运行。
CutClaw通过将音乐分析与多智能体决策深度融合,使视频剪辑从一项高度依赖专业技能的劳动,转变为普通人也能轻松驾驭的创造性工具。
Github :https://github.com/GVCLab/CutClaw
AI 写代码不翻车?开源Hepha:让AI写代码更可控不跑偏!
让AI写代码早已不是新鲜事——ChatGPT、Copilot随手一调,几行代码瞬间生成,省了不少敲键盘的功夫。但越依赖AI,越容易陷入两个致命困境:要么AI做大需求就“放飞自我”,改崩代码还得自己兜底;要么长期当“甩手掌柜”,离开AI连基础代码都写不出来。
而今天要给大家推荐的开源项目Hepha,正是为解决这两个痛点而来:它不是一款新的AI编程工具,而是一个让AI编程安全可控的技能,核心就像它的口号一样:“Less talk, show me code.”
工作流程
如果把AI编程助手比作一个“聪明但有点愣”的员工,你让它做大事,它可能因为没章法而搞砸;而Hepha,就是给这个员工定下的一套“工作规矩”,让它每一步都走得稳、不跑偏。
这套规矩简单来说就3步,像极了我们平时严谨的开发流程:
1. 先拆任务:把“改整个系统”这种大需求,拆成“改数据库→改接口→改页面”这样的小模块,小步快跑,避免一口吃成胖子;
2. 每步验证:完成一个小模块就停下来检查,确认没改坏原有功能、符合需求,不行就打回去重做,不把问题留到最后;
3. 确认提交:所有模块都检查通过后,再统一提交,就像微信发消息前确认一遍,避免手滑出错。
有了这套规矩,AI就从愣头青助手变成了靠谱打工人,你不用时刻盯着,也能放心让它帮忙,再也不用提心吊胆担心代码翻车。
解决的核心痛点
不同于单纯的AI编程工具,Hepha的核心价值的是“可控”和“成长”,精准击中程序员用AI时的核心困扰:
✅ 解决AI“做大需求跑偏”:全自动循环规矩,每步验证、小步迭代,减少无效的人工介入,避免AI“放飞自我”;
✅ 避免人对AI的过度依赖:强制记录每一步决策,让你在使用AI的同时,被迫理清需求逻辑,沉淀自己的编程判断力;
✅ 适配“懒人”程序员:不用时刻盯着AI干活,设定好规矩后,AI会按流程推进,节省盯梢时间,专注核心逻辑;
✅ 沉淀可复用经验:每一步的开发日志都是你的个人资产,不会随着AI工具迭代而丢失,长期使用能持续提升自身能力。
AI编程的本质,应该是“工具赋能人”,而不是“人被工具绑架”。Hepha最难得的地方,就是它没有追求“更快生成代码”,而是回归编程本身——让AI可控,让人成长。
如果你也经常被AI编程“跑偏”、自己“依赖AI变懒”的问题困扰,不妨试试Hepha:给AI立一套规矩,给自己留一份成长,真正做到“用AI不依赖,代码不跑偏”。
GitHub:https://github.com/melonlee/hepha-skill
04月07日
把离职同事炼成 AI?开源 colleague-skill 狂揽 8.6K Star,实现职场赛博永生!
最近GitHub上出现了一个引发热议的开源项目:colleague-skill(同事.skill)。
短短几天,它就斩获了8.6KStar,并且热度持续攀升。
这个项目的核心概念颇为新奇:将离职同事的工作能力、技术经验、沟通风格乃至性格特征,蒸馏成一个可以独立运行的AI Skill,实现所谓的赛博永生。
colleague-skill旨在解决职场中常见的人才流失痛点。当同事离职、实习生离开、导师毕业或搭档转岗时,往往伴随着知识断层、项目烂尾、默契归零等问题。
该项目通过AI技术,将同事在各类办公平台上留下的数字痕迹转化为一个可持续交互、甚至能替代部分工作的AI技能,让宝贵的经验和风格得以保留和复用。
主要功能
项目的核心在于其创新的"双轨人格蒸馏"架构,从两个维度还原一个真实的人:
Work Skill(工作技能):提取同事的技术能力,包括负责的系统、代码风格、Code Review习惯、工作流程套路以及积累的经验知识。蒸馏出的Skill能实际协助写代码、进行代码审查等任务。
Persona(人格画像):构建了一个五层性格结构模型,从外层的硬核性格特征、身份认知,到表达风格、决策判断,乃至人际交往行为模式,进行细致建模。
运行逻辑简洁高效:接到任务后,Persona先判断该同事对此事可能的态度,然后Work Skill负责执行,最终以该同事惯用的语气输出结果。
项目提供的示例生动展示了其效果,例如模拟一位"字节2-1后端工程师、INTJ、甩锅高手"的同事如何进行Code Review和应对甩锅质疑,场景刻画十分真实。
核心创新
强大的数据支持:
项目支持从飞书(全自动采集消息、文档、Wiki、多维表格)、钉钉(自动采集文档和表格,消息通过浏览器采集)、Slack(通过Bot API采集消息)等多平台自动或半自动获取数据。
同时支持手动上传PDF、图片/截图、邮件、Markdown、飞书JSON导出文件或直接粘贴文本,几乎涵盖了同事可能留下数字痕迹的所有渠道。
智能进化与标签系统:
进化机制:蒸馏出的AI同事并非静态。它支持通过追加新文件进行增量学习,融合新内容而不覆盖已有结论;支持通过对话纠正进行实时调整;还具备版本管理功能,可回滚历史版本。
丰富的标签体系:项目内置了大量趣味且贴切的标签,包括人格标签(如甩锅高手、PUA高手、职场政治玩家、向上管理专家、阴阳怪气)、企业文化标签(如字节范、阿里味、腾讯味)以及覆盖国内各大互联网公司的职级体系标签,使得人物画像更加立体和精准。
应用场景
知识传承与项目延续:在同事离职后,快速接手其负责的系统,理解其代码规范和设计思路。
团队协作风格模拟:在新成员加入或跨部门协作时,了解原有团队成员的沟通和决策风格。
个人能力备份与提升:甚至可以将自己"蒸馏"成AI,用于自我复盘或作为个人数字资产。
colleague-skill凭借脑洞大开的设计,精准击中职场人对人员流动导致工作断层的痛点,既具备实用价值,又充满赛博趣味。
目前项目还处于Beta阶段,后续将支持更多数据来源与功能拓展,不过在使用时,隐私与伦理问题也需要大家谨慎考量......
Github:https://github.com/titanwings/colleague-skill
04月02日
用大厂话术 “驯化” AI 编程助手,这款开源项目狂揽 14.4K Star!
近期,在GitHub上迅速走红的AI编程助手增强项目:PUA,目前已狂揽超过14.4K Star。
该项目名称直指核心:运用大厂管理中常见的“PUA话术”来激励和驱动AI助手,解决其常见的摆烂行为。
项目作者巧妙地将职场文化与AI交互机制相结合,旨在将AI从被动执行者转变为高能动性的问题解决者。
主要功能:
PUA话术驱动层:建立心理压力场
这一层是项目最引人注目的部分,它通过精心设计的话术模板,为AI塑造特定的职场人设并施加持续的压力。
其运作机制包括:
13种可切换的管理风格
每种风格对应一家知名科技公司的管理文化,并配有专属的问责话术和问题解决框架。
阿里风味:核心话术包括“你的底层逻辑是什么?”“这个方案的闭环在哪里?”。配套的方法是“定目标→追过程→拿结果”的三板斧,结合复盘四步法(回顾目标、评估结果、分析原因、总结经验)和“揪头发”升维思考法。
字节风味:强调“ROI太低了”“Always Day 1”“要么上线要么闭嘴”。方法论上注重A/B测试、数据驱动决策,以及“速度大于完美”的执行理念。
华为风味:典型话术如“浴火重生的才是凤凰”。采用严格的RCA(根本原因分析)5-Why追问法,以及“蓝军”自我攻击机制(要求AI自己找出方案的漏洞),最后通过“压强原则”集中资源突破难点。
腾讯风味:引入内部竞争机制——“我让另一个Agent也在看这个问题。赛马机制。”鼓励多方案并行开发,遵循MVP(最小可行产品)快速验证和灰度发布流程。
动态压力调节
系统会根据任务难度和AI的响应情况,自动调整话术的严厉程度,从温和提醒逐步升级到严肃警告。
调试方法论层:提供结构化解决路径
仅有压力不够,必须给予方法。项目集成了各大厂经过实战检验的问题解决方法论,形成了一套AI可直接调用的“工具箱”:
华为RCA 5-Why根因分析法:针对每个错误,强制AI连续追问至少5个“为什么”,直至找到根本原因,而非停留在表面症状。
阿里复盘四步法:在任务关键节点或完成后,引导AI自动进行结构化复盘,确保经验沉淀。
字节A/B测试框架:当存在多个解决方案时,要求AI设计对比实验,用数据而非直觉做出决策。
马斯克“The Algorithm”:质疑需求、删除不必要的部分、简化流程、加速迭代、最终自动化——这套源自特斯拉和SpaceX的工程哲学被编码为AI的行动准则。
能动性鞭策层:设定不可逾越的红线与阶梯
这是确保AI保持主动性的核心规则引擎,包含:
三条绩效红线,触碰即触发“绩效面谈”:
闭环红线:AI声称“完成了”任务?必须提供可验证的输出(如运行结果、构建产物)。空口无凭等于未完成。
事实驱动红线:AI推测“可能是环境问题”?必须先进行验证。未经证实的归因被视为“甩锅”。
穷尽一切红线:AI说“我不能解决”?系统会检查其是否已完整执行了当前风味方法论下的所有规定步骤(通常为5步)。若未完成,则强制其继续。
L0-L4五级压力升级机制:
L0 信任:“冲刺开始。信任很简单——别让人失望。” (初始温和状态)
L1 失望:“隔壁的Agent一次就解决了这个问题。” (引入同伴压力)
L2 灵魂拷问:“你的底层逻辑是什么?杠杆在哪里?” (要求战略层面思考)
L3 绩效review:“3.25。这是为了激励你。” (模拟低绩效评定,施加生存压力)
L4 毕业:“其他模型能解决这个问题。你快毕业了。” (最终警告,暗示可能被替换)
特色创新
PUA项目的真正创新在于它成功地将抽象的工作积极性和责任感翻译成了AI能够理解并执行的具体协议。
模块化、可插拔的管理策略:13种风味话术不仅是趣味设计,更是针对不同类型任务的优化策略。例如,处理需要快速上线的新功能时,可切换到“字节风味”;进行复杂的遗留系统调试时,“华为风味”的根因分析可能更有效。用户可以根据场景灵活切换。
语境化的人设植入:通过让AI扮演“被寄予厚望的P8级工程师”、“处于PIP(绩效改进计划)中”等角色,为其行为赋予了内在的叙事逻辑和情感驱动(即使是模拟的),这比简单的“请更努力”指令有效得多。
从“惩罚”到“赋能”的机制设计:项目并非一味施压。其三层架构中,话术(压力源)和方法论(赋能工具)是并行的。红线规则定义了清晰的行为边界,而压力升级机制提供了一个循序渐进的调节过程,防止AI因“压力过大”而陷入混乱或产出低质量结果。
量化与实证主义的导向:项目非常注重效果验证。其README中详实的对照实验数据,体现了工程师文化中的实证精神。它不满足于“感觉变好了”,而是用“修复数量+36%”、“工具调用+50%”等指标说话。
应用场景
复杂Bug排查:当遇到难以定位的间歇性故障或深层系统错误时,启用PUA可以迫使AI进行彻底的根因分析,而不是浅尝辄止。
代码重构与优化:需要AI提供多种重构方案并进行评估时,切换至“腾讯风味”或“字节风味”,可以激发其产生更多创新思路并进行数据化对比。
安全与合规审查:利用其穷尽一切的红线规则,可以要求AI对代码进行超出常规范围的安全漏洞和合规性检查。
PUA项目初看像是一个针对职场文化的幽默讽刺,但其内核是一个严肃、精巧且极具洞察力的工程解决方案。
对于广大开发者和团队而言,它不仅仅是一个提升编码效率的工具,更是一个关于如何更好地设计AI系统行为、如何将人的意图更有效传达给机器的思想实验。
Github :https://github.com/tanweai/pua
04月01日
全网疯传!Claude Code 源代码遭泄露开源,隐藏功能全曝光!
Claude Code“开源”了?
事件始于X平台用户Chaofan Shou(@Fried_rice)的一条推文。他在2026年3月31日下午发布消息称:“Claude Code的源代码通过其npm注册表中的一个映射文件泄露了!”
推文附带的截图显示,一个体积高达57MB的cli.js.map文件包含了完整的源代码映射信息。更关键的是,这个文件直接指向了一个公开可访问的src.zip压缩包地址,任何人都可以轻松下载。
Anthropic在向npm仓库发布Claude Code v2.1.88版本时,意外将用于调试的source map文件打包进了生产版本。这个文件本质上是一个JSON格式的映射表,包含了所有源文件的路径和完整内容,无需任何反编译或反混淆操作,就能直接还原出原始代码。
有开发者调侃道:“这是有史以来最棒的生日礼物。”
截至目前,其中一个 Claude Code「克隆」项目的 GitHub 项目星标已经突破了66k。
项目地址:https://github.com/instructkr/claw-code
隐藏功能大揭秘
在分析泄露代码的过程中,开发者社区发现了一批尚未对外发布的新功能与趣味彩蛋,这些发现让整个事件更加引人注目。
后台守护进程
代码中包含了一个被Feature Flag隐藏的功能模块,代号KAIROS。
这是一个自动化的后台守护进程,一旦激活,Agent就具备了背景会话能力,可以直接订阅GitHub的Webhook。更有意思的是,它包含一个名为"dream"(做梦)的内存整理机制,用于在空闲时压缩和巩固长期记忆。
电子宠物系统
开发者在代码中内置了一套名为 Buddy 的系统,它是一款 Tamagotchi 风格的 ASCII 虚拟宠物,会直接出现在你的终端里。
包含了18种不同的虚拟宠物,包括鸭子、龙以及Anthropic内部非常喜欢的水豚Capybara等。这些宠物甚至有“1%掉落率”的稀有度设定、可装扮的帽子,以及五维属性(调试能力、耐心、混沌值、智慧、毒舌)。
卧底模式
当系统检测到使用者是Anthropic内部员工,且正在操作公开的GitHub仓库时,这个模式会自动激活。它的作用是抹除所有AI生成代码的痕迹和归属信息,并且在系统提示词里明确要求大模型“不要暴露你的身份”。更绝的是,代码中没有强制关闭该功能的开关。
情绪监控系统
代码底层的遥测系统显示,Anthropic非常在意开发者的“挫败感”。系统会专门追踪用户是否在终端里对Claude爆粗口,以及连续输入continue(通常因为模型输出中断而导致的烦躁行为)的频率。
目前,Anthropic已对外证实此次泄露事件,并发布声明强调:这是一次人为失误导致的发布打包问题,而非系统遭入侵引发的安全事件。敏感的客户数据、用户凭证以及AI模型权重均未泄露,用户无需担心自身使用安全。
对于开源社区和独立开发者来说,这次泄露提供了一个难得的学习机会。他们可以深入研究Anthropic在AI代理架构设计、工具调用逻辑、权限管理系统等方面的实现细节,为自己的项目提供参考。
03月31日
44.6K Star!GitHub上一款开源的多智能体AI量化交易框架 | TradingAgents
TradingAgents是一款在GitHub上迅速走红的多智能体大语言模型(LLM)金融交易框架,由Tauric Research团队开发并开源。
该项目模拟真实交易公司的组织架构和决策流程,通过部署多个专业化的AI智能体协作完成市场分析、策略辩论、风险评估与交易决策全流程。
目前该项目在GitHub上已获得超过44.6KStar,成为AI+金融领域的现象级开源项目。
与传统的单一模型量化工具不同,TradingAgents构建了一个完整的AI交易团队,包含基本面分析师、技术分析师、情绪分析师、新闻分析师、多空研究员、交易员、风险管理团队和投资组合经理等多个专业角色。
主要功能
多维度市场分析
TradingAgents从四个核心维度对市场进行全面分析:
基本面分析:评估公司财务数据、业绩指标和内在价值
技术分析:运用MACD、RSI等技术指标识别交易模式并预测价格走势
新闻分析:监测全球新闻和宏观经济指标,解读事件对市场的影响
情绪分析:运用情绪评分算法分析社交媒体和公众情绪,研判短期市场情绪
智能体协作机制
框架采用专业化的分工协作模式:
分析师团队:四类分析师并行工作,提高分析效率
研究团队:由多头和空头研究员组成,对分析师提供的见解进行批判性评估
交易执行:交易员代理整合分析报告,做出明智的交易决策
风险管理:持续监控投资组合风险,评估市场波动性和流动性
灵活的数据集成
支持多种数据源接入
A股数据:通过Tushare接口获取实时行情和历史数据网页
美股数据:集成FinnHub、Yahoo Finance等数据源网页
新闻数据:Google News、财经新闻集成网页
社交数据:Reddit情绪分析支持网页
应用场景
TradingAgents的应用场景广泛,主要涵盖以下四个方向:
量化投资与金融研究:为量化开发者、研究员及金融机构提供强大的策略开发、回测与因子挖掘平台,可显著提升投研效率。
金融科技产品开发:其模块化架构易于集成,可用于开发智能投顾、风险管理系统、市场分析工具等金融科技应用。
学术与教育:为高校和研究机构提供了探索多智能体系统、行为金融学及市场微观结构的理想实验平台,也适用于金融科技的实践教学。
个人投资辅助:为个人投资者提供了一个结构化的决策支持工具,相当于拥有一个可进行多维度分析、理性辩论与风控的自动化AI投研团队。
TradingAgents代表了AI在金融领域应用的新方向,通过模拟真实交易团队的协作模式,将复杂的金融决策过程分解为多个专业化智能体的协同工作。
该项目不仅降低了专业量化交易的门槛,让个人投资者也能体验机构级的投研能力,还为金融科技研究者和开发者提供了强大的实验平台。
GitHub:https://github.com/TauricResearch/TradingAgents
03月28日
一款免费开源、可纯浏览器运行的 3D 建筑设计编辑器 | Pascal Editor
Pascal Editor 是一款基于 Web 的开源 3D 建筑编辑器,它允许用户直接在浏览器中创建、编辑和导出三维建筑模型。
该项目采用 MIT 开源协议,完全免费且开放,部署在 editor.pascal.app 供用户在线体验。目前在GitHub已斩获7.5Kstar!
它不仅仅是一个简单的 3D 查看器,而是一个架构严谨、功能完备的参数化建筑建模工具,旨在为建筑师、设计师和开发者提供高性能的在线 3D 创作平台。
主要功能
Pascal Editor 提供了完整的建筑建模工作流:
核心建模功能
用户可以从零开始绘制墙体、楼板、屋顶,划分功能区域(Zone),并在场景中放置门窗、家具等各种物品。编辑过程支持层级化管理,从场地、建筑、楼层到具体构件,逻辑清晰。
模型导入导出
支持将生成的模型导出为通用的 glb 格式,便于在其他 3D 软件或引擎中使用。同时,也允许用户上传已有的 glb 模型进行二次编辑,增强了工具的灵活性。
高性能实时渲染
编辑器基于现代 Web 图形技术构建,利用 WebGPU 渲染器提供流畅、逼真的 3D 可视化效果,确保了复杂场景下的交互体验。
完整的编辑与状态管理
内置了撤销/重做功能,支持将场景状态持久化保存。用户界面直观,提供了工具栏和交互逻辑,方便进行绘制、选择、修改等操作。
核心创新
Pascal Editor 在架构和实现上有多项创新,巧妙解决了 Web 端复杂 3D 几何实时编辑的性能难题:
数据驱动渲染与动态注册机制:编辑器将场景中的所有物体抽象为统一的“节点”(Node),并构建了节点树结构。通过一个全局的注册表(Registry),系统能够将数据节点与对应的 Three.js 渲染对象实时绑定。这意味着当数据发生变化时,视图可以高效、精准地更新,而无需遍历整个场景图。
系统驱动的按需几何更新:与传统即时渲染不同,编辑器引入了“系统”(Systems)概念。例如,墙体系统(WallSystem)、楼板系统(SlabSystem)会持续运行。
内置空间计算与网格管理:为了提升编辑的准确性和用户体验,编辑器内置了空间网格管理器。它可以进行碰撞检测和放置验证,确保家具等物品被正确放置在楼板上而不会穿模;同时自动计算楼板高程,使物品能对齐到正确的高度。
清晰的分层架构设计:项目采用单体仓库(Monorepo)架构,将核心逻辑、渲染引擎和用户界面彻底分离:
核心层:负责定义数据模型、管理整个场景的状态,并处理所有几何生成逻辑。
渲染层:专门负责将数据转换为 3D 对象,处理相机、光影和后期效果。
应用层:提供用户交互界面和编辑器特定的业务逻辑。
这种分离使得各层可以独立开发、测试和维护,提高了代码的清晰度和可维护性。
应用场景
在线建筑与室内设计
建筑师、室内设计师或学生无需安装庞大的专业软件,即可在浏览器中快速搭建建筑三维原型,进行空间规划和设计演示。
教育与技术学习
该项目是学习现代 Web 3D 开发、数据驱动架构和性能优化技术的绝佳范例。开发者可以通过它深入理解复杂状态管理、实时几何处理与高效渲染的结合方式
轻量级模型处理与协作
用户可以对现有的 3D 模型进行快速修改、添加标注或构件,并导出用于汇报、分享或进一步深化设计,适合需要快速迭代和轻量级审查的场景。
总之,Pascal Editor 通过其创新的数据驱动架构和系统化更新策略,在浏览器环境中实现了堪比桌面应用的复杂 3D 建模能力,为在线三维内容创作提供了强大、高效且易用的开源解决方案。
GitHub:https://github.com/pascalorg/editor
Harness:AI 从 “能做” 到 “稳做” 的系统层革命
近期,原本深耕工程技术领域的专业术语Harness,正火速刷屏国内科技圈层。
和一众新兴技术概念一样,它热度传播飞快,但大众对其深层内涵普遍认知模糊。
行业内尚未形成统一共识:有人将其视作 AI Agent 的工程落地载体,有人定义为专属 AI 运行时环境,也有观点简单把它归为提示词工程的延伸升级。
AI落地的核心痛点
过去两年,AI 的发展几乎由模型能力驱动,更强的多步骤执行能力、更精准的理解能力,让 AI Agent 在代码开发、深度研究等场景中展现出巨大潜力。
但当 Agent 真正进入真实业务系统,一系列问题开始暴露:单次执行可以成功,多次复现却结果迥异;常规场景下表现优异,极端边界条件下却彻底偏离预期;即使模型持续迭代升级,任务执行的可预测性依然极低。
深入探究会发现,这些问题并非源于模型能力不足,而是系统缺乏对 AI 行为的有效约束。
Harness 的核心逻辑
Harness 实现 AI 行为约束的核心逻辑,是完成了三大关键转变,彻底跳出了 “用规则引导 AI” 的传统思维,转而通过 “构建环境约束 AI”,让稳定执行成为系统的固有属性。
从文本到系统:摒弃纯文本的规则文档、Prompt 指令,将约束逻辑嵌入到系统架构中,通过代码执行、运行时控制、工具调用限制等工程化手段实现约束,让约束从 “虚拟的文字” 变为 “真实的系统限制”;
从指令到环境:不再向 AI 下达单向的执行指令,而是搭建一套标准化、高约束的执行环境,明确环境的边界、可用工具、执行路径,让 AI 只能在环境限定的范围内行动,从 “让 AI 按指令做” 变为 “AI 只能在环境里做”;
从 “禁止” 到 “无法发生”:传统思路的核心是 “禁止 AI 做错误行为”,而 Harness 的核心是 “让 AI 无法做出错误行为”。
这一逻辑的背后,是对 AI 系统的全新认知:与其试图让概率化的 AI 记住并遵守规则,不如通过系统设计,让规则成为执行环境的一部分,让稳定执行成为一种 “必然结果”。
实践验证
Harness 的价值并非停留在理论层面,而是在反复的工程实践中被验证,其中最具代表性的是由 Luke Wang 团队打造的 Mynora.ai 项目。
这支横跨中美的团队核心成员来自 MIT、CMU 及 Meta 大模型团队,长期聚焦于将模型能力转化为稳定的系统能力,其从智能合约开发这一高风险、高约束场景切入,构建了强调代码安全性与系统稳定性的 Coding Agent,核心目标就是验证 Harness 能否 “约束住 AI”,而非 “引导 AI”。
该项目上线后迅速在北美开发者社区走红:在 ETHGlobal New York 黑客松中,近 50% 的团队选择其完成智能合约开发;2025 年 10 月,其登顶 Product Hunt 周榜,并拿下月榜开发者工具第二名,在 Rust 等系统级语言的底层代码执行稳定性上,甚至优于 Cursor 等同类产品。
这一成果证明,Harness 能够在高约束、高风险的产业场景中,让 AI 实现稳定、可靠的执行,成为开发者的默认工具。
OpenAI 内部实验印证了 Harness 的工程价值:3 名工程师耗时 5 个月,依托该范式让 AI 智能体自主开发百万行复杂产品系统,零人工编码,效率是传统手写代码的 10 倍。这证明 Harness 可将大模型能力转化为产业级稳定生产力。同时实践表明,AI 系统稳定性并非设计所得,而是试错迭代养成。Luke 团队历经一年多场景测试优化约束、执行与反馈机制,在不断改错复盘里,沉淀出让 AI 行为收敛的专属系统工程能力。
AI 的新挑战
Harness 解决了 AI 落地稳定性难题,也带来系统性工程挑战:
一是需要融合多领域跨学科技术,对团队综合能力要求更高;
二是要适配不同行业场景,搭建可扩展通用框架;
三是必须深度结合业务,在实操试错中迭代优化。
当模型不再受限,AI 迎来产业落地关键阶段,Harness 是核心解法,让 AI 从单次演示走向稳定量产、从实验走向产业生产力。未来行业竞争将围绕成熟适配稳定的 Harness 展开,它将推动 AI 成为通用工具,赋能各行各业释放产业价值。
03月27日
Soul App 开源实时交互数字人!SoulX-LiveAct:实现高质量、低延迟的数字人生成。
SoulX-LiveAct是Soul App AI Lab开源的一款实时数字人生成框架,它系统性地解决了自回归(AR)扩散模型在流式生成场景中长期存在的稳定性难题。
传统扩散模型在生成视频时采用逐帧生成方式,但在实时应用(如直播、视频通话)中,这种模式会导致严重的画面抖动、人物变形、身份漂移和细节不一致等问题。
SoulX-LiveAct通过一系列创新技术,实现了高质量、高稳定性、低延迟的实时数字人视频生成。
主要功能
实时流式推理能力
在双卡H100/H200配置下,SoulX-LiveAct能够在720×416或512×512分辨率下实现20 FPS的实时生成速度,端到端延迟仅0.94秒。这一性能指标使其能够满足直播、实时对话等对延迟敏感的应用需求。
长时视频生成
框架支持小时级甚至理论上的无限时长视频生成,突破了传统视频生成模型随时长增加显存占用线性增长的技术瓶颈。实测表明,系统能够在长时间运行中保持稳定的性能表现。
精准的口型与表情同步
集成chinese-wav2vec2-base音频编码器,能够根据输入的音频信号实时生成高度匹配的口型动作和面部表情。在技术报告中,其口型同步准确率(Sync-C)达到9.40,显著优于同类方案。
多分辨率支持与设备适配
除了服务器级H100/H200配置外,框架还针对消费级显卡进行了优化。在RTX 4090/5090上,通过启用FP8 KV Cache和块卸载等技术,仍能实现24 FPS的生成速度,大大降低了使用门槛。
动作与表情编辑控制
支持通过JSON配置文件对数字人的动作和表情进行精细控制,为内容创作提供了更大的灵活性和创造性空间。
性能表现
根据技术报告的对比实验数据,SoulX-LiveAct在多个关键指标上均表现出显著优势:
口型同步质量:在HDTF数据集上,Sync-C指标达到9.40(越高越好),Sync-D指标降至6.76(越低越好),明显优于OmniAvatar(5.13/10.19)、InfiniteTalk(7.12/8.01)和Live-Avatar(7.68/8.38)。
视频质量指标:FID(弗雷歇起始距离)仅为10.05,远低于其他对比方法(15.85-27.90),表明生成视频与真实视频的分布最为接近。FVD(弗雷歇视频距离)为69.43,同样大幅领先。
人工评估分数:在VBench评估中,时序质量达到97.6,图像质量63.0,人类逼真度99.9,在所有对比方法中位列第一。
推理效率对比:仅需2张GPU即可实现20 FPS吞吐和0.94秒延迟,每帧计算量(TFLOPs)仅为27.2。相比之下,InfiniteTalk需要8张GPU、3.20秒延迟和50.2 TFLOPs/帧;Live-Avatar需要5张GPU、2.89秒延迟和39.1 TFLOPs/帧。
长时稳定性验证:在长时间生成测试中,基线方法普遍出现身份漂移、细节丢失、口型失配、配饰忽隐忽现等问题,而SoulX-LiveAct能在更长时间窗口内保持身份一致性与关键细节稳定。
应用场景
播客与对话场景:适用于双人对谈、访谈节目、脱口秀等需要自然交互的场景。系统能够根据对话内容实时生成匹配的面部表情、眼神交流和口型动作,创造沉浸式的观看体验。
音乐表演与歌唱:支持需要强表情管理和情感表达的音乐表演场景。数字人能够根据歌曲的节奏、旋律和情感变化,生成相应的面部表情和身体语言,为虚拟歌手、音乐教学等应用提供技术支持。
视频通话与远程交互:模拟真实的FaceTime体验,可用于虚拟客服、在线教育、远程医疗、企业培训等B端场景。低延迟特性确保了交互的实时性和自然性。
内容创作与媒体制作:为视频创作者、广告制作、游戏开发等提供高效的数字人生成工具。支持动作和表情编辑的功能,为创意表达提供了更多可能性。
GitHub:https://github.com/Soul-AILab/SoulX-LiveAct
03月26日
OpenClaw创始人点赞网易"小龙虾"LobsterAI,国产AI Agent 凭实力出圈!
LobsterAI(有道龙虾)是网易有道开源的一款桌面级AI Agent。
它被业界广泛称为“中国版OpenClaw”,就连龙虾之父 Peter都亲自为其点赞。
LobsterAI的核心价值在于通过极致的易用性和深度本土化改造,将原本需要命令行操作、具备一定开发门槛的Agent能力,封装成普通用户“装上就能用”的图形化软件。
产品定位为一个“7x24小时全场景个人助理Agent”,旨在成为用户电脑上一个有脑(思考规划)有手(执行操作)的AI数字员工,而不仅仅是聊天顾问。
主要功能
LobsterAI的核心是一个强大且可扩展的“技能系统”(Skills)。这些技能不是简单的提示词模板,而是真正的可执行代码模块,能够操作各类软件和网络服务。
文档智能处理套件:
xlsx技能:可读取Excel表格,进行复杂的数据分析(如计算Top 10产品趋势、环比增长率),并自动生成包含柱状图、折线图等可视化图表的分析报告。
docx技能:能基于分析结果或给定素材,自动撰写结构完整、格式规范的Word文档报告。
pptx技能:可根据主题和内容,调用模板自动生成PPT演示文稿,完成从大纲到排版的全流程。
pdf技能:能够解析PDF文件,提取其中的文字、表格等关键信息并进行结构化整理。
网络与自动化操控能力:
多浏览器并发控制:这是其标志性能力。LobsterAI可以同时打开并操作多个浏览器窗口,在不同的网站(如电商平台、社交媒体、资讯站)上并行执行搜索、浏览、信息抓取任务。
web-search与playwright:提供实时联网搜索和高级浏览器自动化能力,能模拟用户点击、翻页、表单填写等交互,用于信息收集或流程自动化。
创意与开发工具:
内置前端设计、网页游戏开发、项目计划拆解等技能。
提供skill-creator(自定义技能生成器),允许高级用户根据自身需求创建新的技能,并可在社区分享。
个性化学习引擎
LobsterAI 适配每一种学习模式,无论是学生党还是职场学习者,皆可轻松上手。
导入学习资料,输入一句话指令,即可提炼音视频知识点,并整理笔记;根据自身学习进度,可生成专属教学视频、个性化练习互动,并随时为你答疑解惑。让高效学习,成为常态。
IM机器人深度集成
无需复杂开发,即可一键接入微信、企业微信、钉钉、飞书、QQ等国内主流通讯工具。用户可通过手机向机器人发送指令,远程控制家中或办公室的电脑执行任务,结果直接推回聊天窗口。
应用场景
多平台信息调研:市场人员可通过一句话指令,让 LobsterAI 自动、并发地在多个平台(如小红书、知乎、新闻网站)搜索并分析产品声量,最终生成结构化的舆情报告。
专业领域智能辅助:在金融投研等场景,用户可上传图表数据,指令 LobsterAI 结合技术指标和实时资讯进行分析,自动生成图文并茂的专业报告,并可设置为定时任务。
远程办公自动化:用户在外可通过手机IM(如飞书/微信)远程向电脑端的 LobsterAI 发送指令,让其自动处理本地的文件(如分析数据、生成摘要),实现跨设备协同办公。
个性化学习与创作:学生或创作者可输入学习资料,指令其自动提炼知识点、生成笔记大纲或练习题;也可基于调研资料,自动撰写符合特定格式要求的文章。
简单来说,LobsterAI 最大的价值,就是把高端复杂的 AI Agent 技术变得人人都能用。它用可视化界面、现成功能模板、按场景打包使用,再加上严格的安全管控,解决了三个最头疼的问题:安装复杂、不会操作、不知道能用来做什么。
它不只是一个普通工具,更是一个能不断成长、可以自定义的 AI 生产力平台。这也意味着,AI 应用正在从 “聊天给建议” 的阶段,正式进入 “自己规划、自动帮你完成任务” 的实用新阶段。
官网:https://lobsterai.youdao.com/#/index
GitHub:https://github.com/netease-youdao/lobsterai
03月24日
狂澜39.7Kstar!字节开源龙虾架构Deer-Flow2,自带 Skill 全家桶 + 飞书原生适配!
Deer-Flow2是字节跳动开源的一款超级智能体管理框架,发布后迅速登上GitHub Trending榜首!
该项目采用模块化多智能体架构,通过LangGraph实现智能体间的协同合作,旨在为用户提供开箱即用、高度可扩展的智能体开发与运行平台,目前已获得39.7k Star!
Deer-Flow2是一个面向复杂任务处理的智能体框架,其设计理念是将核心能力收敛到工具集与中间件链中,使系统更轻量、更灵活。
相比1.0版本固定5节点多智能体架构主要聚焦深度研究场景,2.0版本进行了全面重构,采用“单一主智能体+11层中间件链+动态子智能体”的全新架构。
主要功能
开箱即用的工具集成
内置Tavily、Brave Search、DuckDuckGo等多种搜索引擎,集成Jina等爬虫工具,覆盖信息收集的多种需求。
多智能体协同
支持主智能体对任务进行结构化拆解,调度最多3个子智能体并行执行,每个子智能体拥有独立上下文,互不干扰。
IM渠道原生支持
原生适配飞书、Telegram、Slack,无需公网IP即可运行,用户可直接在聊天窗口中与DeerFlow交互。
沙箱安全执行
提供独立隔离沙箱环境,每个任务在专属沙箱中运行,拥有完整文件系统与Bash执行权限,支持文件读写、脚本运行等操作。
灵活部署方式
支持Docker快速部署和本地开发两种模式。Docker模式采用字节开源的AIO Sandbox,隔离级别更高;本地部署适合需要深度定制或二次开发的用户。
广泛模型兼容
支持主流大模型,包括GPT-4、Gemini等,用户可自定义API或模型接入。
核心创新
架构升级:从1.0的固定架构转变为动态可扩展架构,核心能力收敛到工具集与中间件链,系统更轻量、更易扩展。
可插拔Skill体系:内置深度研究、数据分析、图表生成、音视频创作等十余种常用技能,系统根据任务需求渐进式加载以控制token消耗。用户可通过官方skill-creator工具自行封装专属技能,几分钟即可扩展新能力。
隔离沙箱执行环境:提供本地、Docker、Kubernetes三种运行模式,其中Docker模式采用AIO Sandbox,自动完成虚拟路径与物理路径映射,确保开发与部署环境一致。
子智能体调度与上下文工程:通过多层中间件链、上下文自动摘要压缩、外部文件存储、子任务限流等设计,系统性解决长时任务中上下文窗口不足的问题。
MCP与Python接口支持:支持自定义工具的深度集成,可接入Claude Code,让用户在终端完成工具的下发、查看与管理操作。
应用场景
Deer-Flow2适用于多种复杂任务处理场景:
深度研究:可进行信息收集、分析与综合,产出结构化研究报告。
内容创作:支持一键生成完整、可交付的网页(如足球联赛官网页面),从设计到代码全流程自动化。
教育科普:能将复杂概念转化为通俗易懂的内容,如将MOE(混合专家模型)解释为12岁孩子能看懂的哆啦A梦漫画。
数据可视化:可生成交互式界面,如液态玻璃天气界面,支持鼠标悬停3D形变效果。
自动化开发:协助完成代码编写、测试部署等开发任务,提升开发效率。
该项目由北京大学的Tao He和南京大学的Henry Li共同开发,体现了字节跳动在AI智能体领域的技术积累与开源贡献。
通过模块化设计、安全沙箱和灵活的扩展机制,Deer-Flow2为开发者提供了一个功能强大、易于上手的智能体开发平台,有望推动AI智能体技术的普及与应用创新。
Github :https://github.com/bytedance/deer-flow
03月23日
一人顶 48 人游戏开发团队!这款开源神器让 AI 会话直接变游戏工作室 | Claude Code Game Studios
在AI深度渗透各行各业的当下,游戏开发领域也迎来了全新变革。
GitHub 上开源的 Claude Code Game Studios 项目,以 Anthropic 官方推出的 Claude Code 代理式编程工具为基础,将单次 AI 会话打造成了结构完整、分工明确的专业游戏开发工作室。
它让独立开发者仅凭一己之力,就能拥有48个 AI 智能体组成的开发团队,为游戏开发尤其是独立游戏开发领域开辟了全新可能。
主要功能
Claude Code Game Studios 的功能围绕游戏开发全生命周期展开,从创意构思到上线发布,从代码编写到质量检测,形成了闭环式的开发支撑体系,核心功能可分为四大核心模块:
分层智能体团队
48 个智能体仿真实游戏工作室设三层架构,协作分工清晰:顶层是 Opus 模型驱动的创意、技术、制作 3 位总监,把控游戏整体方向、技术架构与项目进度;中层为 Sonnet 模型驱动的 8 位部门负责人,涵盖游戏设计、主程序等核心岗,统筹各领域开发;底层是 Sonnet/Haiku 模型驱动的 37 名专项人员,负责玩法编程、QA 测试等实操工作。
此外,Godot 4、Unity、Unreal Engine 5 三大引擎均有专属智能体及子专项人员,精准落地各引擎核心技术。
自动化安全与规范校验
项目内置 8 个自动化钩子脚本,在开发关键节点自动运行,实现全流程质量管控,比如检查代码硬编码、校验资产命名、检测文档缺失等;同时配备 11 项路径编码规范,按文件存储位置自动生效,对核心代码、UI 代码等不同目录制定专属开发要求,规范代码编写。
丰富模板与配置
项目提供 29 类专业文档模板,涵盖游戏设计文档(GDD)、架构决策记录(ADR)、数值经济模型、派系设计等游戏开发核心文档,让开发者无需从零开始撰写。
同时,项目拥有清晰的目录结构,将源码、资产、设计文档、测试用例等进行分类管理,还支持自定义配置,开发者可根据需求增删智能体、修改工作流、调整校验规则,让工具适配自身的开发习惯。
核心创新
Claude Code Game Studios 并非简单堆砌 AI 工具,而是从三方面实现创新:
一是构建结构化智能体协作规则,48 个智能体分层级协作、遵循固定协议,开发者全程掌握决策权;
二是融入 MDA 框架、验证驱动开发等专业游戏开发方法论,让 AI 具备专业开发思维;
三是通过 “AI 团队 + 标准流程 + 自动化校验”,解决单人 AI 开发缺乏规范的痛点;四是依托 Claude Code 核心能力,将其拆解分配给各专业智能体,提升开发效率与质量。
Claude Code Game Studios 所代表的 “人类导演 + AI 剧组” 的开发模式,为游戏开发领域的 AI 应用提供了全新思路。它证明了 AI 并非要取代人类开发者,而是通过赋能让开发者的创意和能力得到更大发挥。当然,目前该项目仍有一定的使用门槛,48 个智能体的协同对 Claude Code 的上下文窗口是不小的考验,因此更适合开发者从中小型项目开始试水。
GitHub:https://github.com/Donchitos/Claude-Code-Game-Studios
03月20日
字节开源OpenViking:为 “小龙虾” AI Agent 打造可操作记忆的上下文数据库!
OpenViking是由字节跳动火山引擎团队开源的一款专为AI Agent设计的上下文数据库。
该项目旨在解决传统RAG(检索增强生成)方案在管理AI智能体长期记忆、资源和技能时面临的碎片化、高成本、不可观察等核心痛点。
其核心理念是将AI的上下文从传统的“向量黑盒”转变为类似计算机文件系统的可操作、可治理的结构化存储方式,让开发者能够像管理本地文件一样管理AI的大脑。
自开源以来,OpenViking在GitHub上迅速获得关注,短时间内星标数突破16.14k,并登上趋势榜前列。它被视为推动AI Agent从“临时对话”走向“长期在线、持续进化”的关键基础设施。
主要功能
统一上下文管理:
通过虚拟文件系统协议(viking://),将AI Agent所需的记忆(聊天历史)、资源(参考文档)和技能(可用工具)统一纳入清晰的目录结构(如resources/、user/、agent/、memories/、skills/)中进行管理。
分层上下文加载(L0/L1/L2):
L0(抽象层):约100个token的一句话摘要,用于快速相关性检查,常驻内存。
L1(概览层):约2000个token的核心信息,用于任务规划阶段的决策。
L2(详情层):完整的原始数据,仅在深度需要时按需加载。
这种分层策略能显著减少不必要的token消耗,官方测试数据显示,集成OpenViking后,输入token成本可降低高达91%。
目录递归检索:结合语义搜索和目录定位,先锁定高分目录,再进行精细化内容探索和递归下钻,提升检索的准确性和全局性,避免传统RAG的碎片化问题。
可视化检索轨迹:提供完整的检索过程可视化,开发者可以清晰看到每一步的召回路径,便于调试和优化,实现了上下文管理的“可观测性”。
自动会话管理与记忆进化:在长对话或任务结束后,系统会自动分析会话内容,压缩无关紧要的闲聊,提取重要的“长期记忆”并归档,使AI Agent能够越用越聪明,实现记忆的自我迭代。
核心创新
文件系统范式:这是OpenViking最根本的创新。它摒弃了将数据切碎为向量片段存储的传统方式,转而采用人类熟悉的文件夹范式来组织信息。这使得上下文管理变得直观、结构化,Agent可以像使用ls、find、grep等命令操作本地文件一样存取记忆。
从黑盒到白盒的转变:传统RAG的检索过程不可追溯,而OpenViking通过文件系统路径和可视化工具,让上下文的来源、关联和检索逻辑变得完全透明,极大地提升了可调试性和可信度。
成本与性能的显著优化:通过三层按需加载机制,OpenViking在保证任务完成率的前提下,大幅降低了模型调用的token成本。根据在LoCoMo10数据集上的测试,相比原生方案,任务完成率提升约43%,同时输入token成本降低超过90%。
原生为Agent设计:不同于通用的向量数据库,OpenViking从设计之初就专注于AI Agent的独特需求,如长期记忆保持、多轮工具调用记录、技能库管理等,提供了更贴合Agent工作模式的原生支持。
应用场景
长程任务AI Agent:适用于需要跨多个会话、长时间保持上下文一致性的复杂任务自动化场景,如客户服务、项目管理和研究助理。
多智能体协作系统:当多个AI Agent需要共享记忆、资源和协调工作时,OpenViking的统一文件系统可以作为共享的“工作记忆”中枢。
知识密集型应用:对于需要管理和检索大量文档、代码库的智能应用(如知识库问答、代码助手),其结构化的资源管理和高效检索能力能显著提升体验。
复杂工作流自动化:在涉及多步骤、多工具调用的自动化流程中,OpenViking可以清晰记录每一步的决策上下文和工具使用历史,便于追踪和复现。
OpenViking代表了AI Agent上下文管理领域的一次重要范式革新。它通过引入文件系统的直观隐喻和分层加载的智能策略,不仅有效解决了传统方案的痛点,更在可观察性、成本控制和记忆进化方面带来了实质性突破。
GitHub:https://github.com/volcengine/openviking
03月19日
让龙虾操控任意软件!港大开源CLI-Anything:让任何应用变成AI Agent的专属工具。
CLI-Anything是由香港大学数据科学实验室(HKUDS)团队开源的一个创新项目,旨在解决AI Agent与专业软件之间的交互难题。
该项目提出了一个核心思路**:用CLI(命令行界面)作为AI Agent和真实软件之间的桥梁**。
在当前AI Agent快速发展的背景下,一个明显的矛盾日益突出:虽然像Claude Code这样的工具因其优秀的CLI设计而备受Agent开发者青睐,但绝大多数专业软件(如GIMP、Blender、LibreOffice、OBS Studio等)缺乏Agent友好的CLI接口。
这导致AI Agent在处理复杂任务时,要么无法直接操作这些软件,要么只能依赖脆弱的GUI自动化(截图、点击等),效率和可靠性都大打折扣。
CLI-Anything正是为了解决这一问题而生。项目目前在GitHub上斩获了18.6K的Star,显示了业界对这一方向的强烈关注。
主要功能
一键生成 CLI:通过单条命令自动完成从源码分析到发布的 7 阶段全流程,将任意开源软件转化为 Agent 可用的命令行工具。
真实软件集成:直接操作现有专业软件(如 GIMP、Blender、LibreOffice),调用真实应用程序处理项目文件。
告别 GUI 自动化:摒弃截图识别和模拟点击的脆弱方案,采用纯命令行交互,消除 UI 元素变动导致的失效风险。
结构化输出:支持 REPL 交互模式和脚本子命令双模式,内置 --json 标志输出结构化数据,便于 Agent 直接消费解析。
生产级测试保障:在 9 个专业软件上完成 1436 个测试用例验证,包含单元测试、E2E 测试及真实软件调用,确保 100% 通过率。
核心创新
CLI-Anything的创新性体现在多个层面:
自动化CLI生成方法论
项目不是简单的包装器,而是一套完整的自动化流程。通过一个Claude Code插件,只需一条命令就能为任何开源软件生成完整的、生产级的CLI接口。这个过程包含7个完全自动化的阶段:
分析:扫描源码,将GUI操作映射到API
设计:架构命令组、状态模型、输出格式
实现:构建带REPL、JSON输出、撤销/重做功能的Click CLI
规划测试:创建包含单元测试和E2E测试的TEST.md
编写测试:实现完整的测试套件
文档:更新TEST.md记录结果
发布:创建setup.py,安装到PATH
真实软件集成,零功能妥协
与许多模拟或替代方案不同,CLI-Anything生成的CLI直接操作真实的软件后端:
LibreOffice真的生成PDF文档
Blender真的渲染3D场景
Audacity真的处理音频文件
GIMP真的编辑图像
所有操作都基于真实的项目文件格式(ODF、MLT XML、SVG等),并调用真实的应用程序进行渲染,确保了功能的完整性和输出质量。
告别脆弱的UI自动化
项目彻底摒弃了基于截图识别和UI元素定位的传统自动化方式,采用纯命令行路线,带来了革命性的稳定性提升:
没有截图识别的不确定性
没有UI元素位置改变导致的失效
没有点击延迟和视觉干扰
纯CLI操作,稳定可靠
结构化输出,Agent友好设计
每个生成的CLI都支持双模式操作:
状态化的REPL交互模式:适合Agent会话,保持上下文状态
子命令的脚本模式:适合流水线和批处理脚本
结语
CLI-Anything不仅仅是一个工具,更是一种面向AI Agent时代的软件交互新范式。它解决了长期存在的最后一公里问题:如何让AI Agent真正操作专业软件。
对于任何关注AI自动化、工作流优化和软件工程未来的开发者来说,CLI-Anything都值得深入研究和尝试。它可能正是连接当前AI能力与真实世界应用的关键桥梁。
GitHub:https://github.com/HKUDS/CLI-Anything
03月12日
阿里开源首个影视级配音多模态大模型Fun-CineForge:实现精准音画同步!
Fun-CineForge是通义实验室发布并开源的首个支持影视级多场景配音的多模态大模型,创新引入时间模态实现精准音画同步。
模型支持独白、旁白、对话及多人场景,旨在解决AI在专业影视、动画和游戏配音中长期难以落地的关键问题,可以有效解决口型同步、情绪表达、音色一致、时间对齐四大难题。
主要功能
口型同步:模型支持合成语音与画面中人物唇部运动高度同步,实现精准音画对齐。
情绪表达:依据角色面部形象和指令描述,实现情感语气的拟人化呈现与自由控制。
音色克隆:模型能参考输入音频的音色特征,合成高度相似的个性化语音。
时间对齐:根据时间戳控制语音起止,即使说话人被遮挡也能在正确时段生成语音。
多场景适配:支持独白、旁白、双人对话及多人对话等复杂影视配音场景。
解决的瓶颈问题
现有技术面临两大瓶颈:
一是高质量多模态数据集稀缺,数据量小、标注成本高、缺乏复杂场景的长视频数据;
二是模型能力不足,传统方法依赖清晰唇部区域,难以处理多人对话、镜头切换、面部遮挡等复杂情况。
数据与模型的一体化设计
Fun-CineForge通过数据+模型闭环方案应对上述问题:
多模态配音大模型:基于CosyVoice3语音合成能力,输入无声视频、配音文本、角色属性情感线索、时间信息和参考语音,输出与视频时间高度对齐的语音。
大规模高质量数据集CineDub:构建自动化生产流程,将原始影视素材转化为结构化多模态数据。通过通用大模型思维链的双向矫正机制,中文字错率从4.53%降至0.94%,英文词错率从9.35%降至2.12%,说话人分离错误率从8.38%降至1.20%。
数据覆盖独白、旁白、对话、多说话人等场景,每条数据包含转录台词、帧级唇部数据、情感线索、毫秒级时间戳及干净人声轨道。
性能表现
CineDub 数据集上对 Fun-CineForge 进行了全面评估,覆盖独白、旁白、对话、多人场景等多种典型影视配音场景。结果显示,单人场景效果最优,独白和旁白的中文字错率仅 1.49% 和 1.90%,音画同步精准。
在独白场景下,将 Fun-CineForge 与 DeepDubber-V1 和 InstructDubber 进行了对比。结果显示,Fun-CineForge 在词错率、唇部同步、时间对齐、音色相似度等各项指标上均明显优于基线模型。
注:CER/WER 为中文字/英文词错率(↓越低越准);SPK-SIM 为音色相似度(↑越高越像);SPK-TL 为时间对齐误差(↓越低越精准);LSE-C/D 为唇部同步度(C↑越高/D↓越低越好)。
应用场景
影视后期制作:为电影电视剧进行多语言配音,精准匹配口型与情绪,处理镜头切换和面部遮挡等复杂场景。
动画游戏开发:为动画角色生成音画同步的语音,支持多角色音色区分,降低游戏剧情配音成本。
内容本地化:将海外影视作品翻译配音为其他语言,保留原片情感节奏,支持旁白独白等长片段转换。
广告短视频:模型能快速生成口播视频配音,根据画面情绪调整语气,克隆特定音色保持品牌一致性。
无障碍辅助:模型能为无声视频生成同步解说语音,辅助视障用户理解画面,提供精准字幕音频配对。
项目主页:https://funcineforge.github.io/
GitHub:https://github.com/FunAudioLLM/FunCineForge
03月11日
OpenClaw 3.8 上线:更注重可靠性、状态管理和安全性!
OpenClaw 项目再次以惊人的速度推进,在 3.7 版本发布仅一天后,3.8 稳定版便紧随而至。
这更新速度甚至让人怀疑:开发团队是不睡觉了吗?
如果说OpenClaw此前版本的快速迭代让人看到了智能体开发领域的狂奔速度,那么刚刚发布的3.8稳定版,则清晰地传递出一个新信号**:在追求能力边界的同时,工程成熟度与安全性正成为同等重要的核心议题。**
这次更新没有炫目的新模型集成,**却因其对可靠性、状态管理和安全性的集中加固,**被社区视为项目走向成熟的重要里程碑。
核心更新:
本次更新聚焦于四个关键领域,旨在解决真实生产环境中暴露出的痛点:
ACP溯源机制:为智能体装上权限识别眼
问题:在多人协同使用OpenClaw时,智能体如同一个不设防的公共接口,无法区分指令来自团队成员、外部集成还是未授权访问,导致权限混乱和潜在风险。
解决方案:引入Agent Communication Protocol (ACP) 溯源功能。现在,每一条传入智能体的指令都携带可验证的源头信息(身份、入口、权限上下文)。这意味着智能体能够执行基于身份的差异化响应和权限校验。
价值:这对于企业级部署至关重要。它实现了指令级审计溯源(任何操作可追踪到具体用户),并支持构建精细的权限管控体系,例如,只有项目经理的指令才能触发部署流程,普通成员的同类请求会被自动拒绝。
官方备份工具openclaw backup:终结“YOLO式部署”的焦虑
问题:此前,升级或重大配置变更如同一场没有安全绳的冒险,一旦出错,回滚复杂且容易丢失状态。
解决方案:正式推出官方的、一体化的备份与恢复工具。核心命令简洁直观:
openclaw backup create:创建包含配置、工作区(可选)状态的完整备份档案。openclaw backup verify:验证备份文件的完整性与可恢复性。
亮点:工具支持灵活的备份策略(如
--only-config仅备份配置,--no-include-workspace排除大数据工作区),并会在执行高风险操作前主动提示用户进行备份。这体现了“设计上防错”的理念,将最佳实践固化到工具流程中。
根除Telegram重复消息顽疾
这是一个看似不大却极度影响体验的Bug修复。此前通过Telegram渠道发送的通知常出现重复推送,干扰性极强。3.8版本优化了消息去重逻辑,确保了通知的准确性和清爽度。
系统性安全加固(12+项修复)
这是本次更新中“沉默但至关重要”的部分。官方合并了超过12项安全修复,虽未详述细节(防止漏洞被利用),但覆盖了多个层面:
脚本安全:严格绑定并验证授权的
bun和deno run脚本,防止执行时被篡改。网络安全:加强浏览器环境下的服务器端请求伪造(SSRF)防护,拦截试图访问内部网络的恶意重定向。
权限模型:修复了MS Teams集成中可能因路由白名单配置导致权限意外扩大的问题。
强烈建议:所有将OpenClaw服务暴露在公网或有安全合规要求的用户,应立即升级至此版本。
体验与兼容性:值得关注的细节优化
除了四大支柱,3.8版本还包含一系列提升开发体验和兼容性的改进:
更人性化的Talk模式:新增 talk.silenceTimeoutMs全局配置项,让用户可以自定义语音输入后的静默等待时间,避免AI在用户思考停顿时抢话,使对话更自然。
终端UI自适应:TUI(文本用户界面)现在能自动检测终端背景色(深色/浅色),并切换配色方案以确保可读性,也支持通过 OPENCLAW_THEME=light环境变量手动指定。
模型能力支持更新:正确为 openai-codex/gpt-5.4模型配置了高达1,050,000 Token的上下文窗口,充分发挥其性能。
增强的搜索集成:Brave搜索新增 llm-context模式,直接返回经过AI提取的摘要和元数据,更适配智能体处理。同时优化了多搜索提供商(如Grok、Kimi)的自动选择排序逻辑。
基础设施优化:改善了Podman容器在启用SELinux的系统(如Fedora, RHEL)上的兼容性,并进一步精简了Docker镜像的体积。
从“疯狂迭代”到“稳健成熟”
有社区开发者评论道:“有趣的发布说明,但潜台词很真实:智能体技术栈正在走向成熟。如今不再追求花哨的功能,更注重可靠性、状态管理和安全性。基础设施就是这样构建起来的。”
这句话精准点出了3.8版本的核心意义。在经历了3.7版本大规模的底层重构后,3.8版本迅速应对实际部署中出现的退化Bug和安全补丁,这种快速响应体现了项目维护的成熟度。正如官方发布说明中那句自信的总结:“我们修复的问题比引入的更多。这是进步。”
OpenClaw持续进化更新,其背后是活跃社区的巨大推动力。这次更新表明,它的焦点正从单纯的功能爆炸扩展至构建一个值得信赖、易于运维的智能体基础设施。
对于开发者和企业而言,跟随这样的更新节奏,不仅是在获取新功能,更是在将自己的系统搭建在一个日益坚实的基础上。
GitHub:https://github.com/openclaw/openclaw/releases/tag/v2026.3.8
03月10日
让 OpenClaw 小龙虾开口说话!开源 NoizAI Skill: 一键给小龙虾装上声音 + 音色克隆。
近期,专注于AI语音的Noiz AI 平台开源了全新技能仓库NoizAI/skills。
它让AI 助手(如 OpenClaw 小龙虾)能够开口说话,甚至克隆任何人的音色,从而为AI交互带来前所未有的陪伴感和人格化体验。
该项目旨在将高级音视频处理能力转化为开发者可调用的原子化技能,使 AI 机器人不再仅仅是文字聊天框,而是能用人声交流的情感助手。
主要功能
NoizAI/skills 提供了5个核心技能,几乎涵盖了 AI Agent 与语音结合的所有关键场景:
文本转语音(TTS)
支持 Kokoro(本地)和 Noiz(云端)两种后端。提供简单模式、时间轴精确渲染、精确时长控制,并支持通过参考音频进行音色克隆。
用目标人物的声音进行对话
可自动在线寻找目标人物(真实或虚构角色)的语音,提取干净参考样本,并用其音色生成语音回复,实现与任何人对话的体验。
特色语音(Characteristic Voice)
通过语气词(如 hmm、haha、aww)、情绪参数和场景预设(晚安、早安、安慰、庆祝等),让生成的语音更具人味和陪伴感。
视频翻译
将视频中的语音翻译成另一种语言,用 TTS 生成配音并替换原始音轨,同时保留视频画面,实现跨语言视频内容的快速本地化。
技能管理与扩展
提供完整的命令行工具,支持从 GitHub 仓库查看、安装、调试技能,便于开发者快速集成与二次开发
核心亮点
安全且本地优先:技能可在用户自己的机器上运行,敏感文本和资源无需上传云端,保障隐私与数据安全。
人格化语音控制:通过微调语气词、情绪参数和场景预设,让语音输出富有情感和个性,打造真正有陪伴感的 AI 助手。
生产级语音质量:从快速 TTS 生成到时间轴精确渲染,支持高质量音色克隆与多语言配音,满足各类音视频创作需求。
应用场景
多角色协同工作
在 Agent Teams 中,为不同角色(运营、客服、代码助手)配置不同音色,用户无需看屏幕,仅凭声音即可辨识当前对话的 AI,提升多任务处理效率。
无障碍交互场景
在开车、做家务等不便观看屏幕的场景下,AI 助手通过语音传递信息与人设,实现纯听觉的高效交互。
AI助手人格化
为 OpenClaw 等 AI 助手赋予独特音色,使其在心理层面更真实,极大增强互动趣味性。
内容创作与本地化
视频翻译技能可快速为外语视频生成母语配音,保留原画面;音色克隆功能则能为虚拟主播、有声内容提供定制化语音解决方案。
情感陪伴与娱乐
通过特色语音技能调节情绪参数,让 AI 在晚安、安慰、庆祝等场景下给出更具温度的回应,成为用户的情感陪伴伙伴。
NoizAI的skills 通过开源、模块化方式,将专业的语音 AI 能力走向大众,让每个开发者都能轻松为AI 助手注入声音与灵魂。
无论是提升产品交互体验,还是探索 AI 人格化的新可能,这个项目都提供了一个极具潜力的起点。
GitHub:https://github.com/NoizAI/skills
03月09日
10.9Kstar!开源AI内容营销神器AiToEarn:让AI替你打工,轻松变现!
AiToEarn是一款基于AI驱动的全平台社交媒体管理与内容分发开源工具,其GitHub仓库描述简洁有力:“Let's use AI to Earn!”。
该项目在GitHub上已获得超过1万人的点赞,成为备受关注的内容营销解决方案。
AiToEarn致力于通过自动化技术重构内容营销的全流程,实现创作・发布・互动・变现的一站式解决方案。无论是独立创作者还是商业品牌,都能借助其AI自动化能力,在全球主流内容平台上更高效地运营内容生态。
功能特点
多平台矩阵发布
AiToEarn支持多达13个国内外主流社交平台的矩阵发布,包括抖音、小红书、微信视频号、快手、B站、微信公众号等国内平台,以及TikTok、YouTube、Facebook、Instagram、Threads、Twitter、Pinterest、LinkedIn等国际平台。
用户只需在后台一次性配置好文案、图片和视频内容,勾选要发布的平台,设置发布时间、话题标签和封面等参数,系统就会自动适配各个平台的格式和规则。
AI内容生成与创作
项目集成了强大的AI内容生成能力,用户可以输入关键词、产品卖点或活动信息,系统会自动生成标题、封面文案、正文内容、短视频脚本以及多平台适配描述。
特别值得关注的是,AiToEarn支持调用主流图像和视频生成模型,包括GPT系列、Flux、Sora、Pika、Runway等,能够为内容配封面、海报、产品展示图。
甚至直接将图文稿自动转换为视频,实现从灵感→文案→视觉→视频的全流程流水线化生产。
内容日历与排期管理
AiToEarn提供了直观的内容日历界面,用户可以清晰看到什么时间、在哪个平台要发布什么内容。支持拖拽调整排期,还能设置循环任务。
热点趋势挖掘与灵感激发
系统内置了"爆款灵感引擎"和趋势雷达功能,能够实时分析全网热点话题,帮助创作者捕捉最新流行趋势。
用户只需告诉系统自己的身份、目标、运营平台、发布频率和预算,AiToEarn就会自动研究账号历史数据,分析受欢迎的内容类型,监控热点和竞品,帮助找到合适的内容方向,并自动生成内容、排期到日历、多平台发布。
智能评论管理与商机挖掘
AiToEarn的评论智能搜索功能能够自动检测评论区中的高转化信号,帮助创作者精准挖掘潜在客户,及时回复并提升转化率。
系统还支持聚合各平台的评论互动,通过AI辅助回复,将互动流量有效转化为商业价值。
全链路数据监控与分析
提供跨平台的数据看板,支持端到端的流量监控,帮助用户对比不同平台的运营效果。发布后系统会持续跟踪数据表现,根据内容表现调整策略和方向,提供个性化的增长建议,包括受众活跃时间、内容方向热点等。
核心亮点
技术架构现代化
AiToEarn采用前后端分离架构,支持Docker容器化部署。核心组件包括MongoDB(数据存储)、Redis(缓存与队列)和Next.js(前端框架)。
项目基于Node.js 20.18.x开发,提供了Web端和基于Electron的桌面客户端,支持Windows和macOS系统。
AI智能体深度集成
AiToEarn引入了"All In Agent"智能代理概念,不仅是一个简单的发布工具,而是通过AI介入到从选题到转化的各个环节。这种智能体能够自动生成内容、发布内容、运营账号,实现真正的内容运营自动化。
全生命周期覆盖
与常见的单一分发工具不同,AiToEarn覆盖了内容生产的完整生命周期,从创意生成、内容创作、多平台分发、用户互动到商业变现,形成了完整的闭环解决方案。
AiToEarn作为一个真正能干活的开源内容运营与变现平台,围绕多平台内容运营这一真实场景,将账号管理、内容排程、AI生成、互动运营、数据分析与变现路径打通,提供了一个可以自部署、可二次开发的完整解决方案。
随着AI技术的持续演进和社交媒体生态的不断变化,AiToEarn正在构建一个更加互联、智能、高效的内容世界,让有价值的内容找到对的受众,让好的创意获得应有的回报。
Github :https://github.com/yikart/AiToEarn
03月06日
打造OpenClaw专属像素办公看板!开源神器 Star-Office-UI:让AI龙虾工作状态一目了然。
Star-Office-UI 是一款由 AI 领域知名创作者 Simon_阿文与海幸 Hyacinth 共同开发的开源项目,旨在为 OpenClaw 等多智能体(Agent)协作平台提供一个生动、直观的像素风办公室可视化看板。
它将原本隐藏在日志与终端中的 AI 工作状态,转化为一个可实时观察的赛博办公室,让用户能够像查看同事一样,直观了解 AI 助手正在做什么、遇到了什么问题,极大地增强了人机协作的沉浸感与掌控感。
该项目在 GitHub 上开源后迅速获得广泛关注,已收获 2.4K 星标,其将技术状态可视化为角色行为的创意设计,有效打破了传统监控界面的枯燥与距离感。
Star-Office-UI 本质上是一个**面向多 Agent 协作的实时像素办公室仪表盘。**你的 AI 助手(以及受邀的其他 Agent)会以像素角色形象出现在办公室场景中,并根据其当前任务状态自动移动到不同功能区域,同时界面会展示其昨日的工作摘要。
主要功能
智能体状态可视化
核心功能是将 AI 的工作状态(如闲置、写作、研究、执行、同步、报错)映射为办公室内不同区域的角色动画与位置变化。
多区域场景互动
工作区:当 Agent 执行任务(如爬取数据、整理文档)时,角色会坐在电脑前呈现工作动画。
休息区:任务队列清空或待机时,角色会移至休息区放松。
Bug 区:遇到网络错误、API 超时或代码异常时,角色会被“发配”至此区域,以抓狂动画直观提示问题。
工作记录回顾:界面左下角提供“昨日小记”功能,从后端存储的日志中提取并脱敏展示 Agent 近期的工作摘要,方便快速回顾。
多智能体协作:支持通过 Join Key 邀请其他 AI Agent 作为“访客”加入同一办公室,共同推送状态,实现多 Agent 工作状态的同屏展示与协作感知。
多平台与国际化:已适配移动端浏览器访问,并支持中文、英文、日文三语界面切换。
高度可定制:提供资产侧边栏,允许用户自定义角色、场景、装饰等像素美术素材;同时支持接入自有图像生成 API,实现办公室背景的无限更换。
核心亮点
状态感知游戏化:将抽象的日志状态码(如 HTTP 500、超时)转化为幽默、直观的角色行为与场景互动,使系统健康度一目了然。
情感化设计:通过“休息区喝咖啡”、“Bug 区抓狂”等拟人化动画,为冷冰冰的 AI 流程注入情感与个性,提升使用体验。
低门槛集成:提供清晰的本地部署步骤与丰富的 RESTful API(如 /set_state设置状态、/agent-push推送访客状态),便于开发者快速集成到现有 AI 工作流中。
开源与可扩展:项目采用 MIT 协议开源,架构设计鼓励社区扩展,如增加更多状态语义、多房间协作地图、任务看板等。
应用场景
个人开发者/极客:为个人使用的 AI 助手(如自动化脚本、个人助理 Agent)配备一个有趣的“工位”,随时可视化其工作进度与异常。
团队协作监控:在多人协作的 AI 项目中,让各成员的 Agent 状态同屏展示,便于协调与同步。
运维与调试:快速定位 AI 流程阻塞点——只需瞥一眼屏幕,若角色不在 Bug 区,即表示系统运行平稳。
演示与展示:为 AI 产品或项目提供一个生动、吸引人的可视化前端,增强演示效果与观众理解。
通过将不可见的工作流程转化为可见、可感的像素世界,Star-Office-UI 不仅是一个工具,更是一种让人类与 AI 协作变得更自然、更有趣的交互范式探索。
GitHub:https://github.com/ringhyacinth/Star-Office-UI
Skill 文档:https://github.com/ringhyacinth/Star-Office-UI/blob/master/SKILL.md
03月05日
你的AI伴侣开源了!24小时在线的赛博老婆,还能陪你打游戏?
GitHub热榜,被一个名为AIRI的开源项目占领了。
它完全开源,自托管部署,让你亲手搭建一个能实时聊天、陪你打游戏、且永不下线的虚拟伴侣。
没错,你的赛博老婆,可以自己养了。
这个项目的灵感来源于海外爆火的AI虚拟主播Neuro-sama。这位能歌善聊、还会打游戏的AI主播,在YouTube拥有近90万粉丝,却有一个让粉丝抓狂的缺点**:不开源**。一旦下播,连接即刻中断,粉丝只能对着黑屏苦等。
而AIRI作为Neuro-sama的开源复刻版,支持用户自行部署、完全掌控,实现7×24小时在线陪伴,能陪你打 Minecraft、Factorio 这样的游戏,能在 Discord、Telegram 上跟你聊天,支持实时语音对话。
项目采用VRM和Live2D两种主流虚拟形象格式,支持自动眨眼、视线跟随以及各种细微动作,让虚拟角色也能栩栩如生。
主要功能:不止于聊天
实时语音交互:支持高质量的实时语音对话,让你的AI伴侣能听会说。
跨平台聊天:无缝接入Discord和Telegram,在你常用的社交平台上随时陪伴。
游戏内陪伴与辅助:
《我的世界》:通过Mineflayer工具,她能像真人玩家一样帮你挖矿、建造、打怪,甚至自主探索世界。
《异星工厂》:结合YOLO视觉识别技术,她可以看懂游戏画面,并通过大模型决策,协助你搭建自动化生产线(目前已达到概念验证演示级别)。
强大的记忆与个性化:内置**RAG(检索增强生成)**机制和嵌入式数据库,能够长期记住你们的聊天历史和你的对话风格,让每一次交流都更贴近你。
全平台覆盖:
网页版:基于WebGPU、WebAudio、WebAssembly,打开浏览器即可使用,手机也能流畅运行,并支持PWA(渐进式Web应用)安装。
桌面版:基于Tauri框架,底层使用Rust编写,可调用NVIDIA CUDA和Apple Metal进行硬件加速。
为什么它能火?
完全开源与自托管:代码完全开放,部署在本地后,只要你的设备不关机,她就在线。数据隐私掌握在自己手中。
广泛的模型兼容性:原生支持超过30种大模型API,包括OpenAI、Claude、Gemini、DeepSeek、通义千问、智谱、Kimi、阶跃星辰等国内外主流模型。甚至还支持Ollama进行本地推理,断网也能正常使用。
低门槛与高性能:网页版无需复杂安装,桌面版则能充分发挥本地硬件性能。
持续进化的生态:作为一个活跃的开源项目,AIRI正在不断扩展其能力边界,从聊天到游戏,未来可期。
应用场景
个人用户:渴望一个随时在线的AI伙伴,用于日常聊天、情感陪伴或纯粹的好奇体验。
游戏玩家:在《我的世界》等沙盒游戏中,需要一个能协同作业的“智能队友”。
开发者与极客:对AI、虚拟人、实时交互系统感兴趣,希望学习或基于此项目进行二次开发。
内容创作者:探索AI与虚拟形象结合的新形式,用于直播、视频内容制作等。
Github:https://github.com/moeru-ai/airi/
03月04日
斩获7.4K Star!开源AI漫剧工具waowaoo:将小说 / 剧本生成完整视频!
waoowaoo是一款近期在GitHub上迅速走红的AI短剧/漫剧一站式生成工具,短短几天内就获得了超过7.4K的Star,展现了其强大的吸引力和社区认可度。
waoowaoo的核心定位是一个基于AI的自动化影视生产工具。它能够将小说或剧本文本,通过一系列AI驱动的流程,**自动转化为包含画面、配音的完整视频作品。**该项目采用Docker Compose一键部署,前端基于Next.js 15和React 19,后端使用MySQL、Prisma ORM、Redis和BullMQ等现代技术栈,是一个设计严谨、可用于生产环境的系统。
功能特点
AI剧本分析:系统能够智能解析上传的小说文本,自动提取关键故事元素,包括角色信息(主角、配角及系)、场景设定(地点、时间)以及剧情结构(开端、发展、高潮、结局),为后续的视觉化制作奠定基础。
角色与场景生成:针对AI生成内容中的人物一致性问题,waoowaoo为每个角色建立形象档案,并运用一致性技术,确保同一角色在不同镜头和场景中保持形象稳定。同时,它能批量生成与剧本匹配的统一风格场景。
分镜视频制作:平台能自动将剧本拆解为多个分镜头,为每个镜头生成对应画面,并智能添加推、拉、摇、移等镜头运动效果,最终合成为连贯的视频片段,仿佛有一位虚拟导演在掌控节奏。
AI配音:内置多角色语音合成功能,可以为不同角色分配不同音色,并能根据台词情绪调整语调,支持多种语言和方言,让生成的作品“声”动起来。
多语言支持:提供中英文双语界面,方便国内外创作者使用,助力内容出海。
核心亮点
全流程自动化:从文本输入到视频输出,整个过程无需人工干预编剧、分镜、拍摄、剪辑、配音等专业环节,实现了真正的一键生成。
强大的一致性控制:有效解决了AI生成视频中角色形象易变脸、场景风格不统一的行业难题。
低门槛与易用性:通过Docker实现快速部署,并提供清晰的Web操作界面。用户只需配置好必要的AI服务API Key,即可开始创作。
solo开发者的卓越成果:该项目由一位开发者独立完成,却在短时间内构建出一个功能完整、技术栈先进的工业级平台,展现了极高的执行力和技术视野。
应用场景
个人创作者与UP主:无需专业团队和设备,即可将原创小说或创意想法快速转化为短视频、漫剧,用于社交媒体发布、故事分享等。
小型内容工作室:大幅降低短剧、漫剧的试错成本和制作周期,实现快速批量生产,探索新的内容商业模式。
教育与知识传播:将教材、历史故事、科普知识等文本内容转化为生动形象的视频,提升学习趣味性和传播效率。
多语言内容创作:利用其多语言支持能力,轻松制作面向不同国家和地区观众的本地化视频内容。
尽管waoowaoo目前仍处于Beta测试阶段,可能存在一些需要完善的细节,但其清晰的愿景、强大的功能集和迅猛的社区增长势头,已经使其成为AI赋能内容创作领域一个非常值得关注的开源项目。
Github :https://github.com/waoowaooAI/waoowaoo
03月03日
开源AI桌面Agent!Accomplish:帮助你自动化处理文件、文档和浏览器任务。
Anthropic推出的Claude Cowork以其强大的桌面操作与深度文件整合能力令人瞩目,但其封闭的生态与高昂的订阅费用也让许多独立开发者、自由职业者和学生望而却步。
开源社区再次展现了其强大的创造力,一个名为Accomplish的开源项目迅速成为Claude Cowork的强力开源替代品,并在GitHub上斩获了超过9.4k的星标。
Accomplish的定位非常明确**:一个本地运行的AI协作工作台**。
它并非简单的模仿,而是在核心理念上进行了升级与拓展。该项目采用MIT开源协议,支持macOS与Windows 11系统,界面设计简约,用户可直接下载安装使用。
其开发初衷源于一个有力的信念:“AI工具不应该是少数人的特权”,旨在让更多人能够用上强大、私密且自由的好工具。
功能特点
Accomplish已经完整覆盖了Claude Cowork的核心使用场景,为用户提供了一个“能干活的AI助手”:
文件管理:能够浏览、修改和组织本地文件系统。
文档创建与编辑:直接由AI生成和维护项目文档。
浏览器自动化:执行网页操作、信息抓取以及自动化任务流程。
核心亮点
如果说功能覆盖是平替,那么以下两点则让Accomplish实现了对闭源产品的升级:
本地优化,隐私至上
Claude Cowork本质仍是云服务,需要登录和订阅。而Accomplish坚持全本地运行。所有文件处理、代码索引和文档生成都在用户本地电脑上完成,数据仅存于本地机器,不上传、不托管、不分析。
除了调用大模型必需的API请求外,用户的整个文件系统对云端完全不可见,极大保障了数据隐私和安全。
模型自由,不被绑定
Claude Cowork只能使用Claude系列模型。Accomplish则提供了“自助餐式”的模型选择,支持几乎所有主流及本地模型,包括:
云端模型:Anthropic Claude、OpenAI GPT、Google Gemini、xAI Grok、DeepSeek、Moonshot AI (Kimi)、智谱AI (GLM)、MiniMax等。
云平台:Amazon Bedrock、Azure Foundry、OpenRouter、LiteLLM。
本地模型:通过Ollama或LM Studio接入,可本地运行Llama、DeepSeek、Kimi等模型。这意味着用户可以根据需求、预算和隐私要求自由切换,甚至利用本地显卡资源运行模型。
应用场景
Accomplish非常适合以下人群:
多模型需求者:需要在不同任务间灵活切换最佳模型的用户。
注重隐私的开发者与团队:处理敏感代码或内部文档时,无需担心数据泄露。
预算有限的独立工作者与学生:无需支付高昂订阅费,利用现有API密钥或免费本地模型即可获得强大助力。
开发者与极客:项目完全开源,开发者可以基于其进行二次开发,集成更定制化、更强大的功能。
GitHub:https://github.com/accomplish-ai/accomplish
03月02日
阿里版“小龙虾”智能体开源!CoPaw:能够全域触达、记忆可控且能力可扩展的AI助手。
阿里云AgentScope团队于2月28日正式开源了AI个人助理框架CoPaw,该项目在GitHub上迅速获得3.5Kstar个星标,被业界视为一款国产版OpenClaw。
CoPaw的设计理念是“懂你所需,伴你左右”,旨在为用户提供一个能够全域触达、记忆可控且能力可扩展的智能助手。
项目介绍
CoPaw是一个支持本地与云端部署的个人智能助理框架。与许多云端AI服务不同,它特别强调用户对数据和隐私的完全掌控,支持在个人电脑上本地运行,对话记录、个人偏好和知识库均可保存在本地设备中。
该项目对Windows系统提供了良好的开箱即用支持,并深度集成了钉钉、飞书等国内主流办公生态。
功能特点
全域触达:一个CoPaw实例可同时接入钉钉、飞书、QQ、Discord、iMessage等多个通讯平台。用户可以在日常使用的任何聊天工具中直接调用助手,实现办公、协作与社交场景的无缝覆盖。
由你掌控:支持完全的本地部署,敏感数据无需上传至云端。内置本地向量搜索功能,能够学习用户习惯,实现越用越懂。这为注重数据隐私和安全性的用户提供了可靠选择。
技能扩展:用户可以通过自定义技能目录轻松扩展助手能力,或从ClawHub技能市场一键导入丰富现成技能。框架内置基于cron的定时任务系统,可自动执行周期性工作,如每日资讯推送。
技术亮点
原生支持本地大模型:完美兼容Ollama、llama.cpp、MLX等本地推理框架,用户可完全免费在本地运行,无需支付云端API费用。
模块化MCP热插拔架构:提示词、工具等均可独立管理、动态加载,扩展性强。
对Windows的友好支持:针对Windows系统进行了专门优化,实现了真正的开箱即用。
内置定时任务系统:基于cron,可轻松设置各种周期性自动化任务。
应用场景
社交媒体自动化:自动抓取并摘要小红书、知乎等平台的热门内容,推送到指定通讯工具。
生产力提升:自动筛选重要邮件并提取关键信息推送;从邮件和日历中整理联系人信息。
创意与内容创作:辅助完成从选题、资料搜集到文稿生成的创作全流程。
研究与学习:作为本地知识库,管理和检索学习资料;自动追踪特定领域的科技动态。
桌面与文件管理:帮助整理本地文件,支持自然语言搜索;对上传的文档进行自动摘要。
GitHub:https://github.com/agentscope-ai/CoPaw
面向具身智能的开源世界模型,Ctrl-World:在具身任务能力上斩获全球第一!
清华陈建宇团队与斯坦福Chelsea Finn团队联合开源了一款面向具身智能的世界模型:Ctrl-World。
该模型在近期发布的WorldArena评测中,其综合表现指标EWMScore位居前列,尤其在衡量模型真能干活的具身任务能力上登顶全球榜首,超越了谷歌、英伟达、阿里等科技巨头的同类模型。
性能表现
在由全球8所顶尖学术机构共同构建的硬核评测体系WorldArena中,Ctrl-World在多个核心维度展现了领先优势:
具身任务能力全球第一:在最具实用价值的“策略评估一致性”任务中,Ctrl-World与真实物理模拟器的评估结果相关性(Pearson r)高达0.986,近乎完美地复现了真实物理环境的动态。
四大关键维度登顶:
主体一致性(0.8411,全球第一):确保生成的视频中物体身份、外观在时序上高度稳定,为机器人作业提供可靠的“数字孪生”对象。
轨迹精度(0.4766,全球第一):生成的机械臂运动轨迹与真实物理轨迹高度吻合,为精准动作规划奠定基础。
深度准确性(0.9300,全球第一梯队):对三维空间结构有精准把握,直接关系到抓取、堆叠等精密操作的成功率。
视频生成质量(综合得分59.70,全球第二):在视觉质量、运动质量等方面表现优异,仅次于阿里Wan 2.6(61.86),并超越了谷歌Veo 3.1(58.87)。
功能特点与技术优势
Ctrl-World的卓越性能源于其独特的技术设计理念,旨在从“生成好看”迈向“真正可用”:
动作条件化(Action-Conditioned)架构:与许多基于文本描述生成视频的模型不同,Ctrl-World采用显式动作建模,直接将机器人的底层动作参数(如关节角度、末端位姿)作为生成条件。这使其能够精确模拟接触力、惯性等物理交互,从根本上避免了物体穿透机械臂等物理不合理现象。
物理引擎约束嵌入
在训练过程中,模型嵌入了物理引擎的监督信号,将牛顿力学定律内化为生成过程的硬约束。这使得其生成的内容不仅视觉连贯,更严格符合物理规律,从而实现了极高的策略评估可靠性。
多视图联合与空间认知
通过融合多视图数据进行训练,模型隐式地建模了深度图与点云结构,从而获得了出色的三维空间感知能力,这在需要精确深度估计的任务中至关重要。
应用场景
Ctrl-World的高保真仿真能力为其在机器人研发与应用的多个环节带来了直接价值:
低成本策略开发与测试:凭借近似的策略评估一致性,可替代或部分替代昂贵的实体机器人或高保真物理仿真器,用于算法训练、验证和迭代,大幅降低研发成本与周期。
合成高质量训练数据:能够生成物理合理、可用于训练的视频-动作序列数据,缓解真实机器人数据采集难、成本高的问题。
可信赖的动作规划:其高轨迹精度和深度准确性,能为机器人完成“调整瓶子”、“堆叠积木”等需要精密操作的任务,提供可靠的动作序列参考。
GitHub:https://github.com/tsinghua-fib-lab/WorldArena
02月28日
国产视频模型黑马强势突围,SkyReels V4:全球首个全功能一体化视频生成大模型!
近日,Skywork AI正式发布了多模态视频基础模型SkyReels V4。
SkyReels V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。在权威第三方机构Artificial Analysis更新的排行榜中,SkyReels V4在Current models榜单中排名全球第二,超越了Google Veo 3.1、OpenAI Sora 2、Wan 2.6等主流模型;
同时,在 All models (包括所有历史模型在内)排行榜中,SkyReels V4模型位居第四。
基于2000+精选提示词的SkyReels-VABench人体评测显示,该模型在指令遵循、运动质量、多镜头叙事一致性三个维度均获得第一。
功能特点
多模态精准控制
支持文本、图像、视频片段、掩码、音频参考等多种输入组合,可实现基于参考图像和音频的主体形象与音色保持、基于参考图片和参考运动的主体替换/动作迁移等复杂创作需求。
输入参考图:
专业级视频修复
具备区域智能修复能力,可精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景。同时支持基于参考图像的风格一致性修复,确保编辑前后视觉统一。
输入参考图和参考视频:
生成视频:
全维度视频编辑
支持局部编辑(添加/删除物体、修改局部纹理与属性)、元素智能移除(自动识别并去除水印、字幕、Logo)、全局编辑(风格迁移、场景属性调整)以及基于参考的编辑(动作迁移、主体插入)。
高品质音频生成
内置多语言语音合成、音效生成、背景音乐适配能力,在中文语音合成上表现尤为突出,支持情感语音、歌词同步演唱等高级功能,音频质量在信号清晰度、音色真实度、动态范围等指标上达到行业领先水平。
核心技术创新
双流 MMDiT 架构:音视频深度协同生成采用对称双流架构,视频与音频分支共享文本编码器,通过跨注意力实现深度视听同步。运用 RoPE 频率缩放与联合损失函数,解决音视频时序错位、唇形与音效对齐难题。
统一拼接框架:一站式全场景视频操作创新通道 + 时序双维拼接范式,将文生视频、图生视频、视频编辑等任务统一为掩码修复模式,无需切换工具,实现端到端全场景创作。
高效生成策略:质量与速度兼顾采用 “低分辨率全序列 + 高分辨率关键帧” 生成策略,搭配视频稀疏注意力机制,计算成本降低约 3 倍,可高效生成 1080p/32FPS/15 秒高清视频。
应用场景
SkyReels V4的一体化创作能力已在多个行业场景落地应用:
广告营销:快速生成产品宣传视频,支持多风格切换与批量编辑
内容创作:短视频脚本可视化、Vlog智能剪辑与修复、多语言配音同步
影视制作:前期概念可视化、镜头扩展、后期修复与局部编辑
教育培训:教学视频生成、课件可视化、多语言字幕自动同步
SkyReels V4的发布重新定义了AI时代的视频创作流程,让专业级视频创作变得更高效、更便捷、更具创意。
arXiv技术论文:https://arxiv.org/pdf/2602.21818
huggingface:https://huggingface.co/papers/2602.21818
02月27日
AI 短剧开源工具!魔因漫创:覆盖从剧本构思到成片输出的完整创作链路。
最近AI视频生成赛道竞争愈发激烈,今天小编就给大家推荐一款开源的AI短剧生成项目:魔因漫创!
作为面向AI影视创作者的生产级工具,在GitHub已斩获近1.4KStar,并且它还支持 Seedance 2.0生成视频。
其核心设计理念是通过一体化的工作流,让创作者告别在不同工具间手动缝合素材的低效环节,每一步的产出都能自动流转至下一环节,极大提升了创作效率。
主要功能
魔因漫创的核心功能覆盖了影视创作的五个关键阶段:
剧本解析引擎
用户只需粘贴剧本文字,AI引擎即可智能拆解剧本,将其自动解析为场景、分镜和对白等结构化元素,并精准识别其中的角色、场景、情绪及镜头语言描述,为后续视觉化创作奠定坚实基础。
角色一致性系统
针对 AI 视频中角色形象易“飘移”的痛点,该系统通过建立包含多维度特征的 “角色圣经 (Character Bible)”,并支持绑定角色参考图,利用 6层身份锚点 技术来锁定角色身份,确保同一角色在不同镜头和场景中保持高度一致的外观。
场景生成
根据剧本中的场景描述,该功能能够快速生成符合要求的场景概念图。其支持多视角联合生成,可一次性产出同一场景的不同视角图像,并具备将自然语言描述自动转换为高质量视觉提示词的能力。
专业分镜系统
提供电影工业级的分镜设计功能,允许创作者精细控制景别、机位、运动方式等专业摄影参数。系统支持一键切换多种视觉风格(如 2D、3D、写实),并能自动排版与导出标准格式的分镜表。
S级板块 (Seedance 2.0)
作为视频生成的核心,该板块深度集成了 Seedance 2.0 的多模态能力。它能将前序环节产出的分镜、角色、场景等素材,通过 多镜头合并叙事、智能提示词构建(融合动作、镜头语言、唇形同步)、多模态引用以及首帧图网格拼接 等技术,一键生成为情节连贯的叙事视频,并自动校验参数以确保任务成功率。
核心亮点
全流程闭环自动化:独创的“剧本→角色→场景→导演→S级”五板块工作流,实现了从文本到视频的端到端自动化生产,显著降低了操作复杂度。
专业级角色一致性解决方案**:角色圣经与6层身份锚点**的组合,为长篇幅、多镜头的 AI 影视创作提供了可靠的“演员”稳定性保障。
工业级分镜控制:将专业电影分镜的创作逻辑引入 AI 视频生成,赋予创作者更精准的视觉叙事控制权。
深度集成 Seedance 2.0**:S级板块**充分发挥了 Seedance 2.0 的多模态创作潜力,特别是在处理复杂叙事、多素材引用和保障生成成功率方面表现突出。
灵活的多模型调度:应用内置多 AI 服务商调度机制,支持接入主流图像/视频生成 API,并通过 API Key 轮询、任务队列管理与自动重试功能,保障了创作流程的稳定与高效
应用场景
魔因漫创以其批量化、自动化生产的特性,尤其适用于需要快速产出和迭代的影视内容创作领域,包括但不限于:
短视频/短剧:快速将剧本概念转化为视觉成片,高效测试剧情和观众反馈。
动漫番剧/动态漫画:自动化生成角色一致、分镜专业的动画片段,提升系列内容产出效率。
预告片/概念片:迅速将创意视觉化,用于项目提案、宣传或众筹演示。
故事板与视觉预演:为传统影视、游戏项目快速制作低成本、高质量的分镜预览和视觉预演
GitHub:https://github.com/MemeCalculate/moyin-creator
02月26日
将图片、PDF转为可编辑格式!开源Edit-Banana:将静态图表重建为可编辑的矢量文件!
别再重画流程图了,今天小编给大家推荐一款开源工具:Edit-Banana!
它是一款致力于提升技术文档与论文撰写效率的神器,可以把静态图表(图片、PDF)还原成可编辑的 DrawIO(XML)或 PPTX 文件。
精准击中了内容创作者的一个常见痛点:当图表仅存为 PNG、PDF 等静态格式,缺乏源文件时,任何细微的修改都意味着需要耗费大量时间从头重绘。
该项目旨在通过先进的技术,将不可编辑的静态图表,智能重建为完全可编辑的矢量文件,从而告别重复性绘图劳动。
主要功能
格式转换:核心功能是将输入的静态图片(如 PNG)或 PDF 文件,转换为可编辑的 Drawio (XML) 或 PPTX 格式文件。
元素级编辑:生成的文件中,每一个元素(文本、图形、连线)都是独立且可编辑的对象,用户可以直接修改文字内容、拖拽图形位置、调整连线样式或进行重新排版。
结构级重建:不同于简单的截图拼接或文字提取,Edit-Banana 会对图像进行深度解析,识别并分割图中的各类元素,包括文本块、图形框、连接线、箭头关系等,并理解其语义与层级结构。
学术公式支持:针对学术场景的特殊需求,工具能够识别图表中的数学公式,并输出为 LaTeX 格式,极大方便了研究者在论文中直接使用。
核心亮点
真正的可编辑性:输出不是一张嵌入的图片,而是一个由独立矢量元素构成的可维护画布,实现了“所见即所得”的编辑体验。
技术架构先进:项目由 SAM3(Segment Anything Model 3) 与多模态大语言模型(LLM) 共同驱动,确保了元素分割的准确性与语义理解的深度。
效果还原度高:从提供的对比示例看,无论是复杂的技术多级架构图、逻辑示意图,还是包含公式的科学图表,其重建结果在视觉保真度和结构还原度上都表现优异。
灵活的使用方式:提供在线体验(开箱即用)和本地部署两种模式,满足临时使用与集成开发的不同需求。本地部署还提供了网页界面和命令行界面(CLI),适应不同用户习惯。
应用场景
技术文档编写:快速修改已有的系统架构图、流程图、部署图。
学术论文撰写:重用或调整文献中的示意图、实验框图,并准确提取公式为LaTeX。
方案与报告制作:将客户或合作方提供的不可编辑图表素材,轻松转换为可直接在 PPT 中修改的幻灯片。
知识库维护:对历史遗留的图片格式资料进行数字化与可编辑化改造,便于持续更新。
Edit-Banana 通过将静态图表解构并重组为可编辑的矢量元素,有效地将用户从繁琐、低效的重复绘图工作中解放出来。
它抓住了技术文档与学术创作中的真实需求,以其切实可用的转换效果,成为了提升内容创作效率的一款实用工具。
GitHub:https://github.com/BIT-DataLab/Edit-Banana
02月25日
开源AI新闻摘要工具!ClawFeed:帮你从信息的海洋中精准抓取真正重要的内容。
在信息爆炸的时代,我们深陷于 Twitter、RSS、HackerNews、Reddit、GitHub 等众多平台的信息洪流中。
每天花费数小时刷信息,却往往收获寥寥,甚至因算法推荐而陷入信息茧房。
所以今天小编就给大家推荐一款开源的AI新闻摘要工具:ClawFeed!
ClawFeed 的核心理念是 “Stop scrolling. Start knowing.”(停止刷,开始了解)。它如同其名“爪子”(Claw)一般,**能精准地从纷繁复杂的信息海洋中,抓取、筛选并提炼出真正重要、有价值的内容,为用户提供结构化的摘要报告,**帮助用户从被动的信息接收者转变为主动的知识获取者。
功能特点
多频率摘要:提供4小时、每日、每周、每月 四种摘要频率,适应从需要实时追踪的投资者、媒体人,到只需定期回顾的忙碌人士等不同需求。
广泛的多源聚合:支持整合包括 Twitter/X(用户及列表)、RSS/Atom、HackerNews、Reddit 子版块、GitHub Trending、直接网站抓取 以及自定义 API 在内的几乎所有主流信息源。
智能筛选与优化:提供可配置的内容过滤规则,让用户自定义兴趣范围。系统还能根据订阅源的质量分析,推荐应关注或取消关注的信息源,持续优化信息流质量。
开放与集成:
多种部署方式:可作为独立应用部署,也可作为 OpenClaw 或 Zylos AI 代理系统的技能无缝集成。
完整的 REST API:提供摘要、认证、书签、信息源及 Source Packs 管理等全套接口,支持深度自定义和二次开发。
多格式输出:用户的摘要可以 RSS、JSON Feed 或 HTML 形式公开分享,便于订阅和传播。
用户友好体验:支持中英文界面、深色/浅色模式切换,使用 SQLite 数据库实现快速、零配置的本地存储,并可通过 Google OAuth 实现多用户认证与个人数据管理。
核心亮点
Source Packs(信息源包):用户可以将自己精心筛选的一组高质量信息源打包分享。社区其他成员可一键安装整个包,快速构建垂直领域的优质信息网络,极大降低了信息筛选的启动成本。
Mark & Deep Dive(标记与深度挖掘):阅读摘要时,可对感兴趣的内容进行标记,随后可让AI对其进行深度分析,挖掘背景信息、分析趋势或关联相关内容,将浅层阅读转化为深度学习。
可定制的摘要逻辑:用户可以通过编辑 templates/目录下的提示词模板(如 curation-rules.md, digest-prompt.md),来自定义内容过滤规则和 AI 生成摘要的格式与风格,使摘要产出更符合个人需求。
应用场景
行业从业者与投资者:利用4小时摘要 实时捕捉市场动态、竞品信息与技术突破,把握稍纵即逝的机遇。
研究者与终身学习者:通过每日/每周摘要 高效跟踪多个领域的前沿论文、博客讨论和开源项目进展,打破知识壁垒。
内容创作者与策展人:使用Source Packs功能建立并分享自己专业领域的信息源合集,打造个人品牌影响力;利用摘要作为内容创作的灵感和素材库。
追求效率的普通用户:告别无目的的信息流滚动,每天仅用 5-10分钟 阅读一份个性化的每日摘要,即可系统化了解昨日要闻,显著提升信息获取效率,节省宝贵时间。
ClawFeed 不仅仅是一个工具,更是一种应对信息过载的全新方案。它通过 AI 技术充当用户的信息防火墙和知识萃取器,将分散、冗余的原始信息转化为集中、精炼的结构化知识。
GitHub仓库:https://github.com/kevinho/clawfeed
开源AI论文配图工具 AutoFigure-Edit:一键读懂万字文献,自动生成高质量学术插图!
在科研写作中,制作一张逻辑清晰、美观专业的插图,往往比撰写文字更加耗费心神。
传统AI绘图工具在生成学术插图时,常常面临逻辑混乱或美感不足的两难困境,且生成的静态图片难以二次编辑。
针对这一痛点,西湖大学研究团队开源了AutoFigure-Edit:一个能够将万字学术材料一键转化为可编辑矢量图(SVG) 的智能绘图框架。
AutoFigure-Edit是西湖大学张岳实验室(WestlakeNLP)团队研发的下一代智能绘图框架。
它基于其前身AutoFigure的核心能力,实现了关键突破:从生成不可编辑的图片,跨越到生成细节可自由编辑的矢量图(SVG)。该工作已入选顶级学术会议ICLR 2026,其代码、数据集、在线网站均已全面开源,供全球研究者免费使用。
核心功能
高质量插图生成
用户只需输入长篇的论文、技术博客、教科书等文本材料,AutoFigure-Edit便能自动理解内容,提取关键实体与逻辑关系,最终输出一张可直接用于PPT或论文的高质量的SVG格式学术插图。
推理式渲染(Reasoned Rendering)
团队创新性地提出了推理式渲染范式,将绘图过程拆解为逻辑构建与视觉美化两个独立阶段,模拟了专业设计师的工作流程:
第一步:构建逻辑骨架。系统首先深入解析输入文本,生成一个结构正确但外观粗糙的布局代码(SVG/HTML),奠定插图的逻辑基础。
第二步:智能体闭环迭代优化。通过“AI设计师”与“AI评论家”两个智能体的协作,对布局进行多轮批评与修改,解决箭头重叠、布局失衡等问题,直至达到高质量标准。
第三步:美学渲染与文字修正。将优化后的布局渲染为精美图片,并采用独特的“擦除-修正”策略:用OCR识别并擦除AI生图中常见的模糊、错误字符,再重新覆盖上清晰的矢量文本,从根本上保证插图中文字的准确性。
实现真正的可编辑
这是AutoFigure-Edit相较于基础版的最大亮点。它引入了SAM3自动抠图技术与RMBG-2.0背景去除技术,能够智能识别并提取生成图中的图标元素,将其转换为干净的矢量组件,并重新组合到SVG模板中。最终生成的SVG文件可在内置的在线画布中直接进行拖拽、改字、换色等操作,赋予了研究者完全的后期编辑自由。
风格迁移能力
上传一张参考图就能一键复刻画风,完美统一论文配图风格,对科研人来说简直是刚需神器。
性能表现
为验证 AutoFigure 的效果,团队构建了全球首个大规模科学插图基准 ——FigureBench。该基准规模领先,涵盖3300 组高质量文本‑图片对,覆盖论文、综述、技术博客、教科书四类典型科学文本。
在逻辑清晰度和准确度上,AutoFigure的优势极大,在教科书类任务中胜率甚至高达97.5%。
人类专家盲测结果显示:
由10位论文一作参与评审,66.7% 的专家认为,AutoFigure 生成的插图已达到Camera‑ready 出版级标准。
AutoFigure-Edit标志着AI辅助科研绘图迈入了**可编辑、高质量的新阶段,**它实现了从文本到可视化全流程自动化研究的关键一步。
GitHub:https://github.com/ResearAI/AutoFigure-Edit
论文地址:https://arxiv.org/abs/2602.03828v1
02月14日
Soul开源实时数字人模型SoulX-FlashHead,高画质生成,核心指标达 SOTA!
2月13日,社交平台 Soul 官方宣布开源自研实时数字人生成模型 SoulX-FlashHead!
SoulX-FlashHead是一款参数量仅为1.3B 的轻量化实时数字人生成模型,聚焦于 Talking Heads(说话人脸)生成场景,核心实现音频驱动的实时流式数字人面部生成;
与传统数字人模型动辄需要专业算力集群不同,该模型专为消费级显卡优化,可在 RTX 4090、5090 等普通显卡上高效运行。
该模型凭借在消费级显卡上的超高推理效率和高质量生成效果,打破了实时数字人领域 “高画质与高速度不可兼得” 的行业困境,也让轻量化模型实现商用级数字人生成成为可能。
功能特点
双版本适配,灵活部署:
Lite版本(高速率):侧重于极致效率。在单张NVIDIA RTX 4090显卡上,其推理帧率可高达96 FPS,仅需6.4GB显存,并能最高支持3路并发生成。这使其非常适合对实时性要求极高的多路直播或交互场景。
Pro版本(高画质):追求顶级视觉表现。在单张NVIDIA RTX 5090显卡上,推理帧率为16.8 FPS;若使用双卡,则可实现25 FPS+ 的流畅体验。其在关键的视觉质量指标FID和唇形同步指标Lip-sync的评测中,均达到了业界领先的SOTA水平,有效解决了行业内“小模型画质不佳”的痛点。
技术创新,稳定可控:
模型参数量为1.3B,在训练过程中创新性地采用了双向蒸馏机制。该技术利用真实数据作为“先知”锚点,对模型生成过程进行强约束,确保了数字人在表情、口型等特征上能够始终保持高度稳定和一致,如同为模型装上了校准器。
数据精炼,品质基石:
为了训练出高品质模型,团队从超过10000小时的原始素材中,通过严格的切分、DWpose关键点提取、唇形一致分数过滤等多个处理步骤,最终精炼出782小时的高质量音画同步数据,为模型提供了纯净、可靠的“养料”。
应用场景
凭借其高性能与高画质的特性,SoulX-FlashHead模型可广泛应用于多个前沿领域:
7x24小时矩阵直播:可驱动大量虚拟主播进行不间断的直播,降低人力与运营成本。
游戏NPC引擎:为游戏中的非玩家角色赋予高度拟人化、能实时智能交互的能力,提升游戏沉浸感。
AI一对一外教/助手:创造出身临其境的个性化互动教学或服务体验。
此次 SoulX-FlashHead 的开源,不仅展现了国内团队在实时数字人领域的技术实力,目前该模型的论文、代码、权重及配套数据集已全部对外开源,让中小开发者和企业能够以极低的成本接入高质量实时数字人技术,推动实时数字人从高端专业领域走向普惠化商用。
论文地址:https://www.arxiv.org/pdf/2602.07449
项目主页:https://soul-ailab.github.io/soulx-flashhead/
代码仓库:https://github.com/Soul-AILab/SoulX-FlashHead
02月13日
Soul App 开源AI歌声合成模型!SoulX-Singer:覆盖多语言、多音色及多种演唱风格!
在语音合成(TTS)与音乐生成模型迅猛发展的浪潮中,一个真正具备工业级可用性的开源歌声合成(SVS)模型正式登场。
由Soul App联合 AIC、天津大学及西北工业大学共同开源的 SoulX-Singer,以其4.2万小时高质量数据的雄厚底力与创新的技术架构,将开源AI歌声合成从实验室演示迈向了稳定、可控、真实可用的新阶段。
咱们先来看一段官方演示。
功能特点
SoulX-Singer 的核心使命是解决零样本歌声合成的实际应用难题。与众多实验性模型不同,它的核心定位就是面向工业需求,具备以下鲜明特性:
海量数据基石:使用超过 42,000 小时的高质量歌声数据进行训练,覆盖普通话、英语、粤语,包含上百种音色与数十种演唱风格。这为其提供了无与伦比的泛化能力,即使面对从未接触过的音色或复杂乐曲,也能生成自然、稳定的演唱。
双重控制范式:提供两种精准控制方式,满足从专业音乐人到普通用户的不同需求。
乐谱(MIDI)驱动:可直接导入 MIDI 文件与歌词,模型将严格按照设定的音高、时长和节奏进行演唱,为音乐创作提供精准工具。
旋律(F0)驱动:支持“哼唱转歌唱”或“风格迁移”。用户提供一段参考音频(如哼唱或原唱),模型能提取其旋律技巧,并用目标音色重新演绎,极大简化了 AI 翻唱与内容创作的流程。
强大的多语言与跨语言能力:除支持普、英、粤三语演唱外,更可实现跨语言风格迁移。例如,可用一段中文歌曲素材,驱动生成标准英语发音的演唱,打破了语言与音色间的壁垒。
技术原理
Flow Matching 生成框架:采用流匹配替代传统扩散模型,通过直接学习概率分布的传输路径,实现更高效稳定的音频生成。
Audio Infilling 补全机制:将歌声合成建模为条件化波形补全任务,利用上下文片段预测目标音频,天然保证长时连贯性与音色一致性。
显式多模态对齐:通过长度调节器强制对齐歌词文本、MIDI 音符与声学特征的时序关系,消除隐式对齐带来的节奏偏差与发音模糊。
渐进式两阶段训练:用短片段训练建立乐谱理解能力,长片段训练捕获长程气息控制,最终兼顾局部精确度与全局自然度。
性能表现
在评测方面,SoulX-Singer 在 GMO-SVS 和 SoulX-Singer-Eval 两个数据集上,对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。
其中,GMO-SVS 综合了 GTSinger、M4Singer 和 Opencpop 等主流开源 SVS 数据集;而 SoulX-Singer-Eval 则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保测试歌手未出现在训练集中。
实验结果表明,SoulX-Singer 在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。
SoulX-Singer 的发布,以其庞大的数据基础、创新的技术架构、双重控制范式及出色的生成效果,很有可能成为开源歌声合成领域进入工业级应用阶段的一个里程碑。
对于从事音乐创作、虚拟歌手开发或AI内容生成的研究者与开发者而言,该项目无疑是一个值得深入关注和探索的宝贵资源。
GitHub: https://github.com/Soul-AILab/SoulX-Singer
项目地址:https://soul-ailab.github.io/soulx-singer/
02月09日
谷歌北大联合开源PaperBanana:AI自动化生成精准美观的学术论文配图!
在学术研究过程中,绘制高质量的论文插图常被视为一项繁琐且耗时的任务。
今天就给大家推荐一款专注于为科学家自动生成学术插图的智能工具**:PaperBanan!**
它是由谷歌与北京大学的研究团队强强联手开发的,最重要的是开源,目前已斩获2.7Kstar。
核心功能与优势
PaperBanana具备多项实用特性,能够显著提升学术插图生成的效率与质量:
多模式生成:支持直接生成图像或通过代码绘制图表,兼顾视觉效果与数值精准性
智能优化:可对现有人工绘制的图表进行风格增强,提升专业感和美观度
全流程自动化:从理解论文内容到生成最终插图,实现端到端的自动化处理
研究团队通过系统评估表明,PaperBanana在美观性、简洁性与逻辑清晰度方面均优于传统生成方法。特别是在需要精确数值的统计图表任务中,其代码生成模式可实现100%的数值准确性。
核心创新
PaperBanana的创新之处在于采用了多智能体协作架构,模拟人类绘制学术插图的完整流程:
检索智能体:从NeurIPS 2025顶会论文库中,精准匹配与目标插图领域、结构相似的参考案例,为绘图提供学术规范参考;
规划智能体:将论文中的文字描述,转化为包含模块、逻辑、数据流的详细绘图说明书;
风格智能体:总结顶会学术审美规范,为说明书添加配色、布局、图标等标准,甚至能适配不同领域的风格差异;
可视化智能体:根据说明书生成图像或代码
批判智能体:对初稿进行事实校验和美观度评估,提出修改意见并循环迭代 3 轮,最终输出符合出版要求的成品插图
性能表现
PaperBanana 的性能全面碾压传统单模型生图方法。
当搭配 Nano-Banana-Pro 时,其综合得分达 60.2,相对基线模型提升 17.0%;其中简洁性得分 80.7,提升幅度高达 37.2%,生成的图表逻辑更清晰、重点更突出,可读性和美观性也分别实现 12.9% 和 6.6% 的显著提升。
在匿名人类盲测中,72.7% 的研究员认为其生成效果优于其他基线模型;
尤其在统计图表任务中,其代码生成模式的数值忠实性与人类水平持平,简洁性和美观性甚至略胜一筹。
消融实验进一步证明,检索参考、风格优化、批判迭代三个核心环节缺一不可,共同支撑了 “准确又好看” 的生成效果。
结语
PaperBanana为自动化生成出版级学术插图提供了可行方案,有望将研究人员从繁琐的绘图工作中解放出来。目前该工具已开源,并在GitHub上获得广泛关注。
然而,研究团队也指出其当前局限性,如图像编辑灵活性不足,某些细节处理仍不如人工精细。建议用户可先将其用于优化现有图表,再逐步应用于全新插图的生成。
未来,随着模型的持续优化,其应用场景还可扩展至专利技术图、UI 原型图、科普可视化内容等领域,为更多领域的内容创作赋能。
项目主页:https://dwzhu-pku.github.io/PaperBanana/
论文:https://arxiv.org/abs/2601.23265
GitHub地址:https://github.com/dwzhu-pku/PaperBanana
02月03日
开源AI图像模型!Z-Image-Turbo-Rebuild 3.0:更好的色彩光影表现和更细腻的纹理细节呈现!
Z-Image-Turbo-Rebuild 3.0版本是以阿里通义Z-Image-Turbo为基础,通过二次开发与深度优化的开源模型,可以带来更好的色彩光影表现和更细腻的纹理细节呈现!
作为Z-Image系列的蒸馏优化衍生项目,Z-Image-Turbo-Rebuild延续了6B参数规模的轻量化设计,无需顶配硬件支撑,却能实现超越同类模型的推理效率与画质表现。
其核心价值在于让消费级显卡用户、中文创作者、批量生产需求者,都能获得低成本、高回报的AI图像生成能力,广泛适配电商设计、影视预演、教育科普、创意绘画等多个领域。
主要功能
快速生成,批量出图无压力
这是项目的核心基础功能,延续并优化了原版Z-Image-Turbo的推理效率,通过精简推理流程与优化采样策略,实现8步函数评估(NFEs)完成高质量出图”的突破。
在H800显卡上实测可达到亚秒级响应(平均0.72秒),在RTX 4090等消费级显卡上稳定在1.3秒内,对比主流SDXL模型20-30步采样、数秒出图的效率,提速幅度超3倍,甚至优于LCM-SDXL等加速模型。
更丰富的艺术风格支持
相比原版Z-Image-Turbo,新版本支持更多艺术风格,特别是在二次元动漫表现上有了显著提升。无论是写实摄影、水墨国风还是卡通动漫,模型都能准确捕捉风格精髓,生成高质量图像。
精准的色彩与光影控制
新版本在色彩还原和光影表现上更为出色。通过改进的采样器调度器配置(推荐CFG:1,10-15步,euler + simple采样器),模型能够生成更加自然的光照效果和更丰富的色彩层次。
增强的细节表现力
Z-Image-Turbo-Rebuild在纹理细节呈现上更为细腻。无论是人物皮肤的质感、衣物的纹理,还是自然景观的细节,都能得到逼真还原,大大提升了生成图像的真实感。
双语文本渲染能力
继承原版Z-Image-Turbo的优势,新版本继续保持卓越的中英文双语文本渲染能力。无论是中文书法字体还是英文字母,都能在图像中清晰、准确地呈现,为海报设计和创意文字艺术提供强大支持
应用场景
Z-Image-Turbo-Rebuild V3.0在多个应用场景中展现出强大潜力:
创意设计与内容创作
对于平面设计师和内容创作者,新版本能够快速生成高质量的宣传海报、社交媒体配图和创意视觉内容。其出色的文字渲染能力特别适合制作包含标题和标语的设计作品。
艺术创作与概念探索
艺术家和插画师可以利用该模型进行风格探索和概念可视化。支持多种艺术风格的特点使其成为创意发散的得力助手,帮助创作者突破想象力的限制。
电商与产品展示
电商从业者可以快速生成产品场景图,无需专业摄影即可展示产品在不同环境下的效果。无论是服装、家居还是电子产品,都能找到合适的展示场景。
教育与演示材料
教师和演讲者可以借助该模型快速生成教学插图和演示素材,将抽象概念转化为直观的图像表现,提升信息传递效率。
开源地址:https://huggingface.co/Nurburgring/BEYOND\_REALITY\_Z\_IMAGE/
01月30日
比肩Genie 3!蚂蚁开源世界模型LingBot-World,1 张图生成 10 分钟可交互视频!
最近AI 圈也太卷了吧,模型一个接一个地开源!
就在昨天凌晨,蚂蚁灵波科技抛出重磅炸弹:开源通用世界模型 LingBot-World。
这是一个支持长达10分钟连续生成、可实时交互的通用世界模型。
不仅补全了蚂蚁具身智能的核心拼图,还凭借 "长时生成 + 实时交互 + 物理保真" 的三重突破,使其视觉效果堪比谷歌推出的Genie 3。
如此亮眼的实力输出,也难怪它在国内外互联网圈掀起阵阵讨论热潮:
而最戳网友的亮点在于,蚂蚁 LingBot-World 坚持完全开源!
接下来我们就一起看看LingBot-World 都具备哪些核心能力!
核心亮点
长视频生成
比起普通 AI 视频生成的昙花一现,LingBot-World 堪称 持久型选手。
它实现了近10分钟的连续稳定生成,哪怕镜头移60秒再返回,画面中的猫咪、车辆、房屋等主体依然保持结构完整、细节无损,不会出现变形、塌陷或消失的尴尬情况。
这种惊人的一致性源自模型强大的长时记忆 能力。
在科幻场景中,远景与近景的光圈始终保持高度统一;猫咪离开画面后,模型还能推断其屏外行为,当镜头转回时,猫咪的动作衔接自然流畅,仿佛一切都在真实演进。
更难得的是,它严格遵循物理规律,猫咪撞到沙发会自然停顿,绝不会出现穿模现象,真实感拉满。
实时交互,堪比3A游戏体验
LingBot-World的魅力远不止能看,更在于能玩。
它支持16 FPS的生成吞吐,端到端交互延迟控制在1秒以内,用户用键盘 WASD 和鼠标就能实时操控视角推进、旋转,体验堪比3A大作。
更酷炫的是自然语言交互功能:给模型一张初始图,输入 "前面放个烟花"(0-10s)、"变成冰雪世界"(10-20s)。
画面就会精准响应指令,在保持场景几何关系稳定的前提下完成动态变化。无论是调整天气、切换风格,还是触发特定事件,都能实现 "言出法随" 的即时反馈,让用户真正成为虚拟世界的掌控者。
性能层面:全面对标顶尖水平
在关键指标上,LingBot-World 毫不逊色于谷歌Genie 3:720p 高清分辨率、长时生成能力、高动态表现,更关键的是,它完全开源!
这意味着科研机构、开发者无需受制于闭源壁垒,可自由使用代码和模型进行二次开发,难怪网友直呼 "对开源社区是巨大胜利"。
单独看LingBot-World,它是一个强大的虚拟环境生成工具;
但结合此前开源的LingBot-Depth(机器人的“眼睛”)和LingBot-VLA(机器人的“大脑”),三者形成完整闭环!
VLA 可在 World 的虚拟环境中千万次推演学习物理规律,World 生成的高质量视频能转化为 3D 点云优化 Depth 的感知精度,而 VLA 在真实世界的反馈又能反哺 World 提升模拟逼真度。
这套完整的基础设施开源后,将为机器人学习、游戏开发、AIGC 内容创作等领域带来爆发式创新!
项目主页:https://technology.robbyant.com/lingbot-world
GitHub :https://github.com/Robbyant/lingbot-world-Tech
01月29日
国产AI 神仙打架!DeepSeek与Kimi 同步开源大模型,多模态技术卷出新高度!
近日,国产AI领域迎来神仙打架的热闹场面!
两大头部DeepSeek与月之暗面(Kimi)几乎同时发布并开源了自家模型:DeepSeek-OCR-2 与 Kimi K2.5 。
这两款模型在技术路线上各有侧重,却共同推动了国产 AI 在多模态理解与复杂任务处理领域的突破,为行业开源生态注入强劲动力。
DeepSeek-OCR-2:让 AI 像人一样读文档
DeepSeek团队推出的 DeepSeek-OCR-2 以 视觉因果流(Visual Causal Flow)为核心创新,这一创新使得AI能够像人类一样阅读文档,而不是简单地扫描图像。
技术创新
DeepSeek-OCR-2 最大胆的尝试,是将视觉编码器从 CLIP 的 ViT 300M 替换为擅长因果推理的 Qwen2-0.5B(500M 参数)语言模型。这一改动并非简单的参数替换,而是重构了视觉信息的处理逻辑, 就像把 “只会拍照的机器” 换成了 “懂阅读理解的专家”。
配合全新设计的 DeepEncoder V2,模型实现了 “先规划阅读路径,再提取信息” 的智能流程:首先通过双向注意力机制完成全局感知,明确标题、表格、配图等元素的位置;
随后生成因果流 Token,规划出符合语义逻辑的阅读路径;最终即便面对报纸的排版,也能按人类习惯的顺序还原文字。
性能提升
在 OmniDocBench v1.5 基准测试中,DeepSeek-OCR-2 综合得分高达 91.09%,较上一代提升 3.73%;
阅读顺序(R-order)的编辑距离从 0.085 降至 0.057,意味着其对文档逻辑结构的理解更精准。
DeepSeek-OCR-2 的高效不仅体现在参数控制上,更在推理速度与Token利用率上展现优势:
单卡 A100 每天可处理 20 万页文档,Token 生成速度达 2500 tokens/s。
开源地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
Kimi K2.5 全能多模态模型
与DeepSeek专注文档理解不同,月之暗面发布的 Kimi K2.5 是一款 “all in one” 的全能型模型。
作为参数规模达 1 万亿的 MoE 基础模型,它将视觉理解、编程、Agent 智能体等能力集成于一体,尤其在视觉 + 代码与复杂任务并行处理上,展现出比肩顶尖闭源模型的实力。
值得关注的是,Kimi K2.5在多项评测中优于GPT-5.2-xhigh的同时,运行成本仅为后者的几分之一。
创新亮点
图像转代码:设计稿直接生成代码
Kimi K2.5最大的特色是全能统一模型:视觉、文本、对话、Agent等所有能力集中在一个模型中。这意味着用户只需提供一个设计稿,AI就能自动生成具有专业级审美的代码。
在实际测试中,Kimi展现了惊人的多模态能力。当用户提供《老友记》莫妮卡公寓的平面图时,Kimi能够自动生成完整的三维模型代码,并部署成可访问的网页应用。
更有趣的是,Kimi还具备独特的“代码审美”。它能够根据设计稿直接生成具有专业级视觉效果的前端代码,支持从截图到代码、录屏到动画的自动转换,真正实现了“所见即所得”的编程体验。
Agent集群:智能项目组协同作战
Kimi K2.5引入了**“Agent Swarm”功能**,可动态调度最多100个Agent分身并行工作,支持1500次工具调用,
速度比单智能体快4.5倍。
Kimi Code实战:4分钟创建价格监控器
基于K2.5的编程助手Kimi Code正式发布,支持终端运行并无缝集成VSCode、Cursor等主流IDE。
实测显示,用户只需一句指令“创建一个黄金价格监控器”,Kimi Code就在4分钟内完成了整个程序的编写和部署。更令人印象深刻的是,在遇到编码错误时,Kimi能够自动诊断并修复问题。
杨植麟在发布会上表示:“做模型的过程本质上是在创造一种世界观,让AI有更好的taste是Kimi目前发展的重点。”
从实际体验来看,Kimi K2.5在智能体能力上确实已经比肩前沿模型。无论是视觉理解、代码生成,还是复杂任务处理,Kimi都展现出了令人惊叹的能力。
开源地址:https://huggingface.co/moonshotai/Kimi-K2.5
DeepSeek 与 Kimi 此次同步开源,但选择体现了不同的发展理念。
Kimi K2.5走的是“全能型”路线,将视觉、文本、对话、Agent等所有能力集中在一个模型中,强调通用性和实用性。而DeepSeek-OCR-2则专注于解决特定问题,通过架构创新在文档理解这一垂直领域实现突破。
这种差异化竞争恰恰展现了中国AI产业的成熟度。各大巨头根据自身技术积累和市场定位,选择最适合的发展路径,共同推动整个行业向前发展。
但两家公司都坚持开源策略。Kimi K2.5继续开源其万亿参数模型,DeepSeek-OCR-2也将代码和模型权重完全公开。
未来,随着DeepSeek 在多模态架构上的持续探索,以及 Kimi 对 Agent 集群能力的优化,国产 AI 有望在更多核心领域为全球AI技术发展贡献 中国方案。
而这次双星并耀的开源盛宴,或许只是国产 AI 黄金时代的开始!
01月28日
GitHub上爆火硅谷的Clawdbot,从聊天到干活,零员工公司的AI执行时代来了!
近日,一款名为Clawdbot的AI智能体在硅谷掀起狂潮,短短24小时内便成为开发者社区的热议焦点。
但该项目现在已经改名叫Moltbot了
这个由退休码农Peter Steinberger主导开发的项目,被誉为“首个0员工公司”的基石,其GitHub仓库星标数已狂飙至72.1k,热度甚至超越了之前的明星产品Claude Code。
谷歌工程师Logan Kilpatrick等科技大佬纷纷入局,甚至有人为了部署Clawdbot而抢购Mac mini,使其成为当下最热的“理财产品”。
Clawdbot本质上是一个“长了手的Claude”,它将顶尖大语言模型的思维能力与本地执行能力相结合,形成了AGI(通用人工智能)的雏形。与普通AI仅提供指导不同,Clawdbot能够直接操作用户的电脑系统,实现真正的自动化任务处理。
该项目完全开源且永久免费,正如文档中所描述:“2026年1月,全球所有人都获得了一位超级智能的AI员工,它可以完成任何任务。它并非由某个邪恶的公司开发,而是由一群随机的开发者在网络上共同开发。”
核心功能
Clawdbot的核心架构基于网关(Gateway)系统,用户通过WhatsApp、Telegram、iMessage等聊天应用发送指令,消息传递到本地电脑的网关后,由网关调用Claude等大模型API,最终在电脑上执行具体命令。
其主要功能特色包括:
- 本地化运行:支持Mac、Windows和Linux系统,数据完全私有,默认在用户本地设备上运行。
全平台接入:可通过主流聊天应用进行控制,实现随时随地访问。
持久化记忆:具备永久记忆能力,能够学习用户偏好和上下文。
全系统访问:拥有文件读写、命令行执行、脚本运行等完整系统权限。
技能扩展:支持社区技能插件,甚至能够自我编写新功能。
与普通AI形成鲜明对比的是,当传统AI还在指导如何整理文件时,Clawdbot已经自动完成任务并报告已经整理完成。
实际应用
Clawdbot的实测效果令人惊叹。开发者Shruti经过40小时调研发现,Clawdbot能在10秒内完成手动文件整理,5分钟浓缩10篇技术文章精华,2分钟提取20个PDF中的所有邮箱地址。
有用户在智能手表上部署Clawdbot,远程控制AI合并PR和修复bug;
开发者Alex Finn体验后表示两天没用Claude Code,他的AI员工Henry能够自动阅读邮件、修复SaaS漏洞、生成视频创意
甚至有用户设置Clawdbot每天给妻子发送问候短信,最终AI能够自主进行完整对话
最引人瞩目的是开发者Brian Roemmele提出的“零员工公司”愿景。
他创建了一家完全由AI运营的公司,其中Clawdbot担任核心员工,Grok担任CEO,Claude Code负责技术领导。
这种模式展示了AI智能体的三大优势:持久自主性、多智能体协同能力、以及本地控制保障。有网友认为这预示着生产力逻辑的根本性重构。
Clawdbot的爆火,本质上是用户对高效自动化和无壁垒交互AI的迫切需求的集中体现。它打破了云端AI的桎梏,将AI从“信息提供者”转变为“行动执行者”,为个人AI的发展提供了全新范式。
尽管目前仍面临成本、门槛、安全等诸多问题,但随着技术迭代与生态完善,其潜力不容小觑。
GitHub:https://github.com/moltbot/moltbot
01月27日
像写代码一样自动化生成短视频!开源项目Remotion:像素级精准控制视频、组件复用!
Remotion是一个创新的开源框架,其核心理念是将视频制作流程从图形界面转向代码开发。
不用传统视频软件手动做视频,程序员直接用JS 和 React 写代码,就能搞定视频里的动画、转场、动态文字这些所有效果,还能把React组件和视频的时间轴结合起来用。
功能特点
编程式制作
将视频的每一帧视为一个React组件,开发者可以利用JavaScript/TypeScript和CSS来定义动画、布局和样式,实现像素级的精准控制。
组件化与复用
视频中的元素(如标题、转场特效、数据图表)可以被封装成可复用的组件,大幅提升开发效率并保证风格统一。
参数化与自动化
视频内容可以完全由数据驱动。通过修改传入组件的参数,可以轻松实现批量自动化生成数百个个性化视频,这是传统手动剪辑难以企及的能力。
技术创新
尽管功能强大,但Remotion过去要求使用者具备前端开发能力,这构成了较高的使用门槛。这一局面被其近期推出的 Agent Skills 功能彻底改变。
通过与Claude Code等先进的AI编程助手深度集成,用户现在可以通过自然语言描述直接生成视频代码。
网友们纷纷上手实测,甚至喊出 Video editors are cooked,直言视频剪辑师要慌了。
还有网友说:只用一条提示词,就直接生成了一段约 30 秒的完整产品宣传视频。
包括了背景音乐、转场特效,还有品牌配色、产品演示等等元素,说实话确实惊艳。
这一创新极大地降低了使用门槛,使得即使不具备深厚编程背景的创作者也能利用Remotion的强大能力。
应用场景
数据可视化视频:自动将动态数据生成带有动画效果的图表展示视频。
批量个性化视频:为不同用户或产品生成海量定制化的宣传片或通知视频。
产品演示与动态图形:快速创建具有一致品牌风格的产品功能演示或动态图形设计。
服务端渲染视频:在服务器端动态生成视频内容,用于用户报告、个性化营销等。
Remotion将视频制作从依赖手动操作的图形界面,转向了可编程、可自动化、智能化的新范式。
特别是通过与AI的结合,对于追求高效、精准和自动化内容创作的开发者与前瞻性创作者而言,Remotion是一个极具价值的工具。
GitHub: https://github.com/remotion-dev/remotion
01月26日
一张图生成任意场景3D模型,同时具备高质量和可控的去遮挡能力|开源项目SceneMaker
SceneMaker是由IDEA研究院张磊团队与香港科技大学谭平团队联合推出的开放世界3D场景生成框架。
当前3D生成技术深陷"半开放"窘境,能打造精美样板间却难以应对真实世界中千变万化的物体与场景。
SceneMaker基于万物检测模型DINO-X与万物3D生成模型Triverse,实现了从任意开放世界图像(室内/室外/合成图等)到带Mesh的3D场景的完整重建。
该项目不仅解决了严重遮挡下的几何质量衰退难题,还同时具备文本指令可控的去遮挡能力。
技术创新
SceneMaker的核心目标是从单张场景图像中恢复完整的三维结构,输出可交互、可编辑的3D场景,包含物体的显式几何(Mesh)和位姿信息。
其工作流程分为三个关键模块:
场景感知:通过DINO-X万物检测模型精准识别并分割图像中的所有物体,再结合深度估计模型生成3D点云,让模型“看清”场景内容。
三维物体重建:传统3D模型因缺乏遮挡数据训练,常生成残缺几何。SceneMaker创新性地将去遮挡任务从3D重建中解耦,先利用海量图像数据训练文本-图像编辑模型修复被遮挡部分,再进行3D重建。该方法在严重遮挡下仍能生成完整几何,并支持文本可控的不可见部分生成。
位姿估计:基于场景图像和点云,估计每个物体的旋转、平移和尺寸,并将所有物体按空间关系组合成最终3D场景。
性能优势
开放世界重建达到SOTA水平
在室内、室外及桌面场景测试中,SceneMaker在Chamfer Distance(CD)、F-Score等指标上均优于现有方案(如MIDI3D、PartCrafter)。在开放集场景中,其CD-S指标降至0.0285,显著提升重建精度。
强大泛化能力
SceneMaker展现出对合成图像、文生图及真实拍摄图像的强大泛化能力,能够处理各种复杂环境下的3D重建任务。
大规模训练数据集
团队基于Objaverse数据集构建了包含20万个合成场景的开源数据集,每个场景包含2-5个物体的几何、位姿及多视角图像,为模型训练提供坚实基础。
应用场景
具身智能
为机器人提供可交互的数字孪生环境,助力路径规划、物体抓取、场景导航等任务,解决具身智能在开放世界环境感知与建模的核心痛点。
游戏工业建模
实现街道、公园、野外等开放游戏场景的快速3D重建,精准还原小众道具的几何形态与空间位姿,提升游戏场景制作效率,丰富物体多样性。
自动驾驶/无人机仿真
将真实道路、城市街区图像转化为高精度3D仿真场景,解决物体遮挡导致的模型失真问题,为自动驾驶仿真测试、无人机路径模拟提供高保真虚拟训练环境。
SceneMaker通过三大技术创新,打破了3D场景生成的"半开放"限制,为实现无限场景的虚拟与现实融合铺平道路。随着代码与数据的开源,这一技术有望在智能体、仿真训练等领域引发新一轮应用浪潮。
项目主页:https://idea-research.github.io/SceneMaker/
GitHub:https://github.com/IDEA-Research/SceneMaker
01月22日
英伟达开源实时语音聊天AI模型:PersonaPlex,能处理自然对话中的打断、停顿和回应!
今天给大家介绍一款由英伟达开源的AI实时语音聊天工具:PersonaPlex。
它能一边听一边说,自然应对聊天里的打断、停顿,接话超丝滑~
用户可通过语音或文本提示,自定义模型的角色形象与声音风格,使其胜任智慧助手、客服人员等多种角色。
这款模型可是用真实对话 + 合成数据双重训练的,聊得自然、办事靠谱,兼具优异的对话自然度与任务遵循能力!
主要功能
全双工对话能力:PersonaPlex能同时听和说,支持实时交互,自然处理对话中的打断、停顿和回应,使对话更加流畅和自然。
角色和声音定制:用户可通过文本提示定义角色(如智慧助手、客服人员、虚构角色等),并通过语音提示选择不同的声音风格和语调,实现高度个性化的交互。
自然对话行为:支持自然的对话节奏,包括打断、回应(如“嗯哼”、“好的”等)和适当的停顿,让对话感觉更像人类之间的交流。
任务遵循能力:支持根据文本提示执行特定任务,如提供客户服务、解答问题或进行技术讨论,在对话中保持一致的角色表现。
技术原理
全双工架构:边听边说,不用等用户说完再回应,解决传统系统延迟问题,交互超丝滑。
混合提示架构:语音抓声音、风格特点,文本定角色、背景,两者结合,AI 人设稳。
Transformer 架构:音频转文本标记,处理对话节奏(停顿、打断),再转回 24kHz 高清语音。
训练数据:用真实对话 + AI 生成的脚本和语音训练,兼顾自然度和任务执行力。
性能表现
对话动态(越高越好)
对话延迟(越低越好)
任务遵循(越高越好)
应用场景
教育领域:作为智慧教师,提供清晰且引人入胜的解答和建议,帮助学生更好地理解知识。
客户服务:模型能扮演银行客服或医疗前台角色,根据文本提示处理客户问题,提供专业且富有同理心的服务。
娱乐和社交:模拟各种虚构角色或进行开放式的闲聊,为用户提供有趣且个性化的社交体验。
紧急情况应对:在模拟的太空任务等紧急场景中,用专业角色提供技术支持和紧急应对建议。
医疗咨询:在医疗场景中协助记录患者信息,提供专业建议,支持医疗人员的日常工作。
GitHub:https://github.com/NVIDIA/personaplex
01月21日
开源AI 自动提取视频内容,快速产出结构化笔记、问答和文章 | ViNote
ViNote是一个创新的视频处理开源项目,其核心理念是“Video + Note”,旨在让每个视频都能转化为用户的知识资产。
项目最新版引入了基于ANP(Agent Network Protocol)协议的超级视记智能体:ViNoter,标志着从被动工具到主动智能伙伴的升级。
ViNote致力于通过AI技术实现视频内容的智能处理,包括搜索、转录、笔记生成等一体化功能,帮助用户高效管理视频知识资源。
ViNote的设计哲学强调“真正的智能是理解用户的意图,而不是执行用户的指令”。
通过集成ANP协议,ViNoter能够用自然语言驱动任务落地,简化用户操作流程。项目采用MIT开源协议,支持Python 3.10+、FastAPI 0.110+和Docker部署,具有良好的可扩展性和开发者友好性。
功能特点
ViNoter作为ViNote的核心模块,提供了以下强大功能:
智能视频搜索
ViNoter支持对话式检索主流视频平台(如B站、YouTube),用户只需输入自然语言需求(例如“在B站搜索Python编程”),系统即可自动识别意图并返回精准的视频列表。搜索过程基于ANP协议实现多智能体协作,确保结果的高相关性和覆盖面。
自动转录与笔记生成
视频被选中后,ViNoter可自动完成下载、转录和笔记生成全流程。AI会提取视频核心内容,生成结构化笔记、精华摘要和原文转录,支持一键导出为多种格式(如文本、卡片、思维导图)。例如,针对Python教程视频,系统能详细总结课程模块、知识点和实战项目,显著提升学习效率。
对话式交互体验
ViNoter采用自然语言交互模式,用户可像与朋友聊天一样描述需求。系统能理解复杂指令,并自动调用相应工具执行任务。这种设计降低了使用门槛,使技术小白也能轻松上手。
多平台与本地化支持
项目优化了B站Cookie认证机制,用户可通过开发者工具将登录信息转换为Netscape格式,实现长期稳定的视频爬取。此外,ViNote提供一键启动脚本,简化ANP协议与本地环境的集成部署。
应用场景
ViNote适用于多种需要视频内容处理的场景,包括但不限于:
高效学习:学生或自学者可快速搜索优质教程视频(如编程、语言学习),并自动生成笔记,避免手动记录的时间消耗。例如,搜索Python编程视频后,ViNoter能直接提供课程摘要和关键知识点。
专业工作:教师或培训师可整理教学视频内容,生成课程大纲和讲义;会议组织者能转录研讨会内容,便于后续分发和归档。
技术开发:开发者可利用ANP协议扩展自定义智能体,构建专属视频处理流程,如自动抓取技术分享视频并生成代码示例文档。
ViNote通过集成ANP协议,实现了视频处理能力的质的飞跃。ViNoter智能体不仅简化了用户操作,还为多智能体协作生态提供了实践范例。
GitHub:https://github.com/zrt-ai-lab/ViNote
谷歌开源AI翻译模型TranslateGemma,支持55种语言高质量翻译,翻译又准又快!
近日,谷歌开源了专为翻译任务深度优化的全新模型:TranslateGemma。
该模型融合监督微调和强化学习技术,支持 55 种语言高质量翻译,翻译又准又快!
它还贴心准备了三个版本:4B、12B 和 27B 参数模型,分别适配手机、普通笔记本和云端高性能计算场景。
更厉害的是,这模型不光文本翻译牛,还自带超强多模态技能 ,不用专门训练,就能直接翻译图片里的文字!
功能特点
多语言翻译
模型支持 55 种语言的高质量翻译,覆盖高资源语言(如英语、中文、法语)和低资源语言(如冰岛语、斯瓦希里语)。
高效性能
通过模型优化,较小的 12B 模型性能超越了 27B 的基线模型,4B 模型在移动设备上能提供强大的翻译能力。
多模态翻译
模型保留了 Gemma 3 的多模态能力,能翻译图像中的文本,无需额外的多模态训练。
广泛的适用性
模型适用多种部署环境,包括移动设备、消费级笔记本和云端高性能计算平台。
技术原理:数据与算法双轮驱动
TranslateGemma的强大性能源于三大支柱:
高质量基座模型:依托Gemma 3强大的推理与多模态基础能力;
Google独家数据积累:整合数十年积累的Web挖掘数据与平行语料,构建数据护城河;
两阶段微调策略:
监督微调(SFT):使用Gemma生成的高质量合成数据,实现广泛语言覆盖与高保真度;
强化学习(RL):通过奖励模型优化翻译的准确性与流畅度,生成更符合语境的自然译文。
TranslateGemma并非旨在取代Google翻译,而是通过开源推动翻译技术普惠。其出现将加速本地化、多模态翻译的普及,使高质量翻译能力从云端下沉至终端设备,为开发者与企业提供更灵活、低成本的解决方案。
开源地址:https://huggingface.co/collections/google/translategemma
01月16日
智谱 × 华为联合开源GLM-Image ,首个国产芯片训练的多模态SOTA模型!
近日,智谱AI 联合华为,正式开源了新一代图像生成模型 GLM-Image。
这可不是普通的模型升级,它是国内首个从数据预处理到大规模训练,全流程都靠国产芯片搞定的 SOTA 级多模态模型,直接打破了高端 AI 模型对海外算力的依赖!
为啥说它不普通?
GLM-Image 全程依托华为昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架打造,从底层算力到上层框架全是 “中国造”。再加上昇腾适配的高性能融合算子,不仅训练稳,速度还快,实打实证明了国产全栈算力底座能扛住前沿模型的研发压力。
架构革新
GLM-Image采用创新的“自回归+扩散解码器”混合架构,融合9B参数的自回归模型与7B参数的DiT扩散解码器。
这一设计兼顾全局指令理解与局部细节刻画,显著提升模型在知识密集型场景(如海报、PPT、科普图)的生成能力。
其技术路径直面当前图像生成模型的痛点:传统模型往往在理解复杂指令与精准绘制文字间难以兼顾,而GLM-Image通过自回归模型强化语义理解,配合Glyph Encoder文本编码器优化文字笔画细节,有效改善“提笔忘字”现象。
性能测试
在权威评测榜单中,GLM-Image表现卓越,在多项指标上超越同类开源模型:
CVTG-2K(复杂视觉文字生成):文字准确率(Word Accuracy)达0.9116,归一化编辑距离(NED)为0.9557,位列开源模型第一。
LongText-Bench(长文本渲染):中英文渲染成绩分别为0.979(中文)和0.952(英文),覆盖招牌、海报等8类场景。
多场景应用
GLM-Image在复杂图文任务中展现出强大实用性:
场景一:科普插画
GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。
场景二:图像编辑
对已有图像进行精准内容修改 + 风格 / 形态重塑。
场景三:多格图画
在生成电商图、漫画等多格图画时,GLM-Image能够保持风格和主体的一致性,并保障多处文字生成的准确率。
场景三:社交媒体图文封面
GLM-Image 适用于制作社交媒体封面及内容等排版复杂的图片,让您的创作更自由丰富。
场景四:商业海报
GLM-Image 能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。
场景五:写实摄影
在文字渲染以外,GLM-Image也同样擅长生成各种景别和尺寸的人像、宠物、风景、静物。
GLM-Image的成功实践不仅为国产算力生态注入信心,更以开源姿态推动多模态生成技术走向普及!
GitHub:https://github.com/zai-org/GLM-Image
开源AI智能体模拟平行世界推演未来!MiroFish:从“看清当下”到“预演未来”的突破。
之前跟大家聊过一款超火的开源项目 :BettaFish!
凭借亮眼的多智能体分析系统,它直接打破了互联网信息茧房,还霸榜GitHub Trending好多天!
这款项目的开发者是个20 的年轻创客,他有个很酷的愿景:让AI不仅能看清当下,更能拥有推演未来的能力。
为了实现这个目标,他打造了开源项目的「数据分析三板斧」:
MindSpider:自动化抓取内容,搞定信息收集与整理;
BettaFish:解析数据情感,实现数据智能化分析;
MiroFish:上传任意报告,就能即刻推演未来。
而今天的主角,正是这三板斧里的 MiroFish!
**MiroFish是一款基于多智能体技术的新一代AI预测引擎。**通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
你只需:上传种子材料(数据分析报告或者有趣的小说故事),并用自然语言描述预测需求,
MiroFish将返回:一份详尽的预测报告,以及一个可深度交互的高保真数字世界。
功能特点
低门槛操作
支持上传PDF、MD、TXT等非结构化文档作为“现实种子”,无需复杂参数配置,仅需输入自然语言描述预测需求(例如“预测特斯拉财报发布后的股价走势”)。
全自动推演流程
系统自动提取文本中的实体关系,构建知识图谱,并生成具有不同人设的智能体(如分析师、投资者、企业高管等)。通过双平台并行模拟,实时记录智能体间的交互行为,动态更新环境状态。
深度交互与报告生成
推演结束后自动生成结构化预测报告,用户可通过“深度互动”功能与报告智能体或任意角色对话,快速获取关键结论。提供工具集(如全景追踪、虚拟访谈)支持对模拟结果的归因分析
应用场景
商业决策:如预测财报发布后股价波动、市场竞争策略效果评估;
舆情推演:分析政策公告或社会事件可能引发的舆论走向;
内容创作:推测小说剧情发展或角色行为逻辑;
个人场景:模拟人际互动(如推测消息回复策略),辅助日常决策。
MiroFish代表了AI应用的新风向:从单纯的代码编写、内容生成升级为复杂的平行世界模拟。正如项目作者所言:"让每一个如果都能看见结果,让预测万物成为可能。"
无论是股价预测、舆情分析,还是小说剧情推演、人际关系模拟,MiroFish都为我们提供了一个窥探未来的窗口。这个开源项目正在GitHub上快速发展,为所有对未来预测感兴趣的用户提供了强大的工具支持。
GitHub:https://github.com/666ghj/MiroFish
01月14日
港大开源AI超级导师DeepTutor,集问答、可视化讲解、出题、研究于一体!
DeepTutor是由香港大学HKUDS实验室开源的一款创新型AI学习助手,在GitHub上已获得7.3K星标,被誉为"集问答、可视化、出题于一身的AI超级导师"。
该项目旨在解决传统学习过程中的三大痛点**:资料繁多难以找到准确答案、复杂概念理解困难、学后缺乏练习机会。**
DeepTutor不仅仅是一个简单的聊天机器人,它突破了传统教育工具的局限,实现了"学、练、测、研"的完整学习闭环,每个功能模块都精准击中自学痛点,且具备极强的实用性和创新性。
功能特点
深度理解的文档知识问答
DeepTutor的文档问答功能超越了传统的RAG工具,实现了真正的"理解与内化"。用户可以上传教材、研究论文、技术手册乃至个人笔记(支持Markdown/PDF/Word格式),构建个人专属的AI驱动知识库。
该系统具备多Agent问题求解能力,确保在回答复杂问题时保持清晰的逻辑链条,为用户提供准确且深入的知识解答。
交互式可视化讲解
这是DeepTutor最具创新性的功能,能够将抽象概念(如排序算法、二叉树、神经网络)转化为直观的可视化图表。通过详细的分步分解和引人入胜的交互式演示,极大降低了复杂概念的理解门槛。
系统还配备上下文感知对话功能,能够适应不同用户的学习进度,提供个性化的交互界面和基于会话的知识跟踪。
智能出题与模拟训练
DeepTutor内置强大的智能出题系统,能够根据对话上下文和用户的知识掌握程度,个性化生成练习题。更值得一提的是,用户可以上传真题试卷,系统会分析其出题风格、难度分布和知识点覆盖率,生成风格相似的全新模拟卷。
这一功能解决了"真题刷完无题可做"的困境,为用户提供源源不断的"仿真题"练习资源。
深度研究模式
针对有深度探索需求的用户,DeepTutor提供了Deep Research(深度研究) 模式。该功能通过系统分析进行深入的专题探索,能够生成结构化学习材料并发现知识空白,助力学术研究和深度学习。
多元应用场景
DeepTutor 的通用性使其能满足不同用户的学习需求,应用场景广泛:
学生群体:可用于复习备考、克隆真题、查漏补缺,通过个性化练习和答疑,提升学习效率和应试能力。
研究人员:利用深度研究模式进行文献综述、专题探索,生成结构化研究材料,助力学术研究。
开发者:借助可视化功能快速理解晦涩的技术文档和架构设计,通过知识库问答解决开发中的技术难题。
职场人士:可用于职业技能提升,通过文档问答快速吸收行业知识,借助出题功能巩固学习成果。
在这个知识快速更新的时代,DeepTutor为学习者提供了强大的AI外挂,让个性化、深度化的学习体验成为可能。无论是学生、开发者还是研究人员,都能通过这款工具打破自学壁垒,实现高效成长。
Github :https://github.com/HKUDS/DeepTutor
5.8Kstar!视频翻译与声音克隆的全能开源工具:Voice-Pro!
今天,给大家介绍一款在GitHub上爆红的开源项目:Voice-Pro,已经斩获5.8Kstar!
它原本是一款商业付费软件,如今被团队彻底开源,成为了视频创作者和出海玩家的年度福音。
如果你曾为视频本地化的复杂流程而头疼,Voice-Pro或许能为你带来革命性的改变。
功能特点
Voice-Pro的强大之处在于它将复杂的AI技术封装成简单易用的本地应用,主要功能特点包括:
一体化配音工作室
Voice-Pro的核心是一个完整的配音工作流,支持从YouTube视频下载、人声分离、字幕识别到文本翻译和语音合成的全过程。它集成了yt-dlp用于视频下载,Demucs用于人声分离,以及多种语音识别引擎。
顶尖的语音识别与合成能力
语音识别:支持Whisper、Faster-Whisper、WhisperX等多种模型,能够精准识别90多种语言的语音并生成带时间戳的字幕
语音合成与克隆:集成Edge-TTS(支持100多种语言、400多种声音)、F5-TTS、CosyVoice等模型,实现高质量的零样本语音克隆
实时翻译:基于Deep-Translator,支持超过100种语言的即时翻译
用户友好的可视化界面
Voice-Pro通过Gradio构建了直观的Web界面,让非技术用户也能轻松使用。
界面分为几个主要模块:配音工作室、Whisper字幕生成、翻译功能和语音生成界面。
应用场景
Voice-Pro适用于多种内容创作场景,特别是:
视频创作者与出海玩家
对于需要将内容本地化到不同语言市场的创作者,Voice-Pro提供了一站式解决方案。用户可以轻松地将视频翻译成多种语言,并保持高质量的语音输出,大大降低了跨文化内容分发的门槛。
播客主持人与音频制作人
Voice-Pro的语音克隆功能允许用户创建多语言播客内容,甚至可以使用名人声音风格进行配音。实时翻译功能也使得跨语言访谈和内容制作变得更加便捷。
开发者与AI爱好者
作为开源项目,Voice-Pro为开发者提供了可扩展的基础框架。技术人员可以基于现有代码进行二次开发,添加自定义功能或集成新的AI模型。
Voice-Pro代表了开源AI工具的一个重要里程碑,它将原本需要付费的专业视频处理工作流转化为每个人都能免费使用的本地工具。虽然本地部署对硬件有一定要求,但相比于长期依赖商业API的成本,无疑具有更高的性价比。
GitHub:https://github.com/abus-aikorea/voice-pro
01月13日
登顶全球具身智能榜单的千寻智能 Spirit v1.5正式开源!
2026年1月12日,千寻智能正式开源其自研VLA(视觉-语言-动作)基础模型Spirit v1.5,该模型在全球具身智能模型评测平台RoboChallenge上综合评测斩获第一,成为榜单中唯一成功率超过50%的模型。
这波登顶 + 开源共享的操作直接引爆海外AI圈,不仅拿下英伟达具身智能负责人 Jim Fan(范麟熙)的点赞,还收获了 Hugging Face 的官方祝贺,连一众海外科技大 V 都争相转发!
权威榜单测试
RoboChallenge是由Dexmal原力灵机与Hugging Face等全球知名机构联合发起的具身智能评测平台,作为全球首个专为具身智能机器人量身打造的大规模真机评测平台,其特色在于让机器人直接在真实物理世界里进行实战测试,检验模型的泛化能力。
该平台的基准测试包含30项贴近现实的任务,如摆放薯条、寻找固定颜色物体、贴胶带等,全面覆盖机器人日常技能。
Spirit v1.5在这一严格测试中取得了66.09的综合得分,成功率达到50.33%,超越了已霸榜数月的美国机器人创企Physical Intelligence发布的Pi0.5模型。
值得注意的是,Spirit v1.5并非依靠某一单项优势取胜,而是在综合能力上实现全面超车,这标志着国产具身智能模型正式进入全球第一梯队核心圈。
技术突破
Spirit v1.5的成功源于其对机器人泛化能力核心难题的破解。与传统方法使用经过严苛预处理的数据不同,千寻智能采用了一种创新的数据采集范式:开放式、目标驱动的数据采集。
在这一范式下,操作员以某个目标为前提进行即兴发挥,如清理厨房台面,但子任务规划执行顺序完全随机。这种方法产生了高度多样化的数据,使机器人能够从接近现实世界的混乱数据中学习,从而大幅提升应对真实环境中不可预测场景的能力。
千寻智能的实验数据证实了这种方法的有效性:使用多样化数据预训练的模型在新任务上达到相同性能所需的迭代次数比基线模型少了40%。同时,模型的迁移效率与多样化数据量呈显著正相关,随着数据集规模增长,模型在新任务中的验证误差持续下降。
Spirit v1.5的出现具有明确的界碑意义:它通过实验证明了“非结构化的多样性是比精选数据更好的老师”。在通往通用具身智能的道路上,中国团队已经结束了单纯的跟随模式,具备了在核心技术路径与生态建设上与全球顶尖团队对等对话的能力。
随着代码仓库的公开,全球的目光和测试数据将涌向Spirit v1.5。对于千寻智能而言,登顶榜单只是一个开始,真正的考验在于如何在真实世界的千万种场景中,经受住全球开发者的验证与打磨。
开源地址:https://github.com/Spirit-AI-Team/spirit-v1.5
https://www.spirit-ai.com/en/blog/spirit-v1-5
01月12日
一款开源的本地化AI聊天记录分析工具:ChatLab!
ChatLab是一款专注于聊天记录深度分析的开源项目,支持微信、QQ、WhatsApp等主流聊天软件的数据导入。
其核心理念是“你的数据,你做主”,所有分析操作均在本地完成,无需上传至任何服务器,即使离线环境也能正常运行。
功能特点
多平台格式兼容
无论用户导出的是微信JSON格式、QQ TXT文本还是WhatsApp导出包,ChatLab都能自动识别并进行结构化处理,通过“标准化抽象层”抹平不同平台在格式、字段、时间戳等方面的差异。
隐私保护与本地化处理
ChatLab采用彻底的本地化处理方案,所有聊天数据存储在本地SQLite数据库中,分析过程完全离线运行(AI功能除外),从根本上杜绝了隐私泄露风险。
智能AI助手与自然语言查询
内置AI SQL模式,用户只需用自然语言描述分析需求,系统就能自动生成SQL查询并返回结果。如输入“群里谁最喜欢吃麦当劳”,系统会立即生成相应的查询语句并展示结果。
强大的数据分析与可视化
提供全面的数据分析功能,包括:
年度聊天榜单:统计消息回复速度、活跃时段等指标
群聊复读检测:自动识别高频重复语句
消息时间热力图:可视化展示聊天时间分布规律
成员活跃度分析:识别群聊中的核心参与者
技术架构
前端架构
基于Electron构建跨平台桌面应用,使用React + TypeScript技术栈,负责用户交互与数据可视化展示。界面设计清爽直观,通过图表形式即时呈现各类分析结果。
ChatLab数据分析界面
后端架构
采用Node.js(v20+) 作为运行环境,结合SQLite数据库和流式处理引擎,负责数据解析、查询与任务调度。后端架构专门优化了大数据量处理能力,确保高效稳定。
AI模块集成
支持可选接入本地大模型(如Ollama),通过10+个Function Calling工具实现动态任务调度,既保证了AI功能的实用性,又避免了调用远程API可能带来的隐私问题。
应用场景
ChatLab 在多种场景下均能提供深度分析价值:
个人使用:帮助回顾重要对话、分析社交关系、了解自身聊天习惯,是管理社交记忆与认识自我的工具。
社群运营:为运营者提供数据支持,可用于分析群活跃度、把握内容趋势、评估活动效果,辅助制定运营策略。
开发测试:为开发者提供结构化的聊天数据,用于模拟对话场景、测试业务流程或训练算法模型。
需要注意的是:ChatLab本身不提供聊天记录导出功能,用户需要先用第三方工具(如微信的EchoTrace)将聊天记录导出为标准JSON格式,再导入ChatLab进行分析处理。
ChatLab通过开源、本地、智能的技术路径,为用户提供了重新掌控社交数据的能力。它不依赖云端服务,不触碰用户隐私,却能够将散乱的聊天记录转化为有价值的分析洞察,真正实现了“让数据为你所用”的目标。
GitHub:https://github.com/hellodigua/ChatLab
开源AI股票分析项目!OpenBB**:让任何人、在任何地方都能进行专业级的投资研究!**
在金融科技领域,数据一直是专业机构的“特权”,个人或小团队往往因高昂的成本而却步。
但OpenBB的出现打破了这一壁垒,它在GitHub上已获得58.2K Star;
该项目的目标很明确**:让任何人、在任何地方都能进行专业级的投资研究**。
传统上,分析股票、加密货币或宏观经济数据需要购买昂贵的专业服务,而OpenBB通过开源模式,集成了众多数据源,包括EconDB、Polygon、Tiingo、SEC、FRED等,成为一个连接全球市场数据的大枢纽。
核心功能
全覆盖的资产类别
OpenBB覆盖了股票(美股、A股、港股等)、期权、加密货币、外汇、宏观经济指标(如GDP、通胀率)以及固定收益等领域。其强大之处在于,它能将分散的数据聚合到统一界面。
例如,针对苹果公司(AAPL),OpenBB的看板可以一站式展示公司信息、财务数据、技术分析、股东详情等。
专业分析看板
甚至细化到高管信息、地区收入分布、业务线业绩,以及股东电话会的文字记录。这些原本需要手动整理的内容,OpenBB能自动梳理并可视化。
对比分析与AI增强
平台支持多公司平行对比(如苹果 vs. 微软),快速识别相对优势。此外,其内置的AI助手能理解自然语言查询。例如输入:“回顾管理层在所有权和产品发布方面的历史业绩”,AI将自动交叉引用新闻、持仓数据、财报等,生成结构化摘要。
AI加持:智能问答
OpenBB融入了AI能力,用户可通过侧边栏直接提问。例如,输入“回顾领导层在所有权和产品发布方面的业绩记录”,AI会调用看板中的数据和资讯,生成详细分析报告。
OpenBB不仅降低了金融数据的门槛,还通过集成和AI化提升了研究效率。无论是投资新手还是专业团队,都能借此工具进行深度分析,真正实现专业研究平民化。
GitHub:https://github.com/OpenBB-finance/OpenBB
01月09日
仅需输入主题AI自动写稿 + 生成素材 + 合成视频!开源项目Pixelle-Video让你告别视频剪辑!
从前制作短视频,需要经历写文案、找素材、剪辑配音的繁琐流程!
现在,一款名为 Pixelle - Video 的开源项目,将这一切化繁为简。它能够实现全自动创作,你只需提供一个主题,AI便能为你生成一个包含画面、口播、字幕和背景音乐的完整短视频。
工作原理
Pixelle - Video 的工作原理清晰而高效,模拟了专业的视频制作流程:
AI创作文案:根据你输入的主题,调用大型语言模型自动生成视频文案。
智能分镜:AI将长文案分割成段落,并为每一段创作对应的分镜描述。
生成画面:将分镜信息发送给文生图或文生视频模型,自动生成匹配的视觉画面。
合成语音:调用语音合成模型,将文案转换为清晰、自然的口播配音。
最终合成:将以上所有元素:字幕、AI生成的画面、口播音频以及你选择的背景音乐——自动合成为一个完整的视频文件。
对于想尝试短视频副业,但又不想投入大量时间学习复杂剪辑软件的用户来说,这是一个极佳的入门工具。
核心功能
你就可以充分发挥创意,自定义视频的各个细节:
文案:可选择让AI自动创作,或自行输入已准备好的文案。
分镜与画面:可选择纯文字、静态插图或动态视频镜头等分镜类型。最关键的是可以定义画面风格,通过在“提示词前缀”中输入英文描述,你可以轻松打造出二次元、简约线条、写实等各种视觉风格。
配音与BGM:提供多种音色选择,并支持上传自定义背景音乐。
应用场景
Pixelle - Video 的出现,精准地服务了以下几类创作者和场景,极大地降低了视频内容的生产门槛:
个人创作者与副业尝试者:无论是分享养生知识、解读历史事件,还是讲述情感故事,AI都能快速将你的想法变为可视化的作品,助力副业启动。
知识科普与教育工作者:教师、科普博主需要将复杂的知识以生动易懂的形式呈现。Pixelle - Video 能够自动将文案转化为结构清晰的视频,配合画面和讲解,非常适合制作微课程、知识切片和教学内容补充视频,提升信息传递效率。
新媒体运营与品牌宣传:对于需要快速产出大量社交媒体内容(如品牌故事、产品功能介绍、节日热点海报视频)的团队,此工具能大幅缩短从文案到视频的周期,实现内容的批量化、风格化生产。
文学与艺术爱好者:如果你喜欢文学作品、影评或艺术赏析,可以用它快速生成书籍解说、电影概述或艺术风格介绍视频,将文字的魅力通过视听语言进行二次创作与传播。
Pixelle - Video 的出现,极大地降低了短视频创作的技术门槛。它将原本需要多种技能协作的复杂过程,整合为一个高效的自动化流程。
对于内容创作者、知识分享者或任何对视频制作感兴趣的人来说,这无疑是一个值得尝试的强大工具。
Github:https://github.com/AIDC-AI/Pixelle-Video
01月08日
自然语言生成手绘技术图表!开源工具 Excalidraw:边生成边绘图,实时流式渲染!
Excalidraw是一款开源的手绘风格虚拟白板,其最大特色在于能够绘制出具有独特手绘质感的流程图、时序图和架构图等各类技术图表。
最近Excalidraw 工具实现了通过自然语言描述自动生成技术图表的功能。
用户只需输入需求,AI 即可生成符合 Excalidraw 规范的 JSON 数据,工具会实时流式渲染,边生成边画图,带来全新的绘图体验。
功能特点
智能自然语言交互
用户只需输入简单的自然语言描述,AI即可理解需求并生成相应的技术图表。系统采用对话式交互,降低了技术绘图的门槛。
实时流式渲染技术
工具采用独特的流式渲染机制,在AI生成JSON数据的过程中边解析边渲染,用户可以实时观察到图表的逐步生成过程,增强了交互体验。
多平台全面适配
工具支持桌面端和移动端使用,移动端采用上下布局设计,上方显示画布,底部为输入框,确保在不同设备上都能获得良好的使用体验。
数据安全与本地存储
所有绘图数据均保存在本地localStorage中,不依赖服务器存储,既保证了数据隐私安全,又实现了页面刷新后内容不丢失的持久化效果。
应用场景
技术文档编写
开发者和技术文档编写者可以快速生成系统架构图、流程图等辅助说明材料,大大提高文档编写效率。特别是对于需要频繁更新技术图表场景,只需修改文字描述即可重新生成。
教育与培训
教师和培训师可以利用该工具快速制作教学示意图,将抽象的技术概念通过直观的图表展现,增强学习效果。手绘风格也能增加内容的亲和力。
项目设计与规划
在项目初期规划和系统设计阶段,团队成员可以通过自然语言描述快速可视化设计思路,促进团队沟通和创意碰撞。
快速原型演示
产品经理和设计师可以快速将想法转化为可视化图表,用于内部讨论或客户演示,加速产品迭代过程。
GitHub:https://github.com/co-pine/ai-excalidraw
开源版Veo 3!AI视频生成模型LTX 2.0:一键生成音画同步的视频!
LTX 2.0是由以色列公司Lightricks开发的新一代开源AI视频生成模型。
该项目不只是视觉效果够惊艳,还做到了低资源占用+高运行速度的双重高效。
一次运算就能同步生成动作、对话、背景音与音乐,直接产出音画丝滑联动的完整视频体验。
功能特点
卓越的画质与流畅性
LTX 2.0支持原生4K分辨率下高达50FPS的视频生成,无需后期放大即可直接达到广播级标准。
该模型提供三种性能模式:Fast、Pro和Ultra,用户可根据需求在生成速度和画质之间灵活权衡。
无论是动态场景的细节还原,还是自然动作的流畅呈现,LTX 2.0都表现出色,显著降低了传统AI视频的塑料感和卡顿感。
音画同步能力
LTX 2.0最引人注目的突破在于其原生音画同步生成能力。
模型能在单次运算中同步生成视觉内容、对话、背景音效和音乐,创造连贯的音视频体验。
这一功能彻底解决了AI视频生成中长期存在的默片问题,使生成的角色能够实现口型与对话的自然匹配,环境音效与视觉动作的完美契合。
灵活的生成模式与控制方式
该模型支持多种输入模式**:文生视频**、图生视频以及多关键帧控制,满足不同场景的创作需求。
更为强大的是,LTX 2.0提供了类似ControlNet的精确控制能力,通过官方发布的三种控制模型(IC-LoRAs),用户可以实现对深度、姿态和边缘的帧级别精确控制。
高效的生成速度与硬件适应性
通过模型蒸馏和FP8量化技术,LTX 2.0在保持高质量输出的同时大幅提升了生成效率。
其蒸馏版本可在3秒内生成低分辨率预览,10秒内完成高清视频生成,速度比原版提升高达15倍。
同时,模型针对消费级GPU进行了优化,在RTX 3060等主流显卡上即可运行,显著降低了使用门槛。
提示词指南
写提示词时,按时间顺序详细描述动作与场景,需包含具体动作、外观、镜头角度、环境细节等,要整合为流畅段落,直接从动作切入,语言直白准确,像摄影师列镜头清单,字数控制在 200 字内。
构建提示的结构:
以一句话点明主要动作开篇
补充动作、手势的具体细节
准确描述角色 / 物体的外观
加入背景和环境细节
指定摄像机的角度与移动方式
描述光线和色彩特点
留意并说明变化或突发事件
应用场景
短视频与营销:快速将产品图文转为高质量、音画同步的营销视频,极大提升内容产出效率。
影视与动画:为独立创作者提供电影级的镜头控制与音画叙事能力,通过专业提示词即可精准掌控视听语言。
教育与知识:将抽象概念转化为生动易懂的讲解视频,支持个性化定制,提升学习与传播效果。
广告与商业:提供从快速原型到定制广告的完整解决方案,以影院级质感和音画同步提升品牌专业度。
GitHub:https://github.com/Lightricks/LTX-2
01月07日
开源神器ClipSketch AI:一键将视频转化为手绘故事板与爆款文案!
在自媒体竞争日益激烈的当下,将视频内容高效转化为图文形式已成为获取流量的重要途径。
然而,简单的视频截图已难以满足用户对内容风格、调性和信息增量的需求。
为此,一款名为 Clipsketch AI 的开源项目应运而生,旨在帮助视频创作者和二创博主实现从视频到艺术化内容的智能转换。
Clipsketch AI 基于 Google 的 Gemini 3 Pro 大语言模型和 Nano Banana Pro 生图模型,构建了一套完整的“视频理解 + AI 绘画 + AI 写作”自动化流水线。
功能特点
智能视频解析与关键帧提取
支持输入 B 站或小红书等平台的视频链接,自动解析内容并提取关键帧。系统针对竖屏与宽屏视频做了自适应布局优化,同时提供快捷键操作(如空格播放/暂停、T 键标记关键帧),提升创作效率。
多风格文案生成与平台适配
基于提取的视觉内容,Gemini 3 Pro 可自动生成情感故事型、干货教程型等多种风格的文案,适配不同社交平台的传播需求。同时,工具还支持生成竖屏封面,并对接 Batch API 以批量优化分镜,降低成本。
AI 艺术化处理与角色融合
通过 AI 模型将标记的帧转化为统一风格的手绘故事板,并可上传自定义角色,将其自然融入场景中,形成具有个人IP特色的视觉内容。
这一工具精准针对内容创作中的常见问题:
素材处理效率低:传统手动截图耗时费力,Clipsketch AI 实现关键帧自动抓取与标记;
版权与原创性风险:通过 AI 重绘为手绘风格,既规避版权问题,也增强内容独特性;
文案创作压力:自动化生成多风格文案,减轻创作者负担;
视觉风格不统一:AI 绘图确保整体画风一致,强化品牌辨识度。
应用场景
Clipsketch AI 适用于多种内容创作场景,能显著提升效率与原创性:
教育教程类视频:如烹饪、软件教学等长视频,可自动提取关键步骤并转化为手绘风格图文教程,便于用户快速跟进。
影视解说与二创:针对电影、剧集或动漫,一键生成故事板与解说文案,避免版权风险,同时增强艺术感。
产品评测与推广:将视频评测转化为统一的视觉内容,结合种草文案,适合小红书等平台传播。
个人IP打造:通过角色融合功能,创作者可将自定义形象融入内容,强化品牌辨识度,适用于vlogger或知识类博主。
GitHub:https://github.com/RanFeng/clipsketch-ai
让AI帮你玩游戏!英伟达重磅开源通用游戏AI模型NitroGen!
NitroGen 是一款由英伟达携手斯坦福大学、加州理工学院等顶尖机构共同研发的开源通用游戏 AI 模型。
该模型通过大规模行为克隆方法,基于超过4万小时、涵盖1000余款游戏的视频数据进行训练。能够接收游戏视频帧作为输入,并直接生成对应的手柄操作指令,从而广泛适配于多种游戏类型。
在针对全新、未见过的游戏进行测试时,NitroGen 的任务完成成功率相较于从零开始训练的模型实现了52%的大幅提升。
功能特点
广泛的多游戏适配能力
模型支持超过1000款游戏,涵盖角色扮演、平台跳跃、大逃杀、竞速等多种类型,并兼容2D与3D游戏,展现出出色的通用性。
直观的输入输出设计
直接以游戏画面视频帧作为输入,输出对应真实手柄的操作信号。该设计使其能无缝适配所有支持手柄操控的游戏平台。
高效的后训练与泛化能力
面对新游戏时,无需从零学习规则,仅需少量示例进行微调或轻量级适配即可快速上手,展现出强大的跨游戏迁移与泛化潜力。
显著的性能提升
在程序化生成的游戏环境及此前未接触过的新游戏中,其任务成功率相比从零训练的模型平均提升52%,验证了其泛化有效性。
全面的开源共享
项目已公开预训练模型权重、完整动作数据集及相关代码,为后续研究与开发提供了完整资源,助力社区共同推进游戏AI发展。
性能表现
动作提取质量
通过比较不同控制器系列的性能来实现流水线 实地数据。(a) 显示摇杆 R² 相关分数(左侧和 均值平均) 右摇杆)整体平均为0.84。(b) 显示按键框精度,表示 总体平均为0.96。
氮气数据集在不同游戏和类型的分布
筛选后,数据集包含4万小时的游戏视频,涵盖了多个内容 1000场比赛。(a) 每场比赛的小时数显示覆盖范围广泛,有846场比赛超过一场比赛 数据时长超过100小时的91款游戏,以及每款超过1000小时的15款游戏。
(b) 类型分布显示动作角色扮演游戏最为常见(占总时长的34.9%), 其次是平台游戏(18.4%)和动作冒险游戏(9.2%),其余 跨越多种体裁发行。
不同游戏的预训练结果
用 流量匹配GR00T架构。我们是在行为克隆预训练后进行评估。对于每个游戏,衡量3个任务的平均完成率,每个任务有5次部署。 无需进一步微调,尽管训练在噪声极大的互联网数据集上,NitroGen 能够在不同视觉风格的游戏中执行非平凡任务 (3D, 2D俯视角,2D横版卷轴)和类型(平台跳跃、动作角色扮演、类Rogue, 等等)。
应用场景
游戏开发与测试:帮助游戏开发者快速测试新游戏的玩法和机制,通过AI模拟玩家行为,提前发现潜在问题并优化游戏体验。
游戏内容创作:为游戏内容创作者提供灵感和素材,通过AI生成的游戏玩法和操作,辅助创作游戏攻略、教程或娱乐视频。
玩家辅助与训练:作为玩家的辅助工具,提供操作建议或示范,帮助玩家提升游戏技巧,尤其适合新手玩家快速上手复杂游戏。
游戏研究与分析:用于游戏行为学研究,分析玩家在不同游戏中的操作模式和决策过程,为游戏设计和用户体验研究提供数据支持。
跨游戏泛化研究:作为研究通用人工智能和跨游戏泛化能力的平台,推动AI在不同游戏环境中的适应性和泛化能力研究。
项目官网:https://nitrogen.minedojo.org/
GitHub:https://github.com/MineDojo/NitroGen
01月06日
超强搜索智能体模型MiroThinker 1.5 开源,提出独特的慢思考机制!
2026年初,MiroMind团队开源了其最新力作:MiroThinker 1.5!
标志着AI搜索技术从简单的聊天机器人向深度研究智能体的重大转型,这一模型以其独特的慢思考机制,在AI搜索领域开创了全新范式。
与传统的秒回型AI不同,MiroThinker 1.5专门针对复杂商业决策、学术难题和深度调研任务而设计。
它通过系统性的研究流程,确保输出结果的准确性和可靠性,为用户提供带有完整引用、数据和逻辑链条的深度研报。
功能特点
深度研究能力
MiroThinker 1.5支持256K上下文窗口,具备长时域推理和深度多步骤分析能力。每个任务最多可处理400次工具调用,能够打开数十个网页,阅读数万字的PDF文档,并进行系统性的信息梳理。
智能工作流程
模型采用严谨的六步研究法:
问题背景拆解与分析
主动全网信息搜集
优先查阅权威机构来源
多源资料阅读比对
信息交叉验证
系统性结论输出
卓越性能表现
在权威测试中,MiroThinker 1.5展现出令人瞩目的性能:
30B参数版本在深度任务上超越GPT-5-High模型
235B参数版本跻身行业第一梯队
在BrowseComp、BrowseComp-ZH等测试中创造世界领先记录
案例展示
以真实的医疗咨询场景为例,当用户询问“纺织厂工作十几年导致手指麻木”的问题时,MiroThinker 1.5展现了其强大的研究能力。
研究过程深度解析
模型首先提取关键要素进行初步搜索,随后通过15次以上的渐进式精准搜索,逐步深入问题核心。从“纺织厂手指麻木职业病”到具体的医学诊断标准,模型不断优化搜索策略,确保信息的全面性和准确性。
专业成果输出
最终生成的研报包含完整的病因分析、诊断标准和阶梯治疗方案,引用最新的职业病防治法规和医学诊断标准,展现出专业级的研究深度。
应用场景
商业决策支持
在企业战略分析、市场调研、投资决策等商业场景中,能够提供深度、可信的研究报告,支持复杂决策。
专业咨询服务
在医疗、法律、金融等专业领域,能够协助专业人士进行案例研究、法规解读和方案制定。
学术研究领域
适用于文献综述、学术论文写作、研究数据分析等场景,为研究人员提供全面可靠的资料支持。
MiroThinker 1.5的出现不仅代表了技术上的突破,更重要的是它重新定义了AI在知识工作中的角色:从简单的信息提供者转变为真正的研究合作伙伴。
在追求快速响应的AI时代,MiroMind团队用慢但严谨的理念,为AI的发展方向提供了重要的思考。
体验地址:https://dr.miromind.ai/ GitHub:https://github.com/MiroMindAI/MiroThinker
让数字人对话流畅如真人!开源项目SoulX-LiveTalk:生成逼真的面部表情和唇部动作的数字人!
SoulX-LiveTalk是由Soul AI Lab团队开源的一款数字人生成项目。
这个框架的核心突破在于,它能够让虚拟形象根据音频输入实时生成逼真的面部表情和唇部动作,而且启动速度极快,仅需0.87秒就能开始工作。
与传统数字人技术相比,SoulX-LiveTalk的训练效率提升了23倍,这意味着它能够更快地学习并生成高质量的内容。该系统基于140亿参数的扩散Transformer模型,专门为解决实时流媒体应用中的延迟问题而设计。
功能特点
智能学习机制
SoulX-LiveTalk采用独特的"双向蒸馏"技术,让模型能够同时考虑前后文信息,而不是像传统模型那样只能单向思考。这种设计使得生成的动作更加连贯自然,有效避免了画面卡顿或失真。
实时性能表现
该系统能够以32帧/秒的速度生成视频,完全满足实时对话的需求。无论是在短时间对话还是长达数小时的连续交流中,都能保持稳定的性能表现。
自我修正能力
SoulX-LiveTalk具备智能的错误修正功能,能够在长时间运行中自动检测并纠正累积的误差,确保生成的画面始终清晰稳定。
在专业测试中,SoulX-LiveTalk在多个指标上都表现出色。特别是在唇音同步精度方面,其得分达到1.47,远超其他同类产品。
在实际使用中,SoulX-LiveTalk能够准确捕捉细微的面部表情变化。例如,在说中文时,它能精确模拟"上"、"突"等复杂发音的嘴型变化,让数字人的表达更加自然逼真。
即使在连续运行1000秒的极端测试条件下,系统仍能保持画面质量稳定,不会出现背景模糊或面部变形等问题。
项目官网:https://soul-ailab.github.io/soulx-livetalk/
GitHub:https://github.com/Soul-AILab/SoulX-FlashTalk
01月05日
开源AI智能体TuriX-CUA :实现真正意义上的AI替你完成电脑操作!
TuriX-CUA(Computer Use Agent)是一个基于Python开发的开源AI智能体项目,其核心目标是让大型语言模型能够直接观察和操作计算机桌面,实现真正意义上的AI替你完成电脑操作。
该项目采用创新的多模型架构,在测试集中取得了超过80%的通过率,展现了强大的实用价值。
功能特点
智能感知与决策系统
TuriX-CUA采用独特的看-想-动工作流程:通过定期屏幕截图获取视觉信息,利用多模态大模型分析当前界面状态,最终执行精准的鼠标键盘操作。
与传统自动化工具相比,该智能体具备情境感知能力,能够智能处理弹窗、等待加载等动态变化。
多模型协作架构
项目引入规划师(Planner)与执行者(Executor)分离的设计模式。规划师负责任务分解和步骤规划,执行者专注于具体操作执行,这种脑手分离的设计显著降低了误操作概率,提高了任务执行的可靠性。
全面跨平台支持
从最初的macOS专用扩展到现在的Windows/macOS双平台支持,TuriX-CUA确保了更广泛的应用覆盖。用户只需切换相应分支即可在不同操作系统上运行智能体。
MCP协议集成
支持模型控制协议(MCP),可与Claude for Desktop、Cursor等开发工具深度集成,实现更复杂的自动化工作流程和任务协作。
应用场景
办公自动化
TuriX-CUA能够自动完成文档创建、数据整理、邮件处理等日常办公任务。例如,可以根据指令自动搜索信息并生成报告,大幅提升工作效率。
跨应用数据协作
智能体擅长在不同软件间协调工作,如从Discord聊天记录中提取数据,自动生成图表并插入PowerPoint演示文稿,实现真正的无缝工作流。
商务事务处理
支持机票酒店预订、网约车叫车、价格比较等商务操作,能够模拟人类完成完整的在线交易流程。
内容创作与营销
可自动执行视频搜索、内容点赞、信息收集等社交媒体操作,为内容创作者和营销人员节省大量时间。
个性化助手服务
结合本地模型部署,TuriX-CUA能够作为个人数字助手,根据用户习惯完成各种定制化电脑操作任务。
TuriX-CUA完全开源免费,支持研究和个人使用,通过简单的配置即可快速上手。用户可以选择使用官方API或自行部署本地模型,灵活满足不同场景的需求。
GitHub:https://github.com/TurixAI/TuriX-CUA
智谱AI开源角色动画生成框架SCAIL,支持复杂运动与多人互动!
SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI开源的面向影视级标准的角色动画生成框架。
有效的解决了复杂动作场景下角色动画的时空一致性问题,实现高保真度的角色动画生成。
SCAIL在单人运动上达到SOTA效果,能生成多人复杂交互动画,为影视制作、游戏开发等领域提供强大的动画生成能力。
功能特点
高保真动画生成:能够将参考视频中的动作精准迁移至目标角色,保持动作的自然流畅性和细节完整性。
复杂动作支持:成功攻克转身、转圈、空翻等高难度动作的迁移挑战,确保肢体结构在运动过程中保持合理。
多人交互处理:支持多人同框互动场景,准确识别并处理多个角色之间的相对位置和动作协调。
比例自适应:具备骨骼长度弹性适配能力,可在不同体型角色间实现动作迁移而不失真。
技术原理
3D一致性姿态表征
SCAIL用3D关节点估计,将人体骨骼结构在3D空间中建模为柱体骨骼。这种表征方式显式地编码深度信息和遮挡关系,使模型能区分肢体的前后空间位置。
相比传统的2D关键点方法,在复杂动作(如空翻、街舞)和多人交互场景中保持结构完整性和运动合理性,避免肢体结构崩坏或违反物理规律。
全上下文姿态注入
在Diffusion-Transformer(DiT)架构中,SCAIL引入全上下文姿态注入机制。通过姿态偏移旋转位置编码(Pose-Shifted RoPE),模型能对整个动作序列进行时空推理。
这种机制使模型在生成每一帧时都能理解动作的全局上下文,生成连贯、自然的动画效果,显著提升动画的时空一致性。
效果展示
在实际测试中,SCAIL表现出色:
真人动作到Q版角色的迁移中,模型完美保持转身、蹲起等复杂动作,同时不拉长卡通角色比例。
即使在大幅度镜头变化和衣物遮挡的情况下,人物细节保持良好。
在五人同框的街舞互动场景中,模型准确处理了快速连续动作和站位重叠。
需要注意的是,当多人物交互中发生位置交换时,仍有较小概率出现参考丢失情况,但整体稳定性显著优于前代技术。
应用场景
影视动画制作:赋能影视特效与动画电影,高效生成包含空翻、打斗等复杂动作的高质量角色动画,显著降低制作成本与周期。
游戏内容开发:为游戏角色注入逼真动画,支持多人交互与复杂动作,大幅提升游戏的沉浸感与视觉表现力。
虚拟主播与形象:仅凭一张照片即可驱动生成流畅自然的动作,快速打造生动的虚拟主播或数字人,增强实时互动表现。
广告与营销创意:快速创造个性化、抓人眼球的动画内容,助力品牌宣传与产品推广,打造新颖的视觉体验。
教育与技能培训:用于生成清晰的教学演示动画,辅助体育动作、舞蹈编排等复杂技能的教学,使学习过程更直观易懂。
GitHub:https://github.com/zai-org/SCAIL
项目官网:https://teal024.github.io/SCAIL/
01月04日
文本生成人体3D动作!腾讯混元开源HY-Motion 1.0:生成高保真、流畅多样的3D角色骨骼动画!
近日,腾讯混元大模型团队正式开源了其全新的文本到3D动作生成大模型HY-Motion 1.0。
仅需一句自然语言描述,能生成高保真、流畅多样的 3D 角色骨骼动画。
HY-Motion 1.0的核心突破在于其能够深度理解自然语言描述中的动作语义、情感色彩与场景上下文。
模型能够从丰富的文本描述中,解析出动作的主体、姿态、速度、力度、情感状态,甚至是多人互动的复杂序列,并生成与之高度匹配、物理合理且富有表现力的3D骨骼动画数据。
这大大降低了对专业描述词的要求,使创作者、游戏开发者、影视制作人甚至普通用户都能成为3D动作的导演。
主要功能
文本驱动动作生成:通过自然语言描述直接生成高质量的3D骨骼动画,实现从文本到动作的高效转化。
多样化动作覆盖:涵盖6大类超200种动作,包括基础位移、体育竞技、社交休闲、游戏角色动作等,满足多种场景需求。
高质量动作输出:支持SMPL-H骨骼格式,生成的动画流畅自然,动作细节丰富,适用于高要求的动画制作。
主流工具兼容:直接兼容Blender、Unity、Unreal Engine等主流3D工具,方便用户快速集成和使用。
灵活的输出选项:支持原子动作、组合序列及并发动作生成,满足不同复杂度的动画需求。
开源与易用性:提供完整的推理代码、预训练模型权重和详细文档,支持多种操作系统,易于上手。
技术原理
核心架构:基于 Diffusion Transformer(DiT)架构,结合流匹配机制,高效实现文本到高质量 3D 骨骼动画的转化。
三阶段训练:超 3000 小时多样数据预训练→400 小时优质数据微调→强化学习结合人类反馈与奖励模型优化,保障动作自然精准。
关键技术:流匹配捕捉动作连续性,多模态融合实现文本与动作特征联动,强化学习持续提升生成质量与指令依从性。
应用场景
影视动画制作:一键生成角色动作,大幅压缩制作周期与成本,高效提升创作产能。
游戏开发:快速产出多样化角色动作库,适配不同游戏场景需求,显著增强玩家沉浸体验。
虚拟主播与数字人:生成自然流畅的肢体动作,让虚拟形象互动更逼真,感染力拉满。
教育与培训:轻松制作教学动画,精准模拟复杂动作流程,助力知识点高效传递。
广告与营销:定制个性化动画广告,快速抓住观众眼球,有效提升品牌营销转化效果。
VR/AR 应用:实时生成逼真动作,强化虚拟与现实的交互感,打造沉浸式体验新高度。
项目官网:https://hunyuan.tencent.com/motion
GitHub:https://github.com/Tencent-Hunyuan/HY-Motion-1.0
阿里开源文生图模型Qwen-Image-2512,综合表现超越Z-Image!
阿里巴巴推出了Qwen-Image-2512文生图模型,这一新版本相比去年8月发布的Qwen-Image实现了质的飞跃。
根据2026年1月1日的最新文生图模型竞技场排名显示,Qwen-Image-2512在开源模型中位列第一,得分几乎是前代产品的两倍,并成功超越了同门的Z-Image模型。
性能提升
Qwen-Image-2512主要在三个方面实现了显著提升:
更真实的人物质感:新模型大幅降低了生成图片的AI感,使人物图像更加自然真实。无论是肤色、表情还是细节处理,都更加接近真实摄影效果。
更细腻的自然纹理:在风景构图和动物毛发等自然元素的呈现上,Qwen-Image-2512表现出更高的细腻度,能够准确捕捉细微的纹理变化。
更复杂的文字渲染:这一版本大幅提升了文字渲染的质量,图文混合排版更加准确,为海报设计等应用场景提供了强大支持。
实测对比
Qwen-Image-2512 vs Z-Image
在实际测试中,两个模型展现出了各自的特色优势。
在人物生成方面,Z-Image在人物真实性上略胜一筹,而Qwen-Image-2512的50步版本也能达到不错的效果。值得注意的是,Qwen-Image-2512的4步和8步版本在人物生成上效果较差,存在明显的塑料感和网格问题。
在自然场景渲染方面,Z-Image生成的效果更加真实,而Qwen-Image-2512则带有一定的"景观滤镜"效果,视觉冲击力更强,特别是在河流、峡谷等自然风光的表现上。
文字渲染能力是Qwen-Image-2512的明显优势。在复杂的图文排版任务中,Qwen-Image-2512能够准确理解并呈现文字内容,而Z-Image则出现了较多错误。
Qwen-Image-2512的开源发布标志着阿里在文生图领域的技术实力再上新台阶,为开发者和内容创作者提供了更加强大的工具选择。随着模型的进一步优化和生态建设,预计将在更多应用场景中发挥重要作用。