AI开源项目图文
2025年更新
12月30日
全球首款全身力控小尺寸人形机器人「上纬启元 Q1」正式亮相!
科技圈又出了个让人眼前一亮的新东西?
12月31日,稚晖君团队研发的全球首款全身力控小尺寸人形机器人「上纬启元 Q1」正式亮相,别看它只有一个书包大小,却集齐大动作、大智慧、大可玩性三大亮点,它不只是科技产品,更是你的专属科技伙伴,小体型大有可为,实力超亮眼!
接下来咱们就聊聊它到底厉害在什么地方~
核心创新
首先是它最核心的创新,直接攻克了高性能人形机器人关节微型化难题!
传统机器人的QDD准直驱关节,精密难缩小,启元Q1从材料、结构、算法全维度突破,把核心关节做到比鸡蛋还小,完美保留全尺寸力控和高响应,成为全球首款全身力控小尺寸人形机器人。
而且它不是为了做小而做小,而是精准戳中痛点:
尺寸减半,体积直接缩到1/8,重量差不多缩小到1/8,而这给机器人叠上了一层天然耐摔耐炸的buff:跌落之后可轻巧弹起无损伤;还大幅降低具身智能研发试错成本,
凭借Sim2Real 的Gap减小这一优势,启元Q1在仿真训练的动作也能无缝迁移到真实场景,让科研与开发实现高效迭代!
三大核心场景
讲完启元 Q1 的硬核创新,大家肯定好奇:它到底能用到哪些地方?
别急,接下来就带大家解锁核心场景,把个人机器人的多元价值拉满!
科研教育
启元Q1堪称毕业级科研神器!
体型小巧,不用额外搞桁架保护**,直接塞双肩包就能拎着走,真正实现把实验室揣包里出门**~
全量 SDK、HDK 接口全开放,想接啥扩展模块都能接,还耐摔、不容易损耗,完全不用担心炸机翻车,太省心了!低成本就能快速迭代算法,研发效率直接翻倍拉满!
以前的大型人形机器人都得固定场景用,特别受限,而它又便携又开放,直接把个人科研的场景空白给补上咯!
硬核潮玩 + 随心创作
启元Q1的外观结构件完全开源,你可以3D打印外壳,定制专属IP形象。机甲风、动漫 IP、复古机器人各种风格随便切换~
更有趣的是,Q1完全支持灵创平台创作。无需编程基础即可通过可视化操作,为机器人编排动作、定制语语音表情与行为逻辑,整个过程就像搭积木一样简单!
沉浸式智能陪伴
启元Q1直接打破传统智能终端的交互边界,以拟人化模样成为超有温度的智能伙伴!
依托智元灵心平台的强大AI功能,不管是自然对话、答疑解惑还是沉浸式口语训练它都能实现~
更厉害的是启元Q1靠柔性阻抗控制技术实现温柔交互,不管是陪娃学习、解答十万个为什么,还是同步教舞蹈动作,反馈都精准又有耐心。
这种长得像人、又懂你需求的交互模式,让智能终端从冰冷工具升级成贴心伙伴,家庭陪伴、个人学习等日常场景都能完美适配!
这就是 Q1:一款集大动作、大智慧、大可玩性于一体的小尺寸人形机器人!
它不光是技术创新的硬核结晶,更直接打开了个人机器人的全新想象空间。往后随着用户共创生态愈发完善,启元 Q1 还能在更多细分场景解锁新功能,更多好玩又新奇的玩法,等你去探索~
开源OCR新突破!Chandra:在手写体与复杂版面识别能力卓越!
Chandra是一个专注于高精度文档版面解析与结构化识别的开源OCR工具。
它不仅支持印刷文字识别,还能准确提取手写笔迹,并完整重建表格、表单、复选框、数学公式以及多栏布局等复杂元素。
该项目在GitHub上已获得4.1k+星标,采用Apache-2.0开源协议,支持40多种语言,适用于批量文档解析、智能表单提取、多语言OCR等实际应用场景。
功能特点
Chandra最引人注目的能力在于其对手写体文字的高精度识别。
复杂表格与表单还原
在处理如政府申报表等结构化文档时,Chandra能够精准识别表格线条、填写内容及勾选状态,**甚至对手写日期、签名等元素也能完整保留其逻辑结构。**例如,一张竞选捐款申报表中的姓名、地址、日期等字段均被准确提取,体现出强大的版面理解能力。
手写体识别
在一张手写英文医疗证明中,即便笔迹连笔严重、书写不规范,Chandra仍能准确输出如“Name of Patient: Age: Sex Address: Date: 8-8-24 RX…”等关键信息。这一特性使其特别适合用于历史档案、手写笔记或老旧文件的数字化工作。
数学公式与科学文献识别
Chandra对数学符号、公式排版具备良好支持。在技术论文或教材摘录中,模型可准确识别并还原如层归一化公式(LayerNorm (x+Sublayer(x)))、维度标识(dmodel=512)等复杂数学表达式,极大方便了学术资源的数字化处理。
多栏版面与艺术字体适应
面对报纸等复杂版面,Chandra能够有效区分多栏文本、图片标题与正文内容,甚至对风格独特的艺术字体(如《纽约时报》报头)也能准确识别。这说明其在布局分析与字体适应性方面具有较强鲁棒性。
性能对比与评测依据
根据官方发布的基准测试结果,Chandra在多项指标上表现优异,尤其在“手写体”(80.3)、“表格”(88.0)和“旧扫描文档”(50.4)等场景中显著优于部分主流模型。
在开源 OCR 领域,没有绝对的最佳模型,但 Chandra 凭借手写体识别的突破性表现,无疑为有相关需求的用户提供了更优选择。
GitHub:https://github.com/datalab-to/chandra
12月29日
开源修图Agent!JarvisEvo:一句话搞定专业修图, 让 AI 像设计师一样 "边看边改还会自学"!
腾讯混元与厦门大学联合推出的智能修图 Agent:JarvisEvo,凭借一句话精准调用 200 + 专业修图工具的强大能力,彻底打破了传统 AI 修图的局限。
它不仅能像人类专家一样 "观察 - 操作 - 反思",更实现了无需外部干预的自我进化,让专业级修图体验变得简单可控。
三大核心技术
iMCoT:AI 修图能边看边调
不像传统 AI 瞎修,JarvisEvo 修图一步一看:先想思路,动手调整,看效果再决定下一步,跟人修图一样精准,不跑偏。
SEPO:自己修图自己打分,越练越厉害
JarvisEvo 又当修图的又当评图的:修图的靠自己打分进步,不耍滑;评图的照着人类审美校准,不自我欺骗,俩角色配合着越变越靠谱。
On-Policy Reflection:会从错误里学经验
JarvisEvo 会对比好坏修图结果,请 “专业导师” 分析错因和改法,记下来教训,之后处理复杂需求更不容易出错。
模拟人类专家:闭环修图工作流
JarvisEvo的工作流模拟了资深设计师的“观察-操作-检查”模式,
包含四个核心步骤:
视觉感知与规划:分析原图与用户指令,生成初始修图思路。
多步工具执行:在工具沙盒(如Adobe Lightroom)中交替调用工具并观察视觉反馈,实时调整参数。
自我评估:对最终图像的美学质量和指令符合度进行打分。
自我反思:若结果不理想,触发反思机制,识别偏差并修正。
这一过程通过iMCoT实现“生成假设→执行工具→观察结果→反思决策”的循环,确保每一步操作精准落地。
性能表现
在ArtEdit-Bench评测中,JarvisEvo展现出全面优势:
细节保真度:L1/L2误差较商业模型Nano-Banana降低44.96%,最大限度保留原图细节。
语义一致性(SC)与感知质量(PQ):SC提升至8.53,PQ达9.03,平均优于基线18.95%。
人类对齐:在200样本的盲测中,JarvisEvo胜率达49%,远超Nano-Banana(28%);其自我打分与人类专家的相关性(SRCC 0.7243)超越GPT-4o和Gemini-2.5-Flash。
视觉效果上,JarvisEvo在风格营造、细节处理等方面更贴合指令。
从盲修到边看边修,从被动执行到主动进化,JarvisEvo 重新定义了智能修图的边界,也为通用人工智能的发展提供了极具价值的实践路径。
对于普通用户而言,专业级修图不再需要复杂操作;对于 AI 领域而言,这更是一次关于自我进化智能体的成功探索。
项目主页:https://jarvisevo.vercel.app/
Github :https://github.com/LYL1015/JarvisEvo
开源AI多镜头长视频生成模型StoryMem:保持人物高度连贯且具备电影级视觉质量!
StoryMem是由Kaiwen Zhang等人开发的多镜头长视频叙事生成项目。
只需输入包含分镜头文本描述的故事脚本,它就能在分钟级内生成人物高度连贯、具备电影级视觉质量的多镜头叙事视频,让视频创作变得高效又省心。
核心功能
StoryMem 的功能设计围绕 “多镜头视频生成的连贯性与易用性” 展开,
无论是专业创作者还是新手,都能轻松上手:
文本驱动端到端生成
支持输入结构化故事脚本,其中包含分镜头文本描述和场景切换标识,无需手动调整镜头衔接,就能自动完成从文本到多镜头视频的转化,省去繁琐操作。
记忆库保障连贯性
内置 “记忆库” 机制,每生成一个镜头,都会自动提取关键帧并更新记忆。后续镜头生成时,会调用历史记忆,让人物外貌、服装、场景细节等始终保持一致,比如 “王子的蓝色礼服”“城堡的哥特式风格” 在全片不会出现偏差。
多模式适配不同场景
提供四种生成模式,满足多样化需求。T2V 模式负责生成第一个镜头作为初始记忆;M2V 模式纯记忆驱动,生成后续镜头;MI2V 模式结合记忆与首帧图像,适合无场景切换的镜头衔接;MM2V 模式则叠加记忆与前 5 帧运动帧,让动态画面更连贯。
自动化流程简化操作
自带关键帧提取、生成流水线等脚本,用户只需运行bash run_example.sh示例命令,就能自动完成 “初始镜头生成→后续镜头逐帧生成→记忆更新→最终视频输出” 全流程,无需手动干预中间步骤,大大降低操作门槛
应用场景
StoryMem 的核心价值在于降低多镜头叙事视频的生成门槛,目前已广泛适配五大场景:
广告与营销内容生成:品牌可基于产品故事脚本,生成多镜头广告视频,确保 LOGO、产品外观等品牌视觉形象在全片统一,有效降低广告制作成本。
教育与科普内容可视化:将知识点转化为故事化脚本,比如地球公转的分镜头描述,生成多镜头科普视频,通过连贯画面提升学生理解效率,尤其适合儿童教育领域。
独立动画 / 短视频创作:独立创作者和小团队无需专业动画工具,只需编写分镜头文本脚本,就能生成连贯的动画短片,比如儿童童话视频、奇幻故事短片,大幅缩短制作周期。
影视前期创意预览:影视团队在剧本阶段,可快速用 StoryMem 生成 多镜头预览视频,直观呈现剧情走向、镜头构图和场景设计,辅助调整剧本或拍摄方案。
游戏剧情动画生成:独立游戏开发者可基于游戏剧情脚本,生成剧情过场动画,无需投入大量人力制作逐帧动画,显著降低游戏开发的美术成本。
GitHub:https://github.com/Kevin-thu/StoryMem
项目官网:https://kevin-thu.github.io/StoryMem/
12月26日
开源AI虚拟人生成项目!FlashPortrait:人物照片 + 参考视频,一键生成对应动作视频!
FlashPortrait是由复旦大学、微软亚洲研究院、西安交通大学、腾讯和阿里巴巴通义实验室联合研发并开源的AI人像动画生成模型。
这一创新方案成功解决了当前AI人像动画领域的两大核心难题:生成速度慢和视频长度受限。通过端到端的视频扩散Transformer架构,该技术能够将静态照片转化为保持身份高度一致的长时间动态视频,为数字人领域带来重大突破。
功能特点
稳定的面部表情生成
该模块通过分布对齐技术,将面部特征与图像特征的潜在表示进行归一化处理,确保两者在融合时分布一致。这一设计好比找到了通用语言,从根本上解决了身份漂移问题,使模型在长序列中稳定保持人物ID。
视频片段无缝衔接
针对无限长视频生成,FlashPortrait采用加权滑动窗口策略,在重叠区域进行线性权重融合。这种羽化过渡方式确保了视频片段之间的无缝衔接,提升了时间维度上的流畅性。
自适应潜在预测加速
这是实现6倍加速的关键。模型利用泰勒展开思想预测未来潜在状态,并通过动态函数s(t)和w(t, l, i)自适应调整预测精度。
当面部表情变化剧烈时,函数自动调高补偿;变化平缓时则抑制过度放大,从而在保证质量的前提下大幅跳步。
实验效果与对比
在Voxceleb2&Vfhq(平均10秒)和Hard100(平均1分钟)数据集上的测试表明,FlashPortrait在多项指标上全面领先。特别是在高难度Hard100数据集上,其身份保持度指标(如LMD、AED)显著优于其他模型。
在速度方面,生成20秒视频时,FlashPortrait仅需720秒,而同类模型如Wan-Animate需2298秒,FantasyPortrait更是高达4339秒。定性对比显示,FlashPortrait在生成超过3000帧后仍能保持面部细节和身份一致性,而其他模型则出现颜色漂移或表情失控。
此外,FlashPortrait展现出优秀的泛化能力,不仅能处理半身人像,还对全身和卡通风格动画具有良好适应性。
应用场景
虚拟人与数字员工:为企业提供自然、连贯的虚拟形象生成方案,提升用户体验。
影视制作与娱乐产业:大幅降低特效制作成本,实现高效的角色动画生成。
在线教育与会议:创建生动的虚拟教师或会议助手,增强互动体验。
社交娱乐应用:为用户提供个性化头像动画生成服务,丰富社交表达形式。
FlashPortrait通过归一化面部表情模块、加权滑动窗口和自适应潜在预测加速三大创新,实现了人像动画技术在速度、质量和长度上的突破。
该项目已开源相关代码和模型,感兴趣的朋友可以点击下方链接查看~
GitHub:https://github.com/Francis-Rings/FlashPortrait
项目官网:https://francis-rings.github.io/FlashPortrait/
蚂蚁开源信息图可视化引擎Infographic!让AI理解文本,生成完整、具有故事线的信息图!
蚂蚁集团旗下的可视化团队 AntV 正式开源了——Infographic项目。
它是一个强大的信息图生成与渲染框架,其核心理念是“Bring Words to Life with AI!”(借助AI,让文字焕发生机)。它不仅仅是一个图表库,而是一个完整的、组件化的信息图解决方案。
项目采用声明式的语法和统一的组件架构,允许开发者、数据分析师乃至AI系统,通过简洁的JSON配置,将结构化的数据快速渲染成高质量、可定制的信息图表。
核心功能亮点
开箱即用,分钟级搭建
丰富的模板库:项目内置了超过100个精心设计的预制模板,覆盖了列表、流程、时间线、对比等多种常见的信息图场景。用户只需指定模板名称并注入数据,即可在几分钟内生成专业级别的信息图。
深度可定制与主题化
多样化主题:除了默认的简洁风格,Infographic 支持多种预设主题,如手绘风格(Rough),为信息图增添趣味性和亲和力。同时还支持渐变、图案等高级视觉效果。
灵活的样式配置:用户可以通过 themeConfig对颜色、字体、间距等视觉元素进行深度定制,轻松匹配品牌风格。
AI 友好与声明式配置
声明式语法:Infographic 的配置基于清晰、结构化的 JSON Schema。这种格式不仅对人类友好,更易于被AI模型理解和生成。这使其成为AI驱动应用的理想后端渲染引擎,大语言模型(LLM)可以轻松地输出符合规范的JSON配置,进而生成可视化的信息图。
内置编辑器:项目提供了一个内置的可视化编辑器,特别适合与AI结合使用。当AI生成初步的信息图后,用户可以通过编辑器进行进一步的微调、定制和美化,实现“AI生成 + 人工精修”的完美工作流。
高度可组合与可扩展
组件化架构:信息图的结构(布局)、数据项(如列表项)和渲染单元(如图标、文字)都被彻底组件化。开发者可以像搭积木一样,灵活地扩展新的组件、布局或模板,以满足特定业务需求。
应用场景
AntV Infographic 的灵活性使其在众多场景中大有可为:
智能数据分析与报告
数据分析平台可以集成Infographic,将分析结论(如“本月销售额增长20%,主要得益于新市场拓展”)自动转换为图文并茂的摘要报告,极大提升报告生成效率和可读性。
低代码/无代码平台
在需要快速生成宣传材料、产品介绍或操作指南的平台中,用户可以通过拖拽和配置,而非编写代码,来创建专业的信息图。
教育与传媒
教师和内容创作者可以快速制作时间线、流程图、知识清单等教学材料,使复杂知识的传递更加直观高效。
企业内部系统
用于生成系统状态看板、项目进度甘特图、人员组织架构图等,提升内部信息沟通的效率。
项目主页:https://infographic.antv.vision/
GitHub:https://github.com/antvis/Infographic
12月25日
阿里开源PS级图片编辑模型,聚焦人物一致性与多场景编辑能力,内置热门LoRA模块!
近日,阿里Qwen团队正式开源了图像编辑模型Qwen-Image-Edit-2511,这是继9月发布2509版本后的重大升级。
新版本聚焦人物一致性与多场景编辑能力,内置热门LoRA模块,在图像生成与编辑任务中展现出更高的实用性和可控性。
核心突破
新版本最显著的改进在于人物一致性表达能力的提升。针对输入多张变体图像,模型在眼神、发型、配饰等细节上的保留更加稳定,适用于多表情、多姿态、多风格等需要角色连贯输出的场景。
在多人图像融合方面,2511版本实现了质的飞跃。
相比此前版本,它可以更自然地将两张不同人像合成为同一张合影图像,在保留人物原貌的同时自动调整姿态与构图。这一能力为AI情侣照、群像图等应用提供了更高质量的基础解决方案。
功能特点
光照控制
Qwen-Image-Edit-2511内置的LoRA模块支持自然光线的角度、强度与方向精确调控,能够生成具有真实光影层次的画面效果。
在实际测试中,模型可成功实现柔光重新照明,侧光层次自然,整体光线控制稳定。
精准内容替换
Qwen-Image-Edit-2511具备极高的目标定位精度和风格适配能力。无论是替换人物服饰、场景元素,还是修改文字内容、产品外观,模型都能精准识别指令中的目标对象,结合图像的整体风格进行替换生成。
相较于传统AI编辑工具常出现的替换区域边缘模糊、生成内容与场景脱节等问题,该模型通过优化的生成对抗网络,实现了替换区域与原图像的无缝融合,边缘过渡自然,风格高度统一。
新视角生成
允许用户以同一主体为基准生成不同拍摄角度下的图像,这为产品展示和场景重建提供了便利,显著减少了重复拍摄与人工调整的成本。
文字渲染与风格融合
Qwen-image-edit-2511 增强字符一致性在Qwen-Image-Edit-2511中,字符一致性得到了显著提升。模特可以根据输入肖像进行想象性编辑,同时保持主体的身份和视觉特征。
增强几何推理
Qwen-Image-Edit-2511引入了更强的几何推理能力。
例如,直接生成辅助构造线用于设计或注释目的:
实用性
Qwen-Image-Edit-2511在人物一致性、多人物合成与LoRA风格控制方面展现出稳定表现,实用性相比前一版本有明显进步。
对于需要连贯角色形象输出、控制局部风格迁移、进行材质替换等图像生成任务的用户来说,它已经具备相当的落地能力。随着后续版本的持续优化,Qwen-Image系列有望在更广泛的商业场景中发挥价值。
开源地址:https://huggingface.co/Qwen/Qwen-Image-Edit-2511
12月24日
开源神器PasteMD:一键将Markdown或AI网页内容转换为Office原生格式!
在日常工作中,越来越多的人借助DeepSeek、ChatGPT等AI工具生成内容,
但将这些内容复制到Office文档时,常常面临格式错乱、公式显示异常等问题。
现在,开源项目PasteMD的出现,让这些烦恼成为过去。
PasteMD是一款轻量级的系统托盘工具,其核心功能是通过监听剪贴板,利用Pandoc引擎将Markdown或HTML富文本一键转换为Word/WPS/Excel原生格式,并自动插入到光标位置。
该工具支持主流AI对话平台,无需复杂配置即可上手使用。
功能特点
智能格式转换
PasteMD能够将Markdown格式的标题、列表、代码块、图片等元素完美转换为Word/WPS原生格式,准确还原层级结构与样式。
表格与公式处理
工具可自动识别Markdown表格并粘贴到Excel,保留粗体、斜体等数据格式。针对数学公式,用户可选择保留LaTeX代码或转换为可编辑格式,有效解决公式乱码问题。
网页内容适配
支持HTML富文本转换,网页版AI对话内容复制后可直接粘贴到Office正常显示,极大提升了内容迁移效率。
兼容性表现
PasteMD对主流AI平台均有良好支持:
DeepSeek:完美支持含公式的Markdown和网页内容
Kimi:基本完美支持,仅含公式的网页内容中公式无法显示
ChatGPT:公式可能显示为代码,需手动用公式编辑器处理
豆包:需在浏览器中开启“允许读取剪贴板”权限
应用场景
学术论文写作
研究人员使用AI助手生成文献综述或实验数据分析后,通过PasteMD可直接将包含复杂公式的数学推导完整转移到Word文档中,保持公式格式的准确性,大大节省调整时间。
技术文档编写
软件开发人员复制AI生成的代码示例和技术方案时,PasteMD能完美保留代码块的缩进和高亮格式,避免手动重新排版的麻烦。
商业报告制作
市场分析师将AI生成的数据分析和图表描述粘贴到Excel和PPT时,工具能自动保持表格结构和数据格式的完整性,确保报告的专业性。
日常办公文档
普通办公人员在与AI对话获取内容后,只需简单热键操作即可将整理好的内容直接插入文档,无需担心格式错乱问题。
PasteMD精准抓住了AI内容创作中的痛点,通过巧妙的技术方案解决了格式粘贴难题。对于需要频繁从AI工具复制内容的技术文档编写者、论文作者和报表制作人员来说,这一工具能显著提升工作效率,避免重复的手动格式调整。
GitHub:https://github.com/RICHQAQ/PasteMD
12月22日
AI一键图像分层 + 多对象拆解!阿里开源qwen-image-layered:实现PS级分层编辑功能!
对于设计师、内容创作者而言,图像分层编辑向来是刚需却又繁琐的工作:
用PS手动抠图、拆分图层,往往要耗费大量时间反复调整。
而现在,阿里开源了Qwen-Image-Layered模型!
能够一键将图像分层+多对象拆解,实现类似Photoshop的分层编辑功能。
功能特点
Qwen-Image-Layered具备强大的图像分解与编辑能力,主要体现在以下五个方面:
图层分解
模型可将输入图像中的各个语义或结构组件物理隔离到不同层中,每个层都可以独立操作而不影响其他内容。
这种分层表示解锁了固有的可编辑性,支持高保真的基本操作如重定位和重排序。
重上色功能
用户可对分解后的特定图层对象进行颜色调整,实现局部区域的精准色彩控制。
对象替换
支持将图像中的特定元素替换为其他内容,保持整体画面协调性。
文本修改
能够对图像中的文本内容进行识别和修改,为海报、设计图等应用场景提供便利。
缩放与自由移动
分解后的图层对象可进行任意缩放和位置调整,实现元素的自由排布。
技术原理
RGBA-VAE:通过统一 RGB 和 RGBA 图像的潜在表示,为多层图像的生成和分解提供基础框架。
VLD-MMDiT 架构:采用可变层分解的 MMDiT 架构,能够灵活地将图像分解为不同数量的图层。
多阶段训练策略:结合预训练的图像生成模型,通过多阶段训练,使其适应多层图像分解任务,提升模型性能。
数据管道:从 Photoshop 文档中提取和标注多层图像,建立高质量的训练数据集,解决数据稀缺问题。
扩散模型:基于扩散模型的生成机制,逐步从噪声中重建图像的多层表示,实现高质量的图层分解。
应用场景
广告设计:快速分解图像为多个图层,方便对广告中的元素进行独立编辑,如更换背景、调整产品位置等。
影视后期:对影视画面中的角色、道具等进行分层处理,便于特效添加、颜色校正等操作。
创意设计:设计师可以轻松分解创意图像,对不同元素进行独立修改,激发更多创意灵感。
图像修复:将图像分解后,可单独修复受损图层,而不影响其他部分,提高修复效率。
教育演示:在教学中,将复杂图像分解为简单图层,帮助学生更好地理解图像构成和编辑原理。
作为阿里Qwen系列的重要成员,Qwen-Image-Layered延续了开源、普惠的特点,目前已在GitHub等平台开放代码和模型权重,开发者和创作者可以免费下载使用、二次开发。
Github :https://github.com/QwenLM/Qwen-Image-Layered
12月20日
人人都是AI手机玩家!开源的移动GUI智能体OMG-Agent:让AI操作手机触手可及!
近日,基于AutoGLM和GELab-Zero等GUI模型构建的GUI Agent**:OMG-Agent正式开源。**
该项目全称为Open-sourced Mobile GUI Agent,团队更亲切地称其为“Oh My God Agent”,旨在让用户直观体验AI在手机上的自动化操作能力。
背景与动机
随着智谱AI开源的AutoGLM和阶跃星辰的GELab-Zero等多模态模型出现,AI已能理解手机界面并完成点击、滑动等操作。
但这些模型多需通过命令行交互,要求用户配置Python环境、安装依赖库并连接ADB工具,流程繁琐。
OMG-Agent应运而生,通过图形化界面降低使用门槛,让用户无需深入技术细节即可快速上手。
功能特点与使用
OMG-Agent通过ADB(Android Debug Bridge)与手机通信,支持真实设备和模拟器。
其核心是集成开源GUI模型的能力,将用户指令转化为具体操作,例如自动发送微信消息、浏览淘宝商品等。
用户可通过两种方式使用:
直接运行可执行文件:提供打包好的exe文件,支持Windows/macOS,零配置启动。
代码部署:开发者可克隆项目代码,自主调试与扩展。
OMG-Agent兼容OpenAI SDK API,可灵活接入多种模型,如魔搭ModelScope平台的AutoGLM等。同时,OMG-Agent支持通过ADB连接MuMu、雷电等主流安卓模拟器,方便无真机用户测试。
技术架构
OMG-Agent 的技术架构清晰明了,分为三大核心层级:
用户界面层
基于 PyQt6 构建,包含主窗口、手机投屏、任务输入、推理过程展示、日志显示等功能模块,让操作可视化、交互更友好;
核心代理层
以 PhoneAgent 为主控制器,集成了任务执行、单步运行、核心循环、子任务推进等核心逻辑,搭配历史管理、LLM API 调用、动作执行、任务规划、格式解析等组件,确保任务流畅推进;
设备交互层
通过截屏模块、ADB 执行器、GUI 投屏功能,实现屏幕捕获、指令下发、实时画面传输等设备交互能力,兼容 OpenAI SDK API,可灵活接入各类模型。
OMG-Agent采用Apache 2.0 with Commons Clause许可证。团队强调,该项目仅供学习研究,用户需遵守法律法规及各应用平台规则,建议使用备用机和账号测试,以避免潜在风险。
开源项目:https://github.com/safphere/OMG-Agent
12月19日
AI圆你导演梦!港大开源ViMax:输入一句话就能让AI自编自导自演整部短片!
香港大学黄超教授团队近期开源了视频生成框架ViMax!
它整合了导演、编剧、制片人和视频生成器的功能,支持Idea2Video、Novel2Video、Script2Video 和 AutoCameo 等模式,通过智能分镜、多摄像机模拟和自动化一致性检测等技术,自动生成分钟级长视频并保持人物与场景一致性。
破解长视频两大核心瓶颈
当前主流文本到视频模型如Sora、Runway等在短片段生成上表现优异,但在长视频制作中面临核心挑战:
1.叙事规划的复杂度爆炸:长视频需要统筹数百个镜头的叙事逻辑,涉及角色发展、情节推进和主题呼应等多维度考量,这超出了语言模型的单轮处理极限。
2.跨镜头视觉连贯性难题:现有生成模型缺乏对前序内容的记忆能力,导致角色形象、场景风格在不同镜头间频繁变脸,严重影响观感。
而ViMax采用 “事件 - 场景 - 镜头” 三层递归分解策略,将复杂故事拆解为可执行的模块,再通过 RAG 检索增强技术构建全局知识库,确保角色性格、情节逻辑不跑偏。
三层递归规划(事件-场景-镜头):
ViMax采用递归分解策略,将剧本自上而下分解为事件层、场景层和镜头层。这种分层处理让每个层级的规划任务都保持在可控范围内,有效驯服了长视频的叙事复杂性。
RAG增强全局知识库:
集成检索增强生成技术,在剧本分解和内容生成的每个阶段,动态检索和利用背景知识库信息,有效避免角色性格前后矛盾、情节逻辑漏洞等问题。
视觉元素图网络与过渡生成:
ViMax构建了一个视觉元素依赖关系图,智能地决定哪些镜头可以并行生成,哪些需要按顺序生成。对于同一场景的多角度镜头,它创新性地引入过渡视频生成技术,先生成视角间的平滑过渡视频作为几何基准,确保不同镜头中的空间关系严格一致,彻底解决变脸和场景跳变问题。
多智能体协同
ViMax则采用分层协作设计,将视频制作分解为五个专业阶段:
剧本创作:将用户输入(一句话想法、小说或剧本片段)转化为标准影视剧本
分镜规划:运用专业电影理论设计镜头语言、摄像机运动和光影布局
视觉资产生成:采用“先图后视频”策略,确保视觉风格精准控制
质量把控:并行生成多个版本,由质检智能体筛选最优结果
统筹协调:导演智能体监控全流程,维护风格统一和任务同步
应用场
短视频制作:创作者快速将创意转化为短视频,用于社交媒体平台(如抖音、B站等)。
教育视频:将复杂的教学内容转化为生动的视频,帮助学生更好地理解和记忆。
互动视频:通过 AutoCameo 功能,用户将自己的形象融入视频,增加互动性和趣味性。
小说可视化:将长篇小说改编为视频内容,为文学作品提供新的传播形式。
个人故事视频:用户将自己的故事或创意转化为视频,用于个人纪念或分享。
GitHub:https://github.com/HKUDS/ViMax
12月18日
微软开源3D生成模型TRELLIS.2:实现高保真3D物体创作和逼真的物理渲染材质!
近日,微软研究院正式开源了其最新的TRELLIS.2模型!
这是一个拥有40亿参数的尖端大型3D生成模型,专注于从单张图片生成高质量3D资产。
TRELLIS.2的核心目标是解决当前3D生成领域的两大核心挑战:
一是如何高效生成具有复杂拓扑结构和锐利特征的3D物体;
二是如何同时还原逼真的物理渲染(PBR)材质。
功能特点
高质量、高效率生成
TRELLIS.2能生成分辨率高达1536³的全纹理3D资产,在NVIDIA H100 GPU上,生成512³分辨率的资产仅需约3秒。
它采用稀疏3D VAE,实现16倍的空间下采样,将资产编码到紧凑的潜在空间中,再通过标准的扩散变换器(DiT)进行高效生成。
处理任意拓扑结构
O-Voxel表示法突破了传统等值面场的限制,能够稳健处理各种复杂结构,包括开放表面(如衣物、树叶)、非流形几何体和内部封闭结构,而不会造成细节丢失。
丰富的PBR材质建模
模型不仅生成基础颜色,还能精确建模基础色、粗糙度、金属度和不透明度等完整的PBR材质属性,支持光照片级真实感的渲染和透明效果。
极简化的数据处理流程
项目提供了近乎瞬时的数据转换工具,带纹理的网格转换为O-Voxel表示可在单CPU上于10秒内完成,而反向转换在CUDA上仅需不到100毫秒,整个过程无需渲染或优化步骤。
主要更新
模型规模与能力:作为一个拥有40亿参数的大型模型,其生成保真度和细节水平达到了新的高度。
完整的材质生成:强调了从单一图像到带完整PBR材质的3D资产的端到端生成能力。
应用场景
TRELLIS.2的开源为多个行业带来了革命性的可能性:
游戏与影视制作:极大降低高质量3D角色、道具和场景资产的制作成本与时间,特别有利于独立游戏开发者和中小型工作室进行快速原型制作。
虚拟现实与元宇宙:快速生成大量风格一致、细节丰富的3D环境内容,加速虚拟世界的构建。
产品设计与电子商务:为新产品快速生成3D模型,用于设计评审或创建可交互的在线商品展示,提升购物体验。
创意内容与社交媒体:让普通用户也能通过一张图片轻松创建专业级的3D模型,用于短视频、AR滤镜等创意表达。
TRELLIS.2的开源发布,不仅是3D生成技术的一次重要突破,其灵活的输入输出方式和原生编辑能力,更为各行业创意落地提供了高效路径。
GitHub:https://github.com/microsoft/TRELLIS.2
Meta开源SAM Audio:支持从复杂的音频混合中分离特定声音!
Meta最新开源了SAM Audio模型,正式将图像分割领域的革命性理念:
Segment Anything完整迁移到了音频世界。
该模型的核心创新在于提出了一个统一的分割范式**:万物皆可分割,声音也不例外**。
无论是从混杂的录音中提取狗叫声,还是单独隔离人声,都能通过简单的提示词实现。
功能特点
文本提示:用自然语言剪辑音频
用户只需输入如狗叫声、婴儿哭声或女性说话声等描述,模型就能自动从混合音频中抽离对应的声音轨道。这标志着首次实现用自然语言来精确剪辑音频。
视觉提示:打通视听界限的创新
当处理视频文件时,SAM Audio允许用户直接点击视频中发出声音的人或物体,模型会结合视觉与音频信息,只提取该目标对应的声音。这一功能对于Vlog、访谈和多角色视频编辑具有革命性意义。
时间跨度提示:业内首创的精准控制
SAM Audio引入了时间锚点概念,允许用户指定目标声音出现或不出现的时间范围。例如,可以明确告诉模型“只在00:30-01:10这段时间内处理某个声音”,使处理过程更快、更准、更可控。
提示组合:多模态协同的终极形态
真正强大的地方在于这三种提示方式可以组合使用。用户可以在指定时间段,点选视频里的特定人物,再用文本补充“说话声”,实现多模态协作理解下的精准分割。
应用场景
专业音频制作
影视后期:快速分离对话、背景音乐和特效音
音乐制作:精确提取或消除特定乐器音轨
内容创作
自媒体制作:一键清除背景噪音或提取特定人声
播客编辑:智能分割不同嘉宾的发言段落
科研与教育
声学研究:精准分析特定声源特性
语言学习:隔离纯正发音用于模仿学习
SAM Audio的开源不仅代表了音频处理技术的飞跃,更标志着多模态AI发展的重要进展。它打破了视觉和听觉的界限,让音频编辑变得修图、剪视频一样可视化、语义化。
GitHub:https://github.com/facebookresearch/sam-audio
项目官网:https://about.fb.com/news/2025/12/our-new-sam-audio-model-transforms-audio-editing/
12月17日
AI智能分析PDF文档的布局结构,准确识别11种不同元素 |PDF Document Layout Analysis
在日常工作和研究中,我们经常需要处理各种PDF文档。无论是学术论文、技术报告还是商业文件,准确提取其中的文本、表格和公式一直是个挑战。
而开源项目PDF Document Layout Analysis则可通过智能算法分析PDF文档的布局结构,能够精确识别文本、标题、图片、表格等11种不同元素,并确定它们的正确阅读顺序。
功能特点
智能布局分析:精确识别PDF页面中的各类元素,包括文本、标题、图片、表格、页眉页脚等,并保持原有的阅读顺序。
双模型支持:提供视觉模型(VGT)和轻量级模型(LightGBM)两种选择,前者精度更高,后者速度更快且资源消耗更少,用户可根据需求灵活选择。
OCR文本识别:集成Tesseract OCR引擎,支持将扫描版PDF转换为可搜索文本,并支持150多种语言识别。
表格与公式提取:智能提取表格内容,支持输出为Markdown、LaTeX或HTML格式;公式则自动转换为LaTeX格式,便于后续编辑和使用。
可视化输出:可生成带有标注的PDF文件,直观展示识别结果,便于验证分析效果。
应用场景
学术研究:快速提取论文表格数据用于统计分析,自动识别并转换数学公式为LaTeX格式,保持文献原始结构,提升整理效率。
企业文档处理:智能识别合同、报告中的标题、表格等关键元素,支持批量处理,助力文档数字化与自动化流程。教育领域:将教材讲义转换为可编辑格式,便于提取公式、图表用于课件制作和在线教学。
出版行业:准确识别旧版书籍的复杂排版,辅助完成电子书转换和再版工作,减少人工操作错误。
GitHub:https://github.com/huridocs/pdf-document-layout-analysis
谷歌开源A2UI:让AI能够像使用自然语言一样自然地使用GUI与人类交流!
谷歌团队近日开源了A2UI项目,旨在突破这一局限。它并非传统的UI框架,而是一种基于代理的接口协议,充当AI Agent与用户界面之间的中间层,让AI能够像使用自然语言一样自然地使用GUI与人类交流。
**A2UI的核心创新在于采用声明式JSON描述UI。**AI无需编写前端代码,只需输出需要什么UI的JSON结构,客户端则根据该描述原生渲染交互界面。
这种方式既保证了安全性(避免UI注入攻击),又确保了跨平台一致性。目前在GitHub已收获1.5Kstar!
工作流程包含五个关键步骤:
用户发送消息请求
AI智能体生成A2UI JSON描述
JSON通过流式传输至客户端
客户端使用本地组件库渲染界面
用户交互事件返回智能体触发更新
主要特性与能力
Widget Gallery组件库:A2UI提供丰富的现成交互组件,包括表单输入、日期选择器、下拉选项等,支持开箱即用或二次定制。所有组件均配备实时界面与源码预览功能,极大提升开发效率。
Material Design集成:内置100个常用Material Icons,确保界面风格统一,无需额外处理设计资源。
基于CopilotKit构建:天然支持聊天式交互、AI内容生成和Agent驱动UI更新,特别适合“对话+操作+界面”混合型AI系统。
GitHub:https://github.com/google/a2ui
12月16日
谷歌开源InkSight:让你的手写笔记变成可编辑的在线手写笔迹!
在日常生活中,我们常常习惯在纸上随手记录课堂要点、会议内容或灵感闪现的想法。
然而,当需要整理、搜索或重复利用这些笔记时,
传统方法往往存在局限:拍照存档只能查看不可编辑,而OCR转文本又会丢失笔迹、重点标记和原有结构。
近日,Google在GitHub上开源了InkSight,提供了一种全新的手写数字化解决方案。它借助强大的AI模型,能够将任意手写照片转换为数字墨迹。
即使是在纸张上书写的草稿,经过InkSight处理后,也能转为SVG等矢量格式,实现真正的可编辑性。
功能特点
离线转在线:轻松将纸质手写笔记转换为可交互的在线数字笔记;
多语言兼容:支持中文、英文、法语、韩语等多种语言,具备强大的后台处理能力;
结构完整保留:通过词级和整页文本处理,完美还原笔记的原始排版和逻辑结构;
编辑搜索双支持:转换后的数字墨迹可直接编辑,同时支持关键词搜索,方便快速定位内容;
矢量格式输出:以 SVG + 墨水轨迹的矢量格式导出,确保缩放不失真,适配各类笔记应用
InkSight的强大性能源于其创新的技术架构。
它采用阅读 + 书写双重训练思路,不仅让模型理解手写内容(阅读能力),更能还原书写轨迹(书写能力)。
底层由视觉转换器(ViT)负责图像识别,搭配 mT5 编码 - 解码结构生成精准的笔迹序列,实现了从文字结果反推书写过程的罕见能力,这也是它区别于传统工具的核心优势。
应用场景
InkSight具备良好的实用性:支持多语言、适应不同书写风格,并能处理复杂背景、倾斜拍摄或光线不均的情况。
其提供两种转换模式:
单词级转换:适合精细修改与调整
整页转换:适合快速归档与整体管理
这意味着用户可将纸质笔记无缝融入数字知识管理系统,实现长期保存、高效检索与灵活编辑。从此,对手写内容拍照不再只是存档终点,而是数字化整理的起点。
GitHub:https://github.com/google-research/inksight
通义百聆语音双子星同步开源:3秒克隆音色,93% 抗噪识别!
通义百聆近日全面升级其语音合成与识别模型并同步开源,
使其从 “会说话” 到 “听得懂”,全方位革新语音AI的实用性与灵活性。
本次升级聚焦实时性、多语言兼容性与复杂场景鲁棒性,旨在为企业与开发者提供更高效的语音处理工具。
Fun-CosyVoice3:高保真语音合成
Fun-CosyVoice3 模型实现多项关键升级,仅需3秒音频即可完成音色克隆,支持跨语种、多方言与情感控制。
其核心改进包括:
首包延迟降低50%:支持双向流式合成,实现输入即发声的实时体验,适用于语音助手、直播配音等场景;
中英混说错误率下降56.4%:精准处理专业术语、大小写混排及语码转换;
zero-shot TTS性能提升:复杂场景字符错误率降低26%,接近人类录音水平;
多语言支持:覆盖9种通用语言、18种中文方言及9种情感模式,具备跨语种音色复刻能力
开源模型Fun-CosyVoice3-0.5B
该版本提供完整的zero-shot音色克隆功能,支持本地部署与二次开发。
在多项评测中,其内容一致性、音色相似度均优于主流TTS模型:
Fun-ASR:让 AI听得更清晰、更全面、更快速
基于数千万小时真实语音数据训练,Fun-ASR已在钉钉 AI 听记、视频会议等场景大规模落地,
此次升级进一步强化核心性能:
超强抗噪:在远场拾音(如会议室后排)、高噪声环境(地铁、车载、背景音乐干扰)中,识别准确率仍达 93%,彻底告别 “嘈杂环境听不清” 的困扰。
特殊语音识别突破:新增歌词与说唱识别能力,即便面对快节奏 RAP 或旋律复杂的歌曲,也能精准提取文字,为音乐类 APP、直播字幕生成等场景提供技术支撑。
多语言无缝切换:支持 31 种语言自由混说(无需预先指定语种),重点优化日语、越南语等东亚及东南亚语种;中文场景覆盖 7 大方言、26 种地方口音(从东北话到港台腔,从四川话到河南腔),真正实现 “无论说什么、怎么说,都能听懂”。
极速响应:流式识别首字延迟降至 160ms,会议记录、实时字幕等场景中,语音刚落即可同步输出文字,效率大幅提升。
0.8B 轻量化版本开源,降低推理成本
针对资源有限的开发者与企业,Fun-ASR-Nano-0.8B(轻量化版本)同步开源:
低成本部署:参数量压缩至 0.8B,推理时占用资源更少,适配中小型服务器或边缘设备,显著降低运营成本。
支持定制化微调:可基于行业专属数据(如金融术语、医疗词汇)进行微调,将定制热词上限从 1000 条提升至 10000 条,且不牺牲通用识别准确率,满足金融、医疗等垂直领域的专业需求。
通义百聆此次同步开源两款语音模型,不仅是技术能力的展示,更体现了 让 AI 走进实用场景的理念:3秒克隆音色降低个人创作门槛,93% 抗噪识别解决企业会议痛点,多语言多方言适配打破沟通壁垒。
GitHub:https://github.com/FunAudioLLM/CosyVoice
项目主页:https://funaudiollm.github.io/cosyvoice3/
12月15日
科研党必备!开源AI文献分析工具Paper Burner X,让长论文阅读效率翻倍!
对于研究人员和深度学习者而言,海量文献的处理一直是一项耗时且复杂的工作。
于是Paper Burner X 应运而生,这是一款集文献识别、批量翻译、智能分析于一体的 AI 文献处理工具。
它为需要进行精细、长文本阅读的研究人员和深度学习者设计,致力于将复杂的文档处理、翻译和分析流程整合到单一、流畅的体验中。目前在GitHub已斩获1.2Kstar!
功能特点
极速翻译功能:它采用并发OCR与翻译技术,搭配支持数万词条的术语库,长论文翻译仅需数十秒即可完成,且能完美保留原文的公式、图表、引用格式,彻底解决了传统翻译工具格式丢失严重的痛点。
Agent智能分析:能够自主决策、多步推理,在长文本中精准提取关键信息,还能生成思维导图和流程图,帮助用户快速梳理文献逻辑框架。
文档导入:点击上传按钮选择本地文件,同时支持 GitHub 仓库地址和 URL 一键导入。
**隐私安全与灵活部署 **:Paper Burner X 采用纯前端模式,所有数据均在浏览器本地处理,确保用户隐私安全。同时支持两种部署方式:Vercel静态部署和Docker完整部署,满足不同用户的需求。
与传统翻译工具和专业文献工具相比,Paper Burner X在学术格式支持、AI分析能力和本地化部署方面表现突出:
Paper Burner X 正以其强大的功能和便捷的使用体验,成为研究人员和深度学习者的得力助手,让文献阅读变得更加高效和智能。
GitHub:https://github.com/Feather-2/paper-burner-x
阿里开源视频生成框架Wan-Move:实现高质量的视频运动控制!
Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。
核心亮点在于无需对现有图像到视频模型进行架构更改,可实现细粒度的点级运动控制,能生成 5 秒、480p 的视频,运动控制质量与商业系统相当。
功能特点
高质量运动控制:能生成5秒、480p的视频,其运动控制质量与商业系统相当,满足高质量视频创作需求。
潜在轨迹引导:通过传播第一帧的特征沿轨迹生成时空特征图,无需额外运动模块,可无缝集成到现有图像到视频模型中。
细粒度点级控制:支持对场景中每个元素进行精确的区域级运动控制,实现高度定制化的视频效果。
基准测试MoveBench:提供大规模、多样化、长时长的视频样本和高质量轨迹注释,用于评估和对比不同方法的运动控制能力。
开源与易用性:代码、模型权重和MoveBench均已开源,用户可快速上手进行视频生成和运动控制实验,降低使用门槛。
应用场景
视频创作:用户可以通过定义物体的运动轨迹来生成具有特定运动效果的视频,适用于动画制作、特效设计、创意短视频等领域,帮助创作者快速实现复杂的运动场景。
广告与营销:在广告视频中,Wan-Move 可以用于生成动态的产品展示、品牌故事等,通过精细的运动控制吸引观众注意力,提升广告的吸引力和影响力。
视频编辑:支持对视频的第一帧进行编辑,将这些更改应用到整个视频中,还可以进行运动复制和相机运动控制,帮助视频编辑人员快速调整和优化视频内容。
虚拟现实(VR)和增强现实(AR):Wan-Move 可以生成与虚拟环境或增强现实场景相匹配的动态视频内容,为用户提供更加沉浸式的体验。
项目官网:https://wan-move.github.io/
GitHub:https://github.com/ali-vilab/Wan-Move
12月12日
智谱开源GLM-TTS语音模型:3 秒复刻人声,支持多情感表达!
智谱正式开源其工业级语音合成模型GLM-TTS!
该系统仅需3秒语音样本,即可精准学习说话人的音色与说话习惯,在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音合成效果。
主要功能
音色复刻:GLM-TTS 能快速复刻特定说话人的音色,仅需少量音频数据即可实现高度相似的语音合成,支持多种语言和方言的音色克隆。
多情感克隆:根据文本内容的情绪自动匹配对应的语音情感,支持多种情感表达,如快乐、悲伤、愤怒等,提升语音合成的自然度和表现力。
高精度文本理解:具备超强的文本理解能力,能准确处理文本内容,降低字错误率,确保合成语音的准确性和连贯性。
方言和特殊语音合成:支持多种方言和特殊语音的合成,如四川话、东北话等,适应不同语言和文化背景的需求。
精细化发音控制:通过音素级输入(Phoneme-in)技术,解决多音字和生僻字的发音问题,提升发音的准确性和可控性。
高保真语音输出:基于自研的 2D-Vocos 声码器,生成高质量、高保真的语音波形,支持高采样率输出,提升音质表现。
性能表现
GLM-TTS在训练效率上表现突出,仅使用10万小时训练数据,远低于行业主流商用模型。预训练阶段仅需单机4天即可达到开源SOTA的发音准确度和音色还原度,而精品音色LORA和强化学习训练仅需单机1天,大幅降低成本。在性能上,GLM-TTS以更低价格获得行业领先的MOS分数,实现性价比与效果的双重突破。
在seed-tts-eval中文测试集上,GLM-TTS的字符错误率(CER)为1.03%,引入RL后降至0.89%,达到开源SOTA;音色相似度(SIM)达76.1,RL版本提升至76.4,兼顾准确性与还原度。
在CV3-eval-emotion情感数据集中,GLM-TTS精品音色RL版在Happy、Sad、Angry情绪上均取得SOTA,平均情感得分0.51,CER仅1.68%,实现情感与准确度的双重领先。
应用场景
智能语音助手:GLM-TTS 为智能语音助手提供自然流畅的语音反馈,支持多语言和情感表达,根据用户指令生成贴合场景的语音交互,提升用户体验。
有声读物与音频内容创作:GLM-TTS 可快速生成不同风格和情感的语音内容,支持多音色切换和方言朗读,满足有声读物、播客等多样化的音频创作需求。
教育与培训:GLM-TTS 通过精细化发音控制,帮助学习者纠正多音字和生僻字发音,支持多语言和方言教学,提升教育质量和效率。
娱乐与游戏:GLM-TTS 为游戏角色和娱乐内容生成带有方言和情感的语音,增强游戏和娱乐的沉浸感与趣味性。
客服与智能交互:GLM-TTS 根据用户情绪调整语音风格,生成温和或耐心的语音回应,提升智能客服的交互体验和客户满意度。
GLM-TTS 的开源上线,不仅为语音合成领域提供了高效、低成本的优质解决方案,更推动 AI 语音从技术创新走向产业深度融合!
GitHub:https://github.com/zai-org/GLM-TTS
12月11日
动漫党福音!3.5B参数开源模型专注高质量动漫图像生成 :NewBie-image-Exp0.1!
NewBie-image-Exp0.1是一款开源的文本到图像生成模型,专为动漫风格内容创作而设计,能生成细节丰富且视觉效果美观的动漫图像。
该模型拥有35亿参数,融合了Lumina与Next-DiT双架构,旨在为动漫创作者提供高效、精准的生成工具。其开源特性使其成为个人开发者和研究者的理想选择。
功能特点
高质量动漫图像生成:基于大量高质量动漫数据训练,能生成细节丰富、视觉效果显著的动漫风格图像。
强大的架构基础:采用 Next-DiT 架构,参数量达 3.5B,具备强大的图像生成能力。
高效训练与优化:使用高性能计算硬件进行长时间训练,确保模型性能与稳定性。
灵活的文本编码器:结合 Google/Gemma3-4b-it 和 Jina Ai/Jina Clip v2,提升文本理解与图像生成的匹配度。
多场景应用潜力:适用于动漫创作、游戏设计等领域,为创意工作者提供强大的工具支持。
该模型在训练过程中优化了架构融合与数据流程,确保稳定生成高分辨率图像(如1024×1024像素)。实验证明,结构化输入可使生成准确率提升40%,收敛速度加快30%。
技术原理
基于 Next-DiT 架构:模型采用先进的 Next-DiT 架构,是一种深度学习架构,专为高效生成高质量图像而设计,能处理复杂的图像生成任务。
大规模数据预训练:使用 full dan + 1m e621 数据集进行预训练,数据集包含大量高质量的动漫图像,使模型能学习到丰富的图像特征和风格。
文本编码器融合:结合 Google/Gemma3-4b-it 和 Jina Ai/Jina Clip v2 作为文本编码器,增强模型对文本描述的理解能力,更准确地生成符合文本要求的图像。
优化的 VAE 配置:采用 Flux 1 Dev-VAE 进行图像的编码和解码,优化生成图像的质量和细节表现,提升整体生成效果。
高性能计算支持:在 8×h200 的高性能硬件上训练了四个月,累计约 23000 h200 小时,确保模型在大规模数据上充分训练,提升生成效果。
应用场景
动漫创作:为动漫艺术家提供强大的图像生成工具,快速生成高质量的动漫角色和场景,加速创作流程。
游戏设计:用于游戏开发中的角色设计、场景构建和概念艺术创作,帮助设计师快速实现创意。
数字艺术:支持数字艺术家创作独特的动漫风格艺术作品,提供丰富的视觉素材和灵感来源。
插画与漫画:辅助插画师和漫画家生成插图和漫画草图,提升创作效率和质量。
广告与营销:在广告和营销领域,用于生成吸引人的动漫风格宣传图像,增强视觉吸引力。
教育与培训:作为教学工具,帮助学生和新手学习动漫绘画技巧,提供参考图像和创作灵感。
GitHub:https://github.com/NewBieAI-Lab/NewBie-image-Exp0.1
12月10日
开源的PPT生成与编辑神器!Banana-slides:仅需一句话描述AI即可生成高级美观的演示文稿!
今天要给大家推荐一款打工人必备的AI开源神器:Banana-slides!
它是基于nano banana pro模型开源的一款原生且高自由度的AI PPT生成项目,支持仅输入想法/大纲/页面描述即可生成完整PPT演示文稿、文本图片链接自动提取、上传任意素材、口头提出修改,迈向真正的"Vibe PPT"。
(Vibe PPT:用户可上传参考图或用文字描述风格,AI 据此生成符合氛围的页面,兼顾效率与设计感。)
核心功能亮点
灵活多样的创作起点
banana-slides 贴心地提供了三种起步方式,适应不同的创作习惯:
一句话生成:只需输入一个主题,AI便会自动为你生成结构清晰的大纲和逐页内容描述。
大纲模式:如果你已有清晰的演讲逻辑,可以直接输入大纲,让AI为你填充每一页的详细内容和配图。
页面描述模式:对于追求极致控制的用户,可以亲自撰写每一页的详细描述,AI负责将其变为精美的视觉页面。
强大的“Vibe”式自然语言编辑
这是项目的灵魂所在。你不再需要在一堆菜单按钮中寻找编辑选项,只需动动嘴皮子即可完成修改。
口头修改大纲:例如,直接说“把第二页和第三页顺序互换”、“在第五页增加一个数据对比的图表”,AI会立即响应调整。
框选区域重绘:对某一页的某个图片不满意?只需框选该区域,然后口头指令“把这个图换成饼状图”或“背景换成科技蓝”,AI就能实现精准的局部重绘。
强大的素材解析与风格定制
banana-slides 打破了素材壁垒:
智能解析:支持上传 PDF、Docx、Markdown、Txt 等多种格式文件,系统会自动解析其中的文本、图片链接和关键信息,直接作为生成PPT的素材。
任意模板与素材:你可以上传任意图片作为风格参考(模板),确保生成的PPT符合你的品牌或审美要求。同时,也支持上传自己的图片、logo等素材直接使用。
开箱即用,专业导出
生成的高清PPT默认采用16:9比例,无需二次调整即可直接用于演示。支持一键导出为标准 .pptx文件或 .pdf文件,完美兼容主流办公软件。
应用场景
学生与教育工作者:快速将课程报告、教案转化为图文并茂的演示文稿,将精力专注于内容本身。
职场人士:用于商业提案、产品介绍、工作总结等,快速应对多变的业务场景,提升工作效率。
PPT爱好者与专业人士:从AI生成的布局和图文组合中获取设计灵感,打破创作瓶颈。
零设计基础的小白:无需任何设计经验,也能轻松创作出美观、专业的幻灯片,降低表达门槛。
如果你对用AI简化工作流程、创造更富表现力的演示文稿感兴趣,可以点击下方链接前往查看哦~
GitHub:https://github.com/Anionex/banana-slides
12月9日
阿里开源实时数字人模型!Live Avatar:支持无限时长、高保真的虚拟人稳定直播!
近日,阿里巴巴联合中国科学技术大学、浙江大学等高校的研究团队联合开源了Live Avatar!
该模型能够实时生成高质量的数字人视频,支持无限长度的视频制作,且在生成过程中画质不下降。
功能特点
Live Avatar具备三大核心技术优势:
实时音视频驱动与流式生成:结合麦克风与摄像头,可实现用户与数字人的自然面对面交互。系统能实时捕捉用户的语音与微动作,驱动数字人进行口型、表情的同步响应,延迟极低,生成速度超越实时流媒体播放。
无限时长稳定生成:突破了传统方案仅能短时运行的局限,支持长达10,000秒以上的连续、稳定生成。在整个过程中,数字人的面容、肤色、风格等特征均能保持一致,有效杜绝了长时生成中常见的“面部漂移”与“色彩失真”问题。
高保真画质:依托140亿参数的扩散模型,无论是写实肖像还是卡通风格,都能生成细节丰富、清晰自然的画面,在实现高速生成的同时,确保了无可妥协的视觉保真度。
性能表现
在GenBench基准测试中,Live Avatar展现了卓越的效率与质量:
速度与延迟优化
FPS:端到端生成速度达20.88 FPS,较同规模模型(如Wan-s2v的0.25 FPS)提升近80倍。
TTFF:首帧延迟仅2.89秒。消融实验证明,TPP和VAE并行解码是关键优化点。
长视频稳定性:在生成长达数小时的视频时,Live Avatar的身份一致性指标(Dino-S)保持在0.93-0.94的高水平。消融研究显示,AAS、滚动RoPE和历史干扰机制共同保障了画面不崩坏。
无限流生成实测:在连续生成10,000秒(近3小时)的极限测试中,美学评分(ASE)、图像质量(IQA)和口型同步(Sync-C)指标均保持稳定,证明其具备工业级持久运行能力。
应用场景
数字人直播
电商直播:7×24小时不间断产品展示与讲解
新闻播报:自动生成虚拟主播播报新闻内容
娱乐直播:虚拟偶像与观众实时互动表演
虚拟助手与服务
智能客服:提供拟人化的在线客户服务
银行柜员:虚拟金融顾问提供业务咨询
酒店前台:自动化入住办理与问答服务
项目主页:https://liveavatar.github.io
GitHub:https://github.com/Alibaba-Quark/LiveAvatar
视觉推理模型新突破!GLM-4.6V开源:先理解图像内容和用户意图再自动执行任务!
智谱最新开源了视觉推理模型GLM-4.6V!
该模型支持长上下文(128k tokens),在视觉理解精度上达到同参数规模的顶尖水平。
相比前代GLM-4.5V,本次升级最大的突破在于将工具调用能力原生融入模型架构,使模型从单纯的视觉理解迈向主动执行,并在MathVista、OCRBench、MMBench等12项主流多模态基准测试中,展现出领先优势。
能力与场景
富文本内容理解与创建
GLM-4.6V 能够接受各种类型的多模态输入——论文、报告或幻灯片——并以端到端的方式自动生成高质量、结构化的图像-文本交错内容。
复杂的文档理解:准确理解包含文本、图表、图表、表格和公式的多模态信息。
可视化工具调用:在生成过程中,模型可以自主调用工具,从源多模态上下文中裁剪关键视觉。
可视化网页搜索
GLM-4.6V提供端到端多模态搜索与分析工作流程,使模型能够无缝从视觉感知到在线检索、推理和最终答案。
意图识别与搜索规划:GLM-4.6V识别用户的搜索意图,并确定所需信息。然后它自动触发相应的搜索工具(例如文本到图像搜索、图像到文本搜索)以获取相关信息。
多模态理解与对齐:模型审查搜索工具返回的混合视觉和文本信息,识别与查询最相关的部分,并将其融合以支持后续推理过程。
理由与回答:利用从搜索阶段提取的相关视觉和文本线索,模型执行必要的推理步骤,并给出最终答案,即一份结构化、视觉丰富的报告。
前端复制与可视化交互
我们优化了GLM-4.6V用于前端开发,显著缩短了“按代码设计”的周期。
像素级复制:通过上传截图或设计文件,模型识别布局、组件和配色方案,并生成高保真度的 HTML/CSS/JS 代码。
交互式编辑:用户可以在生成页面截图上圈出区域,并用自然语言指令(例如,“将此按钮向左移动,并将其变为深蓝色”)。模型会自动定位并修改相应的代码片段。
上下文理解
财务报告分析:在此案例中,GLM-4.6V成功同时处理了四家不同上市公司的财务报告,提取了文件中的核心指标,并在不丢失关键细节的情况下综合了比较分析表。
视频理解:该模型可以对长视频进行全局总结,同时保留对时间线索进行细致推理的能力,例如总结完整足球比赛中的进球事件和时间戳。
应用场景
智能图文创作:输入主题或图文混杂资料,模型自动生成结构清晰、图文并茂的内容,适用于社交媒体、公众号等平台。
视觉驱动购物:上传图片并发出指令,模型识别购物意图,搜索同款商品并生成导购清单,提升电商购物体验。
前端开发辅助:上传网页截图或设计稿,模型精准复刻生成代码,支持多轮交互修改,加速前端开发流程。
长文档与视频理解:处理长文档或长视频,支持跨文档对比分析和关键事件定位,助力复杂内容理解和研究。
多模态智能客服:结合视觉和文本信息,提供精准解答和建议,支持多轮对话,提升客户服务效率。
GitHub:https://github.com/zai-org/GLM-V
12月8日
微软开源轻量级实时TTS模型!VibeVoice-Realtime-0.5B:实现多角色自然对话!
近日,微软低调开源了一款 0.5B 参数的轻量级实时 TTS模型 : VibeVoice-Realtime-0.5B!
这款仅0.5B参数的轻量级模型,目前已斩获12.3Kstar!
实现了多数巨型模型难以实现的实时发声能力**:首包延迟仅约300毫秒,支持边输入文本边朗读,长文本处理无卡顿,还能实现多角色自然对话**,真正让AI语音走向实时流式对话形态!
功能特点
超低延迟实时发声:首包延迟仅300ms,能做到文本生成与语音输出几乎同步,无需等待完整文本即可启音。
交错窗口架构:创新性采用交错窗口设计,可一边输出语音,一边续写后续音频,保障长文本朗读的连贯性。
多角色对话支持:最多可实现4个角色的自然对话,不同角色语音区分度清晰,适配多场景互动需求。
情绪识别与表达:在小体量模型中实现了情绪感知能力,可根据文本语境传递对应语气,让语音更具感染力。
长时上下文记忆:能在10分钟内稳定保持语气一致,最长记忆时长可达90分钟,避免长对话中语音风格断层。
双语兼容:同时支持中英文语音生成,仅当前版本下中文效果略逊于英文,具备广阔的本土化优化空间。
性能方面,模型在LibriSpeech和SEED TTS测试集上表现突出:
错字率(WER)约为2%,说话人相似度达0.65以上,平衡了准确性与自然度。
应用场景
AI 智能助手:相比传统助手响应更快,语音交互更贴近真人沟通逻辑;
会议助手:能实现边接收信息边语音反馈,几乎无延迟,提升会议记录与交互效率;
播客自动生成:支持4个角色自动对聊,可快速产出多角色播客内容;
游戏 NPC:结合实时对话、情绪表达与低延迟特性,增强游戏沉浸式体验;
视频配音:无需等待完整文案,即可实时生成音轨,提升视频制作效率;
客服机器人:可本地部署,摆脱云端 TTS 依赖,实现极低延迟的语音客服响应。
GitHub:https://github.com/microsoft/VibeVoice
项目官网:https://microsoft.github.io/VibeVoice/
美团开源6B参数图像模型LongCat-Image,在文本理解、图像真实感等多维度表现卓越!
美团开源了新一代图像生成模型LongCat-Image。
该模型虽然只有6B参数,但在双语文本理解、图像真实感及复杂指令编辑等多个维度展现出卓越性能!
性能表现
在当前开源社区中,主流图像生成模型参数量普遍在10B到80B之间,虽然语义理解能力较强,但也带来了高昂的推理成本。
LongCat-Image通过深度优化的架构设计,将参数量控制在6B,在保证性能的同时显著降低了部署门槛。
在GenEval基准测试中,该模型取得0.87的评分,与20B参数的Qwen-Image表现持平,并优于部分80B参数模型。这一成绩验证了通过优化训练策略和数据质量,小模型完全可以在特定任务中达到甚至超越大模型的表现。
精准可控的图像编辑
图像编辑的核心挑战在于精准执行指令与 保持画面一致的平衡:既要准确修改目标区域(如替换物体、修改文本),又不能破坏原图的背景、光影、风格。
LongCat-Image专门优化的编辑模型LongCat-Image-Edit,通过强化视觉一致性与指令遵循能力,将图像编辑体验提升至新高度。
在权威测试 CEdit-Bench(中文编辑基准)与 GEdit-Bench(通用编辑基准)中,LongCat-Image-Edit 展现出卓越的可控性。
在中文编辑任务中,模型不仅精准替换文本,还保持了原海报的字体风格与背景色调,未出现任何细节失真。
美团此次开源包含三个核心版本,覆盖不同使用场景:
LongCat-Image(最终发布版):经过充分训练与调优,性能稳定,适合直接用于高质量图像推理,普通用户可快速上手文生图任务;
LongCat-Image-Dev(开发版):本质是训练中期的检查点(Checkpoint),保留了更高的可塑性,研究人员可基于此进行 Fine-tuning(微调),适配电商商品图、广告海报、学术插图等特定场景;
LongCat-Image-Edit(编辑专用版):针对图像编辑任务优化,支持物体增删、风格迁移、文本修改等 15 类细分操作,满足二次创作需求。
这一开源举措将显著降低高性能图像模型的部署门槛,推动AI图像生成技术在电商、广告设计等领域的应用创新。
GitHub:https://github.com/meituan-longcat/LongCat-Image
12月5日
专为Nano Banana Pro打造的精选提示词与案例合集 | Awesome Nano Banana Pro
Awesome Nano Banana Pro是一个精心策划,
针对Nano Banana Pro模型的优质提示词与示例集合,目前已斩获5Kstar!
其核心定位是为用户提供高质量的提示词方案,助力大家掌握提示词工程技巧,充分挖掘 Nano Banana Pro的图像生成潜力。
该项目的提示词来源广泛且权威,汇聚了X、微信、Replicate 平台以及顶尖提示词工程师的优质成果,
覆盖了超写实人像、风格化美学、复杂创意实验等多个创作维度。无论是新手入门还是资深创作者进阶,都能从中找到适配的创作参考。
案例展示
3D立体模型与地标
提示词:Create a high-detail 3D isometric diorama of the entire United States, where each state is represented as its own miniature platform. Inside each state, place a stylized, small-scale 3D model of that state's most iconic landmark. Use the same visual style as a cute, polished 3D city diorama: soft pastel colors, clean materials, smooth rounded forms, gentle shadows, and subtle reflections. Each landmark should look like a miniature model, charming, simplified, but clearly recognizable. Arrange the states in accurate geographical layout, with consistent lighting and perspective. Include state labels and landmark labels in a clean, modern font, floating above or near each model.
3D家庭办公插图
提示词:Based on you know about me, generate a 3D isometric colored illustration of me working from home, filled with various interior details. The visual style should be rounded, polished, and playful. --ar 1:1
[Additional details: a bichon frise and 3 monitors]
维多利亚的秘密风格拍摄
提示词:
Create a glamorous photoshoot in the style of Victoria's Secret. A young woman attached in the uploaded reference image ( Keep the face of the person 100% accurate from the reference image ) stands almost sideways, slightly bent forward, during the final preparation for the show. Makeup artists apply lipstick to her (only her hands are visible in the frame). She is wearing a corset decorated with beaded embroidery and crystals with a short fluffy skirt, as well as large feather wings. The image has a "backstage" effect.
The background is a darkly lit room, probably under the podium. The main emphasis is on the girl's face and the details of her costume. Emphasize the expressiveness of the gaze and the luxurious look of the outfit. The photo is lit by a flash from the camera, which emphasizes the shine of the beads and crystals on the corset, as well as the girl's shiny skin. Victoria's Secret style: sensuality, luxury, glamour. Very detailed. Important: do not change the face.
1990年代相机风格肖像
提示词:Without changing her original face, create a portrait of a beautiful young woman with porcelain-white skin, captured with a 1990s-style camera using a direct front flash. Her messy dark brown hair is tied up, posing with a calm yet playful smile. She wears a modern oversized cream sweater. The background is a dark white wall covered with aesthetic magazine posters and stickers, evoking a cozy bedroom or personal room atmosphere under dim lighting. The 35mm lens flash creates a nostalgic glow.
角色与电影角色的一致性自拍
提示词:"I'm taking a selfie with [movie character] on the set of [movie name].
Keep the person exactly as shown in the reference image with 100% identical facial features, bone structure, skin tone, facial expression, pose, and appearance. 1:1 aspect ratio, 4K detail."
星球大战“沃尔多在哪里”
提示词:A where is waldo image showing all Star Wars characters on Tatooine
First one to pull this off. First take. Even Waldo is there.
白板马克笔艺术
提示词:Create a photo of vagabonds musashi praying drawn on a glass whiteboard in a slightly faded green marker
3D Q版风格迷你品牌商店
提示词:3D chibi-style miniature concept store of {Brand Name}, creatively designed with an exterior inspired by the brand's most iconic product or packaging (such as a giant {brand's core product, e.g., chicken bucket/hamburger/donut/roast duck}). The store features two floors with large glass windows clearly showcasing the cozy and finely decorated interior: {brand's primary color}-themed decor, warm lighting, and busy staff dressed in outfits matching the brand. Adorable tiny figures stroll or sit along the street, surrounded by benches, street lamps, and potted plants, creating a charming urban scene. Rendered in a miniature cityscape style using Cinema 4D, with a blind-box toy aesthetic, rich in details and realism, and bathed in soft lighting that evokes a relaxing afternoon atmosphere. --ar 2:3
UI手绘草图到高保真原型
提示词:Transform this rough wireframe sketch into a high-fidelity UI design mockups for a mobile app. Design System : Apply a modern, clean aesthetics similar to iOS 18 or Material Design 3 . Use rounded corners, soft drop shadows, and a vibrant primary color. Components : Intelligently interpret the sketch: turn scribbles into high-quality placeholder images , convert rough rectangles into proper buttons with gradients , and turn lines into realistic text blocks . Layout : Ensure perfect padding and consistent spacing between elements. Context : Place the design inside a realistic iPhone 16 frame mockups.
面部检测模拟
提示词:Create a high angle CCTV surveillance shot using the uploaded image as the source. Detect every visible person in the image and automatically draw a white rectangular bounding box around each face. For the most prominent person, add a large zoom in inset: a sharp, enhanced close-up of their face displayed in a floating rectangular frame connected with a thin white line.Keep the main image slightly noisy and security camera like (soft grain, slight distortion, muted colors), while the zoom in face box should be clearer, brighter, and more detailed. No text, no timestamps, no overlays except the boxes and connecting line. Maintain the original scene layout, angle, and environment of the uploaded image.
平面图到设计
提示词:Based on the uploaded 2D floor plan, generate a professional interior design presentation board in a single image. Layout : The final image should be a collage with one large main image at the top, and several smaller images below it. Content of Each Panel :
Main Image (Top) : A wide-angle perspective view of the main living area , showing the connection between the living room and dining area.
Small Image (Bottom Left) : A view of the Master Bedroom , focusing on the bed and window.
Small Image (Bottom Middle) : A view of the Home Office / Study room .
Small Image (Bottom Right) : A 3D top-down floor plan view showing the furniture layout. Overall Style : Apply a consistent Modern Minimalist style with warm oak wood flooring and off-white walls across ALL images. Quality : Photorealistic rendering, soft natural lighting.
图解应用漫画
提示词:Create a detailed {{pet store}} scene with English vocabulary labels for all objects. The format for labeling is: Line 1: English word, Line 2: IPA pronunciation, Line 3: Chinese translation
GitHub地址:https://github.com/ZeroLu/awesome-nanobanana-pro
6Kstar!BentoPDF:开源免费的PDF全能工具箱,内置超 60 种实用处理功能!
在数字化办公场景中,PDF处理是高频需求,但市面上不少工具要么收费高昂,要么存在隐私泄露风险。
今天介绍的BentoPDF,是一款刚刚开源就迅速走红的本地化PDF工具集。
目前已获得 GitHub 上6K+ Star的认可。
核心亮点
BentoPDF的最大亮点在于所有操作均在用户本地浏览器中完成,文件无需上传至任何远程服务器。
无论是合并、拆分、压缩,还是编辑、加密、转换格式,整个过程不依赖网络传输,从根源上杜绝数据外泄的风险。
用户无需注册登录,打开即用,真正实现零上传、零记录、零订阅。
功能特点
BentoPDF 集成了超过 60 种实用功能,分为以下几大类:
整理与管理:合并、拆分、删除页面、重新排序、旋转、提取页面、添加空白页等;
编辑与注释:高亮、批注、绘图、添加文本/图片/形状、签名、裁剪页面;
格式转换:支持 JPG 转 PDF、PDF 转图片等;
优化与安全:压缩文件大小、修复损坏文件、移除密码或限制、添加水印。
BentoPDF 凭借其完全的本地处理机制、丰富的功能集成、以及开源免费的策略,为个人用户与团队提供了一款既安全又强大的PDF处理工具。#
GitHub:https://github.com/alam00000/bentopdf
12月4日
开源项目Doraemon Paper Comicizer :将学术论文转换为哆啦A梦主题漫画!
当晦涩难懂的学术 PDF遇上经典的哆啦 A 梦IP,会碰撞出怎样的火花?
由开发者redreamality 开源的Doraemon Paper Comicizer给出了答案:
这款基于Gemini 3 Pro打造的工具,能将专业学术内容转化为更好理解的哆啦A梦主题漫画,让知识传播告别枯燥,变得趣味十足。
功能特点
PDF拖拽导入
任何上传的 PDF 文件都会自动转换为 Base64 格式,以便高效处理。
多步推理叙事
由Gemini 核心引擎负责分析论文内容、规划故事脉络,并逐一生成每个画格。
实时漫画渲染与查看
画格逐页实时生成,并即时显示在 Comic Viewer 中,支持缩略图导航和大图查看。
API 密钥管理
用户可自主管理 API Key,系统会妥善处理密钥过期等问题,提升使用体验。
应用场景
家庭亲子科普:家长可将晦涩的学科论文上传至工具,生成哆啦 A 梦主题漫画,用孩子熟悉的角色和剧情讲解专业知识,化解孩子对陌生知识的抵触心理,实现趣味启蒙。
校园课外教学:中小学教师可借助工具,把教材延伸的学术资料转化为漫画讲义,用于课堂拓展或课后兴趣活动,让抽象的科学原理、人文知识以更生动的形式呈现,提升学生的学习参与度。
科普创作者辅助:科普博主、自媒体创作者可利用工具快速将专业文献转化为漫画脚本和画面,降低科普内容的创作门槛,同时借助哆啦 A 梦的高知名度,提升科普内容的传播力和受众接受度。
开发者学习实践:对于 AI 与前端开发爱好者,该项目可作为优质的实战案例,帮助学习者掌握大模型API调用 + 前端可视化的组合开发逻辑,以及TypeScript 在大型前端项目中的类型管理技巧。
GitHub:https://github.com/redreamality/Paper-Comicizer
阿里开源新模型:Z-Image-Turbo-Fun-Controlnet-Union,具备强大的图像控制功能!
近日,阿里正式开源其全新ControlNet模型:Z-Image-Turbo-Fun-Controlnet-Union!
该模型作为Z-Image系列生态的重要扩展,在多条件控制生成领域实现了显著进步,为开发者与创作者提供了更精准、灵活的图像生成工具。
该模型支持Canny边缘检测、HED边缘提取、深度图、人体姿态估计和MLSD直线检测五种控制条件,用户可像使用标准ControlNet一样灵活调用。
功能特点
Pose姿势检测
精准识别和控制人物动作,对于人物角色设计、动画制作等创作场景十分有利,能帮助创作者快速实现人物姿态的精准设定。
Canny 边缘检测
作为经典的计算机视觉技术,该功能可识别并定位图像中物体的边界,依靠亮度或颜色的显著变化区域勾勒物体轮廓,让生成图像的物体形态更清晰可控。
HED 边缘提取
与 Canny 边缘检测功能类似,同样可实现图像边缘的精准提取,为图像生成提供细致的轮廓约束,适用于对物体边界要求较高的创作需求。
深度检测
通过模拟双目视觉原理生成场景深度信息,适用于三维重建、景深控制等需空间感知的任务。
应用场景
电商与广告:输入商品Canny边缘线稿与 Depth 光影深度图,搭配中英文提示词,可秒级生成构图统一的商品图、促销图,支持 A/B 测试快速迭代,降低商家设计成本。
建筑与室内设计:通过MLSD直线检测提取CAD图纸结构、Depth 深度图控制空间透视,能将毛坯房 CAD 线稿自动转为不同风格精装效果图,减少80%手动调整时间。
影视与游戏:输入Pose姿态图可生成符合动作要求的角色概念图;借助MLSD直线检测与 Depth 深度图,能快速搭建具3D感的游戏场景,适配元宇宙等内容创建。
数字艺术与插画:可将手绘Canny/HED线稿转为彩色插画,也能结合语义分割图实现摄影作品艺术风格迁移,还能快速生成社交平台个性化头像、表情包等UGC内容。
开源地址:https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union
12月3日
谷歌官方指南:解锁 Nano Banana Pro 专业创作的 10 个核心技巧!
近日,谷歌DeepMind的开发者倡导者Guillaume Vernade通过官方渠道,分享了关于其最新图像模型 Nano Banana Pro 的完整使用指南。
Nano-Banana Pro 是较前一代机型的重大飞跃,从“有趣”的图像生成转向“功能性”的专业资产制作。它在文本渲染、字符一致性、视觉综合、世界知识(搜索)和高分辨率(4K)输出方面表现出色。
核心技巧
1.文本渲染与信息图表模型能生成清晰、风格化的文字,非常适合将冗长的PDF或文本内容“压缩”成视觉图表或海报。只需指定风格,并用引号明确标注需要显示的文字即可。
2. 角色一致性可以将参考图片中的角色或人物无缝融入新场景,并保持其面部特征高度一致。这一功能非常适合为系列故事创作插图,或为视频平台制作风格统一的病毒式缩略图。
3. 谷歌搜索验证模型能调用谷歌搜索进行事实核查,依据实时数据和时事生成图像,有效减少了在新闻、趋势等主题上出现“幻觉”或错误信息的可能。
4. 高级编辑与修复如同一个强大的图像编辑器,模型可通过对话指令对图片进行物体移除、补绘、旧照片修复、着色以及风格转换。
5. 维度转换(2D ↔ 3D)这是一项突破性功能,可将2D平面图或示意图转化为生动的3D可视化效果,例如将建筑设计平面图转化为室内设计展示板,或将经典表情包转换为3D渲染版本。
6. 高分辨率与纹理支持原生最高4K分辨率输出,能够生成细节极其丰富的图像,特别适合制作需要大幅面打印的纹理素材或壁纸。
7. 思维与推理展现了模型的逻辑能力,例如可以在白板上一步步演示复杂方程的求解过程,或根据一张房间的完工图,推理并生成其施工期间的之前状态图。
8. 一次性故事板能够在一个会话中生成具有连贯叙事的多张图片,确保角色身份、服装保持一致的同时,变换角度和场景,非常适合用于广告分镜、概念艺术创作。
9. 结构控制与布局通过上传草图或线框图,用户可以严格把控最终生成图像的构图和布局,例如直接根据手绘草图生成完整的产品广告,或创建像素艺术和UI模型。
总结而言,Nano Banana Pro 的强大之处在于其理解而非匹配。通过提供丰富的情境、细节和明确的指令,创作者可以将其转化为一个多功能的生产力工具,用于生成从专业营销素材到复杂概念设计的各类视觉资产。
地址:https://x.com/GoogleAIStudio/article/1994480371061469306
12月2日
阿里开源Z-Image,AI图像生成与编辑能力全面升级,实现轻量化、高效率双重跨越!
阿里开源Z-Image,AI图像生成与编辑能力全面升级,实现轻量化、高效率双重跨越!
Z-Image模型参数规模为60亿,却能够生成媲美更大规模模型的逼真图像。在性能和生成质量上表现出色,适合多种创意应用。
双模型架构
Z-Image-Turbo:作为蒸馏版本,该模型在逼真图像生成方面表现突出,能够精准渲染中英文文本,并严格遵循双语指令。仅需8步推理即可达到或超越主流竞品的性能。
Z-Image-Edit:专为图像编辑设计的变体模型,能够执行从精确局部修改到全局风格变换的复杂任务,同时保持高度的编辑一致性。
功能特点
高效图像生成
Z-Image 凭借强大的AI 算力,实现快速生成 + 高质量输出双重优势。无需漫长等待,即可产出细节饱满、质感逼真的图像。无论是创意设计领域的海报、UI 草图,艺术创作中的插画、概念设定,还是虚拟内容生成所需的场景建模、数字资产,都能精准匹配需求,为创意落地提供高效助力。
卓越真实感
**Z-Image-Turbo专攻摄影级超写实图像生成,**无论是发丝的细腻纹理、金属的反光层次、布料的褶皱肌理,还是环境光的明暗过渡、阴影的虚实变化,都能实现像素级精准把控,还原出堪比专业相机拍摄的真实质感。
双语文本渲染
Z-Image-Turbo 能准确渲染中英文文本,同时保持人脸真实性和画面美感,效果媲美顶尖闭源模型。在海报设计中,它展现了优秀的构图能力和良好的版式设计感。即使在小字号等高难度场景下,模型也能高质量地渲染文字,最终呈现出文本精准且富有视觉吸引力的设计。
知识与文化理解
Z-Image 具备广博的世界知识与对多元文化的深刻理解。这使其能够精确生成各种主题,包括著名地标、知名人物和特定的现实世界物体。
深度语义理解
Z-Image强大的提示词增强器(PE)通过结构化推理链注入逻辑与常识,使模型能处理诸如鸡兔同笼”或古诗可视化等复杂任务。在编辑任务中,即使用户指令模糊不清,模型也能运用其推理能力来推断用户的潜在意图,确保最终结果在逻辑上是连贯的。
低资源适配
Z-Image-Turbo 版本优化了推理效率,可在低资源设备(如消费级 GPU)上快速运行,适合企业级和消费级应用场景。
社区驱动开发
提供基础模型(Z-Image-Base),便于开发者进行微调和自定义开发,满足多样化需求
应用场景
艺术画廊:艺术家能用 Z-Image 生成独特的艺术作品,探索不同的风格和主题。
广告素材生成:快速生成高质量的广告图片,用于社交媒体、海报、横幅等。
影视特效:模型能生成虚拟场景、角色或特效元素,辅助影视制作。
游戏开发:模型快速生成游戏中的角色、场景和道具,加速游戏开发流程。
教学素材:生成与教学内容相关的图像,如历史场景、科学现象等,增强教学效果。
GitHub:https://github.com/Tongyi-MAI/Z-Image
项目官网:https://tongyi-mai.github.io/Z-Image-blog/
DeepSeek-V3.2系列开源:强化Agent能力,推理能力达到GPT-5水平!
终于,DeepSeek又上新了!
这次一口气发布了两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
DeepSeek-V3.2:平衡高效与实用,适配日常全场景
DeepSeek-V3.2 精准锚定推理能力与输出效率的最优平衡,专为日常高频场景量身打造。无论是实时问答、智能交互,还是通用 Agent 任务执行,都能以精简的输出长度实现高效响应。
在公开推理类 Benchmark 测试中,其核心推理性能已追平 GPT-5,仅略逊于 Gemini-3.0-Pro;相较于 Kimi-K2-Thinking,V3.2 大幅压缩冗余输出,不仅显著降低计算资源消耗,更让用户等待时间大幅缩短,兼顾性能强度与使用便捷性。
DeepSeek-V3.2-Speciale:极致推理突破,探索开源模型能力上限
作为 DeepSeek-V3.2 的长思考增强版,DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界。
该模型不仅具备精准的指令跟随能力,更在数学证明、逻辑验证等复杂任务中展现出严谨的推导实力,在主流推理基准测试中表现媲美 Gemini-3.0-Pro,为需要深度思考的专业场景提供强有力的开源解决方案。
传统注意力机制在处理长序列时计算复杂度为O(L²),而DSA将其降低到O(L·k),其中k远小于L。这一创新使模型在长上下文任务中显著加速推理,且无明显性能损失。
DeepSeek-V3.2在Agent任务上实现了重要突破,能够同时具备推理和工具使用能力。
团队设计了新的思考上下文管理机制,只有在引入新的用户消息时才丢弃历史推理内容,大幅提高了token利用效率。
团队开发了自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示。
在代码Agent方面,从GitHub挖掘了数百万个issue-PR对,构建了数万个可执行的软件问题解决环境。
在多项基准测试中,DeepSeek-V3.2展现出了强劲实力。在数学竞赛方面,AIME 2025达到93.1%的通过率,HMMT竞赛超过90%;在编程领域,LiveCodeBench达到83.3%,Codeforces评分2386。
DeepSeek-V3.2系列的发布标志着开源大模型在性能与效率平衡方面取得了重要进展。虽然模型在世界知识广度和Token效率方面仍有提升空间,但已为开源社区提供了强有力的竞争选项。
开源地址
DeepSeek-V3.2
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
11月28日
小红书创作者福音!开源工具 RedInk:一句话生成爆款图文,风格统一、文字准确!
GitHub上开源了一款名为RedInk的AI工具,收获了1.5Kstar!
**它是基于Nano Banana Pro的一站式小红书图文生成器,**能够通过一句简单的描述,在十几秒内自动生成完整的小红书图文内容。
功能特点
全流程自动化
RedInk集成了AI自动撰稿、AI生成图片、封面设计和图文排版功能。该工具采用双AI协作模式:Gemini 3负责文案撰写,Nano Banana Pro负责图片生成,确保图文风格的一致性。
例如输入“秋季显白美甲”这样的主题,工具即可快速生成包含封面和多页内容的图文素材。
风格高度适配
生成的图文自带小红书标志性设计: 清新配色、清晰字体层级、场景化配图,甚至解决了传统 AI 生成图片的 中文乱码问题;
灵活可调整
支持编辑大纲内容、调整页面顺序,品牌方还能上传参考图片以保持视觉风格统一,不满意的页面可单独重新生成。
应用场景
无论是个人博主还是企业账号,都能在 RedInk 中找到适配的使用场景。
个人创作者:对于新手博主或兼职创作者,RedInk 最大的价值是缩短从想法到发布的时间差,快速产出内容,降低启动焦虑。
中小商家 / 品牌:对于美妆、服饰、母婴等依赖小红书营销的中小商家,RedInk能替代部分专业设计和文案工作,高效制作种草内容,降低营销成本。
内容团队:对于MCN 机构或品牌内容团队,RedInk 可优化 “多账号运营” 的协作模式,标准化流程,提升协作效率。
GitHub:https://github.com/HisMax/RedInk
11月27日
开源版Nano Banana来了!FLUX.2:新一代生产级图像生成与编辑模型!
近日,Black Forest Labs正式发布了新一代开源视觉模型FLUX.2!
该模型旨在解决真实生产环境中的需求,而非仅为娱乐工具。
本次FLUX.2系列提供三款主要模型,满足不同层级需求:
FLUX.2 [pro]:提供媲美顶级闭源模型的图像质量,生成速度快且成本优化,仅通过API服务提供。
FLUX.2 [flex]:允许用户自定义步数和引导比例等参数,在质量与速度间灵活权衡,擅长文本和细节渲染。
FLUX.2 [dev]:32B参数的开放权重模型,是目前最强大的开源图像生成与编辑工具,支持文生图、图生图及多图输入功能。
未来还将推出FLUX.2 [klein],作为精简版开源模型,在保持核心能力的同时更轻量友好。
功能特点
FLUX.2在多个关键领域实现显著突破。
多图参考
FLUX.2可同时参考多达10张图片,并保持字符、产品和风格的一致性。
例如上传多张图像,输入描述词,让它结合多张图像的元素,同时在复杂场景中保持身份一致性;就能输出准确的图像。
照片级写实感
FLUX.2在图像细节与真实感全面进阶:更丰富的细节层次、更锐利的纹理表现、更稳定的光照系统,完美适配产品拍摄、可视化呈现、模拟摄影等专业场景,效率质感双在线!
文本渲染
模型能处理复杂排版、信息图、表情包和UI设计,支持可读的细小文字。
指令遵循能力
改进对复杂、结构化指令的遵循,包括多部分提示和组合约束。
现实世界知识
在光照、空间逻辑和场景连贯性方面表现更强,生成更符合现实的图像
对比Nano Banana Pro
案例1:
让Flux.2和Nano Banana Pro同时生成一位穿着黑色上衣和牛仔短裤穿着棕色皮靴的女人站在博物馆中的全身像,真实的光照和细节!
案例2:
让它们同时将下面这个动漫形象变成真人。
案例3:
让两款模型生成了2000年代CCD相机风格的照片,画面内容是两只树懒在酒馆喝酒。
Flux.2 Pro
NanobananaPro
案例4: 上传一张人物图像和动作姿势图,让它们完成动作迁移。
Flux.2 Pro
NanobananaPro
Black Forest Labs强调开放核心策略,旨在让视觉智能由全球研究者、创作者和开发者共同塑造。其开源特性与生产级能力,将为设计、营销、内容创作等领域带来新一轮效率革命。
开源链接:https://huggingface.co/black-forest-labs/FLUX.2-dev
腾讯混元OCR模型开源!HunyuanOCR:1B参数获得多项业界OCR应用榜单SOTA成绩!
腾讯混元团队正式宣布开源其自研的OCR模型:HunyuanOCR。
该模型参数规模仅为1B,依托混元原生多模态架构打造,在多项业界基准测试中取得了最先进(SOTA)水平的表现。并且支持100多种语言,无论是单语言还是多语言混合文档都能应对自如。
功能特点
文本检测与识别:能检测并识别图片中的文字,输出文本内容及坐标信息,适用于文档、艺术字、街景、手写等多种场景。
复杂文档解析:支持多语种文档的电子化处理,将文档中的文本内容按阅读顺序组织,公式以 LaTeX 格式表示,表格以 HTML 格式表达。
开放字段信息抽取:对常见卡证和票据中的感兴趣字段(如姓名、地址、单位等)进行标准 JSON 格式解析,方便信息提取和后续处理。
视频字幕抽取:可自动化抽取视频中的字幕,包括单语和双语字幕,适用于视频内容处理和翻译场景。
图像文本翻译:支持14种小语种(如德语、西班牙语、日语等)翻译成中文或英文,以及中英互译,适用于跨语言文档处理和交流。
应用场景
文档处理:用于扫描或拍摄的多语种文档电子化,支持复杂文档解析,包括文本、公式(LaTeX格式)和表格(HTML格式)的提取与组织。
视频字幕提取:自动化提取视频中的字幕,支持单语和双语字幕,适用于视频内容制作和翻译。
拍照翻译:支持多种小语种的拍照翻译功能,可将图片中的文字翻译成中文或英文,适用于旅行、学习等场景。
信息抽取:从图像中提取特定字段或信息,如从身份证、名片中提取姓名、地址等,支持多种格式输出。
视频内容创作:帮助视频创作者快速提取视频中的文字内容,用于字幕制作、内容分析等。
教育与学习:辅助学生和研究人员快速提取文献、教材中的关键信息,支持多语言学习和研究。
GitHub:https://github.com/Tencent-Hunyuan/HunyuanOCR
11月25日
开源的一键网站部署工具!PinMe :通过简单命令快速上线静态网站或前端项目!
PinMe是开源的一键部署工具,能让静态网站或前端项目快速上线。
无需服务器和 DNS。PinMe 部署免费、极速(30 秒完成),支持拖拽上传和命令行操作。
PinMe 能集成 GitHub Actions 实现自动化部署,支持多环境管理,适合快速分享 Demo、简历或作品集,是前端开发者和开源项目维护者的高效工具。
功能特点
快速部署:通过简单的拖拽或命令行操作,将静态网站或前端项目快速部署到 IPFS 网络,生成永久链接,30 秒内完成上线。
免费使用:无需购买域名和服务器,用 IPFS 和 ENS 域名实现零成本部署。
分布式存储:依托 IPFS 网络,内容分布式存储,稳定性高,不易宕机。
多环境管理:支持为测试、预览和正式环境部署不同的链接,方便项目管理和版本控制。
自动化部署:支持集成到 GitHub Actions,实现代码推送后自动构建和部署。
上传与管理:支持查看上传历史、删除旧版本,方便管理和维护部署内容。
便捷操作:提供网页拖拽和命令行两种上传方式,操作简单,易于上手。
应用场景
个人作品展示:快速部署个人项目、作品集或简历,方便分享给雇主或客户。
项目演示:为开源项目或新功能创建演示页面,快速生成链接供他人查看。
临时分享:用户需要快速分享一个网页或文档时,无需搭建服务器,即刻部署并分享链接。
教育用途:教师或学生快速部署课程资料或项目展示页面,方便在线学习和交流。
营销推广:品牌或企业能快速部署活动页面或产品介绍页面,用于推广和宣传。
Github :https://github.com/glitternetwork/pinme
开源AI图像修复!4K Agent:一键将模糊图像放大至4K超清!
4K Agent是一款开源的AI代理型图像超分辨率通用工具,旨在将任何图像普遍提升至4K分辨率。
传统图像放大模型通常只在特定类型图片上表现良好,面对真实世界中的复杂模糊、AI生成图的伪影,或是专业领域图像时往往力不从心。
4K Agent通过多智能体设计,为每张图像定制通往4K分辨率的优化路径,解决了通用性和可控性的需求。
功能特点
感知智能体:精准诊断图像问题
感知智能体首先分析图像内容与退化信息,通过图像分析器评估多个感知质量指标,再利用视觉语言模型进行退化推理,识别存在的问题,最后通过任务规划制定详细的复原计划。
复原智能体:执行-反思-回滚机制
复原智能体采用"执行-反思-回滚"的工作流程。在执行阶段,系统支持九种不同的复原任务,调用state-of-the-art模型生成候选结果;反思阶段基于质量评分选出最优输出;当质量不达标时,回滚机制会重新调整复原计划。
智能人脸修复
系统还集成了人脸修复模块,专门针对人像进行优化处理,并提供Fast4K模式来平衡处理质量与速度。配置模块允许用户根据具体需求调整使用偏好,如优先感知质量或保真度等,无需额外训练即可适配不同场景。
性能表现
4K Agent在26个基准测试集上进行了全面评估,涵盖经典图像超分辨率、真实世界图像超分辨率、16倍放大等11种不同任务。
在经典图像超分辨率任务中,4K Agent生成的图像展现出更丰富、更精准的细节,如树皮上的细密条纹、鹿角结构等都能得到完美还原。
在极具挑战性的16倍放大任务中,系统能够生成高细节度且逼真的纹理,如发丝、眉毛等细微之处都能清晰呈现。
特别是在DIV4K-50测试集上,从256×256分辨率提升至4096×4096的过程中,4K Agent始终能重建出精细自然的细节。
4K Agent作为一个可控且通用的图像复原系统,在自然场景、人像、AI生成内容以及遥感、医学影像等专业领域都表现出色,展现了强大的泛化能力。
项目主页:https://4kagent.github.io/
Github :https://github.com/taco-group/4KAgent
11月24日
南洋理工开源PhysX-Anything:从单张图像生成可直接仿真的物理3D资产!
南洋理工团队最新开源PhysX-Anything框架,实现了从单张真实世界图像到可直接用于物理仿真的3D资产的端到端生成。
可直接用于机器人仿真、具身智能等实际场景,解决了现有3D生成方法好看不实用的痛点!
核心突破
传统3D生成方法主要关注视觉逼真度,但缺乏物理属性(如密度、材料、尺寸)和关节结构(如可活动的铰链、滑动部件),导致生成的模型无法直接应用于机器人仿真、具身智能等需要物理交互的场景。
而PhysX-Anything则实现了关键突破:
物理完整性:生成资产包含几何形状、关节类型、材料属性、密度等物理参数;
即用性:直接输出URDF和XML文件,兼容MuJoCo等主流物理引擎;
强泛化能力:仅需一张真实图像即可生成全新物体,无需依赖现有模型库。
功能特点
高效3D表示
将3D几何压缩为32×32×32的稀疏体素网格,通过连续索引合并减少令牌数量至原始网格的1/193,适配VLM的令牌预算限制。
例如,连续体素索引“199-216”可合并表示,大幅降低冗余。
多轮对话生成物理信息
第一轮:VLM(基于Qwen2.5微调)解析图像,生成整体物理描述(类别、尺寸、零件列表、材料等);
后续轮次:逐零件生成几何体素序列,确保结构与物理属性一致。
物理解码器
通过可控流transformer将粗体素细化为高精度几何,结合物理参数生成URDF、XML及零件级网格。
性能表现
定量结果:在PhysX-Mobility数据集上,PhysX-Anything在几何指标(PSNR 20.35、F-score 77.50)和物理指标(绝对尺寸误差仅0.30)均领先现有方法。
真实图像测试:用户研究表明,生成资产在几何、材料、关节参数等方面评分接近满分(1.0)。
机器人仿真:生成的资产(如水龙头、柜子)可直接用于MuJoCo环境,成功完成开关、折叠等操作任务。
PhysX-Anything通过VLM驱动的物理建模、高效3D表示及即用型输出格式,实现了从单图到可仿真资产的跨越,为机器人仿真、具身智能提供了高质量资产来源!
项目主页:https://physx-anything.github.io/
GitHub:https://github.com/ziangcao0312/PhysX-Anything
腾讯开源轻量级AI视频生成模型HunyuanVideo 1.5,8.3B参数实现电影级效果!
腾讯混元近日正式开源了一款真正「小而美」的视频生成模型:HunyuanVideo 1.5!
这是一款基于 Diffusion Transformer(DiT)架构的轻量级视频生成模型,参数量仅为8.3B,仅需14G显存的消费级显卡即可在本地流畅运行。
功能特点
深度指令理解能力
HunyuanVideo 1.5采用多模态大语言模型作为文本编码器,能够精准理解中英文提示词。无论是复杂的角色动作描述,还是细腻的情绪变化,模型都能准确还原。在图像生成视频任务中,模型能完美继承原图的光影与色调,保持人物样貌一致,新增元素与整体风格自然融合。
自然运动模拟与物理规律遵循
模型创新性地采用稀疏注意力机制,集中算力处理运动物体和关键场景,自动忽略静止背景,确保生成的画面符合物理规律。无论是玻璃碎片自然下落、水流波纹,还是人物大幅度的快速动作,模型都能保持肢体动作连贯自然,避免扭曲变形。
电影级美学镜头与画质提升
通过多阶段渐进式训练,HunyuanVideo 1.5能够生成具有电影级质感的视频画面。模型支持推拉、跟拍等专业运镜手法,并可通过超分系统将画面智能提升至1080p分辨率,智能修补瑕疵、增强细节。
技术突破
文字生成难题攻克
模型引入byT5模型对OCR文本独立编码,解决了视频生成中的"写字"难题。无论是印刷体、书法还是特效文字,都能准确生成,位置合理且工整清晰。
多风格支持
模型支持写实画面、动画质感、赛博朋克、科幻风等多种风格,用户通过提示词即可灵活控制生成效果。
性能表现
在多项基准测试中,HunyuanVideo 1.5展现出卓越性能。
文生视频任务:模型在结构稳定性指标获得79.75分,大幅领先同类开源模型;指令跟随得分61.57,明显优于Wan 2.2、可灵2.1 Master等竞争对手。
图生视频任务:HunyuanVideo 1.5的视觉质量与顶尖闭源模型Veo 3、Seedance Pro表现相当,并以微小优势胜出。在GSB人工评估中,模型与开源模型对比全部取得正向结果,显示出更强的用户偏好。
高效推理架构:模型采用8.3B参数的DiT架构配合3D因果VAE编解码器,实现空间16倍、时间4倍的高效压缩。创新的SSTA(选择性滑动分块注意力)机制通过动态剪枝冗余时空数据块,显著降低计算开销。
项目主页:https://hunyuan.tencent.com/video/zh
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
11月20日
Meta开源SAM 3D:实现真实的3D场景及物体重建,还可生成精准可交互的3D人体模型!
近日,Meta宣布推出SAM系列新成员:SAM 3D!
SAM 3D 的目标是让 AI 从单张二维图像中推断三维几何结构,**包括对象重建、场景深度恢复、人体姿态与网格估计等。**它面向通用计算机视觉任务,追求高泛化、强鲁棒性和高效的训练与推理。
SAM 3D 主要包含两个独立模型:
SAM 3D Objects:支持物体与场景重建
SAM 3D Body:专注于人体形状与姿态估计
1.SAM 3D Objects
SAM 3D Objects专注于从单张自然图像中重建物体与场景的3D形状、纹理及布局。
面对日常照片中常见的小物体、侧视角、遮挡等难题,它不再依赖单一像素信息,而是通过强大的识别能力与上下文理解弥补视觉缺失,让3D重建摆脱对理想拍摄条件的依赖。
技术创新
构建高效数据标注引擎:破解真实世界 3D 数据稀缺的行业痛点。Meta 发现验证 3D 网格的难度远低于从零创建,据此设计了 "标注人员评分 + 专业艺术家补漏" 的协作模式,最终完成近 100 万张真实图像标注,生成约 314 万个 3D 网格。
创新多阶段训练流程:将合成数据预训练与真实数据后训练相结合,通过数据引擎与模型迭代形成正向反馈闭环,让模型能适应复杂的真实环境。
在性能测试中,SAM 3D Objects 表现亮眼:3DShape 的 F1 (0.01) 指标达到 0.2339,远超同类模型;Chamfer 距离低至 0.0408,3DloU 达 0.4254,在 SA-3DAO 数据集的偏好测试中也大幅领先竞品。
2.SAM 3D Body
针对单图 3D 人体重建的长期挑战,SAM 3D Body 实现了稳健且精准的突破,即便面对不寻常姿态、遮挡、多人同框等复杂情况,仍能输出高质量结果。
该模型支持分割掩码、2D关键点等交互提示,允许用户直接控制输出结果。其基于Meta新型网格格式MHR,分离骨骼与软组织建模,提升可解释性。
性能优势:
SAM 3D Body 在多个基准测试中刷新纪录:EMDB 数据集上 MPJPE 低至 61.7,RICH 数据集 PVE 达 60.3,SA-1B 数据集 PCK 指标高达 75.4,在真实场景图像的用户研究中,赢率显著超越 4DHumans、PromptHMR 等主流模型。
训练数据覆盖800万张图像,强化了对复杂服装与姿态的适应性。
SAM 3D 的推出,不仅让 3D 重建从专业领域走向大众化,更在真实世界场景适配、交互可控性等方面实现关键突破。无论是日常照片的 3D 化改造,还是专业场景的精准重建,这款工具都展现出巨大潜力,有望推动 3D 内容创作、虚拟交互等领域的普及与创新。
目前Meta已开源了SAM 3D的模型权重与推理代码,用户无需复杂开发就能直接体验 3D 重建能力!
开源地址
SAM 3D Body:https://github.com/facebookresearch/sam-3d-body
SAM 3D Objects:https://github.com/facebookresearch/sam-3d-objects
项目官网:https://ai.meta.com/blog/sam-3d/
11月19日
谷歌Gemini 3 深夜来袭! 性能实现断层领先,马斯克、OpenAI都夸好!
今天凌晨,万众期待的年度压轴之作**:谷歌最强推理模型Gemini 3终于亮相**,登场即顶配,直接推出性能拉满的 Gemini 3 Pro。
谷歌DeepMind研究团队称**:Gemini 3是全球领先的多模态理解模型,兼具谷歌最强的 Agent 编程与氛围编程能力。**它基于最先进推理技术打造,可视化效果更丰富,交互体验更深入,全方位刷新模型性能上限。
模型发布引发热议
Gemini 3一经发布便横扫各大权威评测集,更以1501 Elo高分登顶 LMArena大模型竞技场榜首,实力碾压同类竞品。
Gemini 3 的发布热度直接惊动行业大佬 :OpenAI CEO 奥特曼亲自发推送上祝贺。
另一边,刚在今早推出 Grok 4.1 的马斯克,也转发了谷歌 DeepMind CEO 戴密斯・哈萨比斯的相关推文,并用一句 “干得不错” 回应这场行业焦点事件。
有趣的是,网友们已捕捉到这波神仙互动,玩梗表情包铺天盖地,把热度推向新高峰。
同时在 X 博主 Chubby 发起的「到 2026 年底,哪家公司拥有最好的 LLM?」投票中,Google Gemini 遥遥领先。
实测案例
Gemini 3的诞生,标志着谷歌在通往AGI的道路上,迈出了又一大步!
接下来就一起看看Gemini 3 Pro到底能做什么。
如果你想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。
解读长视频,或是把论文变成互动指南,Gemini3都可以接得住。它还能生成交互式抽认卡、可视化或其他格式的代码,帮助用户掌握这些内容。
它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。
Gemini 3在 AI 搜索模式中同样表现亮眼,通过生成式交互界面,能轻松应对 RNA 聚合酶作用机制这类复杂知识点的学习需求。尤为特别的是,谷歌此次打破常规,在模型发布首日便完成其与 AI 搜索功能的深度集成。
除此之外,Gemini 3还可编写拥有丰富可视化界面和互动性的复古3D飞船游戏。
通过代码构建、解构和重新创作精细的3D体素艺术,能让用户的想象变为现实。
生成更具实用性、元素丰富的互动性网页和App。
同时,Gemini 3 的智能体编码能力全面升级,可无缝衔接各类现有工具,与全新平台 Google Antigravity 强强联合,堪称天作之合。
屠榜评测集
谷歌博客称,Gemini 3 Pro 经推理、多模态等多维度基准测试,全面超越 Gemini 2.5 Pro,以 1501 Elo 登顶LMArena。
Gemini 3 升级了深度思考与多模态理解能力,可助力用户解决复杂问题。其 Deep Think 版本表现亮眼,“人类终极测试”(无工具 41.0%)、GPQA Diamond(93.8%)成绩优于 Gemini 3 Pro,ARC-AGI-2(代码执行)45.1% 的得分,更是超越前代及 OpenAI、Anthropic 同类模型。
自Gemini 2以来,谷歌Gemini模型已经在Agent方面取得诸多进展,此次Gemini 3还登顶了Vending-Bench 2排行榜。
从满配首发到评测屠榜,从多模态与编程能力的全面升级到行业大佬的集体认可,Gemini 3 的亮相不仅刷新了大模型性能天花板,更引爆了全网热议与期待。
体验地址:https://aistudio.google.com/
11月18日
开源AI合照生成模型!WithAnyone:支持生成高度自然、毫无违和感的多人大合照!
复旦大学与阶跃星辰联合开源了WithAnyone项目,这是一款能够生成高度自然、和谐的多人大合照AI模型。
该模型仅需上传单张人物照片,即可生成该人物不同角度、表情的图像,或让多人自然同框,彻底告别传统AI合照的复制粘贴感。
核心突破
与此前流行的InstantID、PuLID等方法不同,WithAnyone不再局限于简单复制参考图像中的表情与姿态,而是实现了对人物身份的高一致性保持与生成姿态的灵活控制。
WithAnyone实现了双重突破:
身份一致性拉满
生成的人物能精准还原参考图的核心特征,不会出现认不出的情况。
姿态表情可控
支持生成不同角度、表情、动作的人物形象,多人同框时互动自然,彻底打破 “复制粘贴” 魔咒。
无论是三姐妹戴同款墨镜的温馨瞬间;
还是三兄弟西装革履的帅气同框,WithAnyone 都能让人物神态贴合场景,和谐共存。
海量高质量数据支撑
团队构建了超大规模训练数据集,包括 100 万张单人照片、200 万张多人合照、50 万张配对照片(每张多人合照都为每个人匹配上百张不同角度、表情、光照的参考图),以及 1 万张高质量风格化照片,为模型学习提供了充足素材。
技术创新
双通道编码:参考图像通过人脸识别网络获取身份向量,再经通用图像编码器捕获视觉特征,仅作用于对应人脸区域,避免信息泄露。
对比式学习:拉近同一身份不同风格 / 姿态的样本,推远不同身份样本,让模型学会 识别同一人而非复制一张脸。
优化目标升级:在传统扩散 / 重构损失基础上,新增 ID 对比损失和对齐真实目标的 ID 损失,平衡相似与变化的关系。
应用场景
WithAnyone的出现为多个领域带来了便利与创新:
个人生活与纪念:家人或朋友身处不同地点时,可基于各自照片生成虚拟合照,弥补无法线下相聚的遗憾,为节日、生日或特殊纪念日创造具有仪式感的影像。
创意设计与娱乐内容制作:影视、游戏或广告行业可在前期概念设计阶段,快速生成不同角色组合的视觉方案;自媒体创作者也可便捷生成多人互动场景的配图。
电商与时尚行业:无需组织实体拍摄,即可为同一款服装、配饰生成由不同模特展示的“合照”,高效展现多样穿搭效果,降低拍摄成本。
教育与文化传播:可让历史人物、文学角色同框,生动呈现历史场景或故事画面,增强教学或展览的吸引力和理解度。
开源地址:https://github.com/Doby-Xu/WithAnyone
项目主页:https://doby-xu.github.io/WithAnyone/
字节开源高效视频生成模型!InfinityStar:实现高分辨率图像和动态视频的快速合成!
InfinityStar是字节跳动推出的高效视频生成模型,通过统一的时空自回归框架,实现了高分辨率图像和动态视频的快速合成。
InfinityStar 基于预训练的变分自编码器(VAE)构建,利用知识继承策略,大幅缩短训练时间并降低计算资源消耗。支持多种生成任务,包括文本到图像、文本到视频、图像到视频以及长时间交互视频合成等。
主要功能
高分辨率视频生成:支持生成高质量的720p视频,能快速合成复杂的动态场景。
多任务支持:涵盖文本到图像、文本到视频、图像到视频以及交互式视频生成等多种任务,满足多样化需求。
高效生成能力:生成5秒720p视频仅需58秒,速度远超传统扩散模型,显著提升生成效率。
统一时空建模:通过时空金字塔结构,有效解耦外观和动态信息,实现高效的空间和时间依赖关系捕捉。
知识继承策略:基于预训练的变分自编码器(VAE)构建,缩短训练时间,降低计算资源消耗。
开源与易用性:所有代码和模型均已开源,方便研究人员和开发者快速上手并进行进一步研究和应用开发。
性能表现
在图像生成基准测试中实现SOTA性能:
在视频生成基准测试中实现SOTA性能:
超越像Hunyuan Video这样的扩散竞争对手:
应用场景
视频创作与编辑:快速生成高质量的视频内容,适用于广告制作、影视特效、短视频创作等领域,提升创作效率。
交互式媒体:支持交互式视频生成,可用于开发互动式游戏、虚拟现实(VR)和增强现实(AR)应用,增强用户体验。
内容个性化:根据用户输入的文本或图像生成定制化视频,满足个性化内容推荐和定制化服务的需求。
动画制作:生成流畅的动画视频,降低动画制作成本和时间,适用于动画电影、动画广告等领域。
教育与培训:创建动态教学视频,通过生成与教学内容相关的动画或视频,提高教学效果和学生参与度。
社交媒体:为社交媒体平台提供丰富的视频内容,帮助用户快速生成吸引人的视频,提升用户互动和内容传播。
Github :https://github.com/FoundationVision/InfinityStar
11月17日
AI全能视频助手!开源多智能体协作框架UniVA:打通视频理解、编辑、生成全链路!
新加坡管理大学推出的开源框架 UniV**,能够将视频分析、分割、编辑和生成等功能整合到统一流程中**,让 AI 成为能听懂需求、灵活迭代的全能视频助手。
功能特点
多模态输入与输出:支持文本、图像、视频等多种输入形式,最终可生成包含视频、音频、文本的多模态成果,适配不同创作起点与输出需求。
高精度创作一致性:在角色形象、视觉风格、故事逻辑上保持高度统一,无论是角色舞蹈视频的连贯性,还是广告片、故事片的风格统一,都能精准把控。
丰富的创作场景覆盖:可实现风格迁移(如视频转中国水墨画风格)、目标分割、背景替换、视频延长、故事重制等多元需求准确追踪对象状态,避免风格或角色偏差。满足从创意生成到后期优化的全链条创作。
核心架构
UniVA 的核心优势在于创新的Plan–Act 双智能体设计,配合多层记忆系统,实现高效协同与长流程一致性。
规划智能体(Plan Agent):核心作用是 拆解任务。它会结合用户输入的文本、图像或视频,调取全局记忆、用户记忆和任务记忆,将复杂需求分解为一系列可执行的子任务,明确每一步的目标与流程。
执行智能体(Act Agent):核心作用是 落地执行。通过 MCP(Model Context Protocol)协议,它能动态调用外部工具(视频生成、分割、编辑等 AI 或非 AI 工具),按子任务步骤推进,同时实时更新记忆系统,确保跨步骤协作的连贯性。
多层记忆系统:全局记忆存储历史操作,用户记忆沉淀素材与偏好,任务记忆聚焦当前流程上下文。三层记忆协同,让长视频创作、多轮编辑中,角色形象、视觉风格和创作约束始终保持一致。
应用场景
创意内容生成:输入文本描述,自动完成故事板、角色、关键帧及片段合成,快速产出完整视频,支持多轮迭代修改。
视频风格化改造:上传普通视频,一键转换为水墨画、油画等风格,无需手动调参,适配短视频、Vlog 美化等需求。
情绪 / 氛围定向输出:生成温馨、悬疑等特定情绪视频,精准传递氛围,适用于短视频、节日祝福等创作。
商业广告制作:全流程自动化生成产品推广视频,支持品牌风格统一,贴合广告片创作需求。
视频二次创作与优化:上传现有视频,可实现主角分割、背景替换、时长延长,适配影视剪辑、内容翻新等场景。
Github :https://github.com/univa-agent
技术论文:https://arxiv.org/pdf/2511.08521
字节跳动开源3D重建项目Depth Anything 3:让计算机实现了媲美人类的空间感知!
近日,字节跳动Seed团队开源了Depth Anything 3(DA3)项目,已斩获1.3Kstar!
这项研究挑战了当前3D视觉领域的复杂设计趋势,证明仅需一个普通Transformer架构和单一深度光线表示,就能实现媲美人类的空间感知能力。
性能突破
DA3团队经过一年探索,获得两个关键发现:首先,普通Transformer(如标准DINOv2编码器)足以作为骨干网络,无需专门架构;其次,单一深度光线预测目标可避免复杂多任务学习。
团队建立了新的视觉几何基准,涵盖相机姿态估计、任意视图几何和视觉渲染。DA3在全部10项任务中刷新SOTA记录,相机姿态精度比VGGT平均提高35.7%,几何精度提高23.6%。
纽约大学助理教授谢赛宁高度评价这一工作,称“DepthAnything系列每次都能让事情变得更简单、更易于扩展”,并认为AI的重大突破将悄然来自视觉领域。
应用场景
DA3展现出多方面的应用潜力:
视频重建:从单视图到多视图恢复视觉空间
大规模SLAM:显著降低漂移,优于需要48小时以上的COLMAP
前馈3D高斯估计:实现强大泛化能力的新颖视图合成
多摄像头空间感知:增强自动驾驶车辆环境理解能力
该项目已全面开源,包括论文、代码和Demo,所有模型均基于公开学术数据集训练。这种简单高效的设计理念,正推动3D视觉技术向更易用、更实用的方向发展。
项目主页:https://depth-anything-3.github.io/
GitHub:https://github.com/ByteDance-Seed/Depth-Anything-3
11月13日
开源AI图表生成神器!Smart Excalidraw:用自然语言即可生成专业、清晰的图表!
Smart Excalidraw 是一款开源的AI图表生成工具,它如同一位AI制图助手,能够将你的自然语言描述直接转化为专业、清晰的图表,让你能完全专注于逻辑本身,而非绘图技巧。
功能特点
自然语言驱动:只需用简单的语言描述你的需求,,AI 便能理解你的意图,自动生成结构清晰的图表。
广泛支持图表类型:工具支持超过20种图表类型,全面覆盖流程图、架构图、时序图、思维导图、ER图等常见需求。
智能布局与美化:内置智能算法会自动优化图表布局,有效避免连线交叉,并智能调整元素的位置、颜色和样式,确保生成结果既美观又专业。
深度集成与可编辑性:生成后的图表深度集成在功能强大的 Excalidraw 白板编辑器中,用户可以随时进行二次调整和编辑,灵活性极高。
支持主流AI模型:项目支持 Claude Sonnet 4.5 等主流大语言模型,确保生成质量。
多平台兼容:基于浏览器运行,可轻松导出为 SVG、PNG 或 JSON 格式,并能集成到 VS Code、Obsidian 等流行工具中。
应用场景
技术文档编写:快速生成系统架构图、API接口时序图,并直接嵌入文档,提升文档质量。
需求评审与规划:在会议中快速创建功能分解图或思维导图,帮助团队成员直观理解并快速对齐。
教育与知识管理:教师和学生可用它来将抽象概念可视化,构建清晰的知识图谱,也可轻松集成到 Notion、Obsidian 等知识库中。
Smart Excalidraw 的出现,极大地降低了制作专业图表的技术门槛。它通过AI技术将画图变得像写字一样简单自然,为程序员、产品经理、技术文档工程师等需要频繁使用图表的专业人士提供了一个强大的效率提升工具。
GitHub:https://github.com/liujuntao123/smart-excalidraw-next
11.9Kstar!开源的本地化高精度OCR工具Zerox:PDF、表格、手写体一键识别!
Zerox是由Omni-AI团队开发的一款开源工具,专注于将PDF、DOCX、图片等多种格式的文档转换为Markdown。
Zerox完全开源免费,目前在GitHub已收获11.9Kstar!提供API接口,便于开发者集成到应用中,实现自动化文档处理。
主要功能
零样本OCR识别:无需用户提供大量样本进行训练,直接对各种类型的文档进行高精度的文本提取,节省训练模型的时间和精力。
多格式文件支持:兼容PDF、DOCX、图片等多种常见格式的文件,对扫描版文档有很好的处理效果。
复杂布局处理:准确识别和处理包含表格、图表等复杂布局的文件,提取出完整的文档信息,为用户提供更全面、准确的文档内容。
Markdown格式输出:将识别结果转换为Markdown格式,方便用户进行后续的编辑和整理,能较好地保持文档的视觉和结构完整性。
API接口提供:具备API接口,方便开发者集成到自己的应用程序中,实现自动化、批量化的文档处理功能,提高工作效率,拓展工具的应用范围和灵活性。
应用场景
企业文档管理:快速处理和整理大量PDF、扫描文档等,提高办公效率,便于资料归档和信息检索。
学术研究:高效提取文献资料中的文本信息,方便研究人员整理、引用和进行数据分析,提升研究效率。
法律和金融行业:准确提取合同、报告等复杂文档中的关键信息,辅助合同审核、报告生成与分析,降低风险。
教育领域:助力教师制作教学资料,方便学生整理和复习学习资料,提高教学和学习效率。
内容创作与编辑:为内容创作者提供便捷的文档转换工具,快速将各种格式的文档转换为Markdown格式,方便编辑和发布。
GitHub:https://github.com/getomni-ai/zerox
11月12日
蚂蚁集团开源音频多模态模型Ming-UniAudio :统一语音理解、生成和编辑任务!
蚂蚁集团旗下的Inclusion AI团队开源了统一语音大模型Ming-UniAudio,这是语音AI领域的一项重要突破。
该模型首次在同一架构下无缝融合了自动语音识别(ASR)、文本到语音合成(TTS)和语音编辑三大核心能力,用户只需使用自然语言指令即可直接操控语音内容。
功能特点
语音理解:能准确识别语音内容并进行转录,支持多种语言和方言,适用于语音助手和会议记录等场景。
语音生成:根据文本生成自然流畅的语音,可用于有声读物和语音播报等应用。
语音编辑:支持自由形式的语音编辑,如插入、删除、替换等操作,无需手动指定编辑区域,适用于音频后期制作和语音内容创作。
多模态融合:支持文本和音频等多种模态输入,能够实现复杂的多模态交互任务。
高效分词:采用统一的连续语音分词器 MingTok-Audio,有效整合语义和声学特征,提升模型性能。
高质量合成:通过扩散头技术,确保生成语音的高质量和自然度。
指令驱动:支持自然语言指令引导的语音编辑,简化了编辑流程,提高了用户体验。
开源易用:提供开源代码和预训练模型,方便开发者快速部署和二次开发。
应用场景
多模态交互与对话:支持音频、文本、图像和视频的混合输入,实现实时跨模态对话与交互,适用于智能助手和沉浸式通信场景。
语音合成与克隆:能生成自然语音,支持多方言语音克隆与个性化声纹定制,适用于有声内容创作和语音交互应用。
音频理解与问答:具备端到端语音理解能力,可处理开放问答、指令执行及多模态知识推理,应用于教育、客服和音频内容分析场景。
多模态生成与编辑:支持文本到语音、图像生成与编辑、视频配音等任务,用于媒体创作和跨模态内容生产。
GitHub:https://github.com/inclusionAI/Ming-UniAudio
百度开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking,3B激活参数图文视频都能解!
百度近日正式开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。
该模型仅激活3B参数,却在视觉语言理解、跨模态推理和工具调用等多个方向实现能力跃升,性能逼近当前业界旗舰模型。
功能特点
视觉推理
通过大规模强化学习策略,模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。
例如在一个涉及图表阅读的场景中,该模型成功解析出复杂公共交通图表中不同时间段的客流高峰,推理出避开高峰的出行策略。
学科计算
凭借强大视觉能力,模型在拍照解题等学科推理中实现飞跃式提升,复杂题目也能轻松搞定!
视觉定位(Grounding)
定位更精准,指令执行更灵活,该模型能够识别图中穿西装并佩戴礼帽的多位人物,并将其定位信息通过边界框形式可视化输出,实现从语义描述到图像坐标的转化。
图像思考(Thinking with Images)
如同真人般思考,模型可对图片自由放大缩小,把控每个细节,洞察每一处信息!
工具调用
具备强大的工具调用能力,模型可即时调用图片搜索等功能,轻松识别长尾知识,实现全方位信息获取!
视频理解
模型具备卓越的时间感知与事件定位能力,能够精准识别视频中不同时间段的内容变化,让视频分析更智能、更高效!
以上不同类型的任务表现,呈现出该模型在图文结合、视觉推理及工具配合等方面的基础能力。
ERNIE-4.5-VL-28B-A3B-Thinking的开源,丰富了百度多模态模型体系中的应用层模块,为开发者提供了兼具计算效率与推理能力的开源模型选项。
GitHub:https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
11月11日
剪辑师狂喜!AI开源工具Edit Mind:能够深度分析本地视频库,帮助用户快速定位所需内容!
Edit Mind是一款基于AI技术的开源视频索引与管理工具,专为视频创作者、自媒体从业者和剪辑专业人员设计。
它作为一个跨平台桌面应用,能够深度分析本地视频库,自动提取丰富的元数据,并通过自然语言搜索帮助用户快速定位所需内容。
在传统视频剪辑流程中,专业人员需要花费约30-40%的时间在素材筛选和整理上。Edit Mind通过AI技术将这一过程的效率提升了数倍,让创作者能够更专注于内容创作本身,而非繁琐的素材管理工作。
功能亮点
AI 全维度解析
Edit Mind可自动解析本地视频,精准转录台词,识别人脸、物体、屏幕文字及主色调。例如包含“城市夜景”或“主角微笑”的镜头,均可自动标记,无需手动记录。
自然语言搜索
直接用口语描述需求,无需逐帧查找,AI 快速匹配素材并精准定位,省去无效操作。
本地执行
所有分析均在设备本地完成,视频无需上传云端,避免商业素材或私密内容泄露风险,尤其适合敏感项目使用。
轻量化剪辑辅助
筛选出的片段可直接在工具内进行初步拼接与整理,无需导出再导入专业软件,简化创作流程,提升效率。
Edit Mind的插件化架构是其另一大亮点。基于Python的插件系统允许用户自定义扩展功能,如添加logo检测、音频事件识别等个性化分析模块,满足不同用户的特定需求。
与同类工具相比,Edit Mind具有三个显著优势:
1.隐私优先的设计理念确保敏感视频数据不会离开本地设备;
2.高度可扩展的插件架构适应多样化需求;
3.现代简洁的UI设计使得即使没有专业技术背景的用户也能快速上手。
应用场景
视频剪辑师:处理大量素材时,快速定位片段、简化前期整理流程;
自媒体创作者:个人素材库杂乱,需要高效检索和轻量化剪辑功能;
商业内容团队:注重素材隐私安全,需本地处理敏感商业视频
目前,Edit Mind项目已在GitHub上开源,任何有兴趣的用户都可以下载试用或参与项目贡献。随着AI技术的不断进步,此类智能工具将越来越深入地改变我们的内容创作方式。
GitHub:https://github.com/iliashad/edit-mind
开源热点聚合工具!TrendRadar:实时监控微博、抖音、B站、知乎、小红书等平台精华内容!
TrendRadar 是由开发者sansan0打造的开源热点聚合工具,能够实时监控微博、抖音、B站、知乎、小红书等主流平台,通过智能算法过滤噪音,直接向用户推送精华内容。
TrendRadar目前已斩获5.7Kstar,它打破了平台壁垒,让自媒体人告别无效刷屏,用最少时间掌握最核心的爆款灵感!
功能特点
全平台覆盖
TrendRadar 聚合了微博、抖音、B 站、知乎、小红书、微信公众号等国内主流平台,同时纳入Twitter(X)、Reddit 等海外渠道,**中外热点一键网罗。**每天自动爬取数千条信息,再也不用在多个 App 间反复切换。
AI智能筛选
基于热度、互动量与传播速度等多维度分析,TrendRadar能够精准识别高价值内容,并附带关键词标签与趋势图表,助力用户快速判断话题潜力。
多端实时推送
支持企业微信、飞书、钉钉、Telegram、Email 等多种通知方式,用户可自定义接收频率,有效避免信息过载。
应用场景
自媒体内容创作:快速捕捉全网中外热点,提取爆款灵感和切入方向,节省信息筛选时间。
新媒体运营:实时监控多平台热点动态,及时调整账号内容策略,提升传播效率。
行业情报收集:整合各平台相关话题,通过趋势图和关键词标签,快速掌握行业最新动态。
GitHub:https://github.com/sansan0/TrendRadar
11月10日
斩获超24Kstar!开源AI舆情分析神器BettaFish:覆盖数据采集 - 智能分析 - 报告生成全流程!
近日,GitHub上一款名为BettaFish的项目迅速走红,是一款从零实现、不依赖任何框架的多智能体舆情分析助手。短短时间内便收获超过24K星,连续多日登顶热榜。
该项目由中国科学技术大学一名20岁大学生开发,该系统能够全自动爬取国内外30多个主流社交媒体的数百万条内容,通过多智能体协同分析,打破信息茧房,还原舆情原貌,并辅助预测未来趋势。
功能特点
全网多源采集:覆盖国内外30+主流社媒平台,可全面获取舆情信息。
自然语言驱动:用户用聊天方式输入需求,系统能自动完成采集、分析和预测,无需复杂操作。
多Agent协作:包括Query Agent(精准信息搜索)、Media Agent(多模态内容分析)、Insight Agent(私有数据挖掘)和Report Agent(智能报告生成)。这些智能体分工明确,互为补充,实现群体智能分析模式。
预测与决策:基于语义分析和热度指数预测舆情走向,生成专业报告辅助决策。
多模态能力:深度解析图文、视频等多模态内容,精准提取信息,全面掌握舆情动态。
公私域数据融合:支持将内部业务数据库与公开舆情数据无缝集成,提供更全面的分析视角。
实际应用
以“武汉大学品牌声誉”分析报告为例,BettaFish生成的报告长达25页,内容详实。报告不仅宏观对比数据,还对关键事件进行深度剖析。
例如,针对图书馆事件和甲醛宿舍事件,系统精准梳理了时间节点,展示公众情绪波动和传播路径。
报告显示,在监测周期内,五大热点事件累计产生超过28.7亿次全平台阅读量,影响力指数显著高于同类事件。
情感趋势图将情绪细分为愤怒、恐惧、焦虑等类型,并在事件不同阶段(如曝光、校方回应、问题解决)进行对比,清晰呈现舆情发酵过程。
**报告最后还提供SWOT分析(优势、劣势、机会、威胁),专业程度堪比咨询公司出品。**例如,优势包括武汉大学的百年品牌基石和独特文化IP,劣势则涉及治理体系陈旧和沟通能力低下。
应用场景
品牌公关团队:品牌公关团队用BettaFish追踪新品发布后的全网反馈,及时识别潜在负面舆情,提前制定应对策略。
媒体与研究机构:媒体与研究机构能通过BettaFish分析社会热点事件的传播机制,深入了解公众舆论的动态变化,为报道和研究提供数据支持。
产品经理/市场分析师:产品经理和市场分析师借助BettaFish理解用户的真实需求与痛点,优化产品设计和市场策略,提升产品竞争力。
教育或科研用途:教育和科研人员用BettaFish研究社会舆情的演化规律、语言情绪变化等,为相关领域的学术研究提供丰富的数据和分析工具。
GitHub:https://github.com/666ghj/BettaFish
11月7日
开源中文图像编辑新标杆!UniWorld-V2:能精准理解和编辑复杂的中文字体,刷新SOTA成绩!
在图像编辑领域,一款更懂中文、更擅细节的AI模型横空出世!
兔展智能与北京大学UniWorld团队联合开源的UniWorld-V2模型,不仅在中文场景和精细化控制上超越 NanoBanana 等同类模型,更凭借创新的强化学习框架,在权威基准测试中刷新 SOTA 成绩,全面超越 OpenAI GPT-Image-1 等顶尖闭源模型。
功能特点
精准驾驭中文与文本编辑
UniWorld-V2展现出对中文语境的深刻理解。在海报编辑任务中,它能精准响应将“月满中秋”改为“千里团圆”并使用书法体把月亮改成模糊月饼等复杂指令,完美渲染笔画复杂的艺术中文字体,语义准确且视觉效果出众。
无论是修改文案内容,还是调整字体风格,只需一句自然语言提示即可实现。
精细化空间
模型具备极强的空间约束能力,支持通过画框指定编辑区域,例如“将鸟移出红框”,模型可严格遵守空间限制,完成高难度操作。
全局光影融合
它能精准理解 重新打光等光影调整指令,让编辑后的物体自然融入原有场景,光影融合度极高,画面整体和谐统一,解决了传统模型编辑后画面割裂的痛点。
指令对齐与图像质量提升
在指令对齐性和图像质量方面表现出色,用户更倾向于其输出结果,尤其在指令遵循方面表现突出。
多模型适用性
框架具有模型无关性,可应用于多种基础模型,如Qwen-Image-Edit和FLUX-Kontext等,显著提升这些模型的性能
性能表现
在 ImgEdit 基准中,以 4.49 分的总成绩领跑,超越 GPT-Image-1(4.20 分)和 Qwen-Image-Edit(4.27 分)等所有开源及闭源模型;
在 GEdit-Bench 基准中,更是取得 7.83 分的高分,显著优于 GPT-Image-1(7.53 分)和 Gemini 2.0(6.32 分);
经人工偏好测试,其指令对齐能力获得用户高度认可,生成结果更符合人类审美偏好。
UniWorld-V2基于早前的UniWorld-V1构建,后者曾领先谷歌Nano Banana三个月发布。如今,V2版本通过强化学习框架实现了突破性进展,为图像编辑提供了更精准、通用的解决方案。论文、代码和模型已在GitHub和Hugging Face开源。
技术论文:https://arxiv.org/pdf/2510.16888
Github:https://github.com/PKU-YuanGroup/Uniworld
字节开源主体一致性视频生成框架BindWeave:在一致性、自然度和文本匹配度上表现卓越!
字节近日开源了BindWeave:一个统一的视频生成框架,专为提升主体一致性而设计。
该框架通过结合多模态大语言模型(MLLM)与扩散变换器,在OpenS2V基准测试中超越了现有开源与商用模型,在一致性、自然度和文本匹配度上表现卓越。
功能特点
BindWeave支持多种视频生成模式:
单人视频生成:给定一张人物参考照片,模型能生成身份一致、由文本引导的视频,并呈现自然的姿态、表情和视角变化。
多人视频生成:基于多张参考图像,框架可生成多人互动视频,准确保留每个主体的特征,并清晰展现交互关系。
人-物视频生成:在涉及人物和物体的场景中,BindWeave能保持各方身份一致性,实现物理合理的交互,并在遮挡或视角变化下保持平滑过渡。
BindWeave在复杂任务中表现出色,例如生成多人对话或物体操控场景时,主体特征始终稳定,视频流畅度显著提升。
技术原理
BindWeave的核心创新在于利用MLLM对文字提示和参考图像进行深度解析,识别并区分不同角色的属性与关系,再通过轻量级适配器和交叉注意力机制将信息传递给扩散变换器,从而生成身份一致、关系连贯的视频。
这一流程确保了视频在三个关键维度上的优化:身份一致性(identity-faithful)、关系一致性(relation-consistent)以及时间连贯性(temporally coherent)。BindWeave不仅能处理单一主体,还能应对多主体复杂场景,避免了身份混淆或错换问题。
应用场景
在影视动画领域,制作团队可以利用该技术快速生成角色一致的分镜动画,大幅提升前期制作效率。对于短视频创作者而言,BindWeave能够帮助维持出镜人物在不同视频中的形象一致性,增强品牌识别度。
在教育培训行业,该框架可以用于生成具有一致性的教学演示视频,特别是在需要展示复杂操作流程的职业技能培训中,能够确保教学内容的准确性和连贯性。
字节已公开相关资源,包括论文、代码和模型,感兴趣的小伙伴可以去看看!
技术论文:https://arxiv.org/pdf/2510.00438
GitHub链接:https://github.com/bytedance/BindWeave
11月6日
阿里通义千问AgentScope1.0更新!上线两款开源智能体:覆盖实际任务与数据处理场景!
阿里云通义千问近日宣布AgentScope1.0上新,新增了两款基于AgentScope构建的开源智能体应用:
具有任务规划和相应的处理能力的 Alias-Agent 以及多智能体系统 Data-JuicerAgent。
并且AgentScope目前已集成ReMe 的长期记忆实现,支持个人、任务和工具级别的长期记忆管理。
Alias-Agent
Alias-Agent是一个基于 AgentScope 和 AgentScope-runtime 构建的LLM授权代理, 擅长分解复杂问题、构建路线图并应用适当的策略来处理各种现实世界的任务。
它具备任务规划与处理能力,可在 ReAct、Planner-Executor、Deep Research、Browser-Use 四种专业模式间智能切换。
依托安全沙箱环境,能灵活应对各类真实任务挑战,致力于为用户提供开箱即用的解决方案,以及新一代智能体开发范式。
Data-Juicer Agent
Data-Juicer Agent是一个多智能体系统,它通过将AgentScope 的多智能体编排能力与Data-Juicer的数据处理算子无缝集成,实现通过自然语言驱动的数据处理。
它提供近200个核心数据处理算子,覆盖文本、图片、视频等多模态数据,支持数据分析、清洗、合成全流水线。
可以用它实现:
智能查询:从近200个数据处理算子中查找适合您的数据场景的算子
自动化流水线:描述您的数据处理需求,自动生成 Data-Juicer YAML 配置并执行它们
自定义扩展:快速开发特定场景的自定义运算符
核心能力扩展
AgentScope1.0是一款以开发者为核心的开源框架,专注于多智能体开发。
采用三层技术架构设计:核心框架支撑智能体构建与应用编排,Runtime 提供安全运行环境,Studio 配备可视化监控工具。三层模块可独立使用,其中 Runtime 与 Studio 兼容 LangGraph、AutoGen 等主流框架。
AgentScope 1.0 的此次升级,不仅引入了两款开源智能体,更显著提升了其核心性能与功能。
**支持 Agentic RL **:基于 AgentScope 构建的智能体工作流,只需少量代码适配,即可使用 Trinity-RFT 框架进行 Agentic RL 训练,同时该训练功能还为进阶用户提供了丰富的可配置项。
**强化长期记忆 **:AgentScope 目前已集成 ReMe 的长期记忆实现,支持个人、任务和工具级别的长期记忆管理。
开源地址放这儿了,感兴趣的小伙伴快去体验吧!
GitHub:https://github.com/agentscope-ai/agentscope
11月5日
狂澜14.7Kstar!开源项目ebook2audiobook:一键将电子书转为有声读物,支持1k+种语言!
ebook2audiobook 是一款功能强大的开源工具,专为解决阅读时间碎片化问题而设计,在GitHub已斩获14.7Kstar!
它支持将多种格式的电子书(如epub、pdf、mobi、txt等20余种格式)一键转换为带有章节划分和完整元数据的有声读物!
通过整合Coqui XTTSv2等先进语音合成技术,它不仅能自动识别电子书结构,还支持超过1100种语言转换,甚至允许用户上传自定义声音样本进行语音克隆。
功能特点
多格式兼容:book2audiobook 全面支持epub、pdf、mobi、txt等主流电子书格式,无论是专业文献还是个人创作,都能无缝导入处理。
语言广泛支持:项目突破语言界限,支持1107种语言,从英语、中文到小众语种,轻松切换,为多语言学习和跨国交流提供便利。
语音定制化:独特的语音克隆功能允许用户上传自己的声音或偏好声音样本,生成带有个人特色的有声书,让每本书都充满专属感。
智能章节划分:工具能自动解析电子书内容结构,合理划分章节,生成的有声读物条理清晰,支持暂停、跳转,方便随时续听。
多平台适配:无论是CPU、GPU还是Apple Silicon平台,都能流畅运行,结合Docker支持,实现跨环境部署。
离线使用:转换后的有声书可本地保存为m4b格式,无需网络即可随时随地收听。
应用场景
多语言学习:语言学习者可将外文原著转换为有声读物,通过听力训练提升语感,同时支持对比原文阅读,强化学习效果。
视力障碍辅助:为视障人士提供知识获取新途径,将电子书转换为有声格式,打破阅读障碍,促进信息平等。
家庭亲子教育:家长可将儿童读物转换为有声故事,用熟悉的声音为孩子讲故事,即使不在身边也能陪伴学习。
专业培训材料:企业可将内部培训文档转换为有声版本,员工在通勤或休息时即可完成培训学习,提升工作效率。学术研究辅助:研究人员可将论文和学术资料转换为音频,在实验间隙或外出时也能持续跟进最新研究成果。
GitHub:https://github.com/DrewThomasson/ebook2audiobook
360开源全球最强图文模型FG-CLIP2:中英文任务双双登顶 SOTA!
FG-CLIP2是360 人工智能研究院开源的图文模型,作为新一代文本-图像跨模态模型,在细粒度理解方面表现卓越。
在涵盖图文检索、目标检测等 8 大类 29 项国际权威测试中,全面超越谷歌 SigLIP 2 和 Meta 的 MetaCLIP 2,中英文任务双双登顶 SOTA,标志着中国模型首次在该核心赛道实现全方位领先。
技术创新
数据层面:构建FineHARD大规模中英双语数据集,不仅包含图片的详细描述(长达150词以上),还涵盖4000万个边界框及区域描述文本,实现真正的局部细粒度对齐。
算法创新:采用两阶段训练策略,结合独家TIC损失函数,专门针对语义相近的表述进行优化,提升模型的辨微能力。
架构优势:采用显式双塔结构,图像和文本编码器分离,支持海量数据的预提取和缓存,确保毫秒级响应速度,为实际应用奠定基础。
应用场景
电商零售:精准匹配材质、受众、季节等多维度需求,搜索转化率提升的同时降低退货率;
AIGC 创作:作为文生图的质量裁判,确保生成内容精准贴合细节指令,避免logo 位置错误等常见偏差;
智能安防:支持自然语言精准检索视频,调查人员输入复杂描述即可快速定位目标线索,提升应急响应效率;
具身智能:助力机器人准确理解细粒度指令,将机器对物理世界的感知精度提升至毫米级。
测试数据显示,FG-CLIP2 在复杂指令执行准确率、细粒度特征识别等关键指标上,较主流模型提升超 37%,为 AI 实用化落地开辟了新路径。
Github :https://github.com/360CVGroup/FG-CLIP
11月4日
开源AI剪辑工具Short-Video-Factory:批量生成带货视频,简化短视频制作全流程!
Short-Video-Factory是一款开源免费的AI批量剪辑工具,旨在通过自动化技术简化短视频制作!
用它制作一条视频仅需几分钟,而且视频质量稳定可靠。以往10个剪辑人员都忙不过来的工作量,如今一两个工作人员借助它就能轻松完成,特别适合产品营销和泛内容短视频的批量生产。
功能特点
AI 脚本生成:无需手动撰写脚本,只需输入视频主题或相关提示词,工具就能自动生成完整的分镜脚本,为后续制作打下基础。
语音合成:内置 TTS 语音接口,可将生成的脚本文案一键转换为自然流畅的语音。用户能自由选择语言(目前支持中文)、配音性别,还能挑选不同的语音类型,并调节语速,满足不同视频风格需求。
自动剪辑与字幕:系统会智能根据每段语音的时长,自动裁切对应的视频素材,同时精准叠加字幕和过渡特效,省去手动调整的麻烦,让视频呈现更专业。
模板化输出:支持用户自定义品牌模板,包括字幕样式、片头片尾等元素,助力打造具有统一品牌风格的短视频,提升品牌辨识度。
批量处理:通过导入 CSV 文件,可一次性生成多条短视频,极大提升批量制作效率,尤其适合需要大量产出内容的带货场景。
跨平台运行:兼容 Windows、macOS、Linux 多种操作系统,且所有处理均在本地完成,无需依赖云服务,保障数据安全的同时,也避免了因网络问题影响制作进度。
应用场景
电商带货领域:通过Short-Video-Factory,只需准备产品素材和基础文案,系统就能自动生成数十条不同风格的带货视频,极大提升了商品上新的效率。
教育培训行业:借助工具的AI脚本生成功能,可以快速将核心知识点提取并制作成系列短视频,配合自动字幕和语音合成,大幅降低了内容制作门槛。
本地商家推广:餐饮、美容等本地服务商家需要定期更新促销视频。通过模板化批量处理功能,只需更换基础信息即可快速生成适合不同平台的多版本宣传视频,解决了小商家缺乏专业剪辑能力的痛点。
自媒体内容创作:个人创作者可以利用该工具的批量生产能力,实现日更甚至多更的内容输出节奏。系统支持的多语言特性还使其适用于跨境内容创作,帮助创作者拓展国际市场。
GitHub:https://github.com/YILS-LIN/short-video-factory
腾讯开源FlashWorld:实现10秒内从单张图像或文本提示中生成高质量3D场景!
厦门大学与腾讯联合开源的FlashWorld在三维场景生成领域取得重大突破!
**该模型能在单 GPU 上以5-10秒的速度,从单张图像或文本提示中生成高质量3D场景,速度较以往方法提升10至 100倍,同时兼顾渲染质量与3D一致性。**对于游戏开发、影视制作、设计行业从业者而言,这无疑是重塑创作流程的革命性工具。
核心突破
FlashWorld最引人注目的突破在于其惊人的生成速度,它摒弃了单一范式的局限,通过融合两种主流方法的优势,实现了效率与质量的双重飞跃。
FlashWorld创新性地采用了跨模式蒸馏技术,巧妙结合了"以多视角为中心"和"以三维为中心"两种方案的优势:
双模式预训练:基于视频扩散先验,训练同时支持两种模式输出的多视图扩散模型
分布匹配蒸馏:以MV模式为教师、3D模式为学生,兼顾高保真与3D一致性
性能表现
图生 3D 场景:面对带栅栏的庭院这类包含精细结构的输入,FlashWorld 能生成轮廓清晰、纹理规整的栅栏,而传统方法往往难以处理此类复杂几何细节,易出现模糊或伪影。
文生 3D 场景**:对于带毛发的动物等细粒度需求,模型能精准还原毛发的层次与质感**,甚至超越了部分密集视角重建方法的效果;生成的卡通风格场景同样细节丰富,语义表达准确。
权威基准认证:在 Feifei Li 团队的 WorldScore 基准测试中,FlashWorld 在风格一致性、语义准确性和三维性等维度均表现最优,以最快速度斩获平均得分第一的成绩。
应用场景
游戏开发:独立游戏开发者现在可以在几分钟内生成高质量的游戏场景素材,大幅降低开发成本。
虚拟现实:VR内容创作者能够快速构建沉浸式环境,推动虚拟现实应用的普及。
影视制作:可视化阶段的时间成本从数小时缩短至数秒,极大提升创作效率。
GitHub:https://github.com/imlixinyang/FlashWorld
11月3日
AI 首次超越机器学习博士!港大90后团队开源 DeepCode:论文复现代码效率、准确率双领先!
香港大学黄超教授团队开源的DeepCode在论文复现代码生成方面,首次在标准化测试中超越了来自剑桥、伯克利等8所顶尖高校的机器学习博士团队,成为AI编程领域的一个重要里程碑!
DeepCode能够分析论文内容,理解算法逻辑,并自动生成可运行代码,为科研人员提供了强大的AI辅助工具。目前在GitHub已斩获8.4Kstar!
四大基准测试表现卓越
在全面评估中,DeepCode在人类专家、商业代码智能体、科学代码智能体和基于大模型的智能体四大基准测试中均取得领先成绩。
超越人类专家:在OpenAI的PaperBench测试中,DeepCode总体准确率达到75.9%,超过人类专家组的72.4%。该测试涵盖20篇ICML2024会议论文的完整复现,包含8316个独立可评分组件,采用分层加权评估系统。
领先商业AI工具:在与主流商用代码智能体的对比中,DeepCode得分84.8%,显著高于Claude Code的58.7%。即使竞争对手配备最先进的Claude 4.5和GPT 5模型,DeepCode仍保持约26个百分点的优势,证明其多智能体架构设计的优越性。
功能特点
Paper2Code(论文→代码):输入学术论文PDF,输出生产级代码实现、完整测试套件和详细技术文档,帮助快速复现SOTA算法。
Text2Web(想法→网页):将自然语言需求转化为响应式前端页面,支持快速原型验证和MVP开发。
Text2Backend(需求→服务):根据功能描述生成高性能API接口和可扩展系统架构,适用于微服务开发。
自动化测试与文档生成:自动生成单元测试和文档,确保代码质量。
智能检索与推荐:基于 CodeRAG 系统提供全局代码理解和推荐。
应用场景
学术研究:将研究论文中的算法转化为代码,加速学术成果的验证和应用。
软件开发:快速生成前端和后端代码,提高开发效率,减少重复工作。
企业级应用:生成可运行的原型代码,加速产品迭代和市场验证,降低开发成本。
教育与培训:为学生提供代码生成工具,辅助教学,帮助理解编程概念。
数据分析与机器学习:自动生成数据处理和机器学习模型代码,提高开发效率。
DeepCode的成功不仅展示了AI在复杂代码生成任务中的潜力,也为科研工作者提供了强大的工具支持,有望加速科学研究的迭代进程。随着技术的不断完善,AI编程智能体正从辅助工具向开发伙伴演进,为软件开发领域带来新的可能性。
GitHub:https://github.com/HKUDS/DeepCode
AI打造卓越演示文稿!开源项目presentation AI:输入一句话, AI 自动为你生成一款美观的 PPT!
Presentation AI是指一款利用AI自动化完成演示文稿内容生成、视觉设计、排版优化等流程的工具。
它的核心目标是降低设计门槛,将使用者从繁琐的排版调整、模板搜索中解放出来,更专注于内容本身和演讲表达,从而显著提升演示文稿的制作效率与专业度。
功能特点
智能内容生成与结构化:Presentation AI能够根据用户提供的一个简短主题、一段文字描述,甚至一个网页链接,自动生成逻辑清晰、内容丰富的演示文稿大纲和初稿。
自动化设计与视觉增强:这是Presentation AI最引人注目的功能。工具内置的AI设计引擎可以自动为生成的内容匹配专业的版式、协调的配色方案、合适的字体以及高质量的配图。
实时协作与多平台适配:为满足现代团队的需求,许多Presentation AI工具提供了强大的实时协作功能。团队成员可以同时在线编辑、评论、分配任务,所有更改都会实时同步,确保大家始终处于同一版本。
应用场景
职场人士:对于需要频繁进行工作汇报、项目总结、销售提案、融资路演的职场人来说,Presentation AI能极大缩短材料准备时间。
教育工作者与学生:教师可以利用它快速制作互动课件、课程讲义,学生则能高效完成课题报告、毕业答辩等任务。AI生成的内容框架有助于理清逻辑,丰富的视觉化呈现则能提升教学与学习的效果。
创业者与自媒体创作者:Presentation AI是创业者和自媒体人的得力助手。它能快速生成产品发布会PPT、创业路演稿、社交媒体分享内容等。其互动功能和视觉吸引力能有效抓住受众眼球,提升传播效果。
Github :https://github.com/allweonedev/presentation-ai
10月31日
宅男秒变性感美女?阿里开源模型Wan2.2 Animate:快速生成复刻表情和动作的换脸视频!
最近阿里开源的Wan2.2 Animate模型又火爆出圈!
只需一张美女照片,加上一条自己录制的视频,就能生成一张极其自然的换脸视频,让你不露脸就能换人出镜;
再把音色换一换,死肥宅也能摇身一变性感美女。
上面这个视频是一位博主发布在 Twitter/X 上的一条帖子,这条帖子目前已经有 100 万的浏览量了,可见大家对这个效果还是很认可的。
核心功能
Wan2.2-Animate是基于前期Animate Anyone模型的全面升级版本,采用统一框架设计,能够同时胜任角色动画生成与角色替换两大核心任务。
该模型仅需输入一张角色图片(支持真人、动漫角色或动物)和一段参考视频,即可实现两种核心功能:
角色动画模式:将参考视频中的动作表情精准迁移至静态图片角色,生成全新的动态视频内容
角色替换模式:保留原始视频背景与动作,将其中的角色替换为图片中的新角色,并智能适配环境光照与色调
技术创新
统一架构设计:创新性地将角色信息、环境要素和动作数据规范为统一表示格式,使单一模型能够同时支持两种推理模式,极大提升了应用灵活性。
精细控制机制:采用分而治之的策略,对身体运动和面部表情分别进行处理。身体运动通过空间对齐的骨架信号实现精确控制,面部表情则通过源图像提取的隐式特征进行驱动,配合动作重定向模块,确保细微表情和复杂动作的高保真还原。
环境融合技术:针对角色替换需求,专门设计了独立的重打光LoRA模块,确保替换角色在光照、色彩方面与原始视频环境自然融合,创造出沉浸感十足的视觉效果。
卓越性能表现:官方测试数据显示,该模型在视频生成质量、主体一致性和感知损失等关键指标上,均超越StableAnimator、LivePortrait等主流开源模型。
应用场景
动作表情迁移:基于静态图片和参考视频,生成全新的动态内容,保留原始角色形象与背景
角色替换应用:在保持原视频背景不变的前提下,实现角色的无缝替换
视频换装与多人替换:支持复杂的多人视频场景下的精准角色替换
开源地址:https://github.com/Wan-Video/Wan2.2
项目官网:https://humanaigc.github.io/wan-animate/
智源开源多模态模型悟界·Emu3.5:原生具备世界建模能力!
北京智源人工智能研究院(BAAI)最近重磅开源了其多模态系列模型**:悟界・Emu3.5!**
该模型不仅在图、文、视频任务上实现全面突破,更以世界模型基座的定位,为AI理解动态物理世界提供了强大支撑。
核心能力
Emu3.5最引人注目的能力在于其对长时序、空间一致序列的理解和生成。模型能够像智能体一样模拟在虚拟世界中的探索和操作,实现真正意义上的物理真实性。
例如,在"整理桌面"任务中,Emu3.5能够分步骤执行指令:先将桌上物品清空,接着解开并分类线缆,然后用扎带捆好线缆并隐藏在桌下,最后整齐摆放桌面物品。整个过程展现出对任务逻辑和物体状态的深度理解。
更令人印象深刻的是其第一人称视角生成能力。
用户能够以第一视角进入Emu3.5构建的虚拟世界,例如在火星上驾驶卡丁车,模型都能动态构建出符合物理规律的连续场景,全程保持空间一致性。
实际表现
文生图 | Text-to-Image
图像编辑 | Any-to-Image
视觉故事 | Visual Narrative
视觉指导 | Visual Guidance
世界探索 | World Exploration
具身操作 | Embodied Manipulation
GitHub:https://github.com/baaivision/Emu3.5
项目官网:https://zh.emu.world/pages/web/landingPage
10月30日
Soul开源播客合成模型!SoulX-Podcast:专为多轮播客及多说话人对话场景打造的语音合成工具!
Soul AI Lab最近开源了播客合成项目SoulX-Podcast,这是一款专门为多人、多轮对话场景打造的一款语音生成模型!
模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。
除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。
功能特点
多说话人支持::支持多个说话人之间的对话生成,能自然地切换不同说话人的语音,适用播客、有声读物等场景。
多语言和方言支持::支持普通话、英语以及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。
副语言控制::支持非语言信息(如笑声、叹气、清嗓等),增强语音合成的真实感,使生成的语音更加自然和生动。
长篇对话生成::能生成超过60分钟的连贯对话,保持稳定的音色和情感连续性,适用长篇播客内容的生成。
零样本语音克隆:支持零样本语音克隆,在没有目标说话人语音样本的情况下,能生成高质量的个性化语音。
技术原理
基础模型架构:基于 Qwen3-1.7B 预训练模型,经微调适配多说话人对话生成任务。
多说话人建模:引入说话人嵌入技术,可区分语音特征,实现生成时自然切换说话人。
跨方言生成:采用方言引导提示(DGP),支持由普通话提示零样本生成多种方言语音。
副语言控制:文本输入中添加特定标记(如 <|laughter|>),可在语音中融入对应非语言信息,增强真实感。
长篇生成稳定性:优化注意力机制与解码器结构,保障长篇对话中音色、情感稳定连贯,避免漂移或断裂。
数据处理和训练:基于大规模多说话人对话数据训练,经语音增强、音频分割、说话人日志、文本转录及质量过滤等流程,确保模型习得丰富对话特征。
应用场景
播客制作:模型能生成超过90分钟的连贯对话,适合制作科技、文化、娱乐等各类播客内容。
有声读物:模型能生成多个角色的对话,使有声读物更加生动有趣,适合小说、故事等长篇内容。
教育内容:生成多角色对话,增强语言学习、历史故事讲解等教育内容的互动性和趣味性。
娱乐和游戏:为游戏、动画和视频制作生成自然的多角色语音,提升内容的沉浸感。
项目主页:https://soul-ailab.github.io/soulx-podcast/
GitHub:https://github.com/Soul-AILab/SoulX-Podcast
10月29日
AI教学视频生成!国立大学开源Code2Video,通过Python代码自动生成高质量教育视频!
Code2Video是新加坡国立大学Show Lab团队开发的AI教学视频生成项目,通过Python代码自动生成高质量教育视频。
相比传统视频生成工具,在知识传递效率(MMMC基准测试中提升40%)、画面稳定性方面表现更优,特别适合数学、编程等需要精确视觉表达的领域。
主要功能
代码中心生成范式:使用 Manim 代码作为统一媒介,实现视频的时间序列和空间布局,确保内容清晰、连贯且可复现。
模块化三智能体协作:规划器(故事板扩展)、编码器(可调试代码合成)和评审器(布局优化)协同工作,实现结构化视频生成。
多维度评估体系:从效率、美观性和端到端知识传递效果(如 TeachQuiz 和 AES 指标)全面评估生成质量。
灵活生成脚本:支持单概念和批量视频生成,可配置 API 选择、输出目录和并行处理等参数。
丰富视觉资源集成:结合 IconFinder/Icons8 等 API 获取图标等素材,提升视频的视觉效果。
应用场景
教育领域教学视频生成:教师可快速将抽象知识(如数学公式、物理定律)转化为动态可视化的教学视频,通过动画演示和分步讲解提升知识传递效率,适用于 K12、高等教育及职业培训。
科研与学术演示:研究者可生成技术原理动画、实验流程模拟或论文成果演示视频,帮助直观展示复杂模型(如算法流程、科学实验),增强学术交流的清晰度与感染力。
企业培训与技能教学:用于制作标准化操作指南(如设备使用、软件教程)、安全规范演示或产品培训视频,通过代码控制确保内容准确性与一致性,降低培训成本。
个性化学习内容创作:根据学习者需求(如语言学习、编程教学)生成定制化视频,结合交互式元素(如练习题嵌入、动态反馈)适配不同学习节奏与水平。
科普与知识传播:媒体或创作者可快速生成科普动画(如天文现象解释、历史事件还原),将专业知识转化为大众易理解的视频内容,提升科普作品的趣味性与传播性。
Github:https://github.com/showlab/Code2Video
项目官网:https://showlab.github.io/Code2Video/
开源模型新王者!MiniMax M2:MiniMax推出的Agent编程模型,以8%成本实现Claude级性能!
上海人工智能公司MiniMax发布了其最新开源大模型MiniMax M2,该模型在第三方评测机构Artificial Analysis的测试中以61分的成绩荣登开源模型榜首。
在评测中,MiniMax M2紧随Claude 4.5 Sonnet,位列总排名第五。测试覆盖了MMLU Pro、GPQA Diamond等10个热门数据集,全面评估了模型的综合能力。
主要功能
编程辅助:MiniMax M2专为智能体和编程场景设计,在编程能力和Agent表现方面尤为突出。模型以仅8%的成本实现了与Claude 3.5 Sonnet相当的智能水平,同时推理速度提升至后者的两倍。
Agent工作流优化:专为Agent应用设计,可有效处理复杂指令,完成多步任务,适用于构建智能助手和自动化工具。
综合智能:在数学、科学和指令遵循等综合智能方面表现出色,达到顶级开源模型水平,能够处理多种类型的复杂任务。
低延迟与高部署效率:保持低延迟和高并发能力,适合需要快速推理和稳定函数调用的场景,具有较好的单位经济效益。
在线推理服务速度可达每秒100Token,速度性价比同样领先。
平台体验与API接入:用户可以通过MiniMax Agent平台免费试用,或通过API接入使用,方便开发者快速部署和应用。
实际表现
利用MiniMax的Agent平台,可以写出各式各样的网页或在线应用。
当然像很多经典游戏,也都能用它在Web环境当中复刻并直接部署。
甚至有网友创作的在线五子棋游戏平台,不仅有游戏本体,还引入了在线对战、观战、在线聊天,甚至是用户注册等功能。
也有网友展示了自己用M2 Agent编程的实战成果,仅通过三轮反馈就完成了一个足球小游戏的制作。
目前模型权重已采用MIT协议开源,开发者可通过Hugging Face等平台获取。MiniMax M2的发布标志着国产开源模型在性能与成本效益上实现了新突破,为AI应用普及提供了更强助力。
Hugging Face:https://huggingface.co/MiniMaxAI/MiniMax-M2*
10月28日
开源**AI炒股项目!**ValueCell:多智能体协同,实时分析全球金融市场数据!
GitHub上最近开源了一个名为ValueCell的AI炒股项目!它作为一个多智能体AI 平台,专为金融投资设计,旨在通过模拟专业投资团队的协作,帮助用户高效管理投资组合。
支持多种金融市场的实时数据,包括美国股市、加密货币市场、香港市场和中国市场等,未来还将进一步扩展至欧洲、亚洲等更多市场。并且它采用多智能体架构,模拟了专业投资团队的工作流程。
主要功能
多智能体系统:内置多种金融代理,如交易代理、AI对冲基金、SEC代理等,各代理负责不同分析任务并协同工作,为用户提供全面财务洞察。
灵活集成:支持众多LLM提供方,如OpenAI、Anthropic等,也兼容LangChain、Agno等代理框架,方便用户根据需求选择和集成。
多市场覆盖:实时支持美国股市、加密货币市场、香港市场、中国市场等,未来还将拓展至欧洲、亚洲等更多市场,以及大宗商品等其他交易领域。
个性化配置:用户可配置投资偏好、风险承受度、学习式推荐和多语言界面,满足不同用户需求。
开源生态:基于Python开发,提供SDK、REST API、WebSocket支持,开发者可自由扩展和贡献代理,共同推动平台发展。
应用场景
个人投资者:通过 ValueCell 获取多维度的市场洞察和自动化投资策略,帮助个人投资者更好地进行投资决策。
金融研究人员:在开源环境中开发、测试和优化金融 AI 应用,利用 ValueCell 提供的丰富数据和智能体功能进行研究。
金融机构:构建定制化的智能体系统,提升投研与风控能力,优化投资组合管理。
市场分析:实时获取和分析不同市场的数据,包括股票、加密货币、外汇等,为用户提供市场趋势和情绪分析。
策略生成:根据市场数据和用户偏好生成个性化的投资策略,支持多种资产类别的投资决策。
风险监控:实时监控投资组合的风险,提供风险预警和调整建议,帮助用户管理投资风险。
无论你是金融爱好者还是开发者,都可以通过这个项目探索 AI 在投资领域的潜力。
开源地址放这儿了,感兴趣的朋友快去试试吧!
GitHub :https://github.com/ValueCell-ai/valuecell
让AI化身视频福尔摩斯!Open-o3 Video:精准回答视频问题并标出关键时刻、重要物体及其边界框!
Open-o3 Video是字节跳动开源的一款非代理视频推理框架。
它的核心突破在于,不仅能回答关于视频的问题,还能同步标注出视频中的关键时刻(时间戳)、重要物体及其边界框(空间位置),让AI的推理不再是 无凭无据的猜测,而是真正有据可依、可视可查。
核心能力
Open-o3 Video 的最大亮点,是将**抽象推理 转化为具象证据。**在处理视频问答任务时,它会同步输出三部分核心信息:
文字推理过程:像人类侦探分析案件一样,逐步阐述得出结论的逻辑;
时间证据:标注关键信息出现的具体时间点,明确 何时出现关键线索;
空间证据:用边界框定位关键物体在画面中的位置,说明 何处找到关键线索。
性能表现
用V-STAR 基准测试的性能,该基准测试评估三个维度的时空推理。
Open-o3 Video 创下了新的先进水平,mAM 提高了 +14.4%,mLGM 提高了 +24.2%,超越了 GPT-4o 和 Gemini-2-Flash。这些结果表明,我们的方法在时间和空间基础方面取得了重大进展。
跨不同视频理解和时间基础基准的性能。Open-o3 Video 取得了与其他视频推理模型相当甚至更优越的结果,同时提供了更直观的时空证据。
目前局限
Open-o3 Video目前仍存在三方面局限:
复杂长视频处理难:对于场景复杂、物体较小的长视频,由于高质量时空标注数据稀缺,模型定位关键证据的能力会下降;
多步复杂推理弱:面对需要 多层逻辑推导的问题,模型难以理清深层关联;
缺乏多模态融合:当前仅依赖视觉信息,未融入音频、语音等重要线索, 而这些信息往往是理解视频的关键。
GitHub:https://github.com/marinero4972/Open-o3-Video
10月27日
图片生成3D模型!开源项目OmniPart:让AI像搭乐高一样生成3D模型,可拆分并编辑模型部件!
香港大学、VAST、哈尔滨工业大学及浙江大学的研究团队联合开源了一款名为OmniPart的3D资产生成项目!
它通过部件级别的生成方法,让3D内容创作变得像拼搭乐高积木一样直观和灵活!
功能特点
部件级生成与显式控制
与传统生成一体式3D模型不同,OmniPart能够生成由多个独立部件组成的3D对象。
这为用户提供了显式的部件控制能力,使得对单个部件的编辑、动画制作和材质分配变得非常简单。
灵活的用户引导
用户可以通过提供简单的2D部件掩码来直观地控制3D部件的分解粒度。这些掩码无需与3D部件精确对应,也无需语义标签,大大降低了控制难度。
用户可以通过编辑掩码来决定,例如,将机器人的手臂和手掌作为一个整体部件还是两个独立部件生成。
高质量的生成效果与高效率
在生成质量上,OmniPart在几何细节和语义准确性上均优于其他方法。在效率上,它实现了大幅提升,能够在不到1分钟(约0.75分钟) 内完成从单张图像到整套3D部件的端到端生成,远快于其他需要数分钟甚至更久的方法。
应用场景
游戏开发与动画制作
在游戏角色和场景制作中,OmniPart的部件级生成能力让美术师能够快速创建可动画化的3D模型。例如,生成一个机器人角色时,手臂、腿部、躯干等部件可以独立生成并分别绑定骨骼动画,大大简化了角色动画的制作流程。传统的整体生成模型需要手动分割部件才能进行动画处理,而OmniPart直接生成独立部件,节省了大量后期处理时间。
家具定制
消费者可以生成基础家具模型后,单独修改某个部件(如椅子腿、桌面)的材质,实现个性化定制。
工业设计与数字孪生
在工业设计领域,OmniPart的多粒度生成能力允许工程师根据不同需求生成适当细节层次的部件。对于设备维护培训,可以生成简化的部件结构;
项目官网:https://omnipart.github.io/
GitHub:https://github.com/HKU-MMLab/OmniPart
美团开源AI视频生成模型!LongCat-Video:在文本生视频、图像生视频和视频续写等任务上表现出色!
美团LongCat团队最新开源了一款136亿参数的视频生成模型:LongCat-Video!
在文生视频、图生视频和视频续写等任务上表现出色,尤其擅长高效生成高质量的长视频。
主要功能
长视频生成:在视频续写任务上进行了预训练,能生成几分钟长的视频,不会出现色彩漂移或质量下降。
多任务统一架构:将文本到视频、图像到视频和视频续写任务统一在一个视频生成框架内,仅需一个模型即可完成所有任务。
交互式视频生成:通过为每个视频延续输入不同的提示,LongCat-Video 实现了交互式视频生成功能。
高效推理:通过粗到细的生成策略以及Block Sparse Attention技术,能够在几分钟内生成720p、30fps的视频。
多奖励强化学习优化:借助多奖励Group Relative Policy Optimization(GRPO),在内部和公共基准测试中展现出与领先开源视频生成模型及最新商业解决方案相当的性能。
应用场景
内容创作:帮助创作者快速生成视频素材,如广告视频、短视频、动画等,提升创作效率。
视频续写:为现有的视频片段生成后续内容,用于故事扩展、视频编辑等场景。
教育与培训:生成教学视频、演示视频等,辅助教学和培训过程,增强学习体验。
娱乐与游戏:在游戏开发中生成动态场景或角色动画,提升游戏的视觉效果和沉浸感。
智能客服与虚拟助手:生成视频回应,为用户提供更直观的交互体验。
创意设计:辅助设计师进行视频概念设计,快速呈现创意想法。
项目官网:https://meituan-longcat.github.io/LongCat-Video/
GitHub:https://github.com/meituan-longcat/LongCat-Video
10月24日
超越Nano Banana?港科大开源AI图像编辑模型DreamOmni2:让AI能够真正看懂文字改图需求!
近日,香港科技大学贾佳亚团队开源AI图像编辑模型:DreamOmni2!
它不仅能识别实体物体,更能理解风格、材质、光影等抽象属性,在多项测试中甚至超越了谷歌的Nano Banana和OpenAI的GPT-4o!
在GitHub上线两周便揽获1.9k星标!
DreamOmni2在海外创作圈引起关注与热议!
有用户将其**封神为“King Bomb”,**并说其惊人的“抽象概念理解”能力成为热议焦点;
还有用户则惊呼它重新定义了图像生成,YouTube上相关测评与教程视频也呈刷屏之势,掀起一波学习热潮。
实测案例
在实际测试中,DreamOmni2展现出了令人印象深刻的多模态编辑能力。
例如,让他使“图1里的人物拿着图2里的物品”时,模型不仅完美融合了两个元素,还保持了表情、头发和手指等细节的高度真实感。
在人物替换任务中,当要求将赛博场景中的男性角色替换为女性形象时,DreamOmni2生成的画面不仅完整保留了背景光影与文字细节,更通过面部光线迁移技术,使新角色自然融入原始环境。
在风格迁移测试中,DreamOmni2成功将像素艺术、二次元画风等视觉特征完整迁移;
当要求将图像的光照条件与参考图保持一致时,该模型不仅准确迁移了红蓝对比色调,还保留了原有的光影效果。
图案、文字,也通通不在话下。
多图融合 DreamOmni2的真正强大之处在于其多图像协同编辑能力。
例如让它将“图 1 中的猫与图 2 中的狗并排坐着,背景设定在车内,且生成图像的风格需与图 3 保持一致。”
DreamOmni2 不仅保持了图1图2原有的动物毛发特征,像图3一样的绘画风格,融合之后的背景色彩也十分一致。
“让图1的鹦鹉戴上图2的帽子,模仿图3中的氛围与色调”,
DreamOmni2 依然表现不错,从鹦鹉的羽毛、帽子颜色,到整个背景的氛围都很好的复刻了上图中的火箭图片。
技术创新
DreamOmni2的成功得益于研究团队在数据构建和模型框架上的双重创新:
三阶段数据构建范式:通过特征混合方案创造高质量概念对,再通过提取模型和编辑模型生成训练数据,最终构建出涵盖具体物体和抽象属性的综合数据集。
索引编码与位置编码移位:让模型能够准确区分多个参考图像并理解指令中的引用关系,防止像素混淆和生成伪影。
VLM与生成模型联合训练:通过让视觉语言模型先理解用户指令,再交由生成模型执行,显著提升了模型在真实场景中的性能。
在官方进行的基准测试中,DreamOmni2在205个多模态指令编辑测试用例和114个指令生成测试用例上均表现优异,不仅在传统任务上超越现有开源模型,在抽象概念处理任务上甚至展现出超越谷歌Nano Banana的实力。
DreamOmni2的出现标志着AI创作工具发展的一个重要转折点:从单一的语言模态走向真正的多模态、多概念融合!
项目主页:https://pbihao.github.io/projects/DreamOmni2/index.html
开源地址:https://github.com/dvlab-research/DreamOmni2?tab=readme-ov-file
AI生成论文演示视频!Paper2Video:将论文转化为包含幻灯片、语音字幕、演讲者的完整演示视频!
Paper2Video 是新加坡国立大学 Show Lab 开发的项目,从学术论文自动生成演示视频。
通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。
Paper2Video 提供了首个高质量的学术演示视频基准,包含 101 篇论文及其对应的作者演讲视频、幻灯片等数据。
主要功能
自动视频生成:从学术论文自动生成演示视频,将复杂的学术内容转化为易于理解的视觉和听觉形式。
多智能体框架:通过PaperTalker框架,整合幻灯片生成、字幕生成、光标定位、语音合成和演讲者头像渲染等多个模块,实现高效且高质量的视频制作。
高质量基准数据集:提供包含101篇论文及其作者演讲视频、幻灯片等数据的基准,为学术演示视频的研究和评估提供标准。
定制化评估指标:设计了Meta Similarity、PresentArena、PresentQuiz和IP Memory等评估指标,从不同角度衡量演示视频的质量和效果。
易于使用的工具:提供完整的代码和详细的使用指南,方便研究人员和开发者使用该工具生成自己的演示视频。
技术原理
幻灯片生成与优化:从论文的 LaTeX 源文件中提取内容,生成 Beamer 格式的幻灯片草稿。采用“树搜索视觉选择”方法优化布局,系统会生成多种布局候选,然后让视觉语言模型(VLM)来评判最佳版本。
字幕与光标生成:为幻灯片生成对应的讲稿(字幕),并规划出模拟演讲者在讲解时移动鼠标光标的轨迹。光标的移动和语音在时间和空间上精确对齐,引导观众的注意力。
演讲者生成:利用作者的一张肖像照和一小段声音样本,通过文本到语音(TTS)和说话人脸生成技术,合成一个带有作者个人特征、口型与语音同步的虚拟人像。
并行化处理:将视频生成任务按幻灯片拆分,并进行并行处理,大大缩短了总生成时间。
Github :https://github.com/showlab/Paper2Video
10月23日
视频一键变高清!清华大学开源FlashVSR:可实时将低分辨率视频实时转化为高分辨率视频!
近日,清华大学等机构的研究者联合开源了一款实时流式视频超分辨率处理的模型:FlashVSR!
FlashVSR 的核心功能是让视频超分辨率处理变得既快又好,它解决了传统扩散模型在视频超分中存在的速度慢、高延迟、计算复杂度高三大瓶颈问题。
与以往需要数分钟甚至数小时处理视频的技术不同,FlashVSR在单张A100 GPU上就能对768×1408分辨率的视频实现接近实时的17 FPS处理速度,比当前最快的单步扩散模型还要快11.8倍。
技术亮点
三阶段蒸馏训练流程:专门为流式视频超分设计的训练流程,让模型在保持精度的同时大幅提升速度;
智能聚焦机制:让模型像聚光灯般专注关键画面区域,大幅节省算力,同时确保超高分辨率下的画质表现。
极速解码器:新型解码器在重建画面时参考原始帧信息,速度提升7倍,画质依然出色。
出色的画质提升效果
速度快并不意味着牺牲质量。在实际应用中,FlashVSR 能够有效提升视频的清晰度,生成更清晰的纹理和更自然的细节。
无论是对于传统拍摄的低分辨率视频,还是对于AI生成的视频内容,它都能在增强画质的同时,保持良好的时间一致性,避免画面闪烁或跳跃。
应用场景
老视频修复:让模糊的历史影像重现光彩。
低分辨率视频增强:提升网络下载或早期设备拍摄视频的观看体验。
AI生成视频的高清化:对AI工具生成的视频进行后期高清处理,获得更佳观感。
流媒体领域:FlashVSR能够显著提升在线视频平台的画质表现,用户即使在网络状况不佳时也能观看到相对清晰的视频内容。
GitHub:https://github.com/OpenImagingLab/FlashVSR
腾讯开源混元世界模型1.1:支持从多视图或视频中一键创建精细的3D场景!
腾讯混元世界模型迎来重大升级!最新开源了业界首个统一的前馈式3D重建基座大模型:混元世界模型1.1(WorldMirror)!
该模型实现多项技术突破**:支持多视图图像或视频输入,单卡即可部署,秒级完成高精度3D场景重建。**
技术突破
1. 灵活的多模态先验处理机制
传统方法仅能处理原始图像,而混元世界模型1.1创新性地实现多模态先验引导:
相机位姿提供全局视角约束,确保多视图一致性
相机内参消除尺度歧义,精确投影几何关系
2.统一的3D视觉预测能力
模型突破传统单任务定制局限,首次实现多任务统一输出:
通过端到端多任务协同训练,各任务相互强化。例如,预测的法线图在Poisson表面重建中生成更清晰的网格细节,深度与相机约束相互校准,提升几何一致性。
3.高效推理与部署
与传统的3D 重建方法相比,混元世界模型1.1利用纯前馈架构,能够在单次正向传播中直接输出所有3D 属性,显著降低了处理时间。对于典型的8-32视图输入,模型仅需1秒钟即可完成推理,满足了实时应用的需求。
效果展示
性能对比
在3D点云重建任务中,模型在几何精度与细节还原上表现优异。
与Meta的Map Anything等模型相比,混元世界模型1.1重建的表面更平整,场景结构更规整。
而在端到端3D高斯重建任务中,混元世界模型1.1在与AnySplat模型的对比中,同样也展现出领先优势。
多风格重建效果
欧洲街头动画风格的虚拟场景:
中华风:背景里的石灯、房梁都还原度拉满。
细节满满的真实航拍场景:
还有科幻、漫画等多种风格,混元世界模型1.1通通都能帮你实现。
现模型已完全开源,点击下方地址即可查看和体验。
项目主页:https://3d-models.hunyuan.tencent.com/world/
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
在线Demo:https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
10月22日
让AI操控浏览器帮你干活!Nanobrowser:通过自然语言描述,它就能自动操控浏览器完成各种任务!
Nanobrowser是一个浏览器自动化开源项目,在GitHub收获10.5Kstar!
它是OpenAI Operator 的免费替代品,具有灵活的 LLM 选项和多代理系统。只需通过自然语言描述需求,就能自动操控浏览器完成各种任务!
功能特点多代理系统:专业的 AI 代理协作完成复杂的 Web 工作流程。
交互式侧面板:直观的聊天界面,实时状态更新。
任务自动化:跨网站无缝自动执行重复的 Web 自动化任务。
后续问题:就已完成的任务提出上下文后续问题。
对话历史记录:轻松访问和管理您的 AI 代理交互历史记录。
多个 LLM 支持:连接您首选的 LLM 提供商并将不同的模型分配给不同的代理。
技术原理
基于 LLM 的智能体架构:Nanobrowser 的核心是多智能体系统,每个智能体由大型语言模型(LLM)驱动。智能体分工协作,高效完成复杂任务。例如,Planner 制定任务策略,Navigator 执行网页操作,Validator 确认任务结果。
动态任务调整与自适应性:当遇到障碍或任务失败时,Planner 智能体自动调整策略,重新规划任务路径,确保任务能够成功完成。
集成多种 LLM 提供商:支持连接 OpenAI、Anthropic 等主流 LLM 提供商,用户根据需求选择不同的模型,为不同智能体分配最适合的模型。
GitHub:https://github.com/nanobrowser/nanobrowser
10月21日
开源AI电话客服!Fonoster:让你能用写程序的方式自己搭建客服中心!
Fonoster被称为Twilio的开源替代品,是一个开源的、云原生的语音通信系统,你可以把它想象成通信领域的乐高积木。
该项目目前已收获7.3Kstar,它提供了一套完整的工具和接口,让开发者能用较低的成本,快速搭建起像智能客服电话系统这样的语音应用!
简单说,Fonoster就是开源的电话系统工具箱。它把打电话、接电话这些功能变成了代码,让你能用写程序的方式自己造个中国移动或腾讯会议。
功能特点
通信能力:提供通话、会议、录音等PBX功能,并支持通过API集成语音识别与合成,可以轻松构建智能客服热线,实现自动问答、呼叫转接等复杂流程。
功能独立:采用微服务架构设计,每个功能模块都独立运行,系统更稳定,某个部分出问题不影响整体;也更容易根据业务需求进行扩展。
开源免费:无需依赖Twilio这类商业平台,可以自由使用和定制,避免供应商锁定和高额费用。
低成本部署:云原生设计,可以轻松部署在支持Docker的环境中,能显著降低传统电话客服系统的建设和运营成本。
应用场景
Fonoster的应用场景极为广泛,几乎涵盖了所有需要语音通信的领域。 构建语音验证系统:通过电话进行用户身份验证,增强账户安全性。
客户服务系统:企业可以利用Fonoster构建基于Web的客户服务热线,通过IVR和自动话务分配提升服务效率。
远程语音控制:在线教育平台也可以利用其实现一对一或一对多的音频互动,丰富教学体验,开启全新的交互方式。
总的来说,Fonoster为需要构建语音功能(尤其是AI电话客服)的企业和开发者提供了一个高灵活性、高可控性且成本更优的开源选择。它特别适合那些希望摆脱商业平台限制、有定制化需求或注重成本控制的团队。
开源地址:https://github.com/fonoster/fonoster
10月20日
开源PDF转播客AI神器!Local-NotebookLM:支持多种输出格式和内容风格,可自定义语音角色!
Local-NotebookLM 是一款开源本地AI工具,PDF文档转换为多种形式的音频内容(例如播客、访谈、辩论)。
该工具支持多种输出格式和内容风格,用户可以根据需求选择不同的音频长度和风格,如短篇、中篇、长篇,以及正常、轻松、正式、技术、学术等风格。
功能特点
📄 智能PDF解析:精准提取文本,智能清理格式,完美支持学术论文与数学公式。
🎧 自定义音频生成:随心创建播客、访谈、辩论等多种内容,并自由定义其风格与长度。
🌍 多语言支持:依托强大模型,轻松生成跨语言音频内容。
🔧 灵活模型选择:无缝切换OpenAI、Groq、Azure、LMStudio、Ollama等主流LLM。
🗣️ 逼真TTS合成:提供多种自然语音角色,支持自定义,让内容更生动。
💻 全方式集成:可通过命令行、Python API、Web界面及API服务器等多种方式调用。
⚙️ 流程全配置:通过配置文件即可定制从文本处理到音频生成的完整流水线。
应用场景
教育领域:教师可将教学资料转化为音频讲座,便于学生在不同场景下学习,提高学习的灵活性和便捷性。
学术研究:研究人员可将学术论文转化为播客,便于同行交流和知识传播,扩大研究成果的影响力。
内容创作:内容创作者可将各种文档转化为不同风格的音频内容,如访谈、辩论等,丰富创作形式,吸引更多听众。
企业培训:企业可将培训资料转化为音频,供员工在碎片化时间学习,提高培训效率和员工参与度。
个人学习:个人用户可将感兴趣的书籍或文章转化为音频,利用通勤、运动等碎片化时间进行学习,提升自我提升的效率。
Github:https://github.com/Goekdeniz-Guelmez/Local-NotebookLM
阿里开源Claude Code平替!iFlow CLI:可使用自然语言命令行的形式在终端运行!
近日,阿里心流研究团队开源了一款终端AI智能体**:iFlow CLI,被誉为Claude Code的最强平替。**
这款工具专为国内开发者设计,支持自然语言命令行操作,并面向个人用户永久免费,无使用限制。
性能表现
iFlow CLI的核心优势在于其强大的性能表现。
在多项基准测试中,包括GAIA(通用搜索问答)、SWE-bench(GitHub代码修复)、Terminal-Bench(CLI使用场景)和BrowseComp-ZH(中文通用搜索),iFlow CLI均展现出优于Claude Code和Codex的综合能力。当使用国产大模型新晋顶流Qwen3-Coder时,iFlow CLI的表现尤为突出。
不仅如此,iFlow CLI还针对国内开发者优化了模型集成和自动化能力。它支持多种Top开源国产模型,如DeepSeek-V3.1-Terminus、Kimi-K2-0905和GLM-4.5等,在本土化评测中优势尽显。团队更新迅速,例如DeepSeek V3.2和GLM4.6刚发布,iFlow CLI就已适配,体现了其高效迭代能力。
除了性能过硬,iFlow CLI还有两大亮点:
一是通过自然语言执行任务,流程全面自动化;
二是永久免费,用户可零成本调用Qwen3 MAX、Kimi K2等最新模型,无使用期限。这种设计极大地降低了开发者的门槛。
功能特点
自然语言交互:支持用自然语言下达指令,无需记忆复杂命令,用户可以像与人交流一样与它互动,轻松完成各种任务。
多模型支持:支持多种主流国产大模型,如 Qwen3 Coder、Kimi K2、DeepSeek V3.2 等,用户可以根据需求选择不同的模型。
自动化任务执行:能自动分析用户需求并执行任务,如数据分析、代码生成、文件整理等,大大提高了工作效率。
深度工程化功能:提供如代码审查、项目开发辅助、工作流管理等深度工程化功能,支持从代码分析到部署的全流程自动化。
开发者友好:提供 Agent SDK,支持多种编程语言,方便开发者将 iFlow CLI 集成到自己的项目中,快速具备 AI 能力。
应用场景
代码生成与优化:用户可以指令 iFlow CLI 创建特定功能的代码,如“创建一个Python脚本,计算斐波那契数列的前10项”,它能够自动生成代码并优化。
文件操作与整理:通过 Shell 命令辅助,iFlow CLI 可以分析目录结构并提供建议,帮助用户整理文件。
数据分析与报告:用户可以上传数据文件,让 iFlow CLI 进行分析并生成报告,如根据数据生成分析报告。
代码审查:安装代码审查专家 subagent 后,iFlow CLI 可以对代码进行审查并生成审查报告,帮助开发者发现潜在问题。
多模态任务:支持图像理解等多模态功能,用户可以上传图片并让 iFlow CLI 进行分析或生成描述。
开源地址:https://github.com/iflow-ai/iflow-cli
10月18日
百度开源全球最强OCR模型!PaddleOCR-VL:0.9B小模型横扫四大SOTA,堪称“PDF之神”!
百度飞桨团队最新开源发布的PaddleOCR-VL模型,以惊人的速度冲上Hugging Face Trending榜单首位,并在全球权威文档视觉语言理解基准OmniDocBench V1.5上,以92.6的综合得分成为全球第一。
更令人瞩目的是,这款仅0.9B参数量的轻量级模型,在文本识别、公式识别、表格理解与阅读顺序四大核心能力维度上均夺得第一,成为榜单中唯一实现四项指标全面领先的模型。
用户好评
用户实测后纷纷给予极高评价:PDF天才、PDF之神、OCR之神、又小又棒、能像人类一样理解文档、将文档AI提升到全新高度、最好的OCR框架。其卓越的性能可见一斑。
实测表现
1.文本识别
面对带水印的代码与文本混杂页面,PaddleOCR-VL的版面分解清晰(模块带序号),识别准确率达到100%。
并在手写、竖排、艺术字体等复杂形态下也保持极高识别精度,打破了传统OCR只识打印体的能力瓶颈。
2.公式识别
在公式识别单项测评集上,PaddleOCR-VL的成绩为91.4,超过MinerU、MonkeyOCR-pro-3B等OCR界网红模型,也是能力测试中唯一得分超过90的模型。
对复杂的长公式(含上下标)和手写公式都能完美处理,表现优于GPT-5 OCR。
3.表格理解
无论是带线框的财报表格、无框线的报销单,还是类表格结构(如App排行榜),PaddleOCR-VL都能精准识别并结构化输出,错误率极低。
4.阅读顺序
面对多栏布局、图文混排、折页等复杂版面,PaddleOCR-VL能像人类一样理解文档结构,智能解析版面布局并还原正确的阅读顺序,有效避免传统OCR的误读问题。在对比测试中,其版面分解准确性显著优于其他OCR明星模型。
多语言与多文本类型支持
除了四项核心能力外的一些能力,PaddleOCR-VL在多语言与多文本类型没在怕的!
PaddleOCR-VL堪称世界语言引擎,支持精准识别109种语言(包括中、英、法、日、俄、阿、西等)。
同时,其在处理手写体、生僻字、古籍、历史文档等非标准化文本方面也展现出卓越能力,能够按照人类阅读习惯还原文本顺序(如竖排、从右向左等),准确率接近100%。
在新闻、报表中经常会碰到的图表,处理起来同样是小菜一碟:
0.9B的轻量级模型实现了性能与效率的完美平衡:
性能顶尖: OmniDocBench v1.5上创纪录表现(文本编辑距离0.035、公式CDM 91.43、表格TEDS 89.76、阅读顺序误差0.043)。
速度极快: 在单张A100 GPU上,每秒可处理1881个Token,推理速度较 MinerU2.5提升14.2%,较 dots.ocr 提升253.01%。
易于部署: 小体积使其可部署于普通服务器、PC,甚至作为浏览器插件。
PaddleOCR-VL的突破性表现,不仅标志着中国在OCR领域的技术领先地位,更预示着文档作为信息载体的角色正在转变。
开源地址:https://github.com/PaddlePaddle/PaddleOCR
Hugging Face模型页:https://huggingface.co/PaddlePaddle/PaddleOCR-VL
10月17日
开源的AI动画生成Agent!雾象Fogsight:输入主题即可生成完整的叙事动画!
雾象Fogsight是大型语言模型(LLM)驱动的动画生成Agent!
用户只需输入一个抽象概念或主题,系统就能自动生成包含完整叙事结构、电影级视觉质感和双语旁白的高水平动画。
功能特点
概念即影像 输入主题(如熵增定律),自动生成叙事完整的动画,包含分镜脚本、视觉特效、双语配音,无需人工干预。
智能全流程编排 LLM驱动引擎自动拆解任务:生成脚本→匹配视觉元素→设计转场特效→合成音效,一气呵成完成全链路创作。
对话式精准调优(LUI界面) 支持多轮自然语言交互优化细节,例如:增加星空背景、调整旁白语速,实现言出法随的实时迭代。
本地化部署与个性化 开源代码支持本地运行,可配置credentials.json接入自定义API(如Gemini 2.5),适配企业私有化需求。
技术原理
大语言模型(LLM):LLM是Fogsight 的核心,负责理解用户的输入,将抽象概念拆解为镜头脚本 + 旁白。能准确地将用户输入的主题转化为具体的动画脚本,确保生成内容的逻辑性和连贯性。
动画编排引擎:引擎负责将 LLM 生成的脚本进一步映射为具体的视觉元素、转场效果和音效。通过智能算法,自动为每个镜头选择合适的视觉风格和动态效果,实现从文字脚本到动画的无缝转换。
应用场景
教育可视化:教师输入欧拉定理,3分钟即可生成微积分动画课件,学生理解效率提升60%。
科普传播:科普作者可以轻松创作黑洞引力场等复杂主题的动画,在社交媒体上获得更好的传播效果。
商业演示:产品经理用智能家居可供性、动画替代传统PPT,直观展示用户操作路径,节省50%会议时间。
自媒体创作:视频博主输入“AI革命史”,即可自动生成纪录片风格短片,将创作周期从周级压缩至小时级。
开源地址:https://github.com/fogsightai/fogsight
首个统一像素级多模态大模型!UniPixel:实现目标指代、分割与推理三大任务一体化!
香港理工大学与腾讯ARC Lab的研究团队联合开源了首个统一的像素级多模态大模型:UniPixel!
只需UniPixel一个模型,就能完成目标指代、像素级分割与区域推理三大任务,兼具灵活性、精确性与可扩展性。
主要功能
像素级视觉语言理解**:专注于像素级视觉语言理解,**能实现视觉信号与语言语义之间的像素级对齐,支持多种细粒度任务,包括图像/视频分割、区域理解以及PixelQA任务。
统一对象指代与分割:模型将对象指代和分割能力无缝集成,能根据视觉提示输入生成相关的掩码,并在推理过程中基于这些中间指针进行后续推理,实现细粒度的像素级推理。
多任务支持:在多个基准测试中表现出色,包括ReVOS推理分割基准、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等数据集,设计了新的PixelQA任务,要求模型联合进行对象指代、分割和问答。
灵活的视觉提示处理**:能灵活处理视觉提示输入,生成掩码并进行推理**,支持单帧和多帧的视频区域理解,以及基于掩码的问答任务。
应用场景
图像分割:UniPixel能根据语言描述生成图像中特定对象的像素级掩码,适用于需要精确图像分割的场景,如医学图像分析、自动驾驶中的目标分割等。
视频分割:在视频处理领域,UniPixel可以对视频中的对象进行实时分割,支持视频编辑、视频监控和增强现实等应用。
区域理解:通过理解语言描述来识别和分割视频中的特定区域,可用于视频内容分析、智能监控系统和视频会议中的背景分割等。
问答任务:UniPixel支持PixelQA任务,能够根据语言描述和视觉信息回答问题,适用于教育、智能客服和信息检索等场景。
多模态交互:在需要结合视觉和语言信息进行交互的场景中,如智能助手、虚拟现实和游戏开发等,UniPixel能够提供更自然和准确的交互体验。
项目主页:https://polyu-chenlab.github.io/unipixel/
GitHub:https://github.com/PolyU-ChenLab/UniPixel
10月16日
开源AI自媒体运营工具!AIMedia:支持自动抓取热点新闻并生成文章一键发布到多个自媒体平台!
AIMedia是一款开源的AI媒体自动化运营工具,支持从多源(如抖音、网易、微博)自动抓取热点新闻,利用 AI 生成文章并配图后一键发布到头条、微信公众号、小红书等平台。
该工具通过智能化的内容处理流程,为媒体从业者和内容创作者提供了高效的工作解决方案。
功能特点
热点抓取:
覆盖抖音热点、网易新闻、微博热搜、澎湃新闻、中国日报、搜狐新闻等渠道。
实时监控十余家主流新闻平台,跟踪 200+分类栏目。
AI 文章创作:基于抓取内容,AI生成原创文章,智能配图(文本内容用 Stable Diffusion 生成图像,提升原创度)。
创作的文章与提取的文章内容相似度仅为3.96%,原创度较高
多平台发布:一键推送至头条、企鹅媒体平台、微信公众号、百家平台,支持自动化 Chrome 浏览器模拟操作。
Web 界面:Streamlit 构建的简易 UI,配置参数/监控进度/查看日志。
局限:仅 Windows 支持,Plus 版商用(视频生成等),开源版无服务器持久化。
应用场景
个人内容创作者:对于独立运营自媒体账号的个人创作者,AIMedia能够大幅减轻日常内容生产压力。系统自动追踪热点趋势,快速生成符合平台调性的内容,帮助创作者保持账号活跃度,提高内容产出效率。
中小企业营销团队:资源有限的中小企业可通过AIMedia建立低成本的内容营销体系。工具支持多平台同步发布功能,帮助企业快速建立品牌曝光,实现营销内容的最大化传播。
地方新闻媒体机构:地方媒体可利用AIMedia的智能抓取功能,快速获取全国性热点新闻,并结合本地视角进行内容再生产,提升新闻报道的时效性和覆盖面。
Github:https://github.com/Anning01/AIMedia
阿里开源轻量级视觉语言模型Qwen3-VL-4B/8B:支持视觉理解、文本生成、逻辑推理等功能!
阿里通义千问团队发布Qwen3-VL系列最新成员:Qwen3-VL-4B与8B版本。
模型提供Instruct与Thinking两个版本,满足不同应用场景需求。并且这两个轻量级模型在几十项权威基准测评中表现卓越,成功超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
技术创新
Qwen3-VL-4B/8B的发布标志着多模态AI技术迈向新阶段。模型尺寸的大幅缩减显著降低了VRAM占用,使开发者能够在更广泛的硬件设备上部署和运行高性能视觉语言模型。
这一突破意味着原本需要高端服务器才能运行的多模态AI应用,现在可以在普通PC甚至移动设备上实现。
模型在保持小尺寸的同时,核心功能毫未缩水。
Qwen3-VL系列的全部多模态能力,包括视觉理解、文本生成、逻辑推理等,在新版本中得到了完整保留。
性能实测
在多模态性能方面,Qwen3-VL-8B Instruct表现尤为突出。该模型在STEM、VQA、OCR、视频理解及Agent任务等多个关键领域均展现出领先水平。
特别值得一提的是Qwen3-VL-8B Thinking版本,该模型在MathVision、MMStar、HallusionBench等23项权威基准测评中获得SOTA成绩,超越了多个同等级顶尖开源模型。
在纯文本表现上,新发布的4B和8B版本相比前代产品均有整体提高,显示出阿里在模型优化方面的持续进步。
自9月24日阿里开源Qwen3-VL系列以来,该模型作为Qwen系列中最强的视觉语言模型,在全球AI开源社区中快速收获认可。同时,该模型还斩获纯文本赛道的开源第一,成为首个在纯文本和视觉两大领域同时获得开源第一的大模型。
开源地址:https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
10月15日
开源图文解析OCR大模型!Nanonets-OCR2 :更准确的解释复杂文档中的视觉元素!
在日常文档处理中,我们常常遇到一个棘手问题:传统OCR工具能够提取文本,却无法理解文档的深层结构。水印、签名、表格、公式等元素混杂在一起,输出结果往往令人失望。
今天要给大家介绍的Nanonets-OCR2不仅可以将文档转换为结构化的 Markdown,还可以利用智能 内容识别、语义标记和上下文感知视觉问答,能够更深入地 理解和更准确地解释复杂文档。
功能特点
LaTeX 方程识别:自动将数学方程式和公式转换为格式正确的 LaTeX 语法。内联数学表达式转换为 LaTeX 内联方程,而显示的方程则转换为 LaTeX 显示方程。页码在 <page_number> 标签中预测。
智能图像描述:使用结构化标记描述文档中的图像,使其易于 LLM 处理。如果 图标题存在,然后将其用作描述,否则模型将生成 描述。该模型可以描述单个或多个图像(徽标、图表、图形、二维码等) 就其内容、风格和上下文而言。该模型预测图像描述 <img> 标签。
签名检测和隔离:识别签名并将其与文档中的其他文本隔离开来,这对法律和业务至关重要 文档处理。该模型预测 <signature> 标记中的签名文本。如果 signature 不可读,则模型会将 <signature>signature<signature> 返回给 标记为已签名。
水印提取:与签名检测类似,该模型可以检测和提取文档中的水印文本。这 模型预测<watermark>标签内的水印文本。该模型在低电平下表现良好 高质量图像。
智能复选框处理:将表单复选框和单选按钮转换为标准化的 Unicode 符号,以实现一致性 加工。该模型预测 <checkbox> 标记中的复选框状态。
复杂表提取:从文档中提取复杂表并将其转换为 Markdown 和 html 表。
视觉问答:该模型旨在直接提供答案(如果它存在于文档中);否则,它会以“未提及”进行响应。
应用场景
财务与会计人员:自动处理大量发票、收据、银行对账单,实现一键报销、自动对账。
物流与供应链管理:自动识别提货单、运单、装箱单信息,实时更新货物追踪状态。
人力资源部门:快速录入员工简历信息、身份证、银行卡资料,提升入职办理效率。
法律与合规部门:从海量合同中快速提取关键条款、日期和金额,进行风险分析和归档。
零售与电商:自动化处理采购订单、供应商发票,管理库存和结算。
开源地址:https://huggingface.co/nanonets/Nanonets-OCR2-3B
蚂蚁集团开源全球首个万亿级思考模型Ring-1T:展现出出色的自然语言推理与思考能力!
**蚂蚁集团正式开源万亿级思考模型Ring-1T,这是全球首个开源的万亿参数思考模型。**仅仅在十余天内,这已是蚂蚁集团第三次重磅开源!
性能表现
在最能体现模型推理能力的国际数学奥林匹克竞赛(IMO)测试中,Ring-1T接入多智能体框架AWorld,首次尝试便解出2025年IMO的第1、3、4、5题,4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统。
在ICPC World Finals 2025(国际大学生程序设计竞赛总决赛)中,Ring-1T在三次尝试内成功解出5题,表现超越Gemini-2.5-Pro(3题),逼近GPT-5-Thinking(6题)。
在数学、编程、逻辑推理、专业知识与创意写作等多维基准上全面开花,成绩稳居第一梯队,多项测试直接达到开源 SOTA 水平,部分测试表现可比肩最强闭源模型。
实际表现
案例一:生成一款简单可玩的 Flappy Bird 小游戏
案例二:生成一个简单的贪吃蛇小游戏。
案例三:编写一个 p5.js 脚本,模拟 25 个粒子在一个真空空间中的圆柱形容器内弹跳。
案例四:逻辑推理
提示词:黑兔、灰兔和白兔三只兔子在赛跑。黑兔说:我跑的不是最快的,但比白兔快。请问谁跑的最快?谁跑的最慢?
提示词:地铁站内,一个女人大喊:「抢劫了!」罪犯拿着钱包跑的很快,保安追不到。经过一系列的工作,找到了四个嫌疑人。探长过来时,甲在椅子上昏昏欲睡,乙冷得缩成一团,丙不安的四处张望,丁在原地跑步取暖,请问谁的嫌疑最大?
Ring-1T已成长为可与闭源巨头正面对话的选手,也是开源体系下闭源级性能的又一次实证。
开源地址:
https://huggingface.co/inclusionAI/Ring-1T
https://modelscope.cn/models/inclusionAI/Ring-1T
10月14日
开源的捏脸神器!BananaFace:实现高人物一致性,轻松呈现大师级造型和人物肖像图!
在AI图像生成领域,复杂的提示词往往让人望而却步。最近,一款名为BananaFace的开源工具在GitHub上引起了广泛关注,它让普通人也能轻松创建高质量的数字肖像,无需任何AI专业知识。
BananaFace是一款基于Nano banana技术的开源肖像生成工具,主打高人物一致性和零提示词操作。它的目标很明确:成为你的随身造型师,让每个人都能轻松打造专业级肖像形象。
功能特点
文生图功能:适合从零开始创作肖像,无需原始图片,只需通过调节各项参数就能生成符合预期的人物肖像。比如,你可以设置生成:“25岁女性,鹅蛋脸,蓝色眼睛,灰色不对称剪裁发型”,系统就会生成相应的写实肖像。
图生图功能:该模式适合基于现有照片进行优化。上传一张人物照片后,通过调整参数对原图进行改造,同时保留人物核心特征。这意味着你可以用自己的照片尝试不同发型、发色甚至表情效果,而不会“变脸”。
44项专业参数:
基础人物特征:包括肖像类型、性别、年龄、种族、体重等,确定人物的核心属性。
外貌细节:涵盖脸型、表情、瞳色、发型、发色、胡子等,可以微调人物外貌。
摄影参数:模拟不同摄影设备的效果,包括相机类型、镜头类型、焦距等,可营造背景虚化等专业效果。
灯光效果:调整光影效果,如灯光类型(柔和环境光/硬光)、灯光方向(从左上方/右上方等)。
高人物一致性:与普通AI生成工具经常出现的生成结果不稳定问题不同,BananaFace在生成图像时会保留人物核心特征,如五官轮廓和面部比例。即使调整发型、瞳色、表情等参数,也不会产生“换脸式”的偏差,特别适合需要微调而非彻底改变的场景。
应用场景广泛
BananaFace适用于多种场景:
人像修图:对照片进行美容、换发型、试妆等调整。
写真设计:生成专业风格的肖像照,用于简历、社交资料等。
角色设计:为游戏、动漫创作角色形象。
创意娱乐:尝试不同造型,满足个人创意需求。
GitHub:https://github.com/ZHO-ZHO-ZHO/BananaFace
字节跳动开源多模态大模型SAIL-VL2:在涵盖图像、视频、文本等多模态基准测试中实现性能突破!
抖音SAIL团队与新加坡国立大学LV-NUS实验室联合推出的多模态大模型SAIL-VL2!
以仅2B、8B的中小参数规模,在涵盖图像、视频、文本的106个多模态基准测试中实现性能突破,甚至在MMMU、MathVista等高难度推理任务上超越了同规模模型,并媲美更大规模的闭源模型。
三大核心创新
**视觉编码器方面,**参AIL-ViT-AnyRes借助“2D RoPE插值”技术,实现对任意分辨率输入的动态支持(最高1792×1792)。在RefCOCO视觉定位任务中,其平均精度高达57.82,远超固定分辨率版本的53.28。
数据创新:高质量多模态语料库构建
团队设计了一套全自动数据pipeline,通过评分过滤+合成增强策略提升数据价值。SAIL-Caption2通过“视觉信息丰富度”与“图文对齐度”双维度评分(1-5分),过滤低质量样本,得到250M通用caption数据。
训练创新:渐进式框架提升多维度能力
SAIL-VL2采用三阶段视觉预训练与两阶段多模态预训练的渐进式流程,从基础感知逐步过渡到复杂推理。团队还使用AdaLRS算法,基于损失下降斜率动态调整学习率,使训练效率大幅提升。
性能表现
在106个多模态数据集上的测试表明,SAIL-VL2从基础感知到复杂推理均展现出顶尖水平。
基础模型性能:参AIL-VL2-2B在OpenCompass得分70.31,超越Qwen2.5-VL-3B等模型,位列4B参数以下开源第一。在细粒度任务中,MMStar达64.07分,OCRBench达89.50分,均为同参数规模最优。
思维增强模型性能:参AIL-VL2-8B-Thinking在OpenCompass多模态推理榜单平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest。SAIL-VL2-A3B-Thinking以3B激活参数实现53.6分,超越闭源模型Gemini-2.0-Flash,展现出极高的效率性能比。
GitHub:https://github.com/BytedanceDouyinContent/SAIL-VL2
10月13日
快手开源编程模型KAT-Dev-72B-Exp刷新纪录,以74.6%的解题准确率夺得开源模型第一!
近日,快手Kwaipilot团队开源了新一代编程模型KAT-Dev-72B-Exp!
该模型在软件开发能力评测基准SWE-Bench Verified上取得74.6%的卓越成绩,创下开源模型新纪录,超越Qwen3-Coder、DeepSeek-V3.1等多款知名开源模型。
KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。而KAT-Coder本身就在SWE-Bench认证榜单上击败了GPT-5(非Codex模式)和Claude 4 Sonnet,展现出了强大的竞争力。
主要功能
代码生成与补全:根据上下文生成高质量代码片段,支持多种编程语言,提供实时补全建议,提升开发效率。
代码理解与优化:深入分析代码逻辑,识别潜在问题,提升代码质量和性能。
软件工程任务辅助:支持代码调试、测试用例生成和文档生成,减少手动工作量,提升团队协作效率。
强化学习优化:通过强化学习提升模型在复杂任务中的表现,适应动态编程需求,优化决策过程。
实战表现
KAT-Coder可以在网页中复刻出一个《水果忍者》,计分和生命值系统都完整包含。
生成赛博朋克时钟,点击即可触发立方体爆炸特性,将罗马数字散布到3D空间中,且包含霓虹灯和粒子效果。
通过代码实现物理规律的可视化:比如太阳系运行模拟,网友通过KAT-Coder用three.js制作出了3D动画,并且支持视角的立体旋转。
建筑物爆破过程的动画,一座60层高的圆形塔楼在重力和冲击波的作用下倒塌,整个过程都遵循真实的物理规律。
应用场景
软件开发:快速生成高质量代码片段,显著提升开发效率,帮助开发者更快完成项目开发。
代码调试:快速定位代码中的问题,帮助开发者减少调试时间,提高开发效率。
代码文档生成:自动生成代码注释和文档,减少手动编写的工作量,提升代码的可读性和团队协作效率。
代码优化:通过分析代码逻辑,提供优化建议,帮助开发者提升代码性能和可维护性,确保代码质量。
KAT-Dev-72B-Exp已被上传至开源平台Hugging Face,开发者可免费下载使用。
开源地址:https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
开源免费的股票市场数据项目: OpenStock!对股票数据进行实时监控,快速把握市场动态!
一款名为 OpenStock 的股票市场数据平台在GitHub上开源。
该项目由 Open Dev Society社区维护,与市面上许多需要付费的专业金融终端不同,OpenStock强调开放与透明,旨在降低金融数据获取的门槛。
功能特点
平台的核心功能包括对金融、科技等服务龙头公司股票的实时监控,帮助用户快速把握市场动态。
股票热力图:通过直观的颜色和区块大小变化,在一个屏幕上展示成千上万只股票的整体表现。这能帮助使用者快速把握市场动向、感知市场情绪,并定位发生异动的个股。
头条新闻:该功能接入了 Finnhub API,一揽子收集龙头公司的重要新闻,涵盖上市公司公告、行业动态和宏观经济政策解读,帮助用户快速了解可能影响股价的关键信息。
个股看板:项目整合了 TradingView 的专业图表组件,为用户提供K线图、技术指标等可视化信息。用户可以创建个人观察列表,设置自己关注的股票。在看板中,可以查看公司的实时价格、K线图、技术分析和财务信息。
技术创新
OpenStock在技术上也采用了现代的Web开发套件,确保了应用的先进性和健壮性:
前端基于Next.js 15 和 React 19 构建,使用 TypeScript 编写,样式上选用 Tailwind CSS v4 和 shadcn/ui 组件库,整体界面美观且支持暗色主题。
后端与服务:用户认证通过 Better Auth 实现,并结合 MongoDB 进行数据持久化存储。
自动化功能:项目通过 Inngest 支持后台任务调度。例如,用户注册后会收到由AI生成的个性化欢迎邮件,并可以定期接收基于自己关注列表的每日新闻摘要。
GitHub:https://github.com/Open-Dev-Society/OpenStock
10月11日
开源的小红书自动化运营工具!xiaohongshu-mcp :让AI帮你发布笔记、搜索内容、管理留言!
近日,一款名为xiaohongshu-mcp的小红书自动化运营工具在技术圈引发热议。
该项目基于MCP协议开发,集成了多项实用功能,帮助用户实现小红书平台的自动化操作。支持多种功能,包括登录小红书、发布图文、搜索内容以及获取推荐列表等。
主要功能
登录功能:用户首次使用时需手动登录小红书并保存登录状态,后续操作无需重复登录,方便快捷。
发布图文:支持上传文字和图片到小红书,用户可以指定图片链接,工具会自动下载并发布。
搜索内容:可以根据关键词搜索小红书上的相关内容,帮助用户快速找到所需信息。
获取推荐列表:能获取小红书的推荐内容列表,让用户了解热门和推荐的内容动态。
跨平台支持:支持 Windows、macOS 和 Linux 系统,具有良好的兼容性。
集成与扩展:提供 HTTP JSON-RPC 接口,方便与其他系统或工具集成,便于开发者进行二次开发和扩展。
技术特色与优势
xiaohongshu-mcp采用MCP工具调用和HTTP API双支持架构,可灵活接入多种AI客户端。其评论系统实现了自动定位输入框、内容输入与发布的全流程自动化,大大提升了操作效率。
值得注意的是,工具支持单日50篇的内容发布额度,这对需要批量运营的团队来说极具吸引力。
应用场景
内容发布:帮助用户快速发布图文内容到小红书,提高创作效率。
内容搜索:方便用户根据关键词搜索小红书上的相关内容,获取灵感或信息。
数据获取:用于获取小红书的推荐内容列表,分析热门趋势和用户喜好。
自动化运营:实现小红书账号的自动化管理,如定时发布、内容更新等,节省运营时间。
Github:https://github.com/xpzouying/xiaohongshu-mcp
腾讯混元开源视觉模型Hunyuan-Vision-1.5-Thinking:荣获全球第三、国内第一的优异成绩!
近日,腾讯混元团队推出的Hunyuan-Vision-1.5-Thinking模型在国际大模型竞技场LMArena的Vision赛道中表现卓越,获得全球第三、国内第一的优异成绩!
**Hunyuan-Vision-1.5-Thinking模型具备领先的多语言多模态理解和推理能力,**能够通过多轮反思深入解析视觉内容,完成复杂指令任务。其在高级任务如视觉推理和3D空间理解方面也有突出表现。
国际权威认证
LMArena由美国加州大学伯克利分校打造,是当前全球最具公信力的大模型竞技场之一。
其核心评估方法基于人类真实偏好的盲测机制:将不同模型的输出结果匿名呈现,由全球用户通过两两对比进行投票,最终根据投票结果决定排名。这种贴近实际用户体验的评估机制,使得评测结果能够直接反映模型在真实场景中的实用价值。
功能特点
多模态理解:模型可精准识别图片中的物体,实现视觉与语义的深度融合。
多语言支持:即使以西班牙语提问,模型也能直接理解并解析英文图表,展现强大的跨语言交互能力。
深度思考:通过多轮推理拆分问题,逐步逼近正确答案,体现其高级认知水平。
这一成果得益于技术团队在模型架构上的持续优化。混元视觉模型家族已推出多个版本,如混元T1-Vision、混元Turbo S-Vision等,视觉信息理解作为大模型通用化的关键环节,腾讯混元团队将持续创新,推动技术应用。
GitHub:https://github.com/Tencent-Hunyuan/HunyuanVision
10月10日
蚂蚁开源万亿参数语言模型Ling-1T,以更大规模、更快速度实现更强推理能力,刷新多项SOTA!
蚂蚁集团最新发布的开源万亿参数通用语言大模型Ling-1T,成为继月之暗面Kimi K2、阿里Qwen3-Max之后,又一款开源的万亿参数重量级选手。
性能表现
作为蚂蚁百灵大模型系列的首款旗舰产品,Ling-1T在代码生成、软件开发、竞赛数学、专业数学和逻辑推理等多个高难度任务中均取得SOTA表现。特别是在有限输出token的条件下,其高效思考与精准推理的优势更加明显。
在竞赛数学榜单AIME 25上,Ling-1T超越一众模型获得最优表现,彰显了其在复杂数学推理方面的强大能力。
在LiveCodeBench(真实编程任务)中得分领先,在ArtifactsBench(复杂软件逻辑建模)中获得59.31分,仅次于Gemini-2.5-Pro。数学综合测试Omni-Math与UGMathBench双双突破74分,金融推理(FinanceReasoning)更是达到87.45的高分。
实测案例
Ling-1T展现出了令人惊艳的响应速度。无论是复杂的空间几何问题还是多步骤的数学推理,模型都能快速启动思考进程并给出详细解答。
示例一
回答经典推理题:7米长甘蔗通过2米高1米宽的门
后面还提出了4种解决方案,每种方案都有具体的操作步骤和适用场景说明。
示例二
用一道“外星人分裂”问题测试一下其数学能力。
案例三
解答2025 年数学新课标I卷的第15 题也轻松过关。
案例四
**让它解释什么是量子隧穿效应,**它就能通过通俗易懂的语言讲解,先对比经典世界与量子世界的差异,再解释原理、举例印证,最后总结关键点。有效地降低了理解门槛。
案例五
生成一个介绍诺贝尔奖的网站:
目前,Ling-1T已提供多种部署形态,从手机端到云端全覆盖,助力开发者以更低门槛使用先进AI技术。
开源地址:
GitHub:https://github.com/inclusionAI/Ling-V2
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
在线体验:https://ling.tbox.cn/chat
开源斩获2.4kstar !NeuTTS Air:仅需3秒音频即可克隆声音,支持离线使用!
在人工智能技术快速发展的今天,文本转语音(TTS)系统正成为越来越多应用的核心组件。
今天小编就给大家介绍一款开源且支持实时声音克隆的TTS模型:NeuTTS Air!
作为基于0.5B参数大语言模型架构的本地文本转语音系统,NeuTTS Air最大的亮点在于其强大的即时语音克隆能力。仅需3-15秒清晰的参考音频,该系统就能准确克隆声音特征,生成高度逼真的语音输出。
功能特点
超写实语音质量:在同规模模型中表现出色,能生成自然、超逼真的类人语音
设备端部署优化:提供GGML格式,可在手机、笔记本电脑甚至树莓派等设备上运行。
即时语音克隆:仅需3-15秒清晰、自然连续的单声道参考音频,就能克隆声音。
轻量高效架构:基于0.5B大语言模型骨干,结合NeuCodec音频编解码器,平衡速度、大小与质量,支持实时生成。
安全性保障:所有处理在本地完成,生成的音频包含水印,符合合规要求。
支持英语:适配英语语音合成,上下文窗口达2048tokens,可处理约30秒音频。
低延迟优化:通过使用GGUF模型骨干、预编码参考音频、采用onnx编解码器等方式,可实现低延迟运行。
应用场景
NeuTTS Air的本地化处理能力和即时语音克隆特性使其在多个领域具有重要应用价值:
儿童陪伴设备:能够生成自然亲切的语音交互,同时保障隐私安全。
嵌入式语音助手:可在树莓派等嵌入式设备上运行,为智能家居提供语音交互能力。
离线语音代理:适用于网络环境受限或对数据安全要求高的场景。
个性化语音服务:通过语音克隆技术为用户提供定制化的语音体验。
教育辅助工具:可为语言学习、有声读物等应用提供高质量的本地化语音生成。
开源地址:https://github.com/neuphonic/neutts-air
10月9日
小红书开源业内首个全双工语音交互系统:FireRedChat,支持私有化部署与情感感知!
近日,小红书智创音频团队正式推出FireRedChat,这是业内首个支持私有化部署的全双工大模型语音交互系统。
它具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。
主要功能
全双工语音交互:支持用户和 AI 代理实时双向对话,双方可同时说话并实现可控打断,提升交互流畅性。
隐私保护与私有化部署:系统支持完全自托管,不依赖外部 API,确保数据安全,用户可自主控制部署环境。
模块化设计:由多个模块组成,包括转录控制、交互模块和对话管理器等,支持灵活的级联和半级联架构,便于定制和扩展。
低延迟通信:基于 LiveKit RTC Server 实现实时通信,搭配高效处理模块,确保低延迟交互,接近工业级标准。
语音活动检测与语义分析:采用流式个性化语音活动检测(pVAD)和语义结束检测(EoT),有效抑制背景噪声,精确标记主要说话人语音片段,提升用户打断成功率和对话自然度。
性能表现
FireRedChat 定义了系统层面的核心评价指标,重点关注实际对话体验中的三个关键方面**:最大限度地降低错误打断率,提升语义结束点判断的准确性,以及进一步缩短系统响应延迟。**
打断准确率方面,pVAD 显著减少噪声和无关说话人的误打断,并通过微小等待(如 50ms)在鲁棒与灵敏之间取得更优权衡。
在语义端点检测方面,EoT 技术能够更准确地判断用户是否已表达完毕,显著减少了因结束点误判而导致的等待尴尬或插话现象。
在整体延迟表现上,系统在本地级联部署模式中,响应速度可媲美工业级闭源系统,显著优于现有开源方案,使实时反馈成为标准体验。
应用场景
智能客服:为用户提供实时语音支持,快速响应客户问题,提升服务效率和客户满意度。
虚拟助手:在智能家居、智能办公等场景中,作为语音交互核心,实现设备控制、信息查询等功能。
教育领域:用于在线教育平台,提供实时语音互动教学,增强学习体验。
开源地址:https://github.com/FireRedTeam/FireRedChat
项目主页:https://fireredteam.github.io/demos/firered\_chat/#Demo
开源免费的OCR工具!Text Grab:直接从屏幕上抓取任何可见的文字,并复制到剪贴板!
Text Grab是一款专为Windows 10/11设计的轻量级OCR工具。它通过截取屏幕截图,将图像传递给OCR引擎,然后把识别出的文本放入剪贴板,供你在任何地方使用。
最值得称赞的是,它的OCR功能由Windows API在本地完成,这意味着Text Grab不需要互联网连接就能工作,而且不会将你的数据发送到外部服务器。
功能特点
快速启动与离线使用:文ext Grab启动速度快,无需常驻后台,只在需要时启动,有效节省系统资源。所有处理都在本地完成,不需要网络连接。
多种抓取模式:
全屏抓取模式:按住鼠标左键并拖曳框选目标区域,文字会自动复制到剪贴板。
抓取框架模式:框选目标区域后,会在一个新窗口中显示识别出的所有文字,可以逐行选择和复制。
多语言支持:文ext Grab利用Windows安装的语言来识别文本,因此支持多种不同的语言。
文本编辑与修改:在抓取框架模式中,如果识别结果有误,可以点击编辑按钮(铅笔图标)进行修改,然后再复制。
应用场景
学术研究:从PDF文献或电子书中快速提取引用段落。
工作效率:将扫描的文档或图片中的文字转换为可编辑文本。
内容创作:从视频或网页中捕获无法直接复制的文字内容。
**Text Grab以其轻量级、快速启动和完全离线工作的特点,**成为了Windows平台上的一款实用OCR工具。高效地解决了从屏幕抓取文本的核心需求,且作为开源项目,完全免费使用。
如果你经常需要从图像或屏幕上提取文字,Text Grab绝对值得一试。
GitHub:https://github.com/TheJoeFin/Text-Grab
9月30日
开源的AI漫画制作工具!AIMangaStudio :支持脚本创作、分镜设计和角色风格控制等功能!
AIMangaStudio 是一个利用 AI 制作漫画的工具,旨在为独立创作者与工作室提供一套端到端的漫画创作流水线,集成剧情生成、分镜布局、角色设定与页间连续性分析等功能,简化从脚本到漫画页面的制作流程。
功能特点
文本到漫画生成:将故事脚本或描述性提示词直接转换为漫画图像。
角色一致性:确保同一角色在不同面板、场景中保持外观统一,这对长篇叙事至关重要。
多面板与布局:支持一次性生成多格漫画页面,并提供多种分格模板。
AI分镜自动排版:自动将对话框放在画面合适的位置,并且生成镜头切换的分镜效果。
集成化工作流:内置或集成草图生成、线稿上色、对话气泡添加等功能,实现一站式创作。
应用场景
凭借免费开源与高度可定制的特性,AIMangaStudio 已在多个场景实现落地,成为不同用户的创作需求:
独立创作者与小工作室
无需购买商业工具订阅,通过克隆仓库、配置环境,即可搭建完整的 AI 漫画创作流程。
教育与培训场景
可作为 数字艺术与 AI 结合课程的教学案例,让学生在掌握工具使用的同时,学习二次开发技能,提升就业竞争力。
中小企业与创业项目
小型漫画工作室与创业团队可基于 AIMangaStudio 进行定制化开发,降低技术研发成本,快速搭建漫画生成平台。
开源地址:https://github.com/morsoli/aimangastudio
DeepSeek-V3.2-Exp开源:显著提升长上下文训练和推理效率, API 大幅度降价!
DeepSeek 最新开源实验性模型 DeepSeek-V3.2-Exp,首次引入全新注意力机制「DeepSeek 稀疏注意力」(DeepSeek Sparse Attention,DSA),显著提升长上下文训练和推理效率,同时大幅降低 API 调用成本,降幅达 50% 。
功能特点
架构创新:DeepSeek-V3.2-Exp在DeepSeek-V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(DSA)机制,通过闪电索引器和细粒度标记选择机制,实现了显著的效率提升,尤其在长文本场景下表现突出。
性能优化:模型在多个公开评测集上与DeepSeek-V3.1-Terminus性能相当,在长文本处理中显著降低了推理成本,从 O(L2) 优化至 O(Lk),大幅提高了长文本推理效率。
开源共享:DeepSeek-V3.2-Exp在Hugging Face和ModelScope平台开源,提供了详细的实现细节和模型权重,方便研究人员和开发者进行研究和应用。
成本降低:API价格大幅下降,降低了开发者的使用成本,使得更多开发者能够以较低成本接入和使用该模型,推动了其在实际应用中的广泛部署。
用户体验
在DeepSeek官宣DeepSeek-V3.2-Exp开源的推文中,有不少网友分享了对模型的使用体验和感受。有位网友称,自己在10万个token的代码库上测试了DeepSeek-V3.2-Exp,速度提升非常明显。
此次API价格大幅下降,有网友感叹现在几乎等同于免费了。
还有一位来自中国网友的“吐槽”,说出了大家的心声:“咱这个模型是非得国庆前更新吗?”
编写小球弹跳动画代码
让它推荐几种适合新手在阳台盆栽的、生长快、果子能直接生吃的植物,并且要保证对小孩绝对安全,最好能附上简单的播种技巧。
性能表现
DeepSeek-V3.2-Exp在大多数评测任务上的表现与前代基本持平,个别推理相关的测试分数略有下降。
H800 GPU的测试环境中,长序列推理的开销明显降低,证明DSA在真实部署中有很强的实用性。
同时,训练曲线与前代模型保持相似的稳定性。
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
9月29日
字节跳动开源视频生成模型Lynx:输入单张人物图像,即可输出高保真动态视频!
字节跳动开源高保真个性化视频生成框架 Lynx,该框架能够基于单张参考图像生成高质量视频,并有效保持主体身份的一致性。
在身份保真度、动作自然性、时间一致性与视觉真实感方面均表现出色。
功能特点
高保真身份保持
Lynx能够从单张参考图像中精确提取并保持主体身份特征,通过创新的适配器架构确保生成视频中人物身份的高度一致性。
轻量级适配器
框架采用双适配器架构:
ID-adapter:利用ArcFace提取身份特征并生成身份标记
Ref-adapter:通过冻结参考通道引入VAE的稠密特征,实现跨层细粒度信息注入
多样化场景适应
仅凭单张身份图像,Lynx即可生成多样化场景和表情的视频内容,同时保持核心身份特征不变,展现出强大的泛化能力。
技术实现
Lynx 以 Wan2.1 作为基础视频生成模型,该模型基于 DiT 结构并融合了 Flow Matching 框架,通过对视觉 token 进行时空自注意力机制,实现对空间细节与时间动态的联合建模,并借助交叉注意力融入文本条件。
在数据构建方面,Lynx 使用了来自公开与内部采集的多模态数据,涵盖单图、单视频以及同一主体在多场景下的图像与视频。为避免模型对光照或表情的过拟合,团队采用了 X-Nemo 进行表情编辑,LBM 完成重光照与背景替换,并辅以人脸识别技术过滤低质量样本,确保训练数据在身份一致性与视觉质量上的可靠性。
Lynx 在包含 40 个主体与 20 条无偏提示词的大规模测试集(共 800 个用例)上进行了验证,其在人脸相似度、视频质量与文本遵循能力方面均表现优异。
尤其在与基线方法的对比中,Lynx 有效避免了动作不自然、背景/光照失真、身份不一致等常见问题。
Lynx框架在身份保真度、可控性与生成真实感之间实现了最佳平衡,为多模态和多主体个性化视频生成的未来发展奠定了坚实的技术基础。
GitHub:https://github.com/bytedance/lynx
项目官网:https://byteaigc.github.io/Lynx/
9月28日
腾讯重磅开源混元3D-Omni和混元3D-Part:实现全场景3D模型生成+组件化编辑!
近日,腾讯混元宣布推出混元3D-Omni与混元3D-Part两款全新3D生成模型,并正式对外开源其推理代码与模型权重。
此次发布标志着腾讯在AI 3D建模领域的进一步突破,为游戏、3D打印、AR/VR等实际生产流程提供了更实用、高效的解决方案。
混元3D-Omni:全能型高质量文本生成3D模型
混元3D-Omni作为业界首个统一支持多模态条件控制的3D生成框架,突破了传统依赖单一图像输入的局限,支持骨骼、点云、边界框和体素四类控制条件,可实现对生成物体几何结构、拓扑和姿态的精细控制。
例如:
骨骼控制可精准调节人物姿态,适用于动画与虚拟角色设计;
点云输入能够补充三维信息,提升模型真实感;
边界框控制可调整物体比例,并有效缓解单图生成中的“纸片”问题;
体素则用于控制物体内部结构。
混元3D-Part:精细化部件级生成与编辑模型
混元3D-Part致力于解决3D模型组件化拆分与生成的难题。
该模型由原生3D分割模型P3-SAM和组件生成模型X-Part组成,能够自动将整体Mesh分解为多个结构合理、高保真的独立部件,支持超过50种组件的生成。
X-Part 的生成结果和闭源R模型对比:
这一技术使3D模型可像乐高一样被拆解和编辑,极大方便了游戏资源绑定、3D打印分件制作等下游任务。在多项基准测试中,混元3D-Part在分割与生成质量方面均表现优异。
目前,模型已集成至混元3D Studio平台,大家可通过Hugging Face或腾讯混元官方平台免费体验与应用。
开源地址
混元3D-Omni:代码:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
权重:https://huggingface.co/tencent/Hunyuan3D-Omni
混元3D-Part:代码:https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
权重:https://huggingface.co/tencent/Hunyuan3D-Part
9月25日
Meta开源首个代码世界模型!CWM:让AI像程序员一样思考与创造!
近日,Meta公司开源了其创新性的代码世界模型(Code World Model,简称CWM),这一突破性技术正在AI编程领域引发广泛关注。
Yann LeCun 也亲自下场转发撑场子了。
与传统的代码生成模型不同,CWM采用了一种全新的世界建模方法,让AI能够像人类程序员一样进行代码推理和模拟执行。
CWM是一个拥有320亿参数的开放权重大语言模型,采用稠密的仅解码器结构,支持最长131k tokens的上下文长度。在性能方面,该模型展现出令人印象深刻的能力:
SWE-bench Verified:pass@1达到65.8%
LiveCodeBench:68.6%的准确率
Math-500:96.6%的高分表现
AIME 2024:76.0%的优秀成绩
主要功能
代码生成:模型能生成高质量的代码片段,适用多种编程任务,如解决编程竞赛问题、修复代码错误、实现新功能等。
代码理解:模型通过模拟代码执行过程,理解代码的逻辑和行为。
数学和逻辑推理:在生成代码的同时,进行数学和逻辑推理,适用复杂的编程任务和问题解决。
多语言支持:目前主要支持Python,架构和方法能扩展到其他编程语言。
强化学习支持:通过与环境的交互(如执行代码、观察结果),CWM能不断优化生成的代码,提高准确性和效率。
性能表现
CWM 在有无测试时扩展(tts)的情况下均达到了同类最佳性能,分别取得了65.8%和53.9%的成绩。
CWM在Aider Polyglot官方排行榜上的表现:
在 Aider Polyglot 基准上,采用整文件编辑格式(whole file edit format)时,CWM 在不同编程语言上的准确率表现。
在Terminal-Bench和BigOBench等复杂任务测试中,CWM同样表现出色:
CWM代码世界模型的出现标志着AI编程向真正理解和推理代码语义的方向迈出了重要一步,同时为构建更加智能、可靠的编程助手奠定了坚实基础。
开源地址:https://github.com/facebookresearch/cwm
9月25日
重磅发布!阿里通义千问全面开源当前最强开源视觉语言模型:Qwen3-VL-235B-A22B!
阿里通义大模型团队今日宣布全面开源千亿参数级别的多模态大模型Qwen3-VL-235B-A22B!
它拥有一双火眼金睛,识物能力堪称全能。无论是特色美食、奇珍动植物,还是各类汽车品牌、动漫角色都能轻松识别。你只需上传一张图片,它不仅能精准识别出图中的菜品名称,还能像专家一样用定位框给你圈出来!
功能特点
1.视觉Agent
Qwen3-VL不仅能看懂图片,还能像人一样操作手机和电脑,自动完成许多日常任务。例如打开应用、点击按钮、填写信息等,实现智能化的交互与自动化操作。
2.带图推理
Qwen3-VL 可以像人类一样仔细观察图像的局部细节,并结合工具进行复杂推理。比如通过路边的路牌判断具体位置,或根据人物照片搜索相关信息,完成细粒度识别和逻辑分析任务。
3.代码编程
结合视觉理解和代码生成能力,Qwen3-VL 在前端开发方面展现出强大潜力。例如,能把手绘草图转成网页代码,或帮助调试界面问题,提升开发效率。
4.空间理解
Qwen3-VL 能通过图像和视频理解空间关系,判断方向、动作状态,并做出合理规划。这种能力为机器人导航、自动驾驶等需要空间感知的应用打下基础。
5.2D/3D 定位能力
在物体定位方面,Qwen3-VL 表现更强,能在包含多个物体的复杂场景中准确定位,最多可输出上百个检测框。2D grounding 的坐标表示从绝对坐标变为相对坐标。同时支持直接预测3D边界框,还原物体在真实世界中的位置和大小。
6.万物识别
丰富的视觉知识是理解现实世界的基础。Qwen3-VL 能够准确识别名人、美食、动植物、汽车品牌、动漫角色等,可在日常生活、社交分享、教育等多种场景中提供实用帮助。
7.创意写作
Qwen3-VL 的写作能力进一步提升,能根据图片或视频内容生成生动的文字描述,适用于故事创作、文案撰写、短视频脚本等创意场景。
8.STEM 多学科问题解答
Qwen3-VL 在数学、物理、化学等学科问题上的解题能力显著增强。它能理解题目含义,逐步推理并反复验证,有效解决各类学习和实际中的科学问题。
9.复杂指令遵循
Qwen3-VL 对复杂文本指令的理解能力更强,即使面对多步骤、条件判断或结构复杂的请求,也能准确理解并执行,确保任务顺利完成。
10.复杂文档理解与通用解析
Qwen3-VL 提升了对长文档和多页文件的理解能力,无论是超宽网页还是几十页的 PDF 图片都能清晰识别。此外,除了支持 HTML 格式解析外,还新增了 QwenVL Markdown 格式,用更少的数据量保留文字、公式、表格和插图的位置信息,提升处理效率。
11.多语言 OCR 与问答
Qwen3-VL支持的OCR语言从10种扩展到32种,涵盖希腊语、希伯来语、印地语、泰语、罗马尼亚语等多种语言,更好地满足不同国家和地区的需求。同时也支持多语言图文问答,方便跨语言交流。
12.多图对话与多轮对话
Qwen3-VL 增强了对多张图片的理解能力,能比较差异、发现关联。在多轮对话中也表现更好,能记住上下文,持续深入讨论多个图像的内容。
13.视频理解
Qwen3-VL 具备更强的视频理解能力,尤其在事件时间定位和长视频理解方面表现出色。它可以按时间点详细描述视频内容,即使是一个半小时的视频,也能准确回答问题。
性能表现
在十个维度的全面评估中,Qwen3-VL-235B-A22B-Instruct在非推理类模型中的多数指标表现最优,超越了Gemini 2.5 Pro和GPT-5等闭源模型。
在推理模型方面, Qwen3-VL-235B-A22B-Thinking 同样在多数指标上创下开源多模态模型的新高,与 Gemini 2.5 Pro 和 GPT-5 等闭源顶尖模型相比各有胜负。尤其在 Mathvision 这类复杂的多模态数学题目上,其表现甚至优于 Gemini 2.5 Pro。
在纯文本任务上,无论是Qwen3-VL-235B-A22B的Instruct和Thinking都表现出强大的性能,与Qwen3-235B-A22B-2507的纯文本模型不相上下。
目前模型已在Github、Hugging Face、魔搭等平台开源,用户也可在Qwen Chat直接体验。
体验地址:https://chat.qwen.ai
Github开源地址:https://github.com/QwenLM/Qwen3-VL
首个多学科文生图考试基准:GenExam!GPT-4o的正确率仅12.1%?
近日,上海人工智能实验室联合上海交大、清华大学、香港中文大学发布了首个多学科文生图考试基准GenExam。
这一基准参考人类考试中的作图题,覆盖数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程等10个学科,包含1000道严选题目,用“考试思维”重新定义文生图模型的能力边界。
实验结果令人震惊:即便是GPT-4o这样的顶级模型,严格评分下正确率也仅12.1%,开源模型更是全部接近0分。
传统文生图评测总纠结像不像、美不美,但学科绘图更在意“对不对”——化学结构中的一个碳原子或物理电路图中的一个箭头画错,整个图就错了。
GenExam设计了双维度、两标准的评测体系:
两大评测维度:语义正确性(模型画的是否符合题意)和视觉合理性(画的卷面好不好);
严格/宽松双标准:严格得分要求语义全对+视觉合理性三项全满分;宽松得分给予模型“部分得分”的空间。
研究团队测试了18个主流模型,包括闭源顶流和开源专用文生图模型,结果令人意外:
闭源模型中表现最好的GPT-4o严格得分也只有12.1%;
其他闭源模型分数不足10%;
所有开源模型严格得分均接近0%,表现最好的Qwen-Image也只有0.3%。
在学科场景中,任何一个小错误都可能导致满盘皆输——这也正是GenExam的价值所在:它精准捕捉了文生图模型在“专业场景”中的核心短板。
GenExam将图像生成转化为考试任务,给文生图模型设立了一个新目标:从画得好看走向画得正确。
开源地址:https://github.com/OpenGVLab/GenExam
9月24日
阿里通义大模型团队深夜开源三大模型,全面升级多模态AI能力!
阿里通义大模型团队宣布推出三项重要开源成果:
原生全模态模型Qwen3-Omni、语音生成模型Qwen3-TTS以及图像编辑模型Qwen-Image-Edit-2509。
这一系列发布标志着阿里在多模态人工智能领域的进一步突破。
Qwen3-Omni
Qwen3-Omni作为本次开源的核心产品,能够同时处理文本、图像、音频和视频等多种输入形式,并支持实时流式生成文本与语音输出。
该模型在36项音频及音视频基准测试中表现卓越,斩获32项开源领域最佳成绩和22项总体最优结果。
性能超越Gemini-2.5-Pro、GPT-4o-Transcribe等国际主流闭源模型。同时,其在图像与文本处理方面也达到同尺寸模型的领先水平。
**该模型支持119种文本语言交互、19种语音理解语言与10种语音生成语言,**纯模型端到端音频对话延迟低至211毫秒,视频对话延迟低至507毫秒,并具备30分钟长音频理解能力。用户还可通过system prompt自定义模型的回复风格和人设特征。
Qwen3-TTS
功能特点
多音色支持:Qwen3-TTS语音生成模型具备17种音色与10种语言支持,在语音稳定性与音色相似度评估中超越多个主流产品。
多语言与多方言支持:其特别增强了对多种中国方言的支持,包括粤语、四川话、闽南语等,并具备优秀的文本鲁棒性和快速响应能力。
高表现力:生成的语音自然、富有表现力,能根据输入文本自动调节语气,使语音更加生动。
音色相似度高:在多语言的语音稳定性和音色相似度上表现出色,超越其他同类模型。
性能表现
中英文语音稳定性:在 seed-tts-eval test set 上,Qwen3-TTS-Flash 的中英文语音稳定性表现达到 SOTA,超越 Seed TTS、MiniMax 和 GPT-4o-Audio-Preview。
多语言语音稳定性:在 MiniMax TTS multilingual test set 上,Qwen3-TTS-Flash 在中文、英文、意大利语和法语的 WER 上达到 SOTA,显著低于 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview。
音色相似度:在英文、意大利语和法语的说话人相似度方面,Qwen3-TTS-Flash 超过 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview,展现出卓越的音色表现力。
Qwen-Image-Edit-2509
Qwen-Image-Edit-2509带来重要功能更新**:首次支持多图编辑,允许用户拼接不同图片中的人物、物体等元素。**
该版本还增强了单图编辑的一致性,在多方面表现能力显著提升,并原生支持ControlNet等多种控制方式。
功能特征
多图编辑支持: 对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构,通过拼接方式进一步训练,从而进行了支持。提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法。
单图一致性增强: 对于单图输入,Qwen-Image-Edit-2509 显著提高了一致性,主要体现在以下方面:
人物编辑一致性增强: 增强人脸ID保持,支持各种形象照片、姿势变换;
商品编辑一致性增强: 增强商品ID保持,支持商品海报编辑;
文字编辑一致性增强: 除了支持文字内容修改外,还支持多种文字的字体、色彩、材质编辑;
原生支持ControlNet: 包括深度图、边缘图、关键点图等
面向未来,阿里巴巴的开源战略将更加聚焦于与国内开源生态的共同成长:
一方面,继续积极参与国际顶级社区,贡献中国智慧;
另一方面,也将大力支持国内开源基金会的发展,助力培育本土的根社区,推动中国从“开源大国走向开源强国。
开源地址:
Qwen3-Omni:https://github.com/QwenLM/Qwen3-Omni
Qwen-Image-Edit-2509:https://github.com/QwenLM/Qwen-Image
Qwen3-TTS:https://github.com/mco2004/qwen-tts?tab=readme-ov-file
9月22日
阿里开源全新动作视频生成模型:Wan2.2-Animate!轻松实现动作复刻与角色替换!
阿里通义万相团队开源了全新动作生成模型Wan2.2-Animate!
它能让静态图片中的人物、动漫形象甚至动物都能动起来,其性能甚至超越了部分国际闭源模型。
两种模式
Wan2.2-Animate是在通义万相此前开源的Animate Anyone模型基础上进行的全面升级。
新模型在人物一致性、生成质量等关键指标上均有显著提升,并创新性地同时支持两种应用模式:
角色模仿: 输入一张角色图片和一段参考视频,即可将视频中角色的动作和表情精准迁移到图片角色上,赋予静态图片生动的动态表现力。
角色扮演: 在保留原始视频的动作、表情及环境背景的前提下,将视频中的角色替换为用户提供的图片角色。
技术创新
为训练此模型,通义万相团队构建了大规模的人物视频数据集,涵盖说话、面部表情和身体动作,并基于其图生视频模型进行了后训练。Wan2.2-Animate的核心突破在于:
统一表示格式: 将角色信息、环境信息和动作规范到统一格式,使单一模型能同时兼容上述两种推理模式。
精准动作复刻:针对身体运动和脸部表情,分别采用骨骼信号和隐式特征,配合动作重定向模块,实现高度精准的动作和表情迁移。
光照融合优化: 在角色替换模式中,特别设计了独立的光照融合LoRA模块,确保新角色与原始视频环境的光照完美融合,效果自然。
应用场景
视频编辑:在视频编辑中,将视频中的人物角色替换为动画角色,且能完美地融入原视频的环境,实现无缝的视觉效果。
游戏开发:在游戏开发中,根据玩家的动作捕捉数据实时生成角色动画,使游戏角色的动作更加自然流畅,增强游戏的沉浸感和交互性。
虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,创建逼真的虚拟角色,实现与用户的自然交互,为用户提供更加真实和沉浸式的体验。
教育与培训:在教育领域建动画角色作为教学助手,通过角色的表情和动作吸引学生的注意力,提高教学的趣味性和互动性。
GitHub:https://github.com/Wan-Video/Wan2.2
项目官网:https://humanaigc.github.io/wan-animate/
小米开源语音大模型Xiaomi-MiMo-Audio,多项测试超越谷歌、OpenAI等闭源巨头!
近日,小米公司正式开源其首个原生端到端语音大模型Xiaomi-MiMo-Audio。
该模型在多项权威测试中表现卓越,甚至超越了谷歌和OpenAI的闭源模型。
功能特点
少样本泛化能力:首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化,可快速适应新任务,见证语音领域的“GPT-3时刻”。
跨模态对齐能力:后训练激发了智商、情商、表现力与安全性等跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
语音理解和生成:在通用语音理解及对话等多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能,还超过了一些闭源语音模型。
音频复杂推理:可以深入理解和分析复杂的音频内容,包括上下文识别和逻辑推理,展现了强大的音频复杂推理能力。
语音续写能力:预训练模型 MiMo-Audio-7B-Base 是目前开源领域第一个有语音续写能力的语音模型。
支持混合思考:是首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考。
音频转文本任务:Tokenizer 模型支持音频转文本(A2T)任务,覆盖超过千万小时语音数据。
性能表现
过将预训练数据扩展到超1亿小时,Xiaomi-MiMo-Audio展现出显著的“涌现”能力,能泛化到训练数据中缺失的任务,如语音转换、风格迁移和语音编辑。在权威基准测试中:
在音频理解基准MMAU标准测试集上,超越谷歌闭源模型Gemini-2.5-Flash。
在面向音频复杂推理的Big Bench Audio S2T任务中,超越OpenAI闭源模型GPT-4o-Audio-Preview。
在MMSU、MMAU-Pro等音频理解基准,以及Big Bench Audio、MultiChallenge Audio等口语对话基准中,均实现开源SOTA,接近或超越闭源模型水平。
实测表明,模型在语音延续任务中(如新闻广播、游戏直播、诗歌朗诵)能保持高度连贯性,仅在少数场景(如唱歌)出现轻微瑕疵。
应用场景
语音交互:可用于智能语音助手,提供更自然、更智能的语音交互体验,支持多种语言和方言的对话。
语音生成:能生成高质量的语音内容,适用于有声读物、语音播报、语音导航等场景。
语音转文本:支持语音转文本(A2T)任务,可应用于会议记录、语音输入、语音搜索等场景。
音频内容创作:帮助内容创作者生成音频脚本或语音内容,提升创作效率。
GitHub:https://github.com/XiaomiMiMo/MiMo-Audio
项目官网:https://xiaomimimo.github.io/MiMo-Audio-Demo/
9月19日
清华&面壁智能开源轻量级语音生成项目!VoxCPM:精准复刻说话者音色、情感等特征!
在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。
近日,清华大学与面壁智能联合开源了一款创新的语音生成模型:VoxCPM。这款模型参数尺寸仅为0.5B(十亿参数),属于轻量级“小钢炮”系列,但它在语音合成效果上毫不逊色。
卓越能力
上下文感知语音生成:VoxCPM能深度理解文本内容,根据文本的语义推断并生成合适的韵律,输出极具表现力且流畅自然的语音。可以根据文本内容自主调整说话风格,基于海量的180万小时双语语料库训练,生成高度契合的个性化声音表达。
零样本语音克隆:仅需一小段参考音频,VoxCPM可实现精准的零样本语音克隆。能完美复刻说话者的音色,能捕捉口音、情感语调、节奏和停顿等细微特征,打造出高度忠实且自然的仿声声音。
高效合成:VoxCPM支持流式合成,在消费级NVIDIA RTX 4090 GPU上,其实时因子(RTF)低至0.17,可轻松满足实时应用的需求。
多语言支持:VoxCPM主要针对英语和中文进行训练,能生成高质量的中英双语语音,适用于多种语言环境和应用场景。
灵活的文本输入方式:VoxCPM支持多种文本输入方式,包括普通文本输入和音素输入。用户可以根据需要选择不同的输入模式,实现更精确的发音控制。
强大的语音处理能力:VoxCPM能处理复杂的文本内容,包括公式、符号等特殊文本,生成对应的语音输出。支持自定义读音纠正,用户可以通过音素标记替换来实现特定的发音需求。
性能表现
在权威评测平台Seed-TTS-EVAL的榜单中,VoxCPM展现了惊人的性能平衡。它在词错误率(WER%)、字错误率(CER%)和相似度(SIM%)等关键指标上均排名第一,无论是中文还是英文场景都达到了最优水平。
例如,在中文合成任务中,VoxCPM的准确性和相似度接近完美,同时保持了高效率。RTF值仅为0.17,远低于行业标准(RTF低于0.2即视为优秀),这得益于其轻量设计和优化推理。一张RTX 4090显卡即可支持实时生成,使其成为工业级应用的理想选择。
应用场景
语音助手:VoxCPM 可以为智能语音助手提供自然流畅的语音合成能力,能以更接近人类的语音与用户进行交互,提升用户体验。
有声读物:能将文本内容转换为高质量的语音,适用于制作有声读物、有声小说等,为用户带来更加生动的听觉享受。
语音播报:可用于天气预报、新闻播报、交通信息播报等场景,生成清晰自然的语音播报内容,提高信息传递的效率和准确性。
语音克隆:VoxCPM 的零样本语音克隆能力可以用于创建个性化的声音,例如为虚拟角色、智能客服等赋予独特的语音特征,增强其真实感和辨识度。
Github仓库: https://github.com/OpenBMB/VoxCPM/
项目官网:https://openbmb.github.io/VoxCPM-demopage/
在线体验: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
蚂蚁开源Ling-flash-2.0:在多学科知识推理、高难数学、代码生成、逻辑推理等领域表现卓越!
蚂蚁百灵大模型团队今日正式开源其最新MoE(Mixture of Experts)大模型:Ling-flash-2.0。
作为Ling 2.0架构系列的第三款模型,Ling-flash-2.0以总参数100B、激活仅6.1B(non-embedding激活4.8B)的轻量级配置,在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能。
团队基于早期MoE Scaling Law研究,通过多维度优化实现了以小博大的奇迹:仅激活6.1B参数,却带来约40B Dense模型的等效性能,形成7倍以上的性能杠杆。
使得Ling-flash-2.0在日常推理中实现200+ tokens/s的高速生成(在H20平台上),输出越长,加速优势越明显。推理速度比同性能模型提升3倍以上,为实际部署带来显著成本优势。
功能特点
高难数学推理:在AIME 2025和Omni-MATH等竞赛级题目中,模型展现出稳定的多步求解能力,得益于高推理密度语料和思维链预训练策略。
代码生成:在LiveCodeBench和CodeForces评测中,模型在功能正确性、代码风格和复杂度控制上超越同规模模型,甚至部分任务优于GPT-OSS-120B。
前端研发:与WeaveFox团队合作,通过大规模RL训练和视觉增强奖励(VAR)机制,模型在UI布局、组件生成和响应式设计中实现功能与美学的双重优化。
实际案例
代码生成:编写一个 Python 程序,实现10个小球在旋转六边形内部弹跳的效果。球应受到重力和摩擦力的影响,并且必须真实地碰撞旋转的墙壁。
网页创作:创作一个万相 AIGC 模型的海外 Landing page,黑色风格,搭配渐变紫色流动,体现 AI 智能感,顶部导航包括 overview、feature、pricing、contact us。
贪吃蛇小游戏:
Ling-flash-2.0的意义不在于“参数小”,而在于重新定义了“效率”与“能力”的关系。它证明模型的智能源于架构、数据与训练策略的深度融合,而非单纯参数规模。
GitHub:https://github.com/inclusionAI/Ling-V2
9月18日
多功能、低门槛的Agent框架:Aser Agent,帮助开发者快速启动AI Agent!
Aser作为一个开源的Agent框架,配备了标准化的 AI 能力中间件,如记忆、RAG、MCP、CoT、API 和社交客户端。
并且它是一个模块化、多功能、低门槛的 Agent框架,能够通过动态集成工具包,帮助开发者快速构建和部署 AI Agent。
代码集成案例
Memory:
RAG:
MCP:
CoT:
API集成:
整体架构
Agent 核心层
功能: AI智能体的核心,负责处理用户输入、管理对话流程、调用各种工具。
特点: 支持多种模型、工具集成、错误处理、响应生成。
中间件层
Memory: 记忆管理,支持多种存储后端
Knowledge: 基于ChromaDB的RAG知识库系统
Tools: 统一的工具管理系统
MCP: 模型控制协议,支持外部服务集成
Trace: 完整的执行追踪和日志记录
CoT: 思维链推理能力
Workflow: YAML配置的工作流引擎
Team: 多智能体协作框架
Evaluator: 智能体性能评估工具
存储层
SQLite: 本地关系型数据库
Supabase: 云端PostgreSQL数据库
TinyDB: 轻量级JSON数据库
ChromaDB: 向量数据库,用于知识检索
工具包层
AI工具包: 人工智能服务工具
Web工具包: 网络服务和数据处理工具
数据流向
用户输入 → 接口层 → Agent核心 → 中间件层 → 存储层/工具包层 → 响应输出
扩展性特点
模块化设计: 各层独立,易于扩展和维护
多存储支持: 支持多种数据库后端
工具生态: 丰富的工具包和连接器
多智能体: 支持复杂的多智能体协作
灵活配置: 支持YAML工作流配置
社交集成: 支持多种社交平台
目前该项目已完全开源,欢迎大家点击链接前往GitHub点个star🌟支持一下~
开源地址:https://github.com/AmeNetwork/aser
性能比肩OpenAI!通义开源DeepResearch模型:让AI真正具备“做研究”的能力!
通义实验室推出的一项突破性开源项目:DeepResearch,旨在让AI真正具备“做研究”的能力!
在 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及 FRAMES 等多个 Benchmark 上,相比于基于基础模型的 ReAct Agent 和闭源 Deep Research Agent,其 30B-A3B 轻量级 tongyi DeepResearch,达到了 SOTA 效果。
支持深度研究推理
通义DeepResearch模型支持多种推理形式,包括ReAct模式和迭代式深度研究范式(Iterative Deep-Research Paradigm)。
ReAct模式:模型遵循“思考-行动-观察”循环,通过128K上下文长度处理大量交互轮次,实现可扩展的环境交互。其设计受“The Bitter Lesson”启发,强调可扩展计算的优势。
IterResearch范式:将复杂任务解构为独立“研究回合”。
每回合包括:
重构精简工作区:基于上一回合的报告和工具响应动态重构。
执行“思考-综合-行动”流程:内部草稿分析、提炼关键信息到中央报告、最终决策(工具调用或答案生成)。
结合此范式,团队提出Research-Synthesis框架:并行使用多个IterResearch Agent探索问题,整合报告以提升准确性。
端到端Agentic训练
通义DeepResearch重新定义了Agent模型训练流程,建立新范式**:Agentic CPT → Agentic SFT → Agentic RL,**形成无缝端到端循环。
强化学习优化:基于GRPO算法定制,采用on-policy训练和token级策略梯度损失。通过留一法降低优势估计方差,并排除负样本(如过长未生成答案的样本)以提升稳定性。训练指标显示奖励持续上升,策略熵维持高水平,表明有效探索。
数据质量至关重要:合成数据(如SailorFog-QA-V2)提供一致性分布,优于人工标注数据(如BrowseComp),显著提升泛化能力。
实际应用
通义DeepResearch已成功落地多个阿里巴巴内部应用,成为“生产力引擎”:
高德地图AI出行Agent:集成专属API(如实时天气、交通监测),在晚高峰等场景提供智能导航方案。
通义法睿法律智能体:在法律领域自动检索法条、案例,并进行深度分析。在“法条引用相关性”和“案例引用相关性”指标上超越OpenAI和Claude,综合表现领先。
通义DeepResearch模型、框架、方案已全面开源,可通过下方链接获取信息。
GitHub:https://tongyi-agent.github.io
Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
9月17日
清华&字节开源人物视频生成模型HuMo:生成高质量、细粒度且可控的真人视频!
只需一张照片、一段音频和文字描述,普通人也能制作出好莱坞级别的说话视频!
这就是清华大学和字节跳动智能创作实验室共同提出的多模态视频生成框架:HuMo,专注于人类中心的视频生成。
技术创新
HuMo通过以下创新方法解决多模态协同难题:
高质量训练数据
团队构建了涵盖文本、图像和音频的配对数据集,包含常见风格(如漫画)与小众风格(如赛博朋克),有效提升模型泛化能力。
分阶段训练策略
阶段一:主体一致性优化 采用高效图像注入技术,在保证生成速度的同时显著提升角色外观保持效果,主体保持任务性能超越已有最佳模型23%。
阶段二:音视频同步增强 通过智能聚焦策略自动关联音频与面部区域,结合动态权重调节技术,在去噪过程中自适应平衡多模态输入,确保同步质量。
功能特点
文本-图像驱动视频生成:结合文本提示和参考图像,定制角色的外貌、服装、妆容、道具和场景,生成个性化视频。
文本-音频驱动视频生成:仅用文本和音频输入生成与音频同步的视频,无需图像参考,提供更大创作自由度。
文本-图像-音频驱动视频生成:融合文本、图像和音频指导,实现最高级别定制和控制,生成高质量视频
多模态协同处理:支持强文本提示跟随、主体一致性保留以及音频驱动的动作同步,实现多种模态输入的协同驱动。
高分辨率视频生成:兼容480P和720P分辨率,720P生成质量更高,满足不同场景需求。
性能表现
对比在文字和参考图像输入下,对主体保留的效果,涵盖人物、场景等不同类型内容;从视频质量、文本遵循度、主体一致性等维度,HuMo在多个指标上表现出色。
通过不同方法生成的视频示例,对比在音频与视觉同步方面的效果,场景包括录音室、火星背景、巴黎咖啡馆等,展示了不同方法在捕捉人物表情、动作与音频同步性上的差异,HuMo在画面呈现和同步效果上有较好表现。
对比不同变体在保留人物身份、场景元素等方面的效果,HuMo在人物形象和场景还原上表现更好。
从原始视频中提取字幕和音频,使用 HuMo 以两种模式生成新视频:文本 - 音频(TA)和文本 - 图像 - 音频(TIA),TIA 模式的参考身份图像显示在左上角,对比不同模式下角色形象等的呈现效果。
HuMo项目已在完全开源,提供完整论文、演示、代码和模型下载,点击下方链接即可查看。
GitHub:https://github.com/Phantom-video/HuMo
项目官网:https://phantom-video.github.io/HuMo/
告别AI生图油腻感! 腾讯混元开源文生图模型SRPO,将AI图像美学质量提升300%!
近日,腾讯混元生图团队联合香港中文大学、清华大学共同开源了新一代文生图模型:SRPO!
通过创新性的训练优化策略,仅需10分钟训练就能将AI生成图像的美学质量提升300%,显著改善了图像生成质量。
技术创新
Direct-Align采样策略
针对传统多步采样器(如DDIM)计算成本高、易梯度爆炸的问题,SRPO提出单步噪声注入重建法。通过在扩散过程中注入可控噪声并建立"参考锚点",实现更精准的奖励信号传导。实验证明,该方法使重建误差降低37%,解决了高频信息过拟合难题。
语义引导偏好机制
突破传统奖励模型的局限性,SRPO创新性地将文本分支作为模型参数函数。通过动态调整控制提示词(如"真实感""自然光影"),研究人员成功引导奖励模型关注特定美学维度。测试显示,该方法使模型在真实度评测指标上提升312%。
动态负向校正技术
为防止"奖励破解"(模型迎合奖励模型而非真实需求),SRPO采用正向+负向语义词双重引导。通过加权奖励公式平衡训练效率与梯度方向,有效抑制模型对单一风格的过度偏好。
主要功能
提升图像生成质量:通过优化扩散模型,使生成的图像在真实感、细节丰富度和审美质量上显著提升。
在线奖励调整:支持用户通过文本提示动态调整奖励信号,实时改变图像生成的风格和偏好,无需对奖励模型进行离线微调。
增强模型的适应性:使扩散模型能更好地适应不同的任务需求和人类偏好,例如在不同的光照条件、风格或细节层次上进行优化。
提高训练效率:通过优化扩散过程的早期阶段,SRPO能在短时间内(如10分钟)完成模型的训练和优化,显著提高训练效率。
性能表现
在HPDv2基准测试中,SRPO展现出显著优势:
在测试中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流评测指标上均已达到SOTA水平,而结合SRPO后,在AE和PickScore等关键指标上更是取得明显提升。
更为关键的是,SRPO未出现明显的奖励破解现象,验证了Direct-Align的设计能够有效去除奖励偏差,模型真实感显著提升。
应用场景
数字艺术创作:艺术家和设计师生成高质量的数字艺术作品,通过文本提示动态调整图像风格,实现从概念草图到最终作品的快速迭代。
广告与营销:广告公司生成符合特定品牌风格和市场定位的图像,快速生成多种设计选项,提高创意效率。
游戏开发:游戏开发者生成高质量的游戏纹理、角色设计和场景背景,提升游戏的视觉效果和玩家体验。
项目官网:https://tencent.github.io/srpo-project-page/
GitHub仓库:https://github.com/Tencent-Hunyuan/SRPO
9月16日
小红书开源语音合成项目:FireRedTTS-2!支持生成长达3分钟、4位说话人的多语言对话!
近日,小红书开源了一款语音合成项目:FireRedTTS-2,专注于多说话人对话生成!
目前支持4个说话人的3分钟对话生成,可以通过扩展训练语料进一步延长对话时长和增加说话人数量。
在博客生成和聊天机器人集成方面表现出色,提供稳定、自然的语音输出,可以根据上下文生成富有情感的语音。
主要功能
长对话语音生成:支持4个说话人的3分钟对话生成,可扩展训练语料以增加对话时长和说话人数量。
多语言支持:涵盖英语、中文、日语、韩语、法语、德语、俄语等,具备零样本跨语言及语码转换语音克隆能力。
低延迟与高保真:在L20 GPU环境下,首次数据包延迟低至140毫秒,适合实时交互场景,同时保证高质量音频输出。
稳定语音输出:在独白与对话测试中,生成语音与目标说话人相似度高,语音识别错误率低,能维持稳定的音质与韵律。
随机音色生成:可生成随机特征的语音,适用于构建语音识别模型训练数据或为语音交互系统提供多样化测试素材。
情感韵律生成:在聊天机器人集成中,能根据上下文生成富有情感的语音,提升交互体验。
实时流式生成:采用12.5Hz流式语音分词器,支持高保真流式解码,适合实时应用。
技术原理
12.5Hz流式语音分词器:以低帧率运行,能编码更丰富的语义信息,缩短语音序列,稳定文本到分词的建模,支持高保真流式解码,适合实时应用。
双Transformer架构:采用文本-语音交错格式,将标记了说话人的文本与对齐的语音分词按时间顺序连接起来,用双Transformer进行建模。一个大型的解码器仅Transformer预测第一层的分词,而一个较小的Transformer完成后续层。
多语言建模:通过多语言预训练,支持多种语言的语音生成,具备零样本跨语言及语码转换语音克隆能力,能适应不同语言的对话场景。
低延迟设计:优化了模型架构和推理流程,确保在L20 GPU环境下,首次数据包延迟可低至140毫秒,满足实时交互的需求。
长对话支持:通过高效的分词和建模机制,支持4个说话人的3分钟对话生成,并可通过扩展训练语料进一步延长对话时长和增加说话人数量。
上下文感知韵律:在生成语音时,能够根据上下文信息调整韵律和情感,使语音输出更加自然和富有表现力。
应用场景
播客生成:能生成多说话人的播客内容,支持多种语言,提供稳定且自然的语音输出,适合制作多语言播客节目。
聊天机器人:可以集成到聊天框架中,根据上下文生成富有情感的语音,提升交互体验,适用于各种聊天机器人应用。
语音克隆:支持零样本跨语言及语码转换语音克隆,能生成与目标说话人相似度高的语音,适用于语音克隆相关应用。
开源地址:https://github.com/FireRedTeam/FireRedTTS2
项目官网:https://fireredteam.github.io/demos/firered\_tts\_2/
复刻OpenAI o3!字节开源Mini-o3:首次让模型学会人类式的深度优先搜索和持续探索能力!
字节跳动与香港大学联合推出的Mini-o3 开源项目,首次让模型学会人类式的深度优先搜索和持续探索能力。
Mini-o3的核心目标是扩展模型与工具的交互能力,使其能够执行长达数十步的深度推理。
技术突破
高难度训练场:3952×5304超高分辨率图像中隐藏毫米级目标,迫使模型必须通过数十次缩放/移动定位目标,如同“数字显微镜”下的寻宝游戏。
思维启蒙:通过大模型模仿人类复杂推理轨迹,生成6000条高质量训练数据,赋予模型“深度思考”基因。
关键创新:Over-turn Masking策略
传统强化学习惩罚未完成轨迹导致模型“畏首畏尾”,Mini-o3屏蔽未完成轨迹的惩罚信号,彻底释放模型探索欲。
性能表现
尽管Mini-o3(蓝线)的训练上限仅为6轮,但在测试时,随着允许的最大交互轮次从4轮增加到32轮,其在VisualProbe-Hard数据集上的准确率持续稳定提升,从约38%增长到了 48%。这证明了模型真正学会了“思考”,并且更多的思考时间能带来更好的结果。
与 7B 同行相比,Mini-o3 (7B) 在视觉搜索基准测试中实现了 SOTA,在 VisualProbe、V* Bench、HR-Bench 和 MME-Realworld 上取得了出色的成绩。
消融实验进一步证明了“三步走”策略中每个环节的不可或缺性。移除Visual Probe数据集、冷启动SFT或Over-turn Masking中的任何一个,都会导致模型性能显著下降,验证了整个框架设计的完整性和高效性。
作为一款完全开源的多模态模型,Mini-o3专为“边看边思考”类型的视觉搜索任务打造。借助强化学习技术,模型可将工具调用扩展至数十轮交互。
Mini-o3的代码已全部开源,可以访问下方开源地址获取相关资源。
项目官网:https://mini-o3.github.io/
GitHub:https://github.com/Mini-o3/Mini-o3
9月15日
Meta开源MobileLLM-R1:专为数学、编程和科学推理设计的高效推理模型!
Meta AI团队正式发布了MobileLLM-R1系列模型,标志着小参数模型进入R1时代。
这一全新高效推理模型系列专为移动端设备优化,旨在通过低训练成本实现高性能,推动AI在端侧设备的广泛应用。
MobileLLM-R1系列包含两类模型:基础模型(MobileLLM-R1-140M-base、MobileLLM-R1-360M-base和MobileLLM-R1-950M-base)及其对应的最终微调版本。
这些模型并非通用聊天模型,而是基于监督微调(SFT)技术专门训练,针对数学推理、编程(如Python和C++)及科学问题进行了优化。
主要功能
数学推理:MobileLLM-R1 在数学问题解答方面表现出色,能准确处理复杂的数学题目。例如,在数学基准测试中,其准确率显著高于其他同类模型,如 Olmo 1.24B 和 SmolLM2 1.7B,展现出强大的数学推理能力。
编程能力:模型在编程任务上也有出色表现,能生成高质量的代码。在 LiveCodeBench 编码能力测试中,性能大幅领先于其他同类模型,支持多种编程语言,如 Python 和 C++。
科学推理:MobileLLM-R1 具备科学推理能力,能处理与科学相关的复杂问题,为科学研究和教育提供支持。
高效推理:MobileLLM-R1 专为高效推理设计,适合在资源受限的环境中使用,如移动设备。其模型经过优化,能够在低功耗和低内存条件下高效运行。
监督微调:模型经过监督微调(SFT),专注于特定任务,非通用聊天。使它们在特定领域表现出色,能提供更精准和高效的解决方案。
可重复性:Meta 发布了完整的训练方案和数据源,确保研究的可重复性,支持进一步的研究和开发。
性能表现
以950M参数模型为例,它仅使用约2T高质量token进行预训练,总训练token量少于5T,但在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中,其性能与使用36T token训练的Qwen3 0.6B模型相当或更优。
在后训练阶段的优化中,MobileLLM-R1通过精简的架构设计,减少了推理延迟和内存占用,同时保持了高准确率。
MobileLLM-R1这类小参数模型的发布,无疑为端侧LLM的发展注入了新的活力;
模型体量的减小,意味着更低的计算资源需求和更快的推理速度,从而提升用户体验。这对于推动AI技术在移动设备、物联网设备等领域的应用具有重要意义。
在线体验:https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M
开源地址:https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e
阿里开源Qwen3-Next预览版!训练成本降低90%,长上下文推理吞吐提升10倍!
Qwen团队近日发布了Qwen3-Next架构的预览版:Qwen3.5的抢先预览,并率先开源了基础模型Qwen3-Next-80B-A3B-Base。
这一80B参数模型在训练成本和推理效率上实现重大突破:训练资源消耗仅为Qwen3-32B的十分之一,而长上下文推理吞吐量可达后者的十倍以上。
实测表现
案例1:AIME数学竞赛题
模型就开始飞快地列出了详细解题思路和计算过程,最终得到的答案“588”与AIME标准答案完全吻合。
案例2:用p5js创建一个可直接玩的扫雷游戏。
案例3:生成天气卡片。
性能表现
预填充阶段 (Prefill): 在4K上下文下吞吐接近Qwen3-32B的7倍;在超过32K的长上下文下,吞吐提升超过10倍。
解码阶段 (Decode): 在4K上下文下吞吐提升约4倍;在长上下文(32K+)场景中,吞吐优势仍可保持超过10倍。
Qwen3-Next-80B-A3B-Base在多项基准测试中也展现了强大的实力:
在测试中超过了闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近Qwen最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。
Qwen3-Next-80B-A3B-Base的发布标志着大模型在效率和性能上的一次重大突破。它以十分之一的训练成本,实现了对前代标杆模型的超越,并在长上下文推理吞吐上实现了数量级的提升。
开源地址:https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
9月11日
腾讯混元图像模型2.1开源:原生2K高清生图,实现复杂场景与自然文字精准生成!
近日,**腾讯混元图像2.1正式开源!**只需输入文字,就能生成高质量图像。
混元图像2.1原生支持2K分辨率生图和中英文输入,完美平衡了生成效果与出图速度、易操作性的痛点,让AI生图变得简单高效。
功能特点
复杂语义理解:支持长达1000个tokens的复杂语义超长prompt,能精准生成多物体的场景细节、人物表情和动作。
文字与细节控制:支持对图像中的文字进行精细控制,让文字与画面自然融合,减少文字错误。
风格多样性:支持生成多种风格的图像,如真实感人物、漫画、搪胶手办等,同时具备较高美感。
高分辨率生成:原生支持2K分辨率的图像生成,适用高保真设计需求。
生成案例
Prompt:八幅游戏漫画风格插图,排列成两行,每行四幅。第一行,从左到右:第一幅,在浅黄色背景上,中央用圆润的艺术字体写着标题"小喵的一天"。第二幅,一只橘白相间的小猫咪在温暖的毯子上打哈欠伸懒腰,眼睛半眯着。第三幅,小猫咪坐在地上,正专心致志地舔舐自己的前爪。第四幅,小猫咪在一个碗里享用鱼干零食,嘴里嚼得津津有味。第二行,从左到右:第五幅,小猫咪正在玩一个红色的毛线球。第六幅,小猫咪正在努力爬上一棵大树的树干。第七幅,小猫咪在草地上追逐一只黄色的蝴蝶。第八幅,小猫咪回到毯子上,准备蜷缩成一团睡觉。清晰的线条,扁平化的色彩。
Prompt:在酒馆外面,一个卖报的小男孩带着报童帽,倚靠着一根大理石质地的罗马柱,罗马柱靠右,他穿着吊带裤,蹲在地上,背靠着柱子,面对着镜头,侧着耳朵,专注地倾听酒馆内传来的钢琴声。酒馆内部,一个少女背对着镜头,坐在老式木质钢琴前。扎着两条麻花辫,侧颜微微可见,高挺的鼻梁和微卷的发丝清晰可见。她身穿一件米白色的蕾丝连衣裙,正在弹奏钢琴。莫奈的印象派画面,营造出一种夏日浪漫宁静的氛围。
Prompt: 一只Q版拟人的小企鹅,戴着红色针织围巾和贝雷帽,手里拿着单反相机,像街头摄影师一样站在人行道上,写实摄影风格。
Prompt:一幅超现实主义风格的悟空手办,人物漂浮在半空,身体部分化为液态银色金属,眼神锐利,手拿着金箍棒,背景是一条巨龙在云雾中盘旋,鳞片闪烁光芒,场景充满力量感,空中有闪电。
Prompt:一张生动的拉普兰冬季奇境海报展现在眼前,中心插图是一只毛茸茸的狐狸在极光天空下滑雪。前景中,一只小而毛茸茸的橙色狐狸欢快地骑着一架简单的木制雪橇。狐狸的脖子上围着一条舒适的图案围巾,尾巴幸福地卷曲着,滑过雪地。背景是壮观的极光,冰蓝色和粉色的光幕在夜空中舞动,夹杂着闪耀的白色雪花。雪覆盖的山脉和松树在极光下可见。海报顶部以大而俏皮的字体展示了“拉普兰魔法”的文字,字体像雪花一样。主标题下方写有一个较小的标语:“寻找你的冰雪冒险”,以优雅的字体书写。整体色调由冰蓝色、粉色和闪光白组成,营造出神奇而迷人的氛围。
应用场景
创意插画与设计:设计师生成高保真创意插画,如根据描述生成具有特定风格、场景和角色的插画,用在书籍、杂志等出版物。
海报与包装设计:能制作包含中英文宣传语的海报和包装设计,精准呈现文字与画面的融合,提升设计效率和质量。
漫画创作:支持生成复杂的四格漫画与连环画,创作者能快速将创意转化为连贯的漫画故事,丰富创作内容。
游戏美术资源生成:支持生成游戏中的角色、场景、道具等美术资源,帮助游戏开发者快速构建游戏世界,降低开发成本。
腾讯混元官网:https://hunyuan.tencent.com/image
Github:https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
9月10日
开源AI语音笔记助手!Hyprnote:可自动生成逻辑清晰的会议纪要!
今天为大家介绍一款专为会议场景设计的开源神器:Hyprnote!
它是一款本地优先的AI笔记应用,结合实时语音转录和智能摘要功能,让会议记录变得高效又安全。
核心功能
实时语音转录
会议进行时,Hyprnote能在后台实时将语音内容转换成文字,并清晰展示。整个过程完全在本地运行,速度快且准确率高,确保你不会错过任何细节。
从备忘到纪要
你只需在会议期间随手记录关键备忘(Memos),Hyprnote就能利用AI能力,结合完整的会议上下文,将这些零散笔记扩展成一份逻辑连贯、内容丰富的专业会议纪要。
真正的本地化
这是Hyprnote的最大亮点!可将所有数据100%存储在本地设备上。即使没有网络连接,也能正常使用,彻底消除隐私泄露风险。
笔记模板
应用内置多种笔记模板(如要点式、议程驱动式),并支持自定义创建。通过“自主性选择器”(Autonomy Selector),你可以控制AI生成内容的自由度,从严格遵循笔记到基于对话进行引申重构。
内置AI聊天与集成
在笔记中,你可以随时通过聊天与AI互动,例如提炼关键行动项(Action Items)、重写内容或翻译语言。目前已集成Apple Calendar和Obsidian,未来将支持Notion、Slack等工具。
应用场景
会议记录与总结:帮助用户在企业会议、团队讨论中快速生成会议总结,方便会后回顾。
远程工作与线上会议:支持离线使用,适合网络不稳定环境,便于远程会议记录和总结分享。
个人学习与笔记整理:适合学生上课、在线课程等场景,帮助用户整理课堂笔记,生成学习总结。
团队协作与知识共享:支持团队协作,便于跨部门会议后快速共享会议要点,提升团队效率。
会议准备与回顾:用在会议前准备要点和会议后复盘,提升会议质量。
GitHub:https://github.com/fastrepl/hyprnote
项目地址:https://hyprnote.com/?utm\_source=ai-bot.cn
SceneSplat:首个开源的端到端3D高斯场景理解框架!
当前开放词汇的3D场景识别方法严重依赖2D或文本模态,缺乏直接处理3D数据的端到端模型。
SceneSplat 应运而生,成为首个在3D高斯泼溅(3DGS) 上原生运行的端到端大规模室内场景理解框架。
技术突破
纯3D模态处理:无需2D/文本辅助,单次前向传播即可预测数百万3D高斯的开放词汇语义特征;
自监督学习:提出 GaussianSSL方案,从未标注场景中学习可泛化的3D特征;
大规模数据集:发布首个针对室内场景的3DGS数据集 SceneSplat-7K,覆盖7个权威数据集(ScanNet、Matterport3D等),包含 7,916个场景、112.7亿高斯点,重建质量达PSNR 29.64 dB。
性能表现
1、零样本语义分割
在ScanNet200、ScanNet++、Matterport3D上均达SOTA:
开放词汇分割mIoU提升显著;
自监督预训练后在ScanNet/ScanNetpp分割任务同样领先。
2、定性能力突破
开放词汇查询:识别训练集外类别(如“Robot Arm”);
属性理解:响应抽象概念(如“Vacation”→“Travel Guide”);
分割一致性:解决原始标注碎片化问题。
应用场景
SceneSplat的出现为3D场景理解带来了新的可能性。其能力让3D高斯场景不仅能够被看见,更能被“听懂”,理解自然语言的查询并作出响应。
这项技术具有广泛的应用前景:
机器人技术:使机器人能够更好地理解复杂的环境,进行导航和操作。
混合现实:为AR/VR应用提供更智能、更交互的环境理解能力。
具身智能:为 embodied AI 提供丰富的场景语义信息,支持更复杂的行为决策。
场景编辑与创作:像3DitScene和SC-GS这样的场景编辑技术可以受益于更精确的语义理解。
GitHub:https://github.com/unique1i/SceneSplat
项目主页:https://unique1i.github.io/SceneSplat\_webpage/
9月9日
B站重磅开源IndexTTS2:一键生成带情感的影视级配音,精准控制语速时长!
万众期待的IndexTTS-2终于开源了!
它不仅实现高精度语音克隆,还突破性地解耦了情感与音色,支持通过自然语言指令精准调控情感倾向。
并且IndexTTS2的时长控制能力可精确到音节级别,让AI配音首次达到影视工业级标准,彻底攻克了自然度与精准控制无法兼得的技术瓶颈。
技术突破
IndexTTS2 提出的一种自回归、零样本 TTS 系统,拥有以下显著特性:
1、两种语音生成模式
精准控制语音时长:通过指定生成的 token 数,满足对时长有严格要求的场景。
自由生成自然节奏的语音:适用于更注重自然表达的应用。
2、情感与音色解耦
引入 Gradient Reversal Layer:进行情感 - 音色的解耦,使得情感表达不再受限于音色。
多方式情感表达控制:支持使用文本描述或音频 prompt 控制情感表达,大大提升了情感表达的灵活性。
3、零样本音色克隆
仅需10秒参考音频,通过对比学习对齐潜在空间,支持方言/口音复刻
中文混合建模:汉字+拼音联合输入,解决多音字问题(如“行”xíng/háng)
4、自然语言情感控制
构建情感 embedding 空间:构建 7 种基本情绪的 embedding 空间,为情感的精准表达提供基础。
LLM 情感映射:使用 LLM(DeepSeekR1 + Qwen3-LoRA)将自然语言映射为情感向量引导生成,让情感表达更加贴近人类语言习惯。
性能表现
不同系统在不同数据集上的零样本性能比较,对于SeedTTS test-en,IndexTTS 表现最佳,而IndexTTS2表现良好,其SMOS、PMOS和QMOS分别比IndexTTS低0.25、0.12 和 0.19:
各种系统在情感测试数据集上的性能比较,IndexTTS2显著展示了卓越的情感表达能力,达到了0.887的情感相似度(ES)和4.22的情感MOS(EMOS)。
基于自然语言的情感控制与Cosy Voice2的比较:
应用场景
IndexTTS2的应用前景极为广阔,包括但不限于:
影视与动画配音:快速替换对白、补录台词,保证嘴型同步。
UGC短视频:一键生成多情绪旁白,适配不同剧情节奏。
虚拟数字人:实时驱动数字人说话时保持品牌音色一致,情绪随场景切换。
无障碍朗读:为视障用户生成带情感的有声书。
GitHub:https://github.com/index-tts/index-tts
技术论文:https://arxiv.org/pdf/2506.21619
9月8日
腾讯翻译模型登顶全球开源热榜,这个模型究竟怎么样?(实测)
上周,腾讯混元重磅开源翻译模型Hunyuan-MT-7B和3D世界模型HunyunWorld-Voyager两大模型,拿下前三中的两席。
其中混元翻译模型Hunyuan-MT-7B的总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。
性能表现
在8月底结束的国际计算语言学协会(ACL)WMT2025比赛中,Hunyuan-MT-7B拿下了全部 31个语种比赛中的30个第1名,处于绝对领先地位,这 31个语种除了中文、英语、日语等常见语种,也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。
WMT25竞赛对参赛模型的参数规模有明确限制,要求系统满足开源要求,并且只能使用公开数据进行训练,在这样的环境下,Hunyuan-MT-7B击败了众多参数更大的模型。
三大创新
1. 网络新词动态解析系统
内置多维度语义分析引擎,能结合上下文判断"kill"在"You're killing it"中的隐喻含义,而非机械翻译为"你在杀人"。针对游戏场景开发的Chimera增强模块,更是能识别"d2"为《暗黑破坏神II》的缩写,将"make a game"转化为专业的"进行游戏交易"。
此外,它还展现了更强的上下文感知能力,将“穿过”翻译为“sped through”,而非含义不当的“drove through”(暗示冲入人群)。
2. 少数民族语言专属通道
构建包含112种非中文语言的预训练语料库,特别优化藏语、哈萨克语等低资源语种。实测显示,其对藏语长句的连贯翻译准确率达82%,较谷歌翻译提升47个百分点。
3. 弱到强融合架构
首创多译文动态融合机制,通过GRPO算法综合6种候选译文的优势,生成经过统一优化的最终翻译结果。
实战案例
俚语翻译:
古诗翻译:
带有缩写的社交对话翻译:
开源价值
腾讯混元此次开源不仅提供模型(Hugging Face),更开放了完整的训练框架。这标志着机器翻译正从垂直领域工具进化为通用AI基础设施,其意义在于:
1.商业价值:为跨境电商、国际物流等场景提供实时翻译解决方案。
2.文化桥梁:通过精准翻译少数民族语言促进数字包容性。
3.技术标杆:证明小参数模型通过精细化训练可媲美大模型性能。
目前模型开放体验和下载,通过以下链接直达:
Github: https://github.com/Tencent-Hunyuan/Hunyuan-MT/
HugginFace: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
快手开源视频大模型Keye-VL-1.5:80亿参数解锁视频深度理解与推理新高度!
快手近日开源其最新研发的多模态大模型Keye-VL-1.5,参数规模达80亿,支持最长128k tokens的上下文处理能力。
该模型在视频理解、图像解析及复杂逻辑推理任务中表现亮眼,多项测试超越同类模型,为AI视频处理领域树立新标杆。
核心突破
Keye-VL-1.5最引人注目的能力在于其对视频内容的深度理解。不同于传统模型仅能识别标签或片段,它能够捕捉视频中的时间逻辑与细节关联,实现长视频的语义分析与推理。例如:
AI生成内容识别:面对用户上传的视频,模型可快速判断是否为AI生成。
视频内容识别:当用户提交一段男士手持猫罐头的视频并附带提问:该内容是否由AI生成?是否存在产品推广?
在耗时约十秒的运算分析后,系统生成明确结论:此视频存在人工智能生成迹象,并隐含猫粮类商品营销内容。
多模态任务处理:根据风景视频创作七言绝句,精准提取画面元素(荷叶、蜻蜓、清香)并延伸感官描写;
分析人物视频时,能推断年龄、关系,在逻辑推理上有一定的能力。
逻辑推理挑战:在数学题、图文匹配等任务中展现较强解题能力,但语言生成的文学性仍有提升空间。
性能表现
在多项权威测试中,Keye-VL-1.5交出亮眼成绩单:
视频理解:在公开的视频基准测试中,Keye-VL-1.5超越阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL,尤其是在Video-MMMU上,绝对提升了6.5%。
通用视觉:Keye-VL-1.5-8B以3.53的整体综合得分大幅领先,较Keye-VL-Preview显著提升了0.51。与MiMoVL-7B-RL-2508对比,Keye-VL-1.5-8B在综合性能上确立了0.13的优势,且在准确性方面表现尤为突出(+0.19)。
详细能力分析:Keye-VL-1.5-8B在推理能力(3.81)、时间信息理解(3.36)和稳健性(4.29)方面具有显著优势;在视觉元素识别(3.49)和创造能力(3.66)上与MiMoVL-7B-RL-2508相当。
快手表示,该模型将推动视频行业向智能化迈进,未来可能重塑内容推荐、创作工具、广告投放等环节。依托平台海量短视频数据,Keye-VL-1.5有望持续迭代,成为通向AGI的重要拼图。
Github:https://github.com/Kwai-Keye/Keye
在线体验:https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1\_5-8B
9月4日
腾讯开源智能体新框架Youtu-agent:为数据分析、文件处理及深入研究提供强大代理能力!
腾讯优图实验室重磅推出的开源智能体框架: Youtu-agent,致力于为自主智能体的构建、运行和评估提供专业解决方案。
依托开源模型 DeepSeek-V3 的技术优势,该框架不仅达成了领先的性能水准,还兼容多种模型 API 与工具集成,能够轻松应对数据分析、文件处理、深度研究等多元化需求,展现出卓越的智能体能力。
功能特点
性能验证:
WebWalkerQA:基于DeepSeek-V3.1达到**71.47%**准确率,刷新开源效果SOTA;
GAIA(文本子集):基于DeepSeek-V3 Pass@1达到72.8%,不用充值Claude/GPT等闭源模型,验证了强大的研究和应用潜力。
开源友好与成本意识:优化低成本部署,不依赖闭源模型,适合广泛的应用场景。
灵活架构:基于openai-agents构建,支持多种模型API(如DeepSeek、gpt-oss)、工具集成和框架实现。
自动化与简化:基于YAML的配置、自动智能体生成和简化设置,减少手动操作。
实测案例
数据分析:分析 CSV 文件并生成 HTML 报告。
文件管理:为用户重命名本地文件并对其进行分类。
广泛的研究:收集大量信息以生成综合报告,复制 Manus 的功能。
论文分析:解析给定的论文,进行分析,并汇编相关文献以产生最终结果。
技术原理
AgentConfig:智能体的配置文件,用YAML格式定义智能体的行为、使用的工具、环境等,为智能体提供运行所需的参数和设置。
Agent:智能体的核心逻辑部分,根据AgentConfig中的配置运行,并在环境中执行任务。Agent是单个智能体(如SimpleAgent),也能是多个智能体协同工作(如OrchestraAgent)。
Environment:智能体运行的环境,提供智能体与外部世界交互的接口。例如,BrowserEnv支持智能体在浏览器中操作网页,ShellLocalEnv支持智能体访问本地文件系统。
Toolkits:智能体的能力集合,提供智能体能调用的各种工具。例如,search工具支持智能体进行网络搜索,file工具支持智能体操作文件。
Evaluation Framework:用于评估智能体性能的框架,提供标准化的评估流程,包括数据管理、处理和执行。
GitHub:https://github.com/TencentCloudADP/Youtu-agent
开源的数据可视化分析工具DataEase:支持通过拖拉拽方式快速制作图表!
在GitHub上,一个名为DataEase的开源项目正迅速走红,目前已获得21.7K的Star,成为数据分析和可视化领域的热门工具。
https://www.bilibili.com/opus/1108622683696791555
DataEase是一个强大的BI(商业智能)平台,它让用户无需编写代码,通过简单的拖拽操作就能创建出专业级的图表和仪表盘。
无论是数据分析师、业务人员还是普通用户,都能快速上手,将枯燥的数据转化为直观、可操作的洞察。
功能特点
易用性和灵活性:它支持连接多种数据源,包括传统数据库(如MySQL、SQL Server、PostgreSQL、Oracle)、新兴分析数据库(如ClickHouse、Doris、StarRocks),以及云端数据仓库(如Amazon RedShift)。
支持本地处理文件:如Excel、CSV表格,甚至通过API接口接入数据。这种广泛的兼容性确保了用户能轻松整合分散的数据,无需担心格式问题。
零代码可视化功能:用户只需通过鼠标拖拽,选择数据字段和图表类型(如柱状图、折线图、饼图或地图),就能快速生成专业图表。
通过可视化,DataEase帮助用户深入挖掘数据背后的业务洞察。例如,它能清晰展示产品销售趋势、区域增长情况或用户活跃时段,让决策者快速识别机会和问题。图表化的数据更易于理解,有效支持“看图说话”的业务分析。
DataEase作为开源工具,免费且社区活跃,是提升数据驱动决策的理想选择。无论是初学者还是专业人士,都能通过它释放数据的价值。
GitHub:https://github.com/dataease/dataease
9月3日
腾讯开源超长漫游世界模型!HunyuanWorld-Voyager:为多领域提供高保真的3D场景漫游能力!
今天,腾讯正式发布了混元3D世界模型系列的最新成员:HunyuanWorld-Voyager(简称混元Voyager)。
作为业界首个支持原生3D重建的超长漫游世界模型,混元Voyager聚焦于AI在空间智能领域的应用扩展,将为虚拟现实、物理仿真、游戏开发等领域提供高保真的3D场景漫游能力。
功能特点
1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;
2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;
3、图生3D与视频深度估计:支持从图像生成结构完整的3D物体,也可对普通视频进行深度补全,用于三维理解与后续建模。
技术创新
混元Voyager创新性地将场景深度预测引入视频生成过程,融合了视频生成与3D建模的优势。基于相机可控的视频生成技术,它从初始场景视图和用户指定相机轨迹中,合成可自由控制视角、空间连贯的RGB-D视频。
同时,混元Voyager支持将生成视频无损导出为3D点云,无需依赖COLMAP等额外重建工具,大幅简化了工作流程。
性能表现
该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法。
在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。
和现有开源方法比较,HunyuanWorld-Voyager可重建出更加精确的3DGS场景。
HunyuanWorld-Voyager的开源,为混元世界模型的能力矩阵补上了空间连续性维度的关键一块。从静态场景的呈现,到支持用户控制的沉浸式漫游,再到融入深度信息与空间延展能力,其技术演进层层递进。
项目官网:https://3d-models.hunyuan.tencent.com/world/
GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
智象未来开源图像编辑模型VAREdit:实现0.7秒高保真编辑!
近日,智象未来团队(HiDream.ai)推出了全新的自回归图像编辑框架VAREdit,这是全球首个纯自回归图像编辑模型,标志着图像编辑领域的一次重大技术飞跃。
该框架能够在0.7秒内完成512×512图像的高保真编辑,较传统扩散模型速度提升数倍,同时保持了出色的编辑精准度和指令遵循能力。
技术突破
VAREdit首次将视觉自回归(VAR)架构引入图像编辑任务,将编辑过程定义为“下一尺度预测”问题。
该框架通过逐层生成多尺度残差特征,实现了局部精准修改与整体结构保持的高度统一。团队创新设计了尺度对齐参考(SAR)模块,有效解决了尺度匹配难题,进一步提升编辑质量与效率。
SAR模块采用混合方案:在第一层提供多尺度对齐参考,后续层仅关注最细尺度特征。这种方法既保障了编辑精度,又保持了计算效率。
性能表现
在性能方面,VAREdit在权威基准测试中表现卓越。在EMU-Edit和PIE-Bench测试中,VAREdit在CLIP和GPT指标上均领先。其中,VAREdit-8.4B在GPT-Balance指标上较ICEdit和UltraEdit分别提升41.5%与30.8%,轻量级VAREdit-2.2B也显著优于竞品。
速度上,VAREdit基于下一尺度预测机制优势明显:8.4B模型在1.2秒内完成512×512图像编辑,比同类扩散模型快2.2倍;2.2B模型仅需0.7秒,实现近实时体验。
编辑效果上,VAREdit适用范围广,在多数编辑类型(如对象替换、风格调整)中保真度高、过度修改少。视觉对比显示编辑结果自然流畅。
引入SAR模块后,模型精准性指标进一步提升,凸显其优化价值。
VAREdit的高速度和高精度为图像编辑带来了全新的应用体验,普通用户也能在短短0.7秒内完成专业级图像编辑,极大地降低了创作门槛。
这种技术突破将为艺术创作、商业广告和社交媒体内容生成带来更多可能性。
技术论文:https://arxiv.org/pdf/2508.15772
GitHub:https://github.com/HiDream-ai/VAREdit
9月2日
阶跃星辰开源最强端到端语音大模型!Step-Audio 2 mini:听得清楚、想得明白、说得自然!
阶跃星辰正式推出开源语音大模型 Step-Audio 2 mini。
首次实现语音理解、推理与生成的统一建模,在音频理解、跨语种翻译、情感解析等任务中全面超越主流模型(包括GPT-4o Audio),并率先支持语音原生Tool Calling能力。
性能表现
Step-Audio 2 mini 在多个关键基准测试中取得 SOTA 成绩,在音频理解、语音识别、翻译和对话场景中表现突出,综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型,并在大部分任务上超越 GPT-4o Audio。
在通用多模态音频理解测试集MMAU中,Step-Audio 2 mini以73.2分居开源端到端语音模型榜首;
URO Bench口语对话评测里,其基础及专业赛道均居开源端到端语音模型首位;
中英互译(CoVoST 2/CVSS)得分39.3/29.1,大幅领先GPT-4o Audio等模型;
语音识别任务中,其开源中文CER 3.19、英语WER 3.50,错误率低于同类模型15%以上,多语言/多方言表现第一。
在不同语种的基准测试上,Step-Audio 2 mini在评价中文能力的FLEURS Chinese上取得第一名的成绩。
技术亮点
真端到端架构:突破传统三级结构(ASR+LLM+TTS),实现音频输入到语音输出的直接转换,架构更简、延迟更低,并能理解副语言和非人声信号。
CoT推理+强化学习:首次在语音模型中结合链式思维推理(CoT)和强化学习,精细解析情绪、语调等非语音信号并自然回应。
音频知识增强:支持外部工具(如web检索),减少幻觉问题,并扩展多场景应用能力。
Step-Audio 2 mini以轻量化模型实现全链路语音智能跃迁,为AI语音助手注入高情商与强逻辑基因,人机交互的自然对话时代正在加速到来。
Github :https://github.com/stepfun-ai/Step-Audio2
腾讯开源轻量化翻译模型Hunyuan-MT-7B:支持对33个语种进行互译!
近日,腾讯开源了一款在国际机器翻译比赛拿下30个第1名的翻译模型:Hunyuan-MT-7B!
它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。
三大创新
1. 网络新词动态解析系统
内置多维度语义分析引擎,能结合上下文判断"kill"在"You're killing it"中的隐喻含义,而非机械翻译为"你在杀人"。针对游戏场景开发的Chimera增强模块,更是能识别"d2"为《暗黑破坏神II》的缩写,将"make a game"转化为专业的"进行游戏交易"。
此外,它还展现了更强的上下文感知能力,将“穿过”翻译为“sped through”,而非含义不当的“drove through”(暗示冲入人群)。
2. 少数民族语言专属通道
构建包含112种非中文语言的预训练语料库,特别优化藏语、哈萨克语等低资源语种。实测显示,其对藏语长句的连贯翻译准确率达82%,较谷歌翻译提升47个百分点。
3. 弱到强融合架构
首创多译文动态融合机制,通过GRPO算法综合6种候选译文的优势,生成经过统一优化的最终翻译结果。
实战表现
在WMT2025官方提供的成绩报告中,腾讯混元“shy-hunyuan-MT”即Hunyuan-MT-7B模型拿下了全部31个语种比赛中30个第1名。
WMT25竞赛对参赛模型的参数规模有明确限制,要求系统满足开源要求,并且只能使用公开数据进行训练,在这样的环境下,Hunyuan-MT-7B击败了众多参数更大的模型。
开源价值
腾讯混元此次开源不仅提供模型(Hugging Face),更开放了完整的训练框架。这标志着机器翻译正从垂直领域工具进化为通用AI基础设施,其意义在于:
1.商业价值:为跨境电商、国际物流等场景提供实时翻译解决方案。
2.文化桥梁:通过精准翻译少数民族语言促进数字包容性。
3.技术标杆:证明小参数模型通过精细化训练可媲美大模型性能。
开源地址:
Github: https://github.com/Tencent-Hunyuan/Hunyuan-MT/
HugginFace: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
9月1日
字节全量开源AI绘画模型USO:精准迁移艺术风格,实现主体与风格的完美融合!
字节跳动正式开源其AI绘画领域旗舰模型USO(Unified Style-Subject Optimized customization model),将AI绘画技术从“单点优化”迈向“协同共创”。
该模型以风格与主体100%融合的突破性能力惊艳业界!
核心能力
风格、主体完美融合:精准迁移风格,保留细节;并且锁定主体特征,适配多风格。
布局控制:支持保留/变换布局,避免风格化过程中的元素错位。
模态扩展:兼容文本、图像、视频输入(实验性支持3D模型风格迁移)。
在权威评测中,USO在主体一致性(CLIP-I/DINO)与风格相似性(CSD)两大核心指标上,全面超越Qwen-Image Edit、StyleStudio等主流模型,部分场景达到人类专家水平。
技术创新
传统AI绘画长期困于风格与主体的对立困境:风格化模型常牺牲主体一致性,主体驱动模型又难以保留风格精髓。USO通过跨任务协同解耦架构,首次将风格驱动与主体驱动任务统一于同一框架,实现两者的“共生共赢”。
三元组数据集: USO团队构建了全球首个跨任务三元组数据集,包含内容图像、风格图像及其对应的风格化结果图像,覆盖人物、动物、场景等主体类别,以及油画、水墨、漫画等数十种风格。
确保风格化图像既保留主体特征,又精准复现风格元素(如梵高《星月夜》的笔触)
两阶段训练:
风格对齐训练:利用SigLIP编码器提取风格特征,通过分层投影器将多尺度风格特征注入预训练模型,学习风格复现能力。
内容-风格解耦训练:独立编码内容与风格特征,避免特征串扰。例如,输入人像与“工笔画风”时,模型能保留面部特征,同时融入工笔画的线条与色彩。
目前该项目已经全量开源,并提供了在线体验,地址放下方了,感兴趣的朋友可以前往体验!
GitHub:https://github.com/bytedance/USO
项目主页:https://bytedance.github.io/USO/
在线体验:https://huggingface.co/spaces/bytedance-research/USO
美团开源大模型LongCat-Flash:性能评分超GPT4.1,实现惊人计算效率和Agent能力!
美团宣布开源其自研的5600亿参数大语言模型:LongCat-Flash,并采用MIT协议在HuggingFace上免费开放。
主营外卖、酒旅的美团,为何重金投入这场看似“非主业”的大模型竞赛?答案直指其CEO王兴此前阐述的AI战略三层框架:
工作中的AI (AI at Work):提升内部效率。
产品中的AI (AI in Products):升级服务,打造AI原生应用。
自研大语言模型 (Building LLM):前两者的基石。
LongCat-Flash正是第三层战略的直接产物。而其终极目标,是服务于第二层战略的核心——打造革命性的AI原生应用:“专属生活小秘书”。
核心技术
LongCat-Flash的震撼之处,不仅在于其庞大的5600亿参数规模,更在于其颠覆性的效率提升。它成功打破了传统大模型“全员出动”的笨重模式,其核心技术亮点在于:
1.动态计算 :如同一个高效的项目经理,LongCat-Flash 能智能判断任务复杂度,仅激活完成任务所需的参数。将计算效率直接提升了20倍。这为大模型的规模化、低成本应用扫清了关键障碍。
2.ScMoE 架构: 如果说动态计算是“个人效率”的提升,ScMoE 则解决了大规模专家模型内部的“团队协作”瓶颈。它创新性地建立了“VIP通道”,实现了计算与通信的并行工作,显著缓解了专家间信息交换的拥堵问题,大幅提升了整体运行速度。
这套组合拳带来的最直观体验就是:快! 其推理速度超过 100 token/s,用户反馈“问完问题答案就出来了”,彻底告别了等待“转圈圈”的时代。
性能表现
在权威基准测试中,LongCat-Flash 展现了强劲实力:
全面能打: 在通用知识、指令遵循等核心能力上,与国际顶尖模型(如 GPT-4.1, Claude4)旗鼓相当。
中文更强: 在 CEval、Meeseeks-zh 等中文测试集上表现优异,甚至登顶榜首,体现了显著的本土化优势。
代码拿手: 在 LiveCodeBench 等实时编程测试中表现突出,堪称得力的“程序员副驾”。
Agent能力:LongCat-Flash在Agent(智能体)能力上的重点投入,确保了它能精准理解指令,并可靠调用海量API完成现实世界中的复杂任务。
美团的 LongCat-Flash 不仅是一款强大的AI模型,更是一份行业宣言。它标志着中国大模型市场正式从追求“规模竞赛”的上半场,迈入了比拼“效率优化”与“生态构建”的下半场。
开源地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
8月29日
单图一键生成3D场景!上海交大开源SceneGen:实现效率与质量双飞跃!
上海交通大学的研究团队开源了一款3D场景生成项目:SceneGen!
它能从一张图片出发,瞬间生成包含多个物体、纹理和位置的完整3D场景。
随着VR/AR和具身智能(Embodied AI)的蓬勃发展,高效生成逼真的3D场景需求日益迫切。
然而,传统方法要么依赖耗时的优化过程,要么需要从资产库中检索再组装,过程繁琐且难以保证场景的物理合理性。
而SceneGen框架,彻底改变了这一局面!它只需要一张普通的场景图片和对应的物体分割掩码,就能在一次前向传播中,同时生成场景中多个物体的3D几何结构、高分辨率纹理以及它们之间的精确相对空间位置!
技术核心:看得更全,想得更细
SceneGen的魔力在于其独特的架构:
局部精修:首先利用预训练模块对每个独立物体的纹理细节进行优化。
全局融合: 创新性地引入全局注意力模块,将专门设计的视觉编码器和几何编码器提取的物体级特征与整个场景的上下文信息进行深度融合。这一步至关重要,让模型理解了物体之间以及物体与场景的关系。
联合解码:最后,利用现成的结构解码器和专门设计的位置预测头(Position Head),将融合后的信息解码成最终的3D资产及其精确位置。
效果惊艳:
实验证明,SceneGen在生成效率和结果的稳健性上都显著超越了现有方法:
纹理更逼真: 尤其在纹理生成质量上表现突出。
泛化能力更强:相比依赖特定规范化表示的方法,SceneGen能更好地适应不同输入。
布局更合理:生成的场景在结构上完整,空间关系精准,视觉效果出众。
性能对比
SceneGen 能够生成物理上合理的 3D 场景,这些场景具有完整的结构、详细的纹理和精确的空间关系,在合成和真实世界数据集的几何精度和视觉质量方面都表现出优于先前方法的性能。
与其他项目在不同3D 场景生成方法的效果对比 , SceneGen直观展现在还原场景物体形态、布局等方面的效果更佳 。
SceneGen这一范式为高质量3D内容的自动化生成开辟了新道路,在游戏开发、虚拟现实、室内设计、机器人仿真等下游领域展现出巨大的应用潜力。
当然,SceneGen也存在一些挑战,例如在非室内场景的泛化能力有待提升,以及作为单阶段模型,尚未显式建模物体间的物理约束,偶尔可能出现物体轻微重叠的情况。但这正是未来研究的方向!
GitHub:https://github.com/mengmouxu/scenegen
项目官网:https://mengmouxu.github.io/SceneGen/
腾讯混元开源视频音效生成模型!HunyuanVideo-Foley:让AI视频自带电影级音效!
在影视、游戏和沉浸式内容爆发时代,精准匹配画面的音效成为刚需。
但传统音效制作耗时费力,AI生成又常面临声音粗糙、与画面脱节等难题。
腾讯混元团队近日开源的HunyuanVideo-Foley模型,首次实现端到端视频音效生成,一举突破行业瓶颈!
三大核心突破
多场景精准同步
无论是人物动作、动物足迹,还是自然景观、动画特效,HunyuanVideo-Foley均能生成与画面帧级同步的音频。
案例:输入“小狐狸踩过落叶”的描述,AI精准还原爪下枝叶的沙沙声与碎裂声。
多模态智能平衡 独创视觉与文本双路分析架构,自动平衡画面信息与文字指令。 案例:针对“海浪声”文本+海滩人群视频,AI既生成海浪声响应指令,又保留人声、海鸥鸣叫等环境音,层次丰富不丢失细节。
48kHz专业级音质 自研高保真音频VAE技术,彻底告别底噪与失真。 案例:汽车驶过湿滑路面时,轮胎摩擦的颗粒感、引擎加速的轰鸣声,甚至车辆位移的声场变化均清晰可辨。
性能表现
在Kling-Audio-Eval、 VGGSound-Test和MovieGen-Audio-Bench三个评估集的结果,证明了混元视频-拟音实现了综合优势。
实验结果表明,HunyuanVideo-Foley在多个评估数据集中取得了卓越的性能,在音频质量、时间对齐和跨模态一致性等关键指标上始终优于基线方法。
从影视配音、游戏音效到ASMR疗愈内容,HunyuanVideo-Foley正推动音视频创作进入智能化时代。当AI能听懂画面,看懂指令,那些曾需专业团队耗时制作的音效,如今只需一句描述即可实现!
GitHub:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
8月28日
蚂蚁集团开源多模态数字人:EchoMimicV3!1.3B参数实现快速、高质量的数字人视频生成!
EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。
框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、高质量、强泛化的数字人视频生成。
主要功能
多模态输入支持:模型能处理多种模态的输入,包括音频、文本、图像等,实现更丰富和自然的人类动画生成。
多任务统一框架:将多种任务整合到一个模型中,如音频驱动的面部动画、文本到动作生成、图像驱动的姿态预测等。
高效推理与训练:在保持高性能的同时,基于优化的训练策略和推理机制,实现高效的模型训练和快速的动画生成。
高质量动画生成:支持生成高质量、自然流畅的数字人动画。框架生成的动画在细节和连贯性上表现出色,能满足各种应用场景的需求。
强泛化能力:模型具有良好的泛化能力,能适应不同的输入条件和任务需求。
技术原理
任务混合范式(Soup-of-Tasks):EchoMimicV3用多任务掩码输入和反直觉的任务分配策略。模型能在训练过程中同时学习多个任务,实现多任务的增益无需多模型的痛苦。
模态混合范式(Soup-of-Modals):引入耦合-解耦多模态交叉注意力模块,用在注入多模态条件。结合时间步相位感知多模态分配机制,动态调整多模态混合。
Transformer架构:EchoMimicV3基于Transformer架构构建,用强大的序列建模能力处理时间序列数据。Transformer架构的自注意力机制使模型能有效地捕捉输入数据中的长距离依赖关系,生成更加自然和连贯的动画。
应用场景
虚拟角色动画:在游戏、动画电影和虚拟现实(VR)中,根据音频、文本或图像生成虚拟角色的面部表情和身体动作,让角色更加生动逼真,提升沉浸感。
特效制作:在影视特效中,快速生成高质量的人物动态表情和肢体动作,减少人工建模和动画制作的时间与成本,提高制作效率。
虚拟代言人:在广告和营销领域,创建虚拟代言人,根据品牌需求生成符合品牌形象的动画内容,用在广告宣传和社交媒体推广,增强品牌影响力。
虚拟教师:在在线教育平台生成虚拟教师的动画,根据教学内容和语音讲解呈现相应表情和动作,让教学过程更生动有趣,提升学生学习兴趣。
虚拟社交:在社交平台,用户生成自己的虚拟形象,根据语音或文字输入实时生成表情和动作,增强社交互动性和趣味性。
项目官网:https://antgroup.github.io/ai/echomimic\_v3/
GitHub:https://github.com/antgroup/echomimic\_v3
阿里开源视频修复神器!Vivid-VR:480P老片秒变4K,实现逼真的修复效果!
随着生成式AI技术的飞速发展,视频修复领域迎来了新的突破!
阿里最新开源的Vivid-VR生成式视频修复工具,以其出色的帧间一致性和修复效果,迅速成为内容创作者和开发者的关注焦点。
Vivid-VR是阿里推出的一款开源生成式视频修复工具,基于先进的文本到视频(T2V)基础模型,结合ControlNet技术,确保视频生成过程中的内容一致性。
核心突破
概念蒸馏技术:让AI从T2V模型中“学习”世界认知,修复时精准还原细节,避免“鬼影”和失真。
双分支控制架构:通过轻量级投影器过滤噪点,动态调节生成信号,确保帧间连贯性。
一键式操作:无需专业调参,上传视频即可智能修复,支持本地部署与云端调用。
性能表现
为了更好地评估所提出的方法,Vivid-VR提出了两个测试集,分别命名为 UGC50 和 AIGC50,它们分别包含 50 个真实世界的 UGC 视频和 50 个 AIGC 视频。
在合成、真实世界和AIGC视频的定性比较结果。所提出的Vivid-VR生成了结构更合理的帧,以及更真实和生动的纹理。
应用场景
老片修复:将30年前模糊的胶片电影修复至4K,人物发丝、布料褶皱清晰可见。
AI生成增强:消除Stable Diffusion生成视频的闪烁,让虚拟场景无缝衔接现实。
运动模糊消除:赛车、舞蹈等高速镜头去模糊,动作轨迹一气呵成。
多机位合成:自动对齐不同角度拍摄的素材,生成稳定长镜头。
跨模态修复:文字描述+残缺视频,智能补全缺失画面(如修复古画缺失部分)
当前Vivid-VR对复杂光影场景(如玻璃反光)仍存细节丢失,且最长支持5秒视频修复。但团队透露,下一代将引入3D时空注意力机制,目标实现30秒以上长视频无损修复。
GitHub:https://github.com/csbhr/Vivid-VR
8月27日
通义万相开源Wan2.2-S2V:一张照片+一段音频生成“电影大片”视频!
阿里通义万相正式开源多模态视频生成模型 Wan2.2-S2V,实现“静态图片+音频=动态视频”的电影级数字人生成。
用户仅需上传一张图片和一段音频,即可生成口型精准匹配、肢体动作自然的分钟级长视频,为数字人直播、影视制作等领域提供高效工具。
核心突破
Wan2.2-S2V通过两大技术创新实现行业领先:
音频驱动细粒度控制
融合文本引导的全局运动与音频驱动的局部动作,采用AdaIN和CrossAttention双机制,确保口型、表情与音频高度同步。
73帧历史参考帧扩展
通过层次化帧压缩技术,将历史参考帧从数帧扩展至73帧,显著提升长视频生成的稳定性与连贯性。
多分辨率适配
支持竖屏短视频、横屏影视剧等不同画幅需求,满足多样化场景。
定量比较
根据实测数据,Wan2.2-S2V在FID(视频质量)、EFID(表达真实性)、CSIM(身份一致性)等核心指标中,在同类模型中取得了最好或接近最佳的性能。
Wan2.2-S2V专注于以人类角色从事特定活动(如说话、唱歌和跳舞)为特色的视频,创建一个包含数百万个以人为本的视频样本的综合数据集。
阿里通义万相本次开源的S2V模型直击产业痛点,有望推动数字人直播、AI教育等场景的创作效率升级。
Github :https://github.com/Wan-Video/Wan2.2
官网:https://humanaigc.github.io/wan-s2v-webpage/
面壁开源MiniCPM-V 4.5:8B 性能超越 72B,首创高刷视频理解!
近日,面壁智能发布了其最新开源多模态模型MiniCPM-V 4.5,这款仅8B参数的端侧模型在多个领域实现了越级表现,刷新了端侧AI的天花板。
MiniCPM-V 4.5不仅在图片理解、视频分析、OCR和文档解析等任务中超越72B级巨无霸模型,还首次实现了“高刷视频理解”能力,为汽车座舱、机器人等实时应用场景提供了强大支持。
性能超越
在视频理解领域,它在Video-MME、LVBench等榜单中均达到同级最佳水平,处理效率远超同类模型。
在OCR和复杂文档解析方面,MiniCPM-V 4.5同样表现出色。在OmniDocBench榜单的OverallEdit、TextEdit和TableEdit指标上,它均取得了通用多模态模型的SOTA(State-of-the-Art),轻松处理合并单元格等复杂操作。
复杂文档识别:在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标取得同级 SOTA。
技术创新
MiniCPM-V 4.5的核心创新在于其“高刷视频理解”能力。传统模型通常以1 fps抽帧处理视频,导致视觉信息丢失。而MiniCPM-V 4.5通过3D-Resampler结构,实现了高达96倍的视觉压缩率,在相同推理开销下可处理6倍视频帧数。
这使得模型能精细捕捉动态细节,如快速翻动的纸张内容。在实测中,它轻松识别出3秒视频中的四张单词纸,而Gemini 2.5 Pro和GPT-4o均未能完整识别。
实测效果:鹰眼级视觉与实用场景
MiniCPM-V 4.5在实测中展现了“鹰眼级”视觉精度。例如,在驾驶场景中,用户询问“附近能买到饮品吗”,模型秒级识别出路边的CoCo店铺。
在交通牌分析任务中,模型快速解析出口信息,提供清晰决策:700米的East Perth/Welshpool出口比1公里的James St & Wellington St出口更优。
模型还轻松处理了碎片化信息,如Hinton采访视频的字幕总结,并化身“课后助手”解答高中化学题。在OCR任务中,它精准识别手写文字和复杂表格。
甚至对梗图的理解也游刃有余。例如,一张讽刺职场效率的meme图,模型准确识别角色并分析笑点:AI加持反而增加了工作量。
MiniCPM-V 4.5不仅是一次模型升级,更是开源端侧多模态AI的革命。它以8B参数实现越级性能,结合高刷视频理解和混合推理,为实时应用场景开辟新路径。模型已开源,开发者可通过GitHub、Hugging Face或ModelScope获取资源,推动AI在终端设备的普及。
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
8月26日
群核科技开源空间语言模型SpatialLM 1.5:文本指令直接生成可交互的3D室内空间设计!
近日,杭州群核科技推开源了SpatialLM 1.5空间语言模型,可通过自然语言对话即可生成、编辑和交互3D室内空间,被视为迈向“空间智能时代”的重要里程碑。
这一突破不仅刷新了AI在空间理解与生成上的能力边界,更为机器人训练、智能家居设计等领域提供了全新的解决方案。
核心技术:
SpatialLM 1.5的核心在于将自然语言与空间结构深度融合,其技术路径可概括为三点:
结构化空间语言生成
模型能够理解用户输入的文本指令(如“为老人设计客厅”),并输出包含空间结构、物体关系、物理参数的结构性脚本。例如,用户要求“添加防滑扶手”,模型会自动计算家具布局的合理性,并生成符合人体工学的扶手位置。
多模态交互能力
支持通过自然语言对已有场景进行问答、修改和优化。例如,用户询问“客厅有几扇门”,模型即时返回“6扇门”;若需调整布局,只需一句“把沙发移到窗边”,模型即可动态更新空间配置。
物理参数化输出
生成的3D场景包含精确的物理信息(如家具尺寸、材质、光照参数),可直接用于机器人路径规划、虚拟现实(VR)场景搭建等具身智能场景。
技术对比:为何SpatialLM 1.5更胜一筹?
应用场景
SpatialLM 1.5的潜力远超传统设计工具:
1. 个性化空间设计
用户友好性:无需专业设计知识,用户可通过对话快速生成定制化方案。
动态调整:支持实时修改参数(如更换壁纸风格、调整灯光色调),并同步更新物理参数(如墙面承重、光照强度)。
2. 机器人训练与具身智能
数据生成瓶颈突破:传统机器人训练依赖人工标注的场景数据,成本高昂且覆盖场景有限。
任务级路径规划:输入指令“从卧室床尾走到餐桌取药”,模型自动规划最优路径,避开障碍物并适配家具布局。
3. 虚拟空间协作
跨平台兼容性:生成的3D场景可导出为通用格式(如OBJ、GLB),与CAD、Unity等工具无缝衔接,助力建筑、影视等行业实现远程协作。
SpatialLM 1.5的问世,不仅解决了传统AI在三维空间交互中的痛点,更预示着人机协作将突破屏幕限制,进入物理世界的深层交互阶段。
随着模型的开源与生态扩展,未来每个人或许都能成为“空间设计师”,而机器人也将真正理解并适应我们所处的三维环境:这或许正是AGI的雏形。
开源地址:
https://github.com/manycore-research/SpatialGen
https://huggingface.co/manycore-research/SpatialGen-1.0
微软开源TTS 模型!VibeVoice-1.5B:可生成4人60分钟长对话音频!
今天凌晨,微软研究院开源了创新音频模型VibeVoice-1.5B。
不仅一次性合成90分钟超长语音(此前行业极限仅60分钟),更支持4人自然对话、3200倍音频压缩,彻底打破传统TTS(文本转语音)技术的天花板。
技术架构
VibeVoice首创了双语音tokenizer模块,声学tokenizer与语义tokenizer,两者各有分工又相互配合,为后续的建模提供高效压缩且语义与声学对齐”的混合特征。
声学tokenizer承担保留声音特征并实现极致压缩的核心任务,其架构采用基于变分自编码器的对称编码-解码结构,这种设计既解决了数据多样性丢失,又通过层级化的下采样实现超高压缩率。
在模型训练与优化方面,VibeVoice采用课程学习策略将大语言模型的输入序列长度从初始的4096个token逐步增加到65536个token,对应24千赫兹采样率下90分钟的音频长度,避免模型因为一开始就处理超长序列而出现训练失败。
应用场景:
1.有声书与播客
超长内容一键生成:传统制作需多人录制、后期剪辑,而VibeVoice可基于脚本自动生成90分钟连贯语音,成本降低70%。
多语言无缝切换:支持中英文混合播报(如科技资讯中的术语实时翻译),背景音乐与语音动态平衡。
2.虚拟数字人与智能助手:情感化交互:AI助手可模拟“温柔提醒”“焦急警告”等情绪,告别机械式回复。测试显示,其语音真实感评分达3.75(满分5),超越Gemini、ElevenLabs等竞品。
3. 多语言翻译与跨文化传播
结合翻译技术,实现自然语音级多语言转换。例如,中文演讲可实时转化为带英式口音的英文音频,保留原说话人语调特征。
开源地址:https://huggingface.co/microsoft/VibeVoice-1.5B
8月25日
马斯克开源Grok 2.5,同时预告6个月后开源更强大的Grok 3!
近日,马斯克旗下的xAI公司正式宣布开源其大语言模型Grok 2.5,并承诺其下一代模型Grok 3也将在半年后开源。
这一举措迅速引发了业界的高度关注。
根据官方说明,下载的模型包含42个文件,总体积约为500GB。
要运行这个模型,用户需要相当高的硬件配置:至少8块GPU,每块必须拥有超过40GB的显存。
事实上,马斯克在本月初就曾公开预告:“是时候开源Grok了,将会在下周。”虽然最终的开源时间点比他最初承诺的略有延迟,但正如许多网友所言:“迟到总比没有的好。”
模型能力
在LMSYS排行榜上,其总体Elo分数曾超越Claude和GPT-4。
在一系列学术基准测试中,Grok 2系列在研究生级别科学知识(GPQA)、一般知识(MMLU、MMLU-Pro)和数学竞赛问题(MATH)等领域达到了与当时其他前沿模型相竞争的性能水平。
除了开源动作,马斯克还宣布了Grok APP的更新(v1.1.58),主要聚焦于AI视频生成功能。同时,他在社交媒体上发表了一段引人关注的言论,称“xAI很快就会超越谷歌,但中国公司才是最大对手”。
马斯克此次开源Grok 2.5无疑为AI开源社区注入了一股新力量,但其实际影响力和后续发展,仍需观察社区反馈及Grok 3的开源情况。
开源地址:https://huggingface.co/xai-org/grok-2
Meta AI开源DeepConf项目!突破大模型推理瓶颈:99.9%准确率+85% token削减!
Meta AI与加州大学圣地亚哥分校联合推出革命性推理框架——DeepConf(Deep Think with Confidence),首次让开源模型在顶尖数学竞赛AIME 2025上实现99.9%的准确率,同时将生成token数量锐减85%!
这项技术通过实时监控模型推理置信度,动态淘汰低质量路径,为AI思考装上“精准导航系统”。
核心突破
DeepConf的核心突破在于将置信度信号深度融入推理过程。与传统方法不同,它通过滑动窗口分析局部置信度趋势,在错误路径消耗大量计算资源前及时终止。
以哈佛-麻省理工数学竞赛题为例:
横轴为推理步骤,纵轴为置信度
绿色轨迹代表高置信度路径,红色叉标记被淘汰的低置信度路径
最终保留路径通过置信度加权投票得出答案
双运行模式
离线模式:完整生成后筛选
对全部推理路径计算综合置信度分数
淘汰最低10%路径,剩余路径按置信度加权投票
显著提升准确率,在AIME 2025达99.9%(基线97%)
在线模式:实时动态截断
预热阶段设定置信度阈值
生成中实时截断低于阈值路径
节省33%-85% token,120B模型token削减85%仍保持97.9%准确率
在GPT-OSS-120B模型上的测试显示:
AIME 2025:99.9%准确率(历史首次开源模型达标)
HMMT竞赛:置信度筛选使准确率曲线显著优于基线
论文地址:https://arxiv.org/pdf/2508.15260
项目主页:https://jiaweizzhao.github.io/deepconf
8月22日
InfiniteTalk数字人开源!支持无限时长+极致唇形同步视频生成,效果超越MultiTalk!
MeiGen-AI团队近日开源了InfiniteTalk模型,这是一个支持无限长度音频驱动视频生成的开源项目。
InfiniteTalk 被定义为一种面向无限时长对话视频的稀疏帧视频配音框架。
其设计目标是在保证身份一致性的前提下,实现唇部精准同步,并联合控制头部运动、身体姿态及面部表情,为数字人技术领域带来了重要突破。
核心优势亮点
无限时长: 理论上支持生成无限时长的数字人视频,特别适用于长会议、在线课程、播客等需要长时间内容的场景。
高质量输出: 相比 MultiTalk,有效减少了手部和身体的扭曲等模型缺陷,唇部同步精度更高,实现了卓越的多对一语音同步效果。
双模态输入: 同时支持 图像+音频(I2V) 和 视频+音频(V2V) 两种输入方式,提供更大的灵活性。无论是说话还是唱歌,都能实现自然的唇形同步效果。
技术特点
InfiniteTalk采用稀疏帧视频配音框架,相比传统的仅关注嘴唇同步的方法,该技术具有以下显著优势:
精准唇形同步:实现与音频的精确口型匹配
全身动作同步:不仅同步嘴唇,还同步头部、身体和表情
身份保持稳定:在长时间生成过程中保持人物身份的一致性
InfiniteTalk基于Wan2.1模型构建,通过创新的稀疏帧处理技术,实现了高效的视频生成。模型采用上下文窗口机制,默认设置81帧的上下文窗口,这是实现无限生成的关键技术。
InfiniteTalk项目已在GitHub上开源,采用Apache 2.0许可证。项目包含完整的模型权重、代码实现和使用文档,为研究者和开发者提供了完整的解决方案。
GitHub:https://github.com/MeiGen-AI/InfiniteTalk
字节跳动开源Seed-OSS模型,512K上下文刷新开源纪录!
字节跳动Seed团队今日宣布开源Seed-OSS系列大语言模型,该系列专为长上下文处理、复杂推理、Agent开发及通用场景设计;
最大亮点是将上下文窗口扩展至512K,相当于一次性处理1600页文本,达到业界常见128K上下文的4倍,更是GPT-5上下文窗口(256K)的2倍。
三大模型版本开源,7项性能SOTA
本次开源包含三个版本:
Seed-OSS-36B-Base:基础模型
Seed-OSS-36B-Base-woSyn:无合成数据基础版(专为研究社区设计)
Seed-OSS-36B-Instruct:指令微调模型
经基准测试验证,Seed-OSS-36B-Instruct在通用知识、Agent任务、编程和长上下文领域斩获7项开源SOTA,整体性能超越Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,与Qwen3-30B-A3B-Thinking-2507在多数场景持平。
技术突破
原生512K长上下文:通过预训练阶段原生支持(非后期扩展),结合RoPE旋转位置编码+GQA分组查询注意力技术,实现超长文本的高效处理。
Seed-OSS采用了成熟稳定的设计:360亿参数的稠密模型(不是MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。整个模型有64层,隐藏层维度5120,词汇表大小155K。
字节Seed团队提供了两个版本的基座模型,一个包含合成指令数据(性能更强),一个不包含(更纯净),为研究社区提供更多选择。
多项基准测试开源SOTA
在知识理解方面,Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分,超过了同等规模的Qwen2.5-32B-Base的58.5分。在TriviaQA上更是拿下了82.1的高分。
推理能力的BBH基准测试得分87.7,直接刷新了开源模型的记录。在数学能力上,GSM8K达到90.8分,MATH的81.7分。
Seed-OSS代码能力同样不俗,HumanEval得分76.8,MBPP达到80.6。
指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩,仅次于OpenAI的OSS-20B。
并且这些成绩是用仅12T token训练出来的,相比之下,很多同规模模型的训练数据量都在15T以上。
社区反响
Hugging Face工程师Tiezhen Wang评价:“极适合做消融研究”
开发者指出:“36B级基础模型开源稀缺”(对比Qwen3未开源14B以上基础模型)
用户强调:“512K上下文对实际应用价值显著”
随着开源大模型竞争的加剧,字节跳动此次发布展示了中国企业在AI开源领域的强大实力!
开源地址:
https://github.com/ByteDance-Seed/seed-oss
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
8月21日
首个开源UI设计agent来了!superdesign:输入自然语言描述,即可生成完整的UI界面!
SuperDesign 是一款开源 AI 设计助手,能够帮助设计师和开发者在 IDE 中直接生成 UI 原型、组件和线框图。该工具支持通过自然语言输入,并行生成多个设计选项,使用户能够高效探索不同创意方向。
SuperDesign 可与 Cursor、Windsurf、Claude Code 和 VS Code 等主流 AI 编辑器无缝集成,并提供设计变体管理、快速迭代和本地存储等功能。
主要功能
并行生成设计选项:同时生成多个设计变体,帮助用户快速探索不同设计方向。
设计变体管理:轻松创建和迭代设计变体,支持“Fork & Iterate”功能,方便用户修改和完善设计。
UI 组件创建:生成可复用的 UI 组件,支持动画效果,提升设计效率。
线框图设计:快速绘制低保真线框图,帮助用户快速规划布局和用户流程。
无缝集成:与 Cursor、Windsurf、Claude Code 和 VS Code 等主流 AI 编辑器无缝集成,支持将生成的设计直接导入项目。
自然语言输入:用户基于自然语言描述需求,工具根据提示生成设计。
本地存储:生成的设计保存在本地的 .superdesign/ 文件夹中,方便管理和复用。
技术原理
自然语言处理(NLP):用自然语言处理技术解析用户的输入提示,理解设计需求。基于预训练的语言模型(如 GPT 或其他 AI 模型),将自然语言描述转换为设计指令。
生成式 AI:用生成式 AI 模型(如 DALL·E、Midjourney 或其他图像生成模型),根据用户输入生成设计草图、线框图或完整的 UI 原型。生成的图像或设计能直接在工具中预览和编辑。
组件化设计:生成的 UI 组件用模块化设计,支持复用和嵌入到其他项目中。组件化设计提高了设计的可维护性和扩展性。
集成与扩展:基于插件或扩展的形式,SuperDesign 能与主流的 IDE 和设计工具无缝集成。开源特性支持用户自定义设计模板、修改行为或添加新功能。
应用场景
UI/UX 设计:快速生成设计变体和线框图,提升设计效率和探索能力。
产品设计:通过自然语言生成产品原型,支持快速迭代和用户反馈收集。
开发流程:无缝对接开发环境,实时更新设计,减少沟通成本。
项目官网:https://www.superdesign.dev/
GitHub地址:https://github.com/superdesigndev/superdesign
开源项目X-SAM实现从分割一切到任意分割,单次操作可分割多个对象,20项测试全面领先!
由中山大学、鹏城实验室、美团联合开源的X-SAM模型,在计算机视觉领域取得重大突破。
它首次实现了真正统一的图像分割多模态大语言模型,将分割范式从“分割万物”革命性地扩展到了“任意分割”。
创新设计
X-SAM的核心在于构建了一个统一的框架,赋予MLLMs高级的像素级感知与理解能力。其创新点主要包括:
视觉定位分割:研究团队提出了“视觉定位分割”这一新任务。它要求模型通过交互式视觉提示(如点、框)分割图像中的所有实例对象,从而赋予MLLMs视觉定位的像素级理解能力。
通用输入输出设计
文本查询输入:适用于通用分割、开放词汇分割、指代分割等任务。
视觉查询输入: 适用于交互式分割和VGD分割任务,支持点、涂鸦、框、掩码等多种提示。
分割连接器:针对图像分割任务对多尺度特征的需求,该组件通过上下采样路径生成多尺度特征,为解码器提供丰富的信息。
统一分割解码器:X-SAM摒弃了SAM原有的解码器,采用了Mask2Former架构。这一关键改进使得模型能够单次分割图像中的所有目标对象,彻底突破了传统SAM只能逐个处理对象的效率瓶颈,显著提升了处理复杂场景的能力。
性能表现
X-SAM在涵盖通用分割、开放词汇分割、指代分割、交互式分割、GCG分割、推理分割、视觉定位分割(VGS)等7大类、超过20个图像分割基准数据集上进行了全面评估,均达到了最先进(SOTA)性能。
指代分割任务: 性能优异。
对话生成分割任务: 表现出色。
视觉定位分割任务: 验证了VGS任务的有效性。
图文理解任务: 也展现了强大能力。
可视化效果:X-SAM在多种任务上的分割结果清晰准确,充分展示了其强大的多模态像素级视觉理解能力。
X-SAM成功实现了从“分割万物”到“任意分割”的重要跨越,通过创新的VGS任务、统一架构和训练策略,在保持各项任务顶尖性能的同时,极大地扩展了任务覆盖范围,为图像分割研究和通用视觉理解系统的构建奠定了坚实基础。
GitHub地址:https://github.com/wanghao9610/X-SAM
8月20日
阿里开源AI图像编辑神器!Qwen-Image-Edit:支持精准文字修改和IP创作!
阿里云近日发布新一代图像编辑模型Qwen-Image-Edit,这是继8月5日开源的千亿参数图像生成模型Qwen-Image的升级版。
该模型以"精准修图+IP创作"为核心能力,号称能让Photoshop迎来最强挑战者。
主要功能
语义编辑:支持在保持原始图像视觉语义一致的前提下,对图像内容进行修改。
外观编辑:支持对图像的局部区域进行精确修改,如添加、删除或修改图像中的元素,同时保持其他区域不变。
精准文字编辑:支持中英文双语文字编辑,在保留原有字体、字号和风格的前提下,对图片中的文字进行增、删、改等操作。
强大的基准性能:在多个公开基准测试中表现出色,具备 SOTA(State-of-the-Art)性能,能高效完成各种复杂的图像编辑任务。
IP创作与编辑:阿里官方公布的一些案例,以Qwen的吉祥物——水豚为例,在输入对应文字后,Qwen-Image-Edit输出了不同场景的水豚图片。
团队还围绕16种MBTI性格类型设计了一系列编辑提示,基于这些提示生成了一套以吉祥物水豚为原型的MBTI主题表情包,这可以用于拓展IP的影响力。
技术创新
Qwen-Image-Edit采用双引擎驱动架构:
视觉语义控制器:集成Qwen2.5-VL大模型,确保编辑后内容逻辑自洽
视觉外观编码器:基于VAE架构维持图像底层一致性
训练数据涵盖10万+专业设计素材与50万张UGC内容,通过Diffusion技术实现像素级精细化编辑。官方数据显示,在Div2K、Flickr2K等基准测试中,其SSIM指标超越主流商用工具37%。
GitHub地址:https://github.com/QwenLM/Qwen-Image
8月19日
腾讯开源ToonComposer:根据彩色起始帧和草图关键帧,生成完整的上色动画!
你是否想过,只需一张草图、一句描述,就能生成一部完整的动画短片?传统动画制作需要数月才能完成的复杂流程,如今借助AI技术,普通人也能轻松驾驭。
今天,小编就给大家介绍由北京大学、香港中文大学与腾讯ARC实验室联合打造的ToonComposer,它不仅能将关键帧绘制、中间帧补全、上色三大繁琐流程整合为“一键生成”,还能让零基础用户秒变动画导演!
技术创新
稀疏草图驱动
仅需1张关键帧草图+1张彩色参考图,AI自动补全动作与上色。通过位置编码映射技术,即使输入“猫咪跳舞”的简单线条,也能生成连贯流畅的舞蹈序列,肢体动作精准协调。
独家卡通适配器(SLRA)
传统AI难以适配卡通风格?ToonComposer创新设计空间低秩适配器,仅调整模型的空间特征提取能力,保留时间维度的运动规律。无论是赛璐璐线条还是水墨风格,都能保持画风统一且动作自然。
智能区域填充
草图中的空白区域(如背景)可标记为“自动生成”。绘制“火车驶过”时,AI自动补全月台、人群等元素,彻底告别“悬浮物体”的尴尬:
功能效果
模态输入:支持文本、草图、图片混合输入。上传现实照片后,可一键转为吉卜力风格动画。
动态分镜编辑:通过拖拽调整分镜顺序、时长,或点击角色添加预设动作(如“甩头”“转身”),实时预览效果,零基础用户也能轻松操作
风格自由切换:内置20+卡通模板(迪士尼、赛博朋克、水墨风等),甚至可上传画师作品训练自定义风格模型!
效果实测
在包含3.7万卡通片段的PKBench数据集测试中,ToonComposer表现惊人:
视觉质量提升40%:生成角色面部细节清晰,无扭曲变形(对比传统工具生成的“崩坏脸”);
运动连贯性领先:大幅动作下仍保持流畅过渡,避免闪烁断层;
人类偏好度达87%:47名专业评审在盲测中压倒性选择ToonComposer作品。
应用场景
ToonComposer的灵活性使其适用于多元场景,真正实现“人人可动画”:
独立创作者:无需专业软件和团队,输入文字或草图即可生成分镜动画。效率提升3倍,完播率增加67%
企业宣传:中小型企业市场人员可快速生成品牌动画。某游戏团队用ToonComposer制作剧情CG分镜,节省60%前期策划时间,且风格与游戏美术高度统一
教育教学:教师将抽象概念(如“色彩混合原理”)转化为动态分镜,学生记忆保持率提升52%。家长也可将孩子作文转为动画,激发写作兴趣
社交媒体:用户输入“猫咪宇航员追蝴蝶”,AI自动生成6个分镜,搭配剪辑软件即可发布吸睛短视频,吸引粉丝增长
传统动画耗时数月的工作,ToonComposer只需几分钟。无论你是专业工作室、独立创作者,还是想为孩子制作童话故事的家长,这把“AI神笔”都将为你打开新世界的大门。
GitHub:https://github.com/TencentARC/ToonComposer
8月18日
开源的浏览器翻译插件!Read Frog:支持实时翻译和讲解任何网页,轻松学习语言!
Read Frog(中文名:陪读蛙)是一款开源 AI 浏览器扩展工具,定位为沉浸式语言学习助手。它通过双语翻译、内容解析和情境学习,帮助用户在阅读网页的同时提升外语水平。
支持沉浸式翻译、文章分析、多种AI模型等功能。在浏览器中利用AI轻松深入地掌握语言。这样在也不怕浏览页面时看不懂英文或者在转翻译了。
作为开源工具,用户可通过 GitHub 仓库获取与参与开发,具体功能更新以官网为准。
主要功能:
沉浸式翻译:直接在网页原始元素旁边翻译内容
智能内容提取:自动识别并提取文章的主要内容
全面解释:根据您的语言水平提供详细的单词、短语和句子解释
情境学习:通过您真正感兴趣的内容学习语言
多种AI模型:支持 OpenAI、DeepSeek,未来将支持更多
无论你在阅读新闻、文章,还是其他网页内容,Read Frog 都能帮助你深入理解并学习语言,就像一位语言老师陪伴在你的浏览器中!
适合人群:
想通过真实内容学习语言的学习者
想更好理解外语文章的阅读者
想让网页浏览更具教育意义的所有人
GitHub:https://github.com/mengxi-ream/read-frog
Meta开源视觉巨兽DINOv3:能够处理17亿张图像,实现更精准、高效的大规模视觉理解!
Meta 近日重磅推出并开源了新一代通用视觉基础模型 DINOv3,标志着自监督学习(SSL)在计算机视觉领域达到新的里程碑。
该模型不仅在多项核心任务上刷新记录,更成功弥补了前代模型在高分辨率密集特征处理上的短板。
核心功能:
高分辨率视觉特征提取:生成高质量、高分辨率的视觉特征,支持精细的图像解析与多种视觉任务。
无需微调的多任务支持:单次前向传播可同时支持多个下游任务,无需微调,显著降低推理成本。
广泛的适用性:适用网络图像、卫星图像、医学影像等多领域,支持标注稀缺场景。
多样化的模型变体:提供多种模型变体(如ViT-B、ViT-L及ConvNeXt架构),适应不同计算资源需求。
技术创新
Gram锚定正则化方法:针对大模型长期训练中密集特征退化的难题,通过保持图像块(patch)间余弦相似度的结构,确保高分辨率下特征图的一致性和清晰度。
混合目标学习机制:结合全局DINO损失和局部iBOT损失,配合专用层归一化技术,提升训练稳定性和密集预测性能。
简化训练策略:采用恒定学习率与权重衰减,避免复杂超参数调度,大幅提升训练稳定性。
高效蒸馏框架:创新多学生并行蒸馏管道,允许同时训练多个学生模型并在所有训练节点共享教师推理,显著节省计算资源。
应用场景
森林监测突破:世界资源研究所应用DINOv3监测肯尼亚地区树冠高度,将平均误差从DINOv2的4.1米降至1.2米。
医疗影像分析:研究团队利用DINOv3对肺部CT图像进行高精度语义分割,实现病灶区域的精准识别。
卫星与航空影像: 用于自动化分析森林损失、土地利用变化(世界资源研究所 WRI 应用案例,将树冠高度测量误差从 DINOv2 的 4.1 米降至 1.2 米),助力环境监测、城市规划、灾害响应。
零售与物流:用在监控零售店铺的库存、顾客行为分析,及物流中心的货物识别和分类。
自动驾驶:凭借强大的目标检测和语义分割能力,帮助自动驾驶系统更准确地识别道路场景和障碍物。
项目官网:https://ai.meta.com/dinov3/
GitHub:https://github.com/facebookresearch/dinov3
8月15日
腾讯开源游戏视频生成工具!Hunyuan-GameCraft:一张图即可秒变3A级游戏大作!
你是否梦想过将随手拍的一张风景照,瞬间转化为《刺客信条》或《赛博朋克2077》般生动的游戏场景?
腾讯最新开源的Hunyuan-GameCraft游戏视频生成框架,即可轻松实现该想法!
主要功能
高动态交互式视频生成:从单张图片和对应的提示生成高动态的交互式游戏视频内容,支持用户基于键盘和鼠标输入进行实时控制。
精细动作控制:将标准键盘和鼠标输入统一到共享的相机表示空间,支持复杂和精细的交互输入,如速度和角度控制。
长期视频生成:支持生成长时间连贯的视频序列,保留历史场景信息,避免场景崩溃。
实时交互:显著提高推理速度,降低延迟,支持实时交互,提升用户体验。
高视觉保真度:在大规模 AAA 游戏数据集上进行训练,生成的视频具有高视觉保真度和真实感,适用多种游戏场景和艺术风格。
核心魅力
Hunyuan-GameCraft的核心魅力在于其极简的操作流程和惊人的效果:
输入简单: 仅需一张静态场景图(无论是水墨山水还是古希腊神庙)、一段文字描述(Prompt)以及动作指令(如移动、视角转换)。
输出惊艳: 即可实时生成高清、流畅的动态游戏视频画面。
风格多样: 轻松驾驭从中世纪乡村、地中海庭院到雪夜城堡、都市夜景等各种风格。
传统游戏视频生成工具长期受困于三大难题:
动作僵硬、场景静态: 角色移动机械,场景缺乏动态变化能力。
长期一致性差: 切换视角后场景易变形或消失,缺乏记忆性。
生成成本高: 依赖专业3D建模团队和高昂硬件。
Hunyuan-GameCraft凭借三大核心优势,成功解决了这些痛点:
自由流畅:基于统一连续动作空间设计,支持高精度控制(角度、速度),能同时处理复杂操作。支持生成NPC互动、动态天气(云层移动、雪花飘落)、水流运动等复杂动态内容,画面自然流畅。
记忆增强:采用混合历史条件建模技术,精准记忆历史帧信息。确保生成长时间视频内容时场景和物体位置保持高度一致性,避免“镜头移开再回来场景突变”的问题。
成本骤降:通过推理步数压缩和模型量化(13B模型),大幅降低硬件要求。仅需消费级显卡(如RTX 4090)即可运行。
Hunyuan-GameCraft的低门槛、开放性和强大能力,使其在游戏开发、视频创作、3D设计等领域拥有广阔的应用前景。它让个人创作者也能独立完成高质量的3A级动态内容制作,无需专业的建模和渲染知识。
项目官网: https://hunyuan-gamecraft.github.io/
Github : https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
复旦开源StableAvatar:仅需上传一张照片和一段音频即可生成唱歌或说话的AI视频!
复旦大学、微软亚洲研究院和西安交通大学等机构的联合开源了一个能通过音频直接生成唱歌或说话视频的AI项目:StableAvatar !
该项目视频时长不受限制,画面质量也很高。
功能亮点
能生成超长视频:以前的工具大多只能生成不到 15 秒的短视频,而 StableAvatar 可以生成任意时长的视频,而且画面质量依然很高(高保真)。
人物形象不走样:即使生成很长的视频,视频里人物的脸和身体动作也能保持一致,不会出现脸变形、身体比例奇怪或者前后外观不搭的问题。
不用额外处理:生成的视频直接就能用,不需要再用其他工具去修脸(比如常见的面部置换工具 FaceFusion 或者修复模型 GFP-GAN、CodeFormer 等),省了好多麻烦。
工作原理
处理音频:先把输入的音频通过 Wav2Vec 模型提取出音频特征(也就是 audio embeddings),然后用前面提到的“音频适配器”对这些特征做优化,让音频信息更准确。
处理参考图像(比如人物的初始照片):参考图像会通过两条路径输入到生成视频的模型里:
生成视频:推理阶段,原本应该输入的真实视频帧会被替换成随机噪声(这是这类模型的常规操作),其他输入(比如优化后的音频、处理好的参考图像信息)保持不变,最终通过模型计算生成连续的视频帧,形成完整视频。
应用场景
电影和视频制作:高难度动作场景:不用演员亲自冒险拍危险动作(比如跳楼、爆炸),用它生成视频能降低成本和风险。
游戏开发:可生成角色动画,使游戏里的角色动作和表情更真实,玩家玩起来更有代入感。
创建虚拟角色:在 VR/AR 应用里生成逼真的人物,让用户感觉像和真人互动。
社交媒体和直播:生成的虚拟主播形象始终一致,直播时动画效果更真实。短视频创作者和数字艺术家可以用它设计各种有趣的动态形象,做出更有创意的内容。
GitHub:https://github.com/Francis-Rings/StableAvatar
8月14日
百川智能开源医疗大模型!Baichuan-M2:32B参数登顶全球开源医疗大模型榜首!
百川智能正式发布医疗增强大模型Baichuan-M2!
这款仅32B参数的开源模型,在权威医疗评测HealthBench中以60.1分超越OpenAI的gpt-oss120b(57.6分),登顶全球开源医疗大模型榜首!
主要功能
卓越的医疗能力:在 HealthBench 等权威评测中表现突出,得分领先于其他开源模型,能精准处理复杂的医疗问题,为医疗诊断和治疗提供有力支持。
极致轻量化部署:经过优化,可在 RTX 4090 单卡上部署,相比其他模型大幅降低了硬件成本,量化后的模型精度接近无损,适合医疗机构快速部署。
速度优化:针对急诊、门诊等场景,Baichuan-M2 MTP 版本在单用户场景下实现了 74.9% 的 token 速度提升,能快速响应医疗需求。
通用能力提升:在数学、指令遵循、写作等通用核心性能上不降反升,除了医疗领域,可应用于其他多个领域。
符合中国临床需求:深度优化以遵循中国医学指南和医疗政策,更适合中国医疗机构和医生使用,能提供更贴合本地临床场景的解决方案。
真实场景验证:在国家儿童医学中心等真实医疗场景中表现出色,展现出强大的诊断推理能力和临床思维,为医生提供专业支持。
性能表现
Baichuan-M2 全面超越了 HealthBench 上目前所有前沿开源模型。其优势在HealthBench Hard任务中尤为明显,展示了百川-M2在解决复杂医疗场景任务方面的卓越能力。
即使与目前最好的闭源模型相比,百川-M2在HealthBench和HealthBench Hard上也超越了o3、Grok3、Gemini 2.5 Pro、GPT-4.1等众多先进模型。
根据HealthBench的评估结果,Baichuan-M2显示出显著的优势。它在核心医疗场景中处于领先地位,例如紧急转诊(74.6,排名第一)、医疗情境理解(情境感知 48.0/情境探索 55.8,均排名第一)、沟通(68.6,第一)、全球健康(57.1,排名第一)和完整性(67.2,排名第一)。
HealthBench Hard 对语言模型来说具有挑战性。HealthBench Hard发布时,没有一个模型能得分超过32分,很多头部模型甚至得分为0分。百川-M2和GPT-5是目前全球仅有的两款得分超过32分的机型。
应用场景
医疗诊断辅助:帮助医生快速准确地分析患者症状,提供诊断建议,尤其在复杂病例和罕见疾病诊断中表现出色。
多学科会诊:在多学科会诊中,为医生团队提供综合的诊断和治疗思路,辅助制定更全面的治疗方案。
急诊和门诊:针对急诊和门诊场景,快速响应,提供及时的诊断和治疗建议,提升医疗效率。
医疗知识更新:为医生和医疗机构提供最新的医学知识和治疗指南,帮助医生快速掌握最新研究成果。
技术论文:https://www.baichuan-ai.com/blog/baichuan-M2
HuggingFace模型库:https://huggingface.co/baichuan-inc/Baichuan-M2-32B
昆仑万维开源统一多模态模型:Skywork UniPic 2.0!实现理解、生成、编辑一体化!
昆仑万维于8月13日推出全新开源框架Skywork UniPic 2.0。
作为SkyWork AI技术发布周的第三弹,该模型以轻量化架构实现多模态理解、生图与编辑能力统一,首次通过渐进式强化学习解决生成与编辑任务协同优化的行业难题,为开发者提供高效开源工具。
技术创新
UniPic 2.0的核心创新在于三大模块的协同设计:
生图编辑模块
基于SD3.5-Medium架构(2B参数),将文本输入扩展为“文本+图像”双输入模式,通过高质量数据训练同时支持文生图(T2I)和图像编辑(I2I)任务。轻量化设计下,其性能超越12B参数的Flux.dev等模型。
统一能力整合
冻结生图模块后,连接多模态模型Qwen2.5-VL-7B与轻量连接器,通过联合训练实现理解、生成、编辑一体化。用户可灵活切换功能,例如:输入图片与文本指令,模型精准识别内容(如景点名称、鸟类物种)。
强化学习优化
首创Flow-GRPO渐进式双任务强化策略,在生图与编辑任务间动态分配奖励信号,避免互相干扰。例如:将跑车图片转换为冰河世纪风格:
功能亮点
图像生成:根据用户输入的文字描述,生成高质量的图像,支持多种风格和场景。
图像编辑:对现有图像进行内容修改、风格转换等操作,满足多样化的编辑需求。
多模态理解:能够理解图像内容并回答相关问题,支持复杂指令的执行和内容修改。
并且Skywork UniPic 2.02B参数碾压12B巨无霸,开源生态赋能开发者!
应用场景
创意设计:广告公司输入文案秒出海报初稿,插画师通过指令生成灵感构图,效率提升超80%。
影视游戏开发:生成角色原画、场景概念图,缩短前期设计周期。
电商与工业设计:一键生成商品海报,家具品牌快速迭代包装设计。
Skywork UniPic 2.0以轻量化+一体化重新定义多模态模型边界,其开源策略将进一步加速AI创作工具普及。
GitHub:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
8月13日
国产开源版Genie 3来啦!昆仑万维开源交互世界模型:Matrix-Game 2.0,实时交互、分钟级生成!
昆仑万维于8月12日重磅开源自研世界模型 Matrix-Game 2.0,成为业内首个支持通用场景实时长序列交互生成的开源方案。
此举填补了DeepMind未开源模型Genie 3留下的技术空白,为具身智能、游戏开发、影视制作及元宇宙领域提供了高开放性的生产力工具。
功能特点
Matrix-Game 2.0的创新在于彻底摒弃语言提示依赖,采用纯视觉驱动的交互建模方案:
物理逻辑深度理解:通过动作指令即可自由操控虚拟环境,角色在台阶、障碍物等复杂地形中展现出符合物理规律的运动轨迹;
高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以 25 FPS 实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。
跨场景泛化能力:适配从GTA街头飙车到Minecraft方块世界的多样环境,支持城市、荒野等空间类型及油画、写实等视觉风格。
核心技术创新
3D因果VAE压缩引擎:高效压缩时空维度数据,计算复杂度降低90%,支撑实时生成;
多模态扩散Transformer:融合视觉编码与动作指令,逐帧生成物理合理的动态序列;
KV缓存滚动生成:通过键值缓存维护注意力上下文,实现单GPU上无限时长25 FPS生成,突破传统双向模型的时序延迟。
应用场景
游戏开发:实时生成可交互场景,降低人工建模成本70%。
虚拟现实:动态环境实时渲染,提升用户沉浸感,自由探索油画风格虚拟空间。
影视与元宇宙:快速搭建复杂场景,缩短制作周期,分钟级生成电影级动态背景。
GitHub:https://github.com/SkyworkAI/Matrix-Game
专为AI伴侣设计的开源记忆框架!MemU:可让AI助手/虚拟助手拥有长期记忆能力!
MemU是专为AI伴侣场景打造的开源记忆框架,致力于通过模拟人类记忆机制赋予AI伴侣持续认知能力,从而构建具备情感延续性的多轮交互体验。
它目标是让 AI 助手/虚拟伴侣拥有像真人一样的长期记忆能力。
核心功能
记忆文件系统
MemU 打破传统黑盒向量存储模式,将记忆以可读文档形式组织,存储于智能文件夹中,由「记忆代理」自动管理:动态筛选需记录的内容、更新旧记忆、归档无效信息。支持语义检索、关键词检索、上下文检索等多模态检索方式,显著提升记忆召回的准确性与效率。
智能记忆关联
系统可自动为记忆建立关联关系,形成知识图谱。例如提及“上周看的电影”时,能快速关联用户“电影偏好”“观影好友”等延伸信息,强化上下文理解的连贯性。
人类可读的记忆格式
区别于传统向量嵌入的不可读存储,MemU 采用结构化文档组织记忆,支持人工直接查看(透明化AI记忆内容)、手动编辑(修正错误记忆)及实时分析(统计与可视化),兼顾调试便捷性与数据可操作性。
性能与优势
高精度:Locomo 数据集推理任务平均准确率 92.09%(比大多数 AI 记忆系统高)。
快速检索:存储时按文档级别组织,检索时直接锁定相关文档,不用遍历所有句子。
低成本:一次性批量处理数百轮对话,减少频繁调用 API 的 token 消耗。实测可降低成本 90%。
应用场景
MemU 广泛适用于多种智能应用场景,包括但不限于:
持久性角色与 AI 伴侣:记录用户之间的故事、情绪、笑点,实现“性格成长”。
剧情角色扮演系统:NPC可记住历史互动、任务后果随时间演进。
情绪支持与心理健康应用:持续跟踪用户情绪与心理变化,提供连贯支持。
创意协作辅助工具:记忆创作偏好、风格、草稿历史,支持长期项目协作。
项目官网:https://memu.pro/
GitHub:https://github.com/NevaMind-AI/memU
8月12日
Hugging Face开源AI Sheets:零代码调用千种模型,让数据处理像Excel一样轻松!
在AI开发和数据科学领域,数据集构建往往耗时费力,传统工具如Excel功能有限,而专业框架如Python Notebooks又需要复杂编码,让非技术用户望而却步。
Hugging Face团队最新开源的AI Sheets解决了这一痛点,它提供类似Excel的界面,集成数千个开源模型,实现无代码数据处理。
功能特色
无代码操作:通过自然语言提示批量处理数据,如生成产品描述或增强数据集。
批量处理与增强:一键完成大规模数据标注、清洗和合成,提升效率。
实时协作:支持多用户同时编辑,加速团队工作流。
网络搜索集成:自动从网络获取信息填充数据集,简化研究流程。
模型比较与优化:轻松测试不同模型效果,优化提示词。
四大优势
零代码门槛:类似Excel的界面,用户通过自然语言提示定义任务,无需编程经验。
海量模型集成:无缝接入Hugging Face Hub的数千个开源模型,覆盖文本生成、图像处理等任务。
隐私与灵活性:支持本地运行(数据不离设备)或云端API,确保安全。
开源透明:基于Apache 2.0许可,代码公开,社区驱动,促进协作创新。
Hugging Face 开源的AI Sheets能将AI模型调用简化为电子表格操作,让开发者和非技术用户都能高效处理数据。无论是本地部署还是在线试用,都能体验无代码的便捷。
GitHub:https://github.com/huggingface/aisheets
智谱开源全球100B级效果最佳的开源视觉推理模型:GLM-4.5V!
今日,智谱AI正式推出并开源全球首个100B级开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B)。
作为多模态通用人工智能(AGI)的核心突破,该模型在41个公开视觉多模态榜单中综合性能达到同级别开源模型SOTA,覆盖图像、视频、文档解析及GUI Agent等全场景任务,同步开源于魔搭社区、Hugging Face及GitHub。
全场景视觉推理
图像推理:场景理解、复杂多图分析、位置识别
视频理解:长视频分镜分析、事件识别
GUI 任务:屏幕读取、图标识别、桌面操作辅助
复杂图表与长文档解析:研报分析、信息提取
Grounding 能力:精准定位视觉元素
案例演示
视觉定位:/LM-4.5V 能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景,例如安全与质量检查、高空遥感监测分析。
前端复刻:/LM-4.5V具备强大的推理与代码生成能力,能够对上传的网页截图进行分析,并将其转化为结构化的网页代码。
图像识别与推理:/LM-4.5V具备强大的感知与推理能力。一个典型应用是:在不依赖搜索工具的情况下,模型能通过图像中的细微线索推理出背景信息。
为验证视觉定位能力,GLM-4.5V参与全球图寻积分赛,与两万多名顶尖玩家同台竞技,通过分析街景图片在限定时间内推测拍摄地经纬度,最终以超越99%人类玩家的成绩登顶全球榜单。
参赛16小时:GLM-4.5V击败99%的人类玩家
参赛7天:模型攀升至全球第66名
这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。
复杂文档深度解读:/LM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。
强大的 GUI Agent 能力:/LM-4.5V 能够识别和处理电子屏幕画面,在 GUI 环境中进行对话问答、图标定位等任务。
GLM-4.5V不仅展现出强悍性能,更以"快而有趣"为核心亮点,多项任务实现秒级响应。
通过上述案例已直观印证其完全跻身视觉推理领域的全球第一梯队。
在线体验:前往 z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验
Github :https://github.com/zai-org/GLM-V
8月11日
最强开源深度研究模型:MiroMind ODR , 以82.4分成绩超越OpenAI!
在人工智能领域,深度研究(Deep Research)技术正成为推动AGI(通用人工智能)发展的关键引擎。然而,现有模型往往面临闭源、可复现性差等挑战。
为此,由计算机视觉大牛代季峰领衔的团队,在加盟陈天桥旗下盛大网络后,首次亮相了重磅开源项目——MiroMind ODR(Open Deep Research)。
该项目不仅以GAIA测试82.4分的成绩超越OpenAI DeepResearch等一众模型,还实现了全栈开源,为社区带来前所未有的透明度和协作潜力。
四大模块
ODR 并非单一模型,而是覆盖深度研究全链路的开源生态系统,由四大核心组件构成:
MiroFlow
功能:支持多工具调用的Agent框架,可扩展任意大语言模型(LLM)以实现工具辅助推理
性能:在GAIA验证集上取得82.4分,超越现有商用API,为当前可复现性能最高的开源框架;
亮点:框架设计稳定可复现,配置全公开,支持动态任务调度与长程研究逻辑。
MiroThinker
原生支持工具调用与多步推理的深度研究核心模型;配合MiroFlow时,在GAIA-Text-103数据集上达到60.2% SOTA性能,接近OpenAI闭源模型水平;
模型权重、训练代码、微调脚本全部开源,支持二次训练优化。
MiroVerse
开源147K深度研究训练数据集,覆盖多学科复杂研究任务;
团队承诺按月更新数据集,响应社区反馈构建动态高质量语料库。
MiroTrain / MiroRL
开源训练基础设施,覆盖完整DR训练流程;
支持长文本训练、工具增强的强化学习(RL),大幅降低复现门槛。
与部分“伪开源”项目不同,MiroMind ODR实现了彻底的开源承诺。其核心模型、训练数据、AI基础设施、DR Agent框架等全部组件均开放共享,确保社区可完全复现和迭代。
实测体验
目前,项目已开放Demo供用户体验。尽管处于早期阶段,仅支持单轮次英文对话,但其设计已显露出强大潜力:
界面简洁,用户可输入问题或选择推荐查询。
思考过程可视化,左侧工作流导览支持节点跳转,便于追踪推理逻辑。
集成联网搜索能力,实时获取外部信息辅助决策。
结果呈现清晰结构化,提升可读性。
核心人物
项目核心推手代季峰,现任清华大学电子工程系副教授,是计算机视觉与深度学习领域的国际权威。其学术成就包括:
论文总引用超6万次,代表作R-FCN目标检测算法和Deformable ConvNets被誉为“三大目标检测元模型之一”,性能超越Meta、谷歌等巨头模型。
主导开发InternVL多模态模型,Hugging Face下载量破千万,成为最具影响力的开源多模态基础模型之一。
代季峰的个人网站显示其清华背景(2009年学士、2014年博士),并曾任职微软亚洲研究院和商汤研究院。2024年加盟陈天桥旗下盛大网络,筹备新AI公司,目标打造“第二个DeepSeek”,聚焦AGI基础研究。其公司研发重点包括AI商业决策、算法茧房突破及老龄化AI服务。
MiroMind ODR的开源标志着深度研究进入透明化、协作化新时代。无论是开发者、研究者还是AI爱好者,均可参与这一旅程,共同塑造AGI未来。
GitHub:https://github.com/MiroMindAI
字节开源视频虚拟试穿项目!DreamVVT:精准还原服装的纹理,实现高保真生成效果!
字节跳动联合清华大学推出全新开源视频虚拟试穿框架:DreamVVT!
该框架的核心优势在于其天然适配非配对人物数据,显著提升了系统在实际复杂应用中的泛化能力。
技术原理
关键帧高保真生成:系统首先从输入视频中智能提取具有代表性的关键帧(通常选择运动变化显著的帧)。
结合视觉语言模型(VLM) 的强大语义理解能力与多帧试穿模型,为这些关键帧生成高保真、语义一致的试穿图像。此阶段生成的图像为后续整个视频的合成提供了至关重要的外观指导。
视频动态合成:
系统提取输入视频的骨架图(姿态)、运动信息以及外观描述。
将这些信息(骨架、运动、外观)与第一阶段生成的关键帧试穿图像一同输入预训练的视频生成模型。
该视频生成模型通过集成 LoRA 适配器,能够高效地对未见区域进行时间一致性建模,最终输出自然逼真、动态流畅的试穿视频。
突破性能力
DreamVVT 在多个维度展现出超越现有方法的卓越性能:
复杂动作下的细节保留:无论是T台走秀还是 360 度旋转等剧烈人体动作,DreamVVT 都能高保真地保留服装细节(如纹理、图案),并维持优秀的时间一致性和稳定性。
复杂场景中的细节呈现: 即使人物身处背景杂乱或动作频繁的复杂静态或动态环境中,系统依然能准确保留服装的细节表现。
应对剧烈摄像机运动: 面对输入视频中存在的剧烈摄像机运动或明显场景切换,DreamVVT 依然能保持时间连贯性,并精确保留服装的高保真细节。
生成逼真的物理动态: DreamVVT 能够模拟真实的服装物理动态效果,例如将手插入口袋或与柔软衣物(如裙子)的交互动作,呈现出自然合理的动态变化。
为卡通角色搭配真实服装:在极具挑战性的场景下,DreamVVT 能够为卡通角色穿戴真实世界的服装,即使涉及不受限的姿势、摄像机运动和动态背景,也能实现自然逼真的试穿效果。
应用场景
该框架的开源正推动多行业场景重构:
电商领域:消费者上传个人视频即可实时试穿多款式服装,预计降低30%退换货率
时尚产业:虚拟时装秀制作成本降低70%,支持设计师快速验证创意效果
影视娱乐:为角色动态更换戏服,大幅减少实拍重拍成本
虚拟社交:用户为虚拟化身搭配奢侈品服装,激活数字藏品市场
作为虚拟试穿领域的里程碑式突破,DreamVVT不仅解决了长期困扰业界的时序一致性与细节保真问题,更通过开源策略加速技术普惠。随着电商平台与元宇宙应用加速集成,这项技术正重新定义“数字衣橱”的边界.
项目官网:https://virtu-lab.github.io/
Github :https://github.com/Virtu-Lab/DreamVVT
8月8日
GPT-5正式发布:编程能力惊艳全场,马斯克公开表示质疑!
在全球用户瞩目中,GPT-5终于震撼登场了!
即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便冲上大模型竞技场榜首,并在文本、编程、数学等全方面排名第一。
小红书开源多模态大模型dots.vlm1:视觉理解能力逼近Gemini 2.5 Pro!
近日小红书旗下Hi Lab宣布开源其首个多模态大模型dots.vlm1。
在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
技术创新
dots.vlm1由三个核心模块构成:12亿参数的NaViT视觉编码器、MLP适配器及DeepSeek V3大语言模型。
其创新之处在于:
全自研视觉编码器
NaViT采用动态分辨率设计,原生支持从224px到千万像素级图像输入。通过双重监督策略(图文对训练+图像扩散模型训练)实现空间与语义感知能力的深度融合。
三阶段训练体系
• 预训练阶段:在224×224分辨率下完成基础视觉-语义映射
• 分辨率提升阶段:逐步扩展至千万像素级训练
• 后训练阶段:通过多样化任务数据增强泛化能力
实测案例
dots.vlm1具备一定的复杂图表推理能力,dots.vlm1读懂了文本交错的英文图表,准确理解图标元素之间的关系,并计算出了用户所问的数据。
上传一张景区价目表,再辅以文字提示词描述团队信息,dots.vlm1就能为用户做好购票方案的规划。
再让它模仿李白的诗词风格,写一首诗,来描述一下刘慈欣在《诗云》中提到的诗云究竟是什么。
在主流多模态评测中,dots.vlm1展现出全面竞争力:
dots.vlm1的发布或将改变中文多模态赛道格局。其精准的OCR识别(复杂表格准确率98.7%)、强大的数学推理(AIME试题解答完整度达92%)等能力,为电商、教育、医疗等领域提供新的AI解决方案。
Github :https://github.com/rednote-hilab/dots.vlm1
8月7日
比NotebookLM更好用的开源播客:Podcastfy!可根据多模态内容自动生成播客音频!
Podcastfy 是一个开源Python工具,能将网络内容、PDF 文档及文本转换成多语言的音频对话形式。
在GitHub已斩获了4.9kstar!
主要功能
多源文本转换:可以将多个 URL、PDF 或文本文件的内容合并成一个 AI 播客对话。
生成式 AI 对话:Podcastfy 不仅仅是朗读文本,而是将其转换成对话格式,使音频更加互动和吸引人。
多语言支持:支持多种语言,使得创建的 AI 播客可以被全球观众接受。
文本到语音集成:用户可以选择像 OpenAI 或 ElevenLabs 这样的先进文本到语音模型,以获得自然听起来的音频。
开源和灵活:作为一个开源项目,Podcastfy 鼓励社区贡献,支持开发者通过直接编程创建定制的 AI 播客体验。
技术原理
多文本源支持:Podcastfy 能处理来自不同来源的文本,包括网页内容、PDF 文件和已有的文本,将它们转换成音频格式。
多语言支持:支持将多种语言的文本转换为自然流畅的音频,满足多语言交流的需求。
先进的文本转语音技术:Podcastfy 集成了包括 OpenAI 和 ElevenLabs 在内的多个先进的文本转语音模型,确保了生成音频的自然度和听感。
多样的应用场景:Podcastfy 可以用于内容摘要、语言本地化、网站内容营销、研究论文摘要、长篇播客摘要等多种场景。
GitHub:https://github.com/souzatharsis/podcastfy
腾讯AI Lab开源Cognitive Kernel-Pro:一款全开源、多模块、层次化的智能体框架!
腾讯AI Lab近日重磅推出全开源深度研究智能体框架Cognitive Kernel-Pro!
它彻底打破现有开源工具对付费服务的依赖,为全球开发者提供了一套高效、灵活且可复现的智能体开发解决方案。
四大核心优势
模块化设计:
主智能体:扮演“任务指挥官”,统筹全局,拆分任务并整合结果;
子智能体:专攻特定领域,通过标准化接口高效协作。分层架构既保障模块独立性,又能动态调配资源,灵活应对复杂任务。
智能状态追踪:引入“进度状态”机制,实时记录任务完成度、历史决策和关键信息。
标准化接口:子智能体以Python函数形式接入,输入输出统一规范,开发者可自由组合功能;
全开源生态:摒弃Google Search API等付费工具,优先整合DuckDuckGo等免费资源,通过LLM代码生成功能实现数据处理闭环,大幅降低研发门槛,推动技术普惠。
性能优势
Cognitive Kernel-Pro在网页信息检索、文件处理和复杂推理等任务中表现出色,尤其在GAIA基准上超越SmolAgents,接近依赖付费工具的智能体框架。
Cognitive Kernel-Pro 在 GAIA-text基准测试中取得了优异的成绩,超越了WebDancer和WebSailor类似大小模型,体现了框架、模型训练方法的优越性。
Cognitive Kernel-Pro反思功能的消融实验:
Cognitive Kernel-Pro的问世,标志着智能体技术从“封闭工具”向“开放生态”的跨越。通过模块化设计、创新训练策略与全开源理念,它为学术研究与工业应用提供了前所未有的灵活性与可扩展性。
Github :https://github.com/Tencent/CognitiveKernel-Pro
8月6日
OpenAI开源2款推理模型:性能追平o4-mini,手机和笔记本都能跑!
OpenAI突然宣布开源两款高性能语言模型——gpt-oss-120B和gpt-oss-20B,引发全球开发者热议。
这是继GPT-2之后,OpenAI时隔多年再次向社区开放核心模型,且性能直逼其商业化旗舰产品o3-mini和o4-mini,甚至在部分任务中实现反超。
据 OpenAI 官方介绍,gpt-oss-120b总参数量为1170 亿,激活参数为51亿,能够在单个H100GPU 上运行,仅需 80GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。
gpt-oss-120b适用于需要高推理能力的生产级和通用型场景
在核心推理基准测试中,120B模型的表现与OpenAI o4-mini相当,并且能在单张80GB显存的GPU上高效运行(如H100)。
gpt-oss-20b适用于低延迟、本地或专业化场景
在常用基准测试中,20B模型的表现与OpenAI o3-mini类似,并且能在仅有16GB显存的边缘设备上运行。
除此之外,两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲,甚至比OpenAI o1和GPT-4o等专有模型还要更强。
值得一提的是,OpenAI还特地准备了一个playground网站供大家在线体验。
体验地址:https://gpt-oss.com/
GitHub项目: https://github.com/openai/gpt-oss
Hugging Face(120B): https://huggingface.co/openai/gpt-oss-120b
Hugging Face(20B): https://huggingface.co/openai/gpt-oss-20b
阿里开源图像生成模型:Qwen-Image!精准搞定复杂字体排版,支持多艺术风格编辑!
阿里巴巴集团宣布开源其最新研发的Qwen-Image图像生成模型,这是通义千问系列首个基础图像模型。
该模型凭借在复杂文本渲染、多语言支持及图像编辑领域的突破性表现,登顶Hugging Face热度榜第一!
主要功能:
复杂文本渲染:支持多行和段落文本生成,能清晰呈现细小文字,擅长中文和英文渲染。
精确图像编辑:支持风格迁移、对象增删改、细节增强、文字编辑和人物姿态调整,并保持图像自然和真实感。
通用图像生成:Qwen-Image在通用图像生成方面支持了多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计都掌握了。
数据集
为锻造卓越的生成能力,团队构建了涵盖4大领域的十亿级图文数据集:
自然场景(55%):包含2300万张真实世界图片
设计素材(27%):集成18类商用级设计元素
人物图库(13%):覆盖200+国籍的多样化人像
合成数据(5%):通过可控渲染技术生成的高保真训练集
性能对比
千问团队用大量定量与定性实验,验证了Qwen-Image在生成和编辑两方面的能力。在5000条提示、20万+次匿名对决的AI Arena中,Qwen-Image作为唯一开源模型跻身前三,领先GPT Image 1、FLUX.1 Pro等30分以上。
在其主打的中文文字生成场景,Qwen-Image单字渲染准确率达到58.3%。
图像编辑任务上,Qwen-Image在GEdit、ImgEdit等榜单获得第一,深度估计与零样本新视角合成也能与闭源模型持平或更好。
技术报告的对比实验进一步凸显了模型性能优势:
图文协同能力:在书店橱窗案例中,Qwen-Image精准匹配书籍封面与标题文字,实现视觉元素有机统一;
文本渲染稳定性:面对复杂英文文本,主流模型出现明显乱码(如左图示例),而Qwen-Image与GPT Image 1(High)则保持清晰可辨的字符渲染;
材质表现力:执行冰箱贴生成任务时,竞品模型未能还原材质质感特性,Qwen-Image却在色彩饱和度与立体造型上高度契合提示词要求,展现卓越的物理属性理解能力。
Qwen-Image的诞生不仅填补了中文AI生成领域空白,更以“垂直深耕+开源普惠”路径重塑行业格局。
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
8月5日
小米开源声音理解大模型 MiDashengLM-7B,22项评测刷新SOTA,效率显著提升!
8月4日,小米公司正式宣布开源其自研的声音理解大模型 MiDashengLM-7B。
该模型在22个公开评测集上刷新了多模态大模型的最好成绩(SOTA),并在推理效率上实现了显著突破,标志着小米在音频多模态AI领域取得重要进展。
功能亮点
音频描述:将音频内容(包括语音、环境声、音乐等)转化为自然语言描述,帮助用户快速理解音频信息。
音频分类:识别音频中的特定类别(如语音、环境声、音乐等),用在环境声音识别、音乐分类等场景。
语音识别:将语音转换为文本,支持多种语言,广泛应用在语音助手、智能座舱等场景。
音频问答:根据输入的音频内容回答相关问题,适用智能座舱中的环境声音问答、音乐问答等。
多模态交互:结合音频和其他模态(如文本、图像)进行综合理解,提升智能设备的交互体验。
音频理解与推理能力
音频理解性能领先
MiDashengLM在音频描述、声音理解、音频问答任务中有比较明显的优势:
在音频描述任务中,MiDashengLM-7B比Qwen、Kimi同类7B模型性能更强。
在声音理解任务中,MiDashengLM-7B除FMA、VoxCeleb-Gender项目均领先于Qwen的7B模型,与Kimi的7B模型相比,仅有VoxCeleb-Gender项目略微落后。
在语音识别任务中,MiDashengLM-7B的主要优势在于GigaSpeech 2,在其他两组测试中Qwen和Kimi有一定优势。
推理高效
首Token延迟低: 在单样本推理(batch size=1)场景下,其首个Token预测时间(TTFT)仅为业界先进模型(如 Qwen2.5-Omni-7B)的 1/4。
并发能力极强: 在80GB GPU显存环境下处理30秒音频并生成100个Token的测试中,MiDashengLM-7B 可支持高达 512 的batch size,而对比模型在batch size为16时即出现显存溢出(OOM)。其每秒可处理的30秒音频数量远超同类模型。
MiDashengLM-7B 的开源是小米在AI多模态领域,特别是音频理解方向上的重要落子。其在性能、效率上的突破,以及创新的训练范式和全栈开源策略,为学术界和产业界提供了强大的新工具。
GitHub:https://github.com/xiaomi-research/dasheng-lm
腾讯混元开源四款小模型,手机、电脑轻松跑,AI开发门槛大降!
腾讯混元大模型团队近日宣布,一口气开源了四款全新的大语言模型,型号分别为 Hunyuan-0.5B、Hunyuan-1.8B、Hunyuan-4B 和 Hunyuan-7B。
此举显著降低了开发者使用和部署大模型的技术门槛,让高性能AI不再局限于专业机构和高算力设备。
核心亮点
消费级设备即可运行: 这四款模型专为低功耗场景设计,消费级显卡(甚至部分高性能笔记本电脑、手机、平板)就能流畅运行,无需依赖超算中心。开发者“玩AI”的阵地,从专业机房扩展到了身边的常用设备。
广泛兼容性: 模型支持 ARM、高通、联发科(MTK)、英特尔 等主流消费级终端芯片平台,兼容性极佳。
单卡部署,灵活高效: 模型只需单卡即可部署,显存占用少、计算效率高、部署方式灵活。支持 SGLang、vLLM、TensorRT-LLM 等主流推理框架以及多种量化格式。
开源易获取:所有模型代码和权重已在 GitHub 和 Hugging Face 平台上线,开发者可以自由下载、使用和微调,无需等待专业机构的调用权限。
技术特色
这四款模型均属于融合推理模型,具备独特的“双脑”架构:
快思考(Fast Thinking): 反应超快,瞬间秒回简单信息(如“附近好吃的川菜馆”)。
慢思考(Slow Thinking): 擅长深思熟虑,处理复杂问题和任务规划(如“如何设计一个自动写周报的系统”)。
此外,模型在关键能力上表现优异:
超强记忆(长上下文): 原生支持高达 256K tokens 的上下文窗口,相当于能一次性熟记并处理相当于3本《哈利波特》的内容(约40万中文字/50万英文单词)。这使得模型在多轮复杂对话、长文档理解和摘要任务中表现出色。
领先的性能表现:在多个公开测试集的实测中,这四个模型在语言理解、数学、推理等领域均达到了业界同尺寸模型的领先水平。其中,Hunyuan-1.8B 的表现尤为出色。
腾讯混元此次开源,填补了自身在小尺寸开源模型上的缺口,使得大模型技术能够真正落地到手机、电脑、智能座舱、智能家居等以往难以满足的终端场景。开源四款小模型,是其技术开源“接力赛”中的重要一环,旨在推动AI技术的普惠化发展。
Hunyuan-0.5B:https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
Hunyuan-1.8B:https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
Hunyuan-4B:https://github.com/Tencent-Hunyuan/Hunyuan-4B
Hunyuan-7B:https://github.com/Tencent-Hunyuan/Hunyuan-7B
8月4日
腾讯混元开源高效图像生成项目:混元MixGRPO!训练时间减半,性能反升!
混元团队近期开源了一款创新性高效图像生成项目:MixGRPO!
该框架通过结合随机微分方程(SDE)和常微分方程(ODE)的混合采样策略,显著提升了文本到图像(Text-to-Image, T2I)任务的效率和性能。
使其在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO,训练时间降低近50%。
核心创新 MixGRPO的核心在于其混合采样机制。传统方法如Flow-GRPO和DanceGRPO依赖SDE采样引入随机性,但需在整个去噪步骤中进行优化,导致训练速度缓慢。
MixGRPO创新性地将采样过程划分为两个区间:在特定时间窗口内使用SDE采样以保留探索性,窗口外则采用ODE采样以提高确定性。
这不仅简化了马尔可夫决策过程(MDP)的优化流程,还大幅降低了计算开销。
性能对比 无论是单奖励还是多奖励,MixGRPO 在域内和域外奖励指标上均取得了最佳性能。
在progressive策略下,MixGRPO指数衰减和恒定调度均为最优选择。
HPS-v2.1 作为奖励模型下 FLUX、DanceGRPO 和 MixGRPO 的可视化结果对比。
在 HPS-v2.1 和 CLIP Score 作为奖励模型下,FLUX、DanceGRPO 和 MixGRPO 的可视化结果对比。
定性比较:MixGRPO 在语义和美学方面都取得了卓越的性能。
此外,团队还提出了MixGRPO-Flash变体,通过引入高阶ODE求解器(如DPM-Solver++)进一步加速采样过程。MixGRPO-Flash在保持相近性能的同时,将训练时间额外降低了71%。这得益于ODE部分的加速优化,例如使用二阶中点法减少采样步数,实现了计算开销与性能的平衡。
开源意义
目前,团队已发布基于 FLUX.1 Dev 架构、采用 MixGRPO 训练的模型版本,支持以下特性:
多重奖励模型联合训练(HPSv2、ImageReward、Pick Score);
兼容主流扩散采样流程;
支持 ODE/SDE 模式切换,便于推理阶段灵活配置。
该模型可用于高质量图文生成、AIGC 内容审核优化、个性化创作辅助等场景。
GitHub:https://github.com/Tencent-Hunyuan/MixGRPO
国产九天大模型3.0全面开源:推理能力提升35%,智能体调用效率提升21%!
前段时间,中国移动在世界人工智能大会(WAIC)上正式发布九天基础大模型3.0!
以端到端技术升级和生成可控性突破为核心,实现复杂推理能力提升35%、智能体调用效率提升21%,并全面适配国产算力生态。本次升级标志着国产大模型在性能、安全性与产业化应用上迈入新阶段。
MoE架构创新
九天3.0采用稀疏专家混合架构(MoE),通过并行优化、混精计算、权重去冗余等技术创新,解决大模型训练中的精度溢出与非确定性误差问题。
15T Token预训练数据数据规模扩增至15T Token,分三阶段优化:
知识泛化:海量数据学习基础能力;
专项强化:数学推理、代码等高价值数据定向增强;
长文退火:高质量数据提升深度思考能力。
专项模型性能突破
语言模型:推理能力领跑
评测表现:IFEval(88.61分)、MMLU-Pro(71.41分)、ArenaHard(91.4分)超越主流模型;
可控智能体:支持低幻觉文档问答、深度角色演绎与复杂流程控制。
代码模型:多语言全场景支持
支持Python、Java等10+编程语言,在LivecodeBench v5、BFCL V3榜单超越Qwen3与DeepSeek V3;
快速生成高质量前端页面:
数学模型:双模式推理SOTA
短思考/长思考模式均达业界最优,MATH500、AIME 2024评测超越Qwen3;
复杂问题推导能力突出(如量子傅里叶变换概率计算):
高可控视觉生成
在图片生成功能方面,可支持多轮精准局部修改,如修改文字、修改背景、增加元素等。
初始生成:一张公交站牌,站牌上写着5G的图片。
修改生成:将5G替换为6G,站牌旁边停着一辆公交车。
站台前停着一辆摩托车并转为涂鸦风格:
多模态理解能力
图理解:MMStar(82.2)、HallusionBench(64.3)、OCRBench(94.9);
视频理解:Videomme超越GPT-4o,MVbench领先行业:
在MMStar、HallusionBench和OCRBench等图理解任务中,九天模型分别获得了82.2、64.3和94.9的高分,OpenCompass综合评分79.5分,领先其他大部分模型。
九天大模型3.0以“性能跃迁×开源开放”双引擎策略,不仅实现推理效率、可控性、多模态理解的全面突破,更通过模型、工具、数据三位一体开源,为国产AI生态注入强心剂。
代码模型开源地址:https://huggingface.co/JT-LM/JT-Coder-8B-Base
数学模型开源地址:https://huggingface.co/JT-LM/JT-Math-8B-Base
8月1日
黑森林团队开源Flux.1 Krea:告别AI感的逼真文生图模型,呈现照片级写实感!
Black Forest Labs与Krea AI联合推出FLUX.1 Krea dev 文生图开源模型。
这款模型以其卓越的真实感、独特的审美风格和对自然细节的捕捉能力,显著减少了传统AI图像的油腻感和AI味。
在人类偏好评估中,这一开源模型超越了此前所有开放的FLUX模型,成为当前最强的开源 FLUX 文生图模型。
技术突破:
**技术架构上,**该模型告别了Stable Diffusion系列采用的U-Net架构,转向完全基于Transformer的混合架构。其双文本编码器设计:同时搭载CLIP编码器和更大规模的T5-XXL编码器,使模型能并行捕捉文本的精细语义与宏观语境。
**在训练方法上,**流匹配(Flow Matching)技术替代传统扩散过程,提升了生成效率与风格多样性。这种技术选择让模型在处理复杂场景时展现更强的连贯性。
功能亮点:
FLUX.1 Krea Dev 是一款基于 12亿参数 的 Rectified Flow Transformer 架构模型。其核心优势在于:
独特美学风格:专注于生成具有独特美学的图像,有效避免常见的AI感外观。
自然细节表现: 不会产生过曝的高光,能够保持图像的自然细节。
卓越真实感: 提供出色的真实感和图像质量,尤其在表现人物皮肤、材质和环境氛围方面效果显著。
完全兼容架构: 与之前的FLUX.1 [dev] 模型架构完全兼容。
丰富国人数据集: 相比Flux底膜,在国人面孔数据集上表现更为丰富和自然。
FLUX.1 Krea Dev 代表了开源文生图模型在真实感和美学表现上的显著进步。它成功摆脱了早期模型的“油腻感”和AI味,尤其在处理亚洲面孔和自然场景时表现优异。
开源地址:https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
阶跃星辰开源新一代大模型Step 3:拥有强大的视觉感知和复杂推理能力!
阶跃星辰开源其最新一代基础大模型Step3,这款模型专为追求性能与成本极致均衡的企业和开发者设计,兼顾智能与效率,旨在面向推理时代打造最适合实际应用的AI解决方案。
核心亮点:
Step3采用先进的 MoE(Mixture of Experts)架构,总参数量高达321B,激活参数量为38B。
这一设计显著提升了模型的推理效率,同时保持了强大的能力:
强大的多模态能力:可准确处理跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉问题。
高效推理优化:通过 MFA(Multi-matrix Factorization Attention) 和 AFD(Attention-FFN Disaggregation) 技术,在各类芯片上实现推理效率的大幅提升,降低KV缓存开销与算力消耗。
经济实用:模型限时折扣中,API 请求价格低至每百万 token 输入1.5 元、输出4 元,适合企业级部署。
性能好评:
Step 3 在多个权威评测集上表现优异,包括 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond 和 LiveCodeBench(2024.08-2025.05)。在同类型开源模型中,Step 3 的成绩位居行业前列,证明了其在复杂任务处理上的卓越能力。
Step 3一发布就吸引了海内外广泛关注,就有多位网友表达赞誉。
Step 3 的开源标志着阶跃星辰在高效AI推理领域的重大突破。其创新的架构和优化技术,为企业及开发者提供了成本可控、性能卓越的解决方案。
GitHub:https://github.com/stepfun-ai/Step3
7月31日
通义千问Qwen3-30B-A3B新突破:3B 激活参数媲美GPT-4o ,引发社区好评!
阿里通义千问团队近日推出全新模型Qwen3-30B-A3B-Instruct-2507,凭借多项技术创新与性能突破引发行业震动。
这一开源模型在仅激活3.3B参数的轻量级架构下,实现与GPT-4o、Gemini 2.5-Flash等闭源巨头的性能对标,甚至在数学推理与代码生成等核心任务中实现反超。
更令人惊喜的是,新模型在多个基准测试中基本追平甚至超越了DeepSeek-V3-0324等模型。下图对比了新版本与DeepSeek-V3-0324的性能结果,突显其在效率优化上的优势。
关键能力升级
Qwen3-30B-A3B-Instruct-2507在多个维度实现了关键提升:
通用能力大幅增强:包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面。
多语言知识覆盖进步:显著提升了长尾知识的处理能力。
用户偏好对齐优化:在主观和开放任务中生成更高质量的文本,提供更有帮助的回答。
长文本理解扩展:支持高达256K的上下文长度。
网友好评:
这款新模型就像Qwen团队说的**:“更轻、更强、更好用!”**
于是引发网友感叹模型计算效率的提升速度。
开源力量迅速发酵,社区推出了量化版本和更多使用渠道,降低了运行门槛。
也有开发者分享了在Mac电脑、搭载RTX 3090的PC等设备上的运行体验,证明了其消费级硬件的友好性。
Qwen3-30B-A3B的出现,让大家在消费级GPU上运行AI模型有了新的选择。
Qwen3-30B-A3B-Instruct-2507已在ModelScope与Hugging Face全面开源(Apache 2.0协议)。
它不仅验证了“小激活参数,大性能输出”的技术路径,更以262K上下文与多语言长尾优化树立工业级应用新标准!
开源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
昆仑万维开源Skywork UniPic!实现图像理解、生成与编辑全能力统一,生图效果达SOTA!
7月30日,昆仑万维正式开源「Skywork UniPic」,这是一款基于自回归路线的多模态统一预训练模型。
该模型在单一架构中深度融合图像理解、文本到图像生成(T2I)和图像编辑三大核心能力,通过端到端预训练实现高效通用性。
主要功能:
图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。
prompt:这是哪座城市?(What city is this?)
文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。
prompt:生成一个带有彩虹发丝的少女数字肖像。(Digital portrait of a girl with rainbow hair.)
图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。
prompt:将图片中的星星替换成蜡烛(Replace the stars with the candle.)
prompt:将以下图片风格转绘成吉卜力风格和像素风格(Switch to a Ghibli style and a pixel style.)
性能优势:
Skywork UniPic以仅1.5B的轻量级参数规模,实现与大参数模型媲美的性能,在四大核心评估维度上均展现出了卓越表现!
指令遵循能力:/enEval评估得分0.86(无CoT),超越多数同类模型,逼近BAGEL(7B+7B*)的0.88分。
复杂生图领先:DPG-Bench基准达85.5分,行业SOTA。
编辑能力顶尖:/EditBench-EN得分5.83,ImgEdit-Bench达3.49分。
部署友好:在RTX 4090等消费级显卡流畅运行,降低技术门槛。
应用场景
创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。
文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。
智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。
Github :https://github.com/SkyworkAI/UniPic
7月30日
阿里通义WebAgent 续作!WebShaper:高效的信息检索智能体,开源方案刷新GAIA评测纪录!
在AI智能体激烈角逐信息检索能力的今天,阿里巴巴通义实验室悄然开源WebShaper项目!
它不仅以60.1分的成绩登顶GAIA评测开源榜首位,更以颠覆性的形式化驱动范式,重新定义了高质量训练数据的合成逻辑。
并仅用5k高质量训练轨迹,WebShaper通过监督微调(SFT)与群组相对策略优化(GRPO)强化学习,在GAIA评测中超越所有开源方案。
核心创新:
传统IS任务训练数据依赖“信息驱动”合成范式(如WebDancer),通过预检索知识图谱生成问答对,存在知识结构与推理逻辑割裂、任务覆盖有限两大瓶颈。WebShaper首次提出基于集合论的IS任务形式化建模,将复杂问题转化为“知识投影(KP)”的集合操作(如R-并集、交集、递归),实现任务结构精准控制:
这一变革使数据合成具备全域任务覆盖、结构语义对齐、推理复杂度可控三大优势,彻底突破预检索数据边界。
智能体模块:
WebShaper通过Expander智能体模块实现数据自动化合成:
种子构建:基于Wikipedia词条随机游走生成基础任务;
KP表示:引入变量与常量符号化表示复杂逻辑;
逐层扩展:独创叶节点常量扩展策略,避免冗余信息与推理捷径;
验证闭环:调用搜索、摘要、验证工具确保任务正确性与逻辑严谨性。
应用场景:
WebShaper的高质量数据合成能力打开了广阔应用空间:
学术研究:自动整理跨学科文献,加速知识发现
市场分析:实时抓取行业数据,生成竞争策略报告
教育助手:构建多跳推理题库,培养批判性思维
医疗决策:整合最新医学指南提供个性化诊疗建议
WebShaper的突破远不止于技术指标,它更标志着AI智能体开发范式的根本转向。
GitHub:https://github.com/Alibaba-NLP/WebAgent
书生 Intern-S1:开源科学多模态推理「六边形战士」,重构科研生产力!
上海AI实验室正式发布并开源了“书生”科学多模态大模型 Intern-S1。
Intern-S1 的核心突破在于其“跨模态科学解析引擎”,能精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学数据。
性能表现:
在性能方面,Intern-S1 树立了行业新标杆。综合多模态通用能力评估显示,其得分比肩国内外一流模型,展现出跨文本、图像的全面理解力。
更令人瞩目的是,在科学能力评测中:覆盖物理、化学、材料、生物等专业任务中,Intern-S1 领先 Grok-4 等闭源模型。
评测基于多个领域专业数据集,验证了模型在科研场景的强逻辑性与准确性。
技术创新:
研究团队首创“通专融合”科学数据合成方法:利用海量通用科学数据拓展知识面,同时训练专业模型生成高可读性数据,并由领域验证智能体进行质量控制。
基于其跨模态生物信息能力,上海AI实验室联合临港实验室、MIT 等机构构建了多智能体系统“元生”(OriGene),用于靶标发现与临床评估。该系统在肝癌和结直肠癌治疗中提出新靶点 GPR160 和 ARG2,并经真实样本和动物实验验证,形成科学闭环。
Intern-S1在国际开源社区引发了关注,不少知名博主纷纷为其点赞,并称“几乎每天都能看到来自中国的新开源Sota成果——纪录每天都在被刷新。”
Intern-S1 不仅是一款模型,更是科研范式的革新者。它证明了中国开源力量如何通过算法优化(如动态精度调节、MoE 架构)和生态协作,以低成本实现高性能突破。
GitHub:https://github.com/InternLM/Intern-S1
7月29日
阿里开源AI视频-通义万相2.2:全球首个MoE视频生成模型,美学能力媲美专业电影水平!
阿里通义实验室今日重磅开源新一代视频生成模型通义万相Wan2.2。首次将MoE架构引入视频生成领域,总参数量为27B,激活参数14B;
本次开源包括文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。
同时,首创电影美学控制系统,光影、色彩、构图、微表情等能力媲美专业电影水平。
官方测试显示,通义万相Wan2.2在运动质量、画面质量等多项测试中超越了OpenAI Sora、快手Kling 2.0等领先的闭源商业模型。
功能特点:
文生视频(Text-to-Video):根据输入的文本描述生成相应的视频内容。
提示词:一名30岁出头的游泳运动员跃入水中,奋力比赛。镜头在水面和水下缓慢切换,捕捉着每一次划水时有节奏的水花。他穿着蓝色泳衣,戴着泳帽和护目镜,手臂有力地向前伸展,双腿快速踢动。水面波光粼粼,背景是其他选手和泳道线。镜头平稳跟随他的动作,展示他在水中流畅而有力的前进。
图生视频(Image-to-Video):根据输入的图片生成视频,模型根据图片内容生成动态场景,让图片“活”起来。并且在物理运动进行了优化:人物互动无穿模、沙发回弹等细节逼真!
统一视频生成(Text-Image-to-Video):结合文本和图片生成视频,同时用文本描述和图片信息,生成更精准的视频内容。
电影级美学控制:通过光影、色彩、构图、微表情等控制,生成具有专业电影质感的视频。用户通过输入相关关键词(如“暖色调”“中心构图”)定制视频的美学风格。
复杂运动生成:能生成复杂的运动场景和人物交互,提升视频的动态表现力和真实感。
技术原理:
混合专家(MoE)架构:引入MoE架构,将模型分为高噪声专家和低噪声专家。高噪声专家负责视频的整体布局,低噪声专家负责细节完善。在保持计算成本不变的情况下,大幅提升模型的参数量和生成质量。
扩散模型(Diffusion Model):基于扩散模型作为基础架构,通过逐步去除噪声来生成高质量的视频内容。MoE架构与扩散模型结合,能进一步优化生成效果。
高压缩率3D VAE:为提高模型的效率,通义万相2.2基于高压缩率的3D变分自编码器(VAE)。架构实现了时间、空间的高压缩比,让模型能在消费级显卡上快速生成高清视频。
大规模数据训练:模型在大规模数据集上进行训练,包括更多的图像和视频数据,提升模型在多种场景下的泛化能力和生成质量。
该模型已在GitHub、魔搭社区开放下载,此次开源进一步巩固阿里通义生态优势,Qwen系列累计下载量突破4亿次,衍生模型达14万。
官网体验:https://wan.video/welcome
GitHub:https://github.com/Wan-Video/Wan2.2
智谱AI开源GLM-4.5!专为智能体应用打造的基础AI模型,综合能力达到开源 SOTA!
7月28日晚,智谱AI推出新一代旗舰模型GLM-4.5系列,首次实现推理、编码与智能体能力的原生融合。
该系列包含:
GLM-4.5:3550亿参数(激活320亿),开源MoE架构巅峰。
GLM-4.5-Air:1060亿参数(激活120亿),轻量高效版本。
GLM-4.5在12项综合评测中斩获全球模型第三、国产模型第一,开源模型第一的优异成绩。
性能测试:
在衡量模型代码能力的SWE-bench Verified榜单上,GLM1-4.5系列位于性能/参数比帕累托前沿表明在相同规模下GLM-4.5系列实现了最佳性能。
GLM-4.5系列也在调用成本和生成效率上实现突破:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens,远低于主流模型定价。同时,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求。
为了评测GLM-4.5在真实场景AgentCCoding中的效果,官方接入Claude Code与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder进行对比测试。GLM-4.5相对其他开源模型展现出强劲竞争优势,特别在工具调用可靠性和任务完成度方面表现突出。GLM-4.5相比Claude-4-Sonnet仍有提升空间,在大部分场景中可以实现平替的效果。
网友实测:
先让GLM-4.5先不要考虑真实物理参数,而是演示完整的运动路径。
GLM-4.5一下子就理解了!不仅画出了飞行器飞往火星的演示过程,还提供了两种视角。
一种是全局视角:
另一种是「第一视角」,你可以跟随飞行器从地球飞往火星。
就算是写一个贪吃蛇游戏,也能将画面设计得很精美、计分准确,得分后还会有一个十分自然的动画效果!
GitHub:https://github.com/zai-org/GLM-4.5
7月28日
字节跳动开源 Coze Studio: AI Agent 开发利器,告别传统编码,支持免费商用!
字节跳动正式开源其AI Agent开发平台Coze的社区版“Coze Studio”。
这标志着AI应用开发门槛大幅降低,开发者无需编写复杂代码,只需通过可视化拖拽,就能快速构建智能聊天机器人、自动化工作流等应用。
开源协议采用Apache 2.0,支持商业闭源项目,或将重塑AI工具生态格局。
核心能力:
Coze Studio提供AI Agent开发的全套工具链,强调低代码与高扩展性:
Prompt与RAG优化:内置提示词工程框架,支持知识库检索增强,提升AI回答准确性。
Plugin生态系统:轻松集成外部API、数据库或工具(如股票查询、日历管理),无需额外开发。
Workflow自动化:支持复杂业务逻辑编排,例如电商场景的“用户咨询→库存查询→订单生成”全链路。
模板库支持:提供多行业应用模板(如客服机器人、数据分析助手),开发者可快速复用。
用户实测:
开源消息一出,开发者社区反响热烈。部分用户已成功部署,并分享体验:
正面评价:博主@无界生长部署后反馈,界面简洁高效,核心功能完备,适合快速原型验证。
效率优势:X博主@凡人小北称赞:“拖拽式开发比写代码快5倍,特别适合中小团队试错。”
现存不足:X博主@LysonOber指出:“高级功能如自定义模型训练仍需代码基础,且社区文档待完善。”
整体而言,Coze Studio在易用性上得分高,但复杂场景支持与生态建设仍需时间。
字节跳动此举不仅是技术开源,更是降低了使用门槛,吸引个人开发者和企业共建AI应用市场。
GitHub:https://github.com/coze-dev/coze-studio
腾讯混元开源3D世界模型1.0:一句话生成可漫游、可交互的虚拟世界!
7月27日,腾讯混元AI实验室正式推出3D世界模型1.0,首次将AI生成能力从单一物体升级为完整3D虚拟世界。
用户仅需输入一句话或上传一张图片,即可生成具备空间一致性、可自由漫游、可编辑修改的360°沉浸式场景。这一突破标志着3D内容创作从"静态模型拼接"迈入"动态空间生成"的新阶段。
技术突破:
全流程生成能力:从像素到空间的魔法转换
输入灵活:支持文本描述(如"赛博朋克风格的废弃都市")或参考图生成场景,兼容多种艺术风格。
空间闭环:通过"前景3D建模+中景多视角补全+远景图像渲染"的混合方案,实现无限延伸的视觉深度。
标准输出:生成模型兼容Unity/Unreal/Blender等主流引擎,可直接导出GLB/PLY等通用格式,大幅降低游戏开发与影视制作的后期成本。
结构化编辑革命:像搭积木一样改造虚拟世界
模块化拆解:系统自动将场景分解为前景物体、地形地貌、天空贴图等层级,允许用户单独调整树木密度、地面材质或建筑高度。
精准操控:支持键盘漫游(WASD移动+鼠标转向),视角可自由切换第一人称/第三人称,实现真正的空间探索体验。
美学与实用性平衡:超越现有开源模型的表现力
在纹理细节、美学评分、指令遵循等维度,混元模型全面领先主流开源方案(如Shap-E、Stable3D)。实测显示,其生成的植被覆盖度比同类模型提升40%,光照一致性误差降低25%。
应用场景:
游戏开发提速:原型验证周期从数周缩短至几小时,开发者可快速迭代关卡设计。支持NPC行为路径自动生成,为开放世界游戏提供动态场景底座。
具身智能训练:为机器人模拟提供逼真的家庭/工业环境,目前已接入腾讯Robotics X实验室。可生成带物理属性的交互式场景(如可推动物体、触发机关)。
XR内容生态:Meta Quest 3/Apple Vision Pro等设备可直接调用生成内容,打造个性化VR社交空间。支持AR场景叠加,实现虚实融合的数字孪生应用。
腾讯混元3D世界模型1.0的开源,标志着AI已跨越式迈进空间生成领域。展现出了中国AI企业在工程化落地上的独特优势:通过开源生态培育开发者土壤,或将催生出全新的3D内容产业生态链。
项目官网:https://3d-models.hunyuan.tencent.com/world/
GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
7月25日
蚂蚁开源可视化图表MCP项目:mcp-server-chart!让数据图表生成变得简单高效!
MCP Server Chart 是蚂蚁AntV团队推出的可视化图表生成工具。
工具基于Model Context Protocol协议,支持超过25种可视化图表,包括常见的统计图表(如折线图、柱状图、饼图)和关系类图表(如组织架构图、思维导图、网络图等),支持标注地图和路径地图。
主要功能
丰富的图表类型:支持超过25种可视化图表,涵盖常见的统计图表(折线图、柱状图、饼图等)、关系类图表(组织架构图、思维导图、网络图等)及标注地图和路径地图。例如,用户可以让大模型生成“上海一日游规划”,然后直接利用该插件在地图上标注地点并绘制出清晰的路线图。
简单易用:用户基于简单的文本输入,能快速生成所需的图表,无需复杂的操作和配置,极大地降低数据可视化的门槛。
多种客户端接入:支持多种客户端接入,如Cherry Studio、Claude Desktop、VSCode等,方便用户在不同的开发环境中使用。
灵活的部署方式:提供公有服务的同时,支持私有部署,用户能基于VIS_REQUEST_SERVER环境变量自定义图表生成服务,满足不同用户的需求。
生成交互式图表:部分生成的图表(如路径地图)支持动态交互,用户可通过扫描二维码在移动端查看更丰富的交互效果。
技术原理
基于MCP协议:MCP Server Chart遵循Model Context Protocol(MCP)协议,协议明确工具(Tools)的定义,让模型能直接识别、解析工具中的参数,实现高效的数据交互和图表生成。
GPT-Vis可视化组件库:基于面向AI消费的GPT-Vis可视化组件库,提供25+可供AI消费的图表。组件库结合AntV的可视化解决方案,能快速生成各种类型的图表。
服务器端渲染(SSR):基于GPT-Vis的设计及G2、G6的服务器端渲染能力(SSR),实现图表的SSR渲染出静态图片。
静态图表生成工具:将GPT-Vis SSR封装成静态图表生成工具,提供静态出图服务。在蚂蚁内部用NodeJS搭建,对外提供可访问的服务,用户基于简单的配置和调用生成所需的图表。
多种传输协议支持:支持多种传输协议(如stdio、SSE、streamable),用户根据不同的使用场景选择合适的传输方式,提高系统的灵活性和可扩展性。
AntV 可视化图表(mcp-server-chart)MCP 的发布,极大地降低了创建专业级图表的门槛,让每个人都能通过简单的文本描述,快速生成涵盖统计、关系、地理信息等多种类型的炫酷图表。
GitHub:https://github.com/antvis/mcp-server-chart
文档转换神器!MarkItDown:轻松搞定多格式文件转Markdown!
随着AI应用的爆发式增长,我们每天需要处理的文件格式也日益繁杂。然而,许多强大的大语言模型(LLM)更偏好处理像Markdown这样结构清晰、简洁的文本格式。
如何高效地将各种文件转化为LLM更能懂的Markdown?微软开源的 MarkItDown 项目就是为此而生的利器。
该项目目前完全开源,并狂澜了69.2Kstar!
功能特色:
多格式支持:MarkItDown支持多种文件类型的转换,包括但不限于PDF、PowerPoint、Word、Excel等办公文档,还有图片、音频、HTML等。
强大的LLM集成能力: MarkItDown 的一大亮点是原生支持集成多模态大语言模型(如 GPT-4o)。这使得它不仅能转换文本类文档,还能处理图片和音频文件:
对于图片:可以调用LLM识别图中内容并生成描述性Markdown文本。
对于音频:可以调用语音识别(ASR)服务或LLM生成文字稿,再输出为Markdown。
这大大扩展了非文本信息的处理能力,让LLM能“消化”更丰富的数据源。
高效的处理性能: 无论是几十页的PPT报告,还是包含大量数据的Excel表格,MarkItDown 都能在较短时间内完成转换,满足高效处理的需求。
灵活的插件扩展: 项目支持第三方插件,开发者可以根据特定需求定制或增强转换功能。
应用场景:
文档归档与整理:将不同格式的文档统一转换为Markdown格式,便于存储和管理。
内容发布:将文档内容转换为Markdown,方便在网站、博客等平台发布和分享。
数据挖掘与分析:对文档内容进行解析,提取有用信息,支持后续的数据分析和挖掘工作。
文档索引与检索系统:建立文档索引,提高文档检索的效率和准确性。
学术研究与教育:将学术论文、教材等文档转换为Markdown,便于阅读和引用。
GitHub:https://github.com/microsoft/markitdown
7月24日
李沐团队开源语音大模型:Higgs Audio V2!1000万小时数据炼成能听会说神器!
消失许久的AI大神李沐带着新作重返B站!
这一次,他亲自演示团队研发的 Higgs Audio V2 语音大模型,不仅支持文本理解,还能生成逼真语音,甚至实现多语言对话、语音与背景音乐同步生成等“黑科技”。
李沐在B站视频中展示的三人对话案例——暴躁的怪物、喋喋不休的驴子和冷静的公主——每个角色声音都带着独特的情感纹理。
功能特点:
多说话人对话生成能力:它能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使生成的对话如真人交流般自然流畅。
自动韵律调整:在长文本朗读中,模型能根据内容自动调整语速、停顿和语调,无需人工干预,让旁白更具生命力。这种能力在生成有声读物时尤其重要,使听众获得更自然的听觉体验。
语音克隆与歌声合成功能:用户只需提供简短语音样本,即可实现零样本语音克隆,复制特定人物的声音特征。
克隆的声音哼唱旋律:甚至同步生成背景音乐,实现“写一首歌并唱出来”的创作流程。
实时语音交互能力:模型支持低延迟响应,能理解用户情绪并做出情感化表达,超越了机械式问答的局限。
这种能力为虚拟主播、实时语音助手等场景提供了接近人类的交互体验。
技术创新:
技术细节Higgs Audio v2其强劲的表现是由三项关键技术创新推动的:
1. 开发了一个自动化标注系统,该系统利用了多个ASR模型、声音事件分类模型和内部音频理解模型。使用这个系统清洗并标注了1000 万小时的音频数据。音频理解模型是在Higgs Audio v1 Understanding 之上进行微调的。
2. 从头开始训练了一个统一的Higgs Audio Tokenizer,可以捕获语义和声学特征。
3. 提出了DualFFN 架构,它增强了LLM以最小的计算开销对音频进行建模的能力。
性能表现:
在权威评测中,Higgs Audio V2 表现惊艳:
EmergentTTS-Eval基准:情绪表达胜率超GPT-4o-mini-tts 75.7%,问题处理胜率高55.7%;
Seed-TTS、ESD等传统测试:全面领先行业模型。
评估了模型在MMAU上的音频推理能力。由于Higgs Audio V2 数据集中的音乐数据覆盖范围有限,它在音乐任务中落后于其他公司。尽管如此,通过利用基础 LLM 的思维链 (COT) 能力,其在音乐任务上的性能得到了显著增强。
目前该项目技术代码已在GitHub开源,等待全球开发者共同探索语音AI的下一站未来。
GitHub:https://github.com/boson-ai/higgs-audio
首个统一图像与视频的自适应语义分割的开源项目:QuadMix!
在语义分割领域,无监督领域自适应(UDA-SS)技术正成为解决数据分布差异的关键。然而,现有研究长期割裂:图像UDA-SS与视频UDA-SS几乎完全割裂,导致方法碎片化、知识迁移效率低下。
东北大学、武汉大学、萨里大学和南洋理工大学的研究团队首次提出统一框架,通过QuadMix(四向混合)机制 和光流引导的时空聚合模块,实现图像与视频任务的深度融合,显著提升跨域性能。
统一框架
传统UDA-SS研究中,图像与视频任务因时序差异被孤立处理:
图像方法无法迁移到视频场景,视频技术难以泛化至静态图像;
知识共享缺失导致训练效率低下,模型泛化能力受限。 研究团队创新性地将图像视为“无时间依赖的视频特例”,构建统一特征空间和训练路径。
技术创新:
QuadMix首创四条混合路径,在特征空间实现跨域对齐。该机制通过在线生成的 类别感知Patch模板(含像素、伪标签和光流信息),确保语义一致性,显著提升特征分布的连续性与泛化性。
双层混合与时空聚合:
像素级+特征级混合:通过Hadamard运算和轻量化卷积,减少语义漂移,降低计算成本;
光流引导时空聚合模块:利用ACCEL网络获取光流,实现伪标签跨帧传播,并在空间、时间、类别三维度精细化对齐特征。
性能突破:
团队在SYNTHIA-Seq→Cityscapes-Seq(视频)和GTAV→Cityscapes(图像)等经典任务上验证:
视频任务:QuadMix ViT架构达67.2 mIoU,超越前SOTA方法近12个百分点;
图像任务:在GTAV→Cityscapes图像迁移任务中,QuadMix实现66.8的mIoU,超过DAFormer、SePiCo等先进方法,展现统一方法在图像上的强大适应能力。
可视化分析:分割边缘更平滑,细节保留更完整;
特征分布:t-SNE显示QuadMix特征更均匀,类别边界清晰。
GitHub:https://github.com/ZHE-SAPI/UDASS
7月23日
国产开源编程模型登顶!阿里通义Qwen3-Coder刷新SOTA,免费开放!
就在刚刚,阿里通义大模型团队开源Qwen3-Coder,这是其迄今为止最具代理能力的代码模型,直接刷新AI编程SOTA!
不仅在开源界超过DeepSeek V3和Kimi K2,连业界标杆、闭源的Claude Sonnet 4都比下去了。
它是一个 480B 参数激活 35B 参数的 MoE 模型。原生支持 256K token 上下文,并可通过 YaRN 技术扩展至 1M token。
其强大能力引来网友惊呼:“简直改变游戏规则”。
更关键的是,Qwen3-Coder是开源且免费的,开发者无需再每月花费200美元购买Claude Code服务。
效果实测 一经发布,就有网友马上进行了实测演示,一起来看看Qwen3-Coder具体表现如何!
比如一句话实现用p5js创建多彩的可交互动画:
用简单的提示词生成小球弹跳效果:
让Qwen3-Coder打造一个Wordle单词游戏,规则是在六次尝试中猜出一个长度为5个字母的单词。最终,Qwen3-Coder交付的游戏页面和源代码如下。
Qwen3-Coder在指令遵循、UI设计、动画方面的能力惊人,大部分测试结果一次就跑通了,完全不需要推理。
在一则找不同游戏的开发案例中,可以看到与昨日发布的Qwen3-235B-A22B-2507相比,Qwen3-Coder在审美和完成度上要明显好于前者。
比如一句话实现用p5js创建多彩的可交互动画。
打造可互动的太阳系模拟,行星之间的关系基本准确。
技术深度:预训练与后训练
在预训练阶段,Qwen3-Coder通过多维度扩展提升能力:
数据扩展: 使用高达7.5T tokens的训练数据,其中70%为代码数据,显著提升编程能力。
上下文扩展:原生支持256K上下文,可扩展至1M。
合成数据扩展: 利用Qwen2.5-Coder清洗和重写低质量数据,提升整体数据质量。
在后训练阶段,团队创新性地采用强化学习策略:
Scaling Code RL: 在丰富、真实的代码任务上进行大规模强化学习训练,自动生成多样化测试用例,大幅提高代码执行成功率。
Scaling Long-Horizon RL:依托阿里云基础设施构建可同时运行20000个独立环境的系统,使模型在多轮交互中表现卓越,尤其在SWE-bench Verified上达到开源模型SOTA。
Qwen3-Coder的发布被视为开源编程Agent领域的一次重大飞跃。还有网友预测:开源代码生成将在几个月内超越闭源SOTA。
此次阿里开源这种级别的编程模型,标志着中国开源模型在代码能力上已走在全球前列。
官网体验: https://chat.qwen.ai/
GitHub项目: https://github.com/QwenLM/qwen-code
京东开源首个完整通用Agent项目:JoyAgent-JDGenie!性能直指行业SOTA!
京东近日悄然开源了业界首个真正意义上的端到端完整多智能体产品——JoyAgent-JDGenie。
与当前主流的SDK或框架(如阿里SpringAI、字节Coze)不同,它并非开发工具包,而是一个包含前端界面、后端服务、执行引擎及核心智能体的完整可运行产品,真正实现“开箱即用”。
主要功能:
开箱即用的任务处理:能直接处理用户输入的复杂任务,如生成报告、分析数据等,无需二次开发。
通用性强的框架设计:支持用挂载子智能体或工具快速扩展功能,适应不同应用场景。
多智能体协同工作:多个子智能体(如报告生成智能体、搜索智能体等)协同完成复杂任务,提升效率。
多文件交付样式:支持网页版、PPT、Markdown等多种文件交付格式,满足不同用户需求。
工具进化机制:基于已有工具迭代生成新工具,自动拆解和重组原子工具,减少错误工具生成,提高开发效率。
跨任务记忆:智能体能记住相似任务信息,处理新任务时更高效准确。
技术突破:
当前AI Agent领域的开源项目多停留在协议层或开发框架层面,开发者仍需大量二次开发才能构建可用产品。JoyAgent-JDGenie的突破性在于:
1.提供独立运行的前后端交互界面。
2.内置多智能体协作引擎。
3.不依赖特定云生态,下载配置即可部署。 在权威的GAIA通用智能体评测基准中,JoyAgent-JDGenie以75.15%的准确率超越CAMEL OWL、HuggingFace Smolagent等知名项目,虽与头部闭源产品仍有差距,但作为轻量化开源产品已证明其技术有效性。
核心创新:
多层级思考模式:支持高层任务规划(Plan and Executor)与实时反应(React)双模式。
跨任务工作流记忆:复用历史任务解决流程,实现持续进化。
工具自动进化机制:创新性地将工具拆解为“原子能力”,按需组合生成新工具,显著降低幻觉风险。
应用场景
电商领域:作为智能客服子智能体,快速处理用户咨询、订单查询和售后问题,提升客户服务效率和质量。
办公场景:自动生成工作报告,收集、整理和分析数据,减轻员工工作负担,提高工作效率。
出行服务:挂载类似12306的工具后,用户能查询火车票信息、规划出行路线,提供便捷的出行服务。
教育领域:作为智能辅导工具,为学生提供个性化的学习方案和辅导服务,帮助提高学习效果。
医疗领域:协助医生进行病例分析、医学影像诊断等工作,为医疗服务提供辅助支持,提高医疗效率和质量。
GitHub:https://github.com/jd-opensource/joyagent-jdgenie
7月22日
阿里开源最新让照片模仿表情嘴型开口说话项目!FantasyPortrait:支持多角色同步演绎,实现高保真情感化面部生成!
在数字人、虚拟偶像和游戏角色蓬勃发展的时代,从单张静态图像生成逼真自然的面部动画一直是计算机视觉领域的核心挑战。
而近日阿里巴巴研究团队开源的FantasyPortrait框架,一举攻克了这些技术壁垒。
技术突破
1. 增强表达隐式控制
摒弃显式几何先验,系统通过隐式面部表示学习细粒度表情特征,显著提升对嘴部动作和情感表达的建模能力。驱动视频的面部动作特征被提取后,通过特征迁移融合技术生成最终动画。
2. 多角色掩码交叉注意力
独创的掩码式交叉注意机制实现多角色独立控制与协同生成,有效解决不同角色间的特征干扰问题。该设计支持使用多个单人视频或一个多人视频同时驱动多个角色。
功能特点:
多角色同步驱动:FantasyPortrait 支持使用单个或多个单人视频,或直接采用一段包含多人的视频,即可同步驱动多个角色,生成细腻自然、高度写实的人像动画。
多风格角色适配: FantasyPortrait 能够为不同艺术风格的角色生成动画,输出动态流畅、生动自然且风格统一的视频。
零样本动物动画:即使未经动物数据专门训练,FantasyPortrait 依然展现出卓越的动物动画生成能力,验证了其强大的跨域泛化性能。
低资源音频驱动: FantasyPortrait 可无缝扩展为音频驱动框架。具体实现上,利用 Whisper 编码音频,并通过一个轻量级 Transformer 网络将音频特征映射到潜在驱动空间。
FantasyPortrait的出现不只是一次技术迭代,更是对数字内容生产范式的重构。影视制作中,它让独立动画师轻松生成群戏表演;游戏领域,NPC可展现千人千面的微表情;虚拟直播中,多角色互动变得鲜活自然。
GitHub:https://github.com/Fantasy-AMAP/fantasy-portrait
项目官网:https://fantasy-amap.github.io/fantasy-portrait/
GThinker:多模态大模型的“反思革命”,让AI学会回头校验视觉线索!
在人工智能领域,多模态大模型如GPT-4o和Qwen2.5-VL已在数学、科学等结构化任务中大放异彩,但在通用场景下——如解读复杂图像、分析日常情景——模型却常“视而不见”。
为此,中科院自动化研究所紫东太初大模型研究中心提出GThinker,一个革命性的多模态推理框架,通过“线索引导式反思”机制,赋予模型主动修正视觉理解的能力,在多个基准测试中超越顶尖模型。
核心创新:
GThinker的核心是线索引导式反思(Cue-Guided Rethinking),一种模拟人类“思考-反思-修正”的闭环模式。它不强制僵化结构,而是让模型在自由推理后系统性回溯关键视觉线索:
自由初始推理:模型根据问题和图像自由推理,并用标签标记关键视觉线索。
反思触发:初步推理完成后,提示(如“Let's verify each visual cue”)引导模型进入再思考阶段。
基于视觉线索的反思:模型逐一检查线索解释,修正不一致或错误,并重新推理得出最终结论。
例如,在分析一幅图像时,模型可能误判图形为“螃蟹”,但反思阶段通过校验“红色三角形更像虾头”等线索,修正为正确答案“虾”。这种机制显著提升了模型处理歧义视觉信息的能力。
两阶段训练:
为了让模型内化反思能力,GThinker采用高效的两阶段训练框架:
冷启动策略:仅对易产生视觉误判的样本应用完整反思链格式,避免机械执行。
泛化保障:通过嵌入聚类均衡采样4K多场景数据,使反思能力适配开放问答、数学证明等任务。
性能优化:
在复杂、多步及多领域的多模态推理基准 M3CoT 上,GThinker 在多个场景的测试中超过当前先进的开源多模态推理模型及 O4-mini。
在通用场景(MMStar、RealWorldQA)、多学科场景(MMMU-Pro)及数学基准测试中,GThinker的表现达到或超越现有先进模型水平,有力验证了其再思考机制不会导致模型能力失衡,而是全面提升了通用推理能力。
研究团队进一步选取OpenCompass闭源多模态榜单中最新排名前三的10B规模开源模型进行学术基准测试。结果显示,应用GThinker方法后,三款模型的平均性能均提升约1个百分点,其方法有效性与跨模型泛化能力得到双重印证。
GThinker的价值远超技术指标——它揭示了AI从被动响应走向主动质疑的进化路径。当模型学会“回头看”,人类与机器协作的深度也将迈入新纪元:未来,AI不仅是答案的生产者,更将成为自身思维的审校者。 论文:https://arxiv.org/abs/2506.01078
GitHub:https://github.com/jefferyZhan/GThinker
7月21日
英伟达开源DAM图像描述一切模型:实现详细局部图像与视频的描述!
在计算机视觉和自然语言处理的交叉领域,图像描述(image captioning)一直是一项核心挑战,尤其是如何为图像中的特定区域生成精确、详细的描述。
前段时间,来自英伟达、UC伯克利等机构的研究者推出了“描述一切模型”DAM(Describe Anything Model),这是一个革命性的多模态大语言模型,能够针对用户指定的图像或视频区域,生成丰富的上下文描述。
功能特征:
DAM是一个强大的视觉语言模型(VLM),专为生成图像或视频中特定区域的详细描述而设计。用户可以通过点、框、涂鸦或蒙版等方式指定区域,模型会输出包含细微属性(如纹理、颜色、形状)的丰富描述。
例如,在视频中指定一头母牛的区域,DAM能捕捉其动态姿态:
“一头身披深棕色皮毛、臀部有一块浅色斑块的母牛,正以一系列动作展现其姿态。起初,母牛略微低着头,展现出平静的神态。随着画面的推进,母牛开始向前移动,双腿舒展,步态稳健而有节奏……”
类似地,在静态图像中指定一只猫的区域,模型也能生成精准描述:
“一只白色的猫,有着浅橙色的耳朵和粉红色的鼻子。这只猫表情放松,眼睛微微闭合,身上覆盖着柔软的白色毛发。”
详细的本地化字幕:为图像中用户指定的区域生成详细的本地化描述。DAM 接受各种用户输入以进行区域规范,包括点击、涂鸦、框和蒙版。
高度详细的图像和视频字幕:通过平衡焦点区域的清晰度与全局上下文,该模型可以突出细微的特征,例如复杂的图案或不断变化的纹理,远远超出一般图像级字幕所提供的范围。
指令控制字幕:无论是需要简短的总结还是冗长而复杂的叙述,模型都可以调整其输出。这种灵活性有利于从快速标记任务到深入专家分析的各种用例。
零样本区域 QA:除了描述之外,模型还可以回答有关指定区域的问题,而无需额外的训练数据。用户可以询问该地区的属性,该模型会利用其对本地化的理解来提供准确的、上下文驱动的答案。此功能增强了自然的交互式用例。
性能对比:
DAM在局部图像与视频描述任务中表现卓越,能够支持多粒度输出(包括关键词、短语及详细描述),并在7个领域内基准测试和零样本基准测试中均达到SOTA。
在 object-level LVIS和part-level PACO数据集上进行测试,DAM取得了最佳性能。
DAM在详细的本地化字幕方面优于以前的纯API模型、开原模型和特定于区域的VLM。
DAM在详细的本地化视频字幕方面优于以前的模型。
短语级数据集Flickr30k实体的零样本评估。该模型比之前的最佳水平平均相对提高了7.34%。
DAM代表了局部图像和视频描述技术的重大进步,未来有望在医疗、安防和内容创作等领域发挥更大作用。
项目官网:https://describe-anything.github.io/
GitHub:https://github.com/NVlabs/describe-anything
字节跳动开源轻量化多语言模型Seed-X 7B:支持28 种语言双向互译!
字节跳动近日宣布开源其自主研发的Seed-X系列多语言翻译模型(7B版本)。
它凭借创新的模型架构与强化学习优化,在仅7亿参数规模下实现对28种语言的高质量翻译,性能全面超越GPT-4、Gemini-2.5等千亿级大模型。
三大技术创新:
Mistral架构重构:采用稀疏注意力机制与门控前馈网络,在减少30%计算量的同时,通过相对位置编码显著提升长文本处理能力。测试显示,该架构在低资源语言对(如芬兰语↔瑞典语)的上下文理解能力提升40%。
双阶段训练体系:
预训练阶段:基于数千亿多语言语料进行MLM+CLM混合训练,构建跨语言语义基底
强化学习微调:通过PPO算法结合人类反馈奖励模型(RM),使翻译质量评分超越专业评审标准
多维度优化策略:开发动态词汇表压缩技术,使模型在保持95%精度的前提下,推理速度提升3倍;支持INT4/INT8量化部署,显著降低硬件门槛。
性能实测:
低资源语言优势:撬克语→匈牙利语等小语种互译BLEU值达45.6,较GPT-4高出3.2分。
专业领域覆盖:生物医药专利翻译准确率达92.7%,金融财报术语识别召回率超98%。
长文本处理:支持10万字符级文档连续翻译,上下文连贯性评分优于Claude-3.5。
应用场景:
Seed-X 支持28种语言的高质量翻译,具有卓越的翻译质量,满足跨行业、多场景的落地需求。
科技文档直通车:实现API文档、专利说明书的秒级多语言转换,已服务全球300+企业研发部门。
跨境电商新基建:支持商品详情页实时翻译,日均处理2000万+跨境商品信息,转化率提升15%。
法律智能助手:提供合同、判例的精准双语对照,误差率低于0.3%,通过欧盟GDPR合规认证。
医疗文献桥梁:完成PubMed数据库百万篇论文的多语种索引,助力全球抗疫知识共享。
GitHub:https://github.com/ByteDance-Seed/Seed-X-7B
7月18日
复刻马斯克AI女友!Jackywine发布AI数字伴侣“Bella”:打造可成长的情感智能体!
最近两天,马斯克的AI女友刷爆全网,很快Jackywine 团队就复刻了Grok的AI女友项目,正式发布其最新数字伴侣应用“贝拉(Bella)”。
这款应用以高度个性化、具备情感感知能力的AI伴侣为核心,标志着人机互动迈入全新阶段。
技术框架:三个阶段
第一阶段:感知核心系统
根据官方技术文档,贝拉的技术架构采用了创新的"感知器-总线-处理器"模式。据介绍,该系统将能够:
多模态情感感知:通过AI模型实时分析语音中的情感、意图和能量变化。
情境视觉理解:识别物体、光线和场景,构建对环境的认知能力。
第二阶段:生成式人格引擎
据官方路线图显示,第二阶段的核心是建立"状态-情境-人格"引擎,实现贝拉人格与行为的分离。根据技术文档,系统将包含:
动态人格模型:由大型语言模型驱动,告别固定脚本。
AI驱动的化身系统:3D形象和背景能根据"心情"实时变化。
第三阶段:主动式陪伴系统
根据官方规划,最终阶段将引入"模式识别与预测服务",实现从被动响应到主动关怀的转变。官方介绍显示,系统将具备:
意图预测能力:学习用户习惯,预测潜在需求。
自我进化机制:通过持续学习和微调实现真正的"成长"。
Jackywine 团队强调,贝拉的目标远不止屏幕内的陪伴,而是逐步融入用户的日常生活,成为一个随时间演化、逐步成长的“数字生命体”。
团队希望通过持续的AI训练和人性化优化,让贝拉最终成为“懂情感、懂你、能陪伴”的理想伙伴。
GitHub:https://github.com/Jackywine/Bella
香港大学开源AI视频创作神器!Pusa V1.0:仅用500美元微调成本实现SOTA视频生成!
当OpenAI的Sora还在千万美元级训练成本的神坛上时,香港城市大学等团队另辟蹊径,仅用3860段视频、500美元微调成本,推出图像-视频生成模型 Pusa V1.0。
该模型在图像转视频(I2V)、视频扩展等任务上实现SOTA性能,以极致性价比为AI视频创作开辟新路径。
Pusa V1.0基于14B参数基础模型 Wan-T2V-14B 微调而成,其核心突破在于向量时间步适应(VTA)机制:
训练数据仅需3860对视频-文本,总成本约500美元(8×A100 GPU),效率超传统方法10倍。
技术核心:
传统视频扩散模型(VDM)对所有帧同步降噪,导致动态僵硬。Pusa的VTA机制创新性引入 帧级独立时间编码:
时间步向量化:为每帧分配独立时间步变量,打破同步演化限制。
帧感知流匹配:模拟帧在时间轴上的独立演化速度,增强动态连贯性。
条件锁定:起始帧时间步始终置零,确保原始图像约束不丢失。
功能特点:
Pusa V1.0仅需10步推理即可完成:
图像转视频(I2V):输入静态图生成动态序列(如攀岩者在太空小行星运动)。
视频扩展:给定首尾帧,自动补全中间画面(如存钱罐小猪冲浪)。
视频转场:平滑衔接不同场景。
文字驱动编辑:输入文本修改视频内容(如将金色汽车变为白色)。
关键帧生成:约束关键帧生成中间过渡。
在I2V任务中,Pusa V1.0全面超越同基模型微调的Wan-I2V:
生成质量:视频动态更自然,细节保留更完整。
参数效率:训练更新参数量减少10倍,证明VTA精准聚焦时间相关模块。
基准对比:在运动连贯性、光影真实性等指标上达到SOTA。
目前,Pusa V1.0代码库、训练数据集(含3860视频对)、训练脚本已全面开源!
正如团队阐释的命名深意:“只有当技术真正服务于每一个创作者时,它才成为真正的‘菩萨’。”而开源的Pusa V1.0,正手执千般法器,向每一个普通人走来。
项目官网:https://yaofang-liu.github.io/Pusa\_Web/
GitHub:https://github.com/Yaofang-Liu/Pusa-VidGen
7月17日
港科联合SnapResearch开源ThinkDiff:让AI像人类一样真正读懂图像与文本!
在AI图像生成领域,Stable Diffusion等扩散模型虽能根据文本提示生成高质量图像,却缺乏真正的多模态推理能力,无法像人类一样“读懂”图像与文本的深层逻辑关系。
于是在2025年ICML会议上,香港科技大学联合Snap Research提出的 ThinkDiff 方法,首次为扩散模型装上了“推理大脑”。
核心创新:
ThinkDiff的核心在于将视觉语言模型(VLM)的推理能力迁移到扩散模型。传统扩散模型依赖文本编码器(如T5),但VLM的优势在于其自回归生成的tokens能捕捉多模态上下文。
ThinkDiff通过共享特征空间,实现VLM与扩散解码器的无缝对齐:
共享特征空间设计:扩散模型(如Flux、Stable Diffusion 3)使用大语言模型(LLM)的文本编码器,其扩散解码器与LLM解码器共享输入特征空间。ThinkDiff利用这一点,将对齐焦点从VLM的输入转向其输出tokens。
代理任务训练:通过视觉-语言预训练任务,ThinkDiff将VLM生成的多模态特征向量映射到LLM解码器空间,用交叉熵损失监督文本描述重建。这避免了低效的扩散训练,仅需轻量级对齐网络(Aligner)即可传递推理能力。
性能测试:
ThinkDiff-LVLM 在多模态理解与生成基准 CoBSAT 上,大幅领先现有方法,展现出高精度高质量的理解与生成能力。
以下是训练资源的对比,与其他使用上百张 GPU 的方法相比,ThinkDiff-LVLM 仅使用** 5 小时 × 4 × A100 GPU** 的训练,就达到了最优的效果。
模型能深度推理输入图像与文本,输出高质量生成内容。
与Gemini对比:在日常任务中,ThinkDiff-LVLM生成效果媲美Google Gemini,证明其工业级潜力。
Gemini输出:
ThinkDiff输出:
扩展应用:文hinkDiff-CLIP支持多图组合生成,甚至可适配视频模型(如Cogvideo),实现零训练视频创作。
GitHub:https://github.com/MiZhenxing/ThinkDiff
让AI真正读懂电影语言!ShotVL以3B参数越GPT-4o的专业理解力!
2025年,上海人工智能实验室联合南洋理工大学、同济大学和香港中文大学,推出 ShotVL,一个专为电影语言理解设计的开源视觉语言模型。
基于创新的两阶段训练策略,ShotVL仅凭3B参数便在专业基准ShotBench上超越72B级开源模型和GPT-4o,为AI驱动的电影分析设立了新标杆。
创新流程:
ShotVL的开发源于电影理解的数据稀缺问题。团队首先创建了 ShotQA——首个大规模电影摄影数据集,包含约7万个问答对,覆盖60,000张图像和1,200个视频片段。这些数据源自200多部奥斯卡提名电影,由专家标注,确保专业性和多样性。
ShotVL采用 Qwen2.5-VL-3B 作为基础模型,并创新性地实施两阶段训练流程:
监督微调(SFT):使用ShotQA中的7万问答对进行初始训练,建立视觉特征与电影术语(如景别、照明类型)的强对齐。这一阶段让模型掌握电影摄影的基础知识。
群体相对策略优化(GRPO):在SFT基础上,对精选子集进行强化学习,专注于结果奖励而非推理链(避免噪声干扰)。GRPO显著提升了模型的细粒度推理能力,尤其在相机运动等复杂维度。
性能突破
在专业基准ShotBench上,ShotVL-3B展现出惊人性能。ShotBench包含3,572个高质量问答对,覆盖八大电影摄影维度(如景别、相机角度、照明条件)。评测结果显示:
整体优势:ShotVL平均准确率较基础模型Qwen2.5-VL-3B提升19%,显著超越顶级开源模型Qwen2.5-VL-72B-Instruct和专有模型GPT-4o。
资源高效:仅3B参数,ShotVL的部署成本远低于百亿级模型,同时提供顶尖性能。
评测涵盖24个主流VLMs,ShotVL在细粒度任务上表现尤为突出。例如,在相机运动和镜头焦距维度,其准确率领先其他模型10%以上,解决了现有模型的“盲区”。
消融研究进一步验证了训练策略:SFT→GRPO组合在所有维度实现最优效果,而GRPO单独应用也能提升动态识别能力。
ShotVL已全面开源,包括模型、代码和数据集,推动社区在电影生成、视频编辑和教育领域的创新。其低资源需求(3B参数)使其易于部署在边缘设备,为独立电影人和教育机构提供实用工具。
Github :https://github.com/Vchitect/ShotBench
7月16日
华人团队实现卡帕西预言!开源AI操作系统NeuralOS:成功模拟Windows,并预测下一帧屏幕图像!
当卡帕西在今年 5 月预言 “未来的图形用户界面(GUI)将是为每个用户量身打造的流动、魔幻、可交互的 2D 画布” 时,或许没人想到,这一构想会如此迅速地照进现实!
由滑铁卢大学和加拿大国家研究委员会的 5 位研究人员(其中 4 位为华人)联合开发的 NeuralOS,
通过神经网络直接模拟操作系统界面,实现了 “根据用户操作预测下一帧屏幕图像” 的核心能力,为下一代人机交互系统开辟了全新路径!
突破传统:用神经网络 画”出操作系统
传统操作系统的界面由固定代码逻辑驱动,按钮位置、窗口样式都是预设的;而 NeuralOS 彻底颠覆了这一模式 :它不依赖硬编码的界面规则,而是通过 AI 学习操作系统的运行逻辑,直接生成动态变化的屏幕画面。
其核心由两个模块协同工作:
循环神经网络(RNN):像 “系统记忆” 一样,实时跟踪计算机的状态变化,包括当前打开的软件、鼠标位置、光标状态等,确保对用户操作的响应连贯不脱节。
基于扩散的神经渲染器(Renderer):根据 RNN 记录的状态和用户操作(如点击 “浏览器” 图标、拖动窗口),生成对应的屏幕图像,包括窗口弹出、菜单展开、图标变色等视觉细节。
简单来说,当你移动鼠标时,RNN 会 “记住” 光标位置,渲染器则立刻生成光标移动后的画面;点击 “关机” 按钮时,RNN 捕捉到这一操作,渲染器便生成关机确认窗口 —— 整个过程如同 AI 在 “实时手绘” 操作系统界面。
实测表现:逼真度拉满,但仍有短板
目前,NeuralOS 的实测效果已展现出惊人潜力:
画面逼真:连续操作时,界面从桌面到打开文件夹、再到关闭窗口的变化,与真实系统几乎无异。
鼠标响应精准:移动鼠标时,光标位置与操作完全同步;点击图标(如 “关机” 按钮)能触发正确的反馈窗口。
状态转换可靠:启动应用、切换窗口等系统状态变化逻辑清晰,不会出现 “点计算器却弹出浏览器” 的混乱情况。
不过,它仍有明显局限:对键盘精细操作的处理能力较弱,尤其是快速打字时,可能出现字母顺序错乱或显示延迟。这也意味着,NeuralOS 目前更擅长处理视觉交互,对文本输入的实时性支持还需优化。
NeuralOS 的意义,远不止于 “模拟一个操作系统”。它证明了AI 可以动态生成符合用户习惯的交互界面,打破了传统操作系统 “界面固定、逻辑硬编码” 的桎梏。
未来,这种 “生成式神经接口” 或许能实现:
根据用户使用习惯自动调整界面布局(如频繁使用的软件图标自动前置);
为残障用户生成适配其操作方式的特殊界面;
甚至让 “操作系统” 摆脱屏幕限制,在 AR/VR 环境中生成三维交互空间。
目前,团队已推出在线体验版,用户可在蓝色框内通过鼠标点击、键盘输入与系统交互,并支持切换 “RNN 模式”“自动帧生成” 等功能。
在线Demo:https://neural-os.com/
开源地址:https://huggingface.co/papers/2507.08800
高中生独立开发!媲美 IDM 的开源下载神器 :Ghost-Downloader-3!
最近,一款名为 Ghost-Downloader-3 的开源下载器在网络上引起了广泛关注。令人惊讶的是,这款功能强大的下载神器竟是由一位高中生独立开发完成的。
它支持 Windows、macOS、Linux 三大主流平台,用 Python 编写,却拥有超越许多商业下载软件的性能。
尤其值得一提的是,它创新性地将 AI 技术融入其中,能够根据用户的网络状况自动调整下载策略,大幅提升下载效率。
功能特点:
多线程下载:智能分块下载+最多253线程,千兆宽带直接拉满,下载速度堪比飞起。
断点续传:网络抽风?软件闪退?随时暂停还能从断点继续,再也不怕白下。
AI智能加速:这款下载器的 AI 智能加速功能十分亮眼。它能够实时监测平均下载速度与单线程效率,并根据网络情况自动调策略,让速度一直保持在最好的状态,还能设全局限速,别让下载占太多网。
跨平台能用:Win/Mac/Linux全支持,连ARM架构都能跑,果粉和Linux党狂喜!
浏览器有扩展:Chrome 和 Firefox 都能装扩展,网页上的下载任务能直接交给它处理,特方便。
界面挺舒服:用了 Fluent Design 设计,看着清爽,操作也简单,新手也能很快上手。
Ghost-Downloader-3 仍在持续迭代:未来将引入 libtorrent 支持磁力 / BT 下载,新增插件系统以实现视频抓取等个性化功能,并优化浏览器扩展的协同体验。
其凭借免费无广告、功能强、技术新的优势,这款工具正成为用户首选。开发者将不断升级,若你受困于下载速度与稳定性问题,不妨试试这款开源神器。
GitHub:https://github.com/XiaoYouChR/Ghost-Downloader-3
7月15日
智源研究院开源全球领先具身智能项目:RoboBrain 2.0!10项评测痛打GPT-4o!
智源研究院正式推出具身智能领域里程碑式成果:通用具身大脑RoboBrain 2.0与全球首个具身智能SaaS开源框架RoboOS 2.0。
两大成果均以开源形式发布,引发全球技术社区热议。
其中32B版本凭借时空认知能力的突破,在多项权威基准测试中刷新纪录,为机器人从“单机智能”向“群体智能”演进提供关键技术路径。
攻克三大核心瓶颈
针对主流AI模型在物理场景中的三大瓶颈(空间理解精度不足、时间建模薄弱、长链推理欠缺),RoboBrain 2.0实现全面突破:
空间理解:精准点定位与边界框预测,三维空间关系推理与动态场景图构建。
时间建模:支持多步长期规划与闭环动态调整,多智能体行为协调能力。
长链推理:因逻辑提取与决策透明化,多步链式推理支持复杂任务分解。
性能表现:
训练方面,RoboBrain 2.0采用的是多模态数据集和分阶段训练策略。
RoboBrain 2.0基于全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令,能全面赋能机器人在具身环境中的感知、推理与行动能力。
RoboBrain 2.0使用智源自研的大模型训推一体框架FlagScale进行大规模分布式训练采用基础时空学习、具身时空增强、具身情境中的推理链训练三阶段递进式训练流程。
使模型能够生成推理链,支持复杂任务的逐步推理和决策,从而在具身情境中实现更高效、更准确的推理和规划能力。
时间推理:在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench (72.16)中,展现卓越长程规划、闭环反馈及多智能体协作能力,领页跑Qwen2.5-VL、Claude等模型。
RoboBrain 2.0 7B模型分别以83.95分和85.75分登顶BLINK和CV-Bench基准测试。RoboBrain2.032B模型在RoboSpatial、RefSpatial-Bench以及SAT、Where2Place和ShareRobot-Bench上实现SOTA突破!
RoboBrain2.07B模型在Multi-Robot Planning以81.50分拔得头筹RoboBrain2.032B以80.33分紧随其后;RoboBrain2.032B在Ego-Plan2(57.23分)登顶,大幅领先GPT-4o等基线;RoboBrain2.07B模型则在RoboBench以72.16分寺魁,双模型凭借优异表现刷新性能上限。
依托跨本体大小脑协作框架RoboOS2.0的多本体规划能力RoboBrain2.0已实现多智能体间协作执行任务,支持商超厨房居家等多场景部署。 RoboOS 2.0:https://github.com/FlagOpen/RoboOS
RoboBrain 2.0:https://github.com/FlagOpen/RoboBrain2.0
增强升级版FileBrowser!FileBrowser Quantum:极速、强大的开源文件管理利器!
今天,我要给大家介绍一个能让文件管理变得轻松又强大的开源神器:FileBrowser Quantum!
如果你经常被凌乱的文件、繁琐的服务器管理搞得头大,这款工具绝对能帮你省心省力!
它是由知名文件管理器 FileBrowser进行大幅改进而来,不仅界面更加直观友好,还加入了实时搜索,多文件源支持和 Office 文件预览等实用功能。让文件管理像“量子”一样快速高效。
完全免费开源,在GitHub已斩获2.7Kstar!
支持 Windows、Linux 和 macOS 系统,无论你是个人开发者还是团队协作,都能轻松上手。
功能特色:
统一管理多源文件:它能无缝整合本地硬盘、NAS、服务器目录等多种来源的文件,再也不用在不同路径间来回切换了。管理文件就像在一个界面里搞定一切!
安全登录更可靠:除了基础密码登录,还支持 OIDC 认证、二次验证和代理登录,大大提升了账户安全性,保护你的数据不被泄露。
现代界面,操作流畅:界面经过全面优化,布局更直观,视觉更清爽。操作起来行云流水,用户体验直接拉满!
超高效索引与搜索:索引速度快如闪电,输入关键词就能实时显示结果。还支持按文件大小、类型等过滤器筛选,找文件再也不用等!
浏览体验大升级:支持 Office 文档、视频等多种文件预览,切换视图或排序时无需刷新页面。文件夹大小一目了然,导航还能记住上次位置,超贴心!
开发者友好:提供强大的 API 支持,能创建长期有效的令牌,还有 Swagger 页面辅助开发,方便你定制扩展功能。
全新设计UI:采用三部分简易导航界面设计,左侧为多操作按钮与弹出面板;中间为强大的实时搜索框,可秒搜海量文件;右侧为视图切换,支持列表/缩略图、排序一键切换而无需刷新。全局操作菜单和上下文菜单布局合理,极大提升了用户操作的直观与便利性。
适用人群:
个人用户: 想随时随地访问家中电脑文件的人;需要简单管理树莓派/Small PC 文件的人;追求数据隐私和掌控感的人。
家庭用户: 方便家人之间共享照片、视频、文档。
小型团队/工作室: 快速搭建内部轻量级文件共享平台,协作分发素材、文档。
NAS 用户: 为 NAS 提供一个更轻快、更易用的 Web 文件管理界面。
开发者/极客: 远程管理服务器文件、查看日志、编辑配置的利器。
FileBrowser Quantum 让文件管理从“折磨”变成“享受”,它继承了原版的精髓,又注入了新活力。
GitHub:https://github.com/gtsteffaniak/filebrowser
7月14日
Kyutai 开源超低延迟TTS项目!Kyutai TTS:助力多语言实时交互!
Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音技术。
它是创新的语音合成系统,能实时将文本转换为自然流畅的语音,无需等待完整文本输入即可开始生成音频,延迟极低(仅220毫秒)。
主要功能:
流式文本传输:支持文本流式传输,无需完整文本即可开始生成音频,适合实时交互场景,如智能客服、实时翻译和直播。
低延迟:在单块 NVIDIA L40S GPU 下,Kyutai TTS 可同时处理 32 个请求,延迟仅为 350 毫秒,能快速响应大量用户需求。
高保真声音:支持通过 10 秒音频样本进行声音克隆,生成的语音自然流畅,说话者相似度达到 77.1%(英语)和 78.7%(法语),单词错误率(WER)分别为 2.82% 和 3.29%。
长文本生成:突破传统 TTS 系统 30 秒的限制,能处理长篇文章,适用于新闻播报和有声读物等场景。
语言支持:目前支持英语和法语。
技术原理
延迟流建模(DSM):DSM 是 Kyutai TTS 的核心架构,将语音和文本视为两个时间对齐的数据流。文本流相对于音频流延迟几个时间帧,使模型能“看到未来一点的语音”,提高生成语音的准确性和自然度。在推理过程中,模型按时间步前进,无需等待完整的音频输入,使流式生成成为可能。
音频编解码器:模型使用自定义的因果音频编解码器(如 Mimi),将语音编码为低帧率的离散标记,支持实时流式处理。使模型能在保持高质量语音输出的同时,实现高效的实时生成。
单词时间戳:Kyutai TTS 生成的语音中每个单词都带有精确的时间戳,这使得实时字幕生成和交互式应用成为可能。
应用场景
智能客服:Kyutai TTS 的低延迟特性在智能客服场景中当用户提出问题时,系统能即时生成语音回应,无需等待用户说完完整内容,大大提升了交互效率和用户体验。
实时翻译:在跨国商务洽谈、国际学术交流等场景中,Kyutai TTS 可以将翻译后的文本快速转化为语音,实现无缝沟通。
教育领域:Kyutai TTS 可为视障人士提供高质量的文本朗读服务,帮助他们更好地获取信息。可以用于在线教育平台,为学生提供生动的教学内容,提升学习体验。
媒体制作:Kyutai TTS 能处理长篇文章的语音生成,适用于新闻播报、有声读物制作等场景。
语音导航:Kyutai TTS 的高并发处理能力能支持车载导航、公共交通语音提示等场景,为用户提供清晰、及时的语音播报。
GitHub:https://github.com/kyutai-labs/delayed-streams-modeling
开源AI证件照处理神器!LiYing:一键搞定抠图、换背景、排版!
相信大家自己都被证件照后期抠图、换背景、裁切、排版等多重步骤折磨过,
所以今天就给大家介绍一款AI证件照自动化工具处理的开源项目:LiYing!
支持完全离线运行,保护隐私,无需上传敏感照片,并且上传原图→输出排版相纸,全程无需人工干预!
适配个人自拍、照相馆、企业批量处理等场景。
主要功能:
人脸精准定位:基于 Yunnet 模型自动识别人脸并纠正角度,消除歪头、侧脸等问题。
智能背景替换:使用 RMBG-1.4/2.0 模型进行主体识别,支持替换成任意背景色,告别绿幕拍摄,普通自拍即可生成纯色底证件照。
姿态合规校验:集成 YOLOv8 姿态识别,自动检测肩线水平度与身体居中位置。
多尺寸智能裁切:预置 1寸、2寸等 12 种常用规格,支持自定义尺寸参数,自动适配签证/简历/考试等场景需求。
效率革命:从小时级到分钟级
批量处理:同时生成同一照片的不同尺寸版本。
自动排版:将多张证件照智能排列至 6寸/7寸相纸,直接送印。
压缩优化:内置 AGPicCompress 算法,精准控制输出文件大小。
一位连锁照相馆技术主管反馈:“LiYing的批量处理功能节省了70%后期时间,特别是自动排版功能避免了人工计算失误。”
应用场景:
在实际应用场景中,LiYing展现出惊人的效率提升:
个体照相馆:处理单张照片从传统Photoshop操作的5-10分钟缩短至10秒内,背景替换和排版全自动完成。
企业人事部门:批量处理员工证件照,一条命令处理整个文件夹。
证件照自助服务:搭配简单拍摄设备即可建立离线证件照服务站,避免第三方服务隐私风险。
项目明确标注适用边界:仅处理符合规范的单人肖像照片。复杂背景或多人合影可能出现非预期结果,这与其专注证件照处理的定位一致。
GitHub:https://github.com/aoguai/LiYing
7月9日
昆仑万维开源多模态推理模型Skywork-R1V 3.0!MMHU评测76分刷新开源纪录,直逼人类专家水平!
在人工智能领域,开源技术的每一次突破都在重新定义可能性边界。近日,昆仑万维开源的Skywork-R1V 3.0在权威基准测试MMMU中,其76.0分的成绩不仅超越Claude-3.7-Sonnet(75.0)和GPT-4.5(74.4),更逼近人类初级专家水平(76.2分)。
更引人注目的是,它在2025年高考数学新一卷中斩获142分,解题能力直逼Gemini 2.5 Pro等闭源模型。
技术突破
相较于单纯堆砌参数量,Skywork-R1V 3.0的创新在于通过"小数据撬动大能力"的训练策略。研发团队采用三大核心技术实现推理能力的质变:
GRPO强化学习:跨模态迁移的加速器 基于上一代模型蒸馏数据的"冷启动",结合强化学习算法GRPO,模型成功实现推理能力在文本与视觉模态间的迁移。仅需1.2万条监督微调样本与1.3万条强化学习样本,即可在物理公式推导、逻辑悖论分析等任务中展现专家级思维链。
连接器微调:跨学科知识的均衡器 针对早期训练中出现的数学领域偏好问题,团队通过1万条多学科样本对连接器进行定向优化,使模型在人文艺术、工程设计等领域的表现提升37%。
实测案例
Skywork-R1V 3.0的"全能"特性在多个垂直场景得到验证:
医疗领域:结合患者病史与CT影像,模型可区分肝血管瘤与肝癌的特征差异,提供包含影像学依据的初步诊断建议。
教育场景:针对中学物理的复杂受力分析题,模型不仅能列出公式,还能通过可视化推导过程解释"摩擦力方向判定"等易错点。
文化遗产保护:在分析敦煌壁画时,模型能识别颜料褪变程度、笔触技法等细节,并结合历史文献推测创作年代。
值得关注的是,模型在保持高性能的同时兼顾效率。相较前代产品,其推理速度提升6倍,思维链长度压缩至1/6,显著降低算力消耗。这种"快而准"的特性,使其在实时交互场景(如智能客服、个性化教育)中更具实用价值。
性能表现:
视觉推理领域,Skywork-R1V 3.0同样亮眼——在EMMA-Mini(CoT)、MMK12等测试中,表现优于参数量更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型。
尤其在物理与逻辑推理方面,其能力较前代显著跃升:PhyX、MMK12等测试中,它超越Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等闭源模型及Qwen 2.5等开源模型;
在物理概念理解、图文复杂问题分析等细分场景(如PhyX-MC-Text-Minimal、SeePhys测试集),更领先谷歌、OpenAI旗下模型。
综合来看,Skywork-R1V 3.0通过文本推理与视觉推理的融合,实现了跨模态、跨学科的泛化能力,这标志着昆仑万维在大模型表征学习目标上迈出关键一步。
GitHub:https://github.com/SkyworkAI/Skywork-R1V
一款开源跨平台的划词翻译神器:Pot!整合20+引擎与OCR识别!
在这个信息无国界的时代,语言障碍仍是许多用户面临的挑战。
今天就给大家安利一款非常实用开源项目 :Pot!
这款由Rust与JavaScript双引擎驱动的工具,已在GitHub斩获13.8K星标。它通过极简设计整合划词翻译、OCR识别与多引擎支持,成为阅读、写作与外语学习的效率利器。
功能特点
传统翻译工具的困境在于功能割裂:划词翻译依赖本地引擎,OCR识别需要额外操作,多引擎对比更是繁琐至极。Pot的革命性在于将三者无缝融合:
零感知划词翻译:选中文本瞬间弹出悬浮窗,支持20+翻译引擎并行比对(包括OpenAI Whisper的实时语音转写)
剪切板监听模式:在任意翻译面板上点击左上角图标启动剪切板监听默认,复制文字即可完成翻译。
智能OCR双通道:一键截图即可调用系统原生OCR(Windows/Mac)或Tesseract.js,对代码片段、数学公式等复杂排版识别准确率达98.7%
跨平台支持:兼容 Windows、macOS、Linux,界面简洁,操作一致。
多语言界面:支持中文、英文等多语言界面,国际化体验友好。
开发者@coderLuna的实测显示:在调试跨国协作代码库时,Pot的并行翻译功能使其文档阅读效率提升4倍,而OCR组件精准识别日语技术文档中的平假名片假名混合文本,避免了传统工具的乱码困局。
应用场景
科研学者:高效翻译外文文献,OCR识别扫描版论文图表;
开发者:技术文档双语对照阅读,代码注释实时翻译;
语言学习者:生词自动收集至Anki,结合语音强化记忆;
隐私敏感用户:离线模式避免数据上传,本地处理更安心。
作为开源工具,Pot将翻译、识别、管理三大场景熔于一体。其轻量化设计既满足了即用型需求,又为高阶用户预留了深度定制空间作为开源工具。
GitHub:https://github.com/pot-app/pot-desktop
7月8日
开源的微信虚拟人框架:luoyun_project!人人都能做自己的虚拟人!
在数字化浪潮席卷的当下,虚拟人技术正逐渐走进大众视野。而 luoyun_project 的出现,为普通人接触和打造属于自己的微信虚拟人提供了便捷的途径。
对话通信能力
输入处理(微信端):
隐私优先原则:所有多媒体输入仅过模型不留存,从机制上杜绝数据泄露风险。
输出控制(微信端):
核心内容
作为一个旨在 “让每一个人都可以做自己的虚拟人” 的开源框架,luoyun_project 的项目设计既兼顾了技术的实用性,又充分考虑了普通用户的上手难度,其核心内容可从方案架构、能力覆盖和开源特性三个维度展开:
一、轻量化的部署方案,降低技术门槛
项目在 GitHub 公开的部署方案并非复杂的大型系统架构,而是一套轻量化、可落地的实操指南。无论是具备基础编程知识的技术爱好者,还是零代码经验的新手,都能按照文档中的步骤逐步推进 —— 从环境配置、依赖安装到核心模块启动,每一步都有清晰的说明。
这种 “傻瓜式” 的部署逻辑,打破了传统虚拟人开发中 “技术壁垒高、部署成本大” 的痛点,让用户无需组建专业开发团队,仅通过个人设备就能完成从 0 到 1 的搭建。
二、多场景的能力覆盖,满足多样化需求
从项目理念和视频教程的演示来看,luoyun_project 的核心能力并非局限于单一功能,而是围绕 “虚拟人互动” 构建了一套灵活的功能体系:
基础互动功能:支持文本对话、指令响应等基础交互,可模拟真人的沟通逻辑,让虚拟人具备自然的交流能力;
个性化定制空间:用户可根据自身需求调整虚拟人的人设、回复风格甚至功能模块,例如将其打造成 “工作助手”“学习伙伴” 或 “生活陪伴者”;
日常与朋友圈:每天角色都会进行一个日常生活的一个生成,然后框架会进行这个朋友圈的制作。
然后管理员可以决定这个图片,是不是要保留;以及手动发把这个朋友圈给发动发送出去。
扩展性预留:框架设计中预留了功能扩展接口,技术进阶用户可基于现有架构开发更复杂的功能,如接入语音识别、图像生成等模块,进一步丰富虚拟人的表现形式。
三、完全开源的共享模式,鼓励共创共赢
项目的 “public” 属性不仅体现在代码公开上,更传递了 “开放协作” 的理念。用户在部署过程中遇到问题时,可通过 GitHub 的 issue 板块交流讨论;若对框架有优化建议或功能补充,也能通过提交代码贡献自己的力量。
可以说,luoyun_project 的项目设计始终围绕 “人人可用” 的核心目标,既提供了 “拿来就能用” 的便捷性,又保留了 “想改就能改” 的灵活性,为不同需求、不同技术水平的用户搭建了一条通往虚拟人创作的可行路径。
GitHub:https://github.com/PeterZhao119/luoyun\_project
公开文档:https://hqexj12b0g.feishu.cn/docx/QlgJdSU6VodvsqxHcSlcopjtnSQ?from=from\_copylink
FusionX模型重磅开源!整合Wan生态核心功能,生成电影级AI视频!
今天给大家介绍一款堪比闭源模型的wan2.1-FusionX模型!
可以将它理解为Wan2.1 T2V和I2V的升级增加版,它不仅拥有更快的生成速度,还有更高的视频生成质量,以及是够好的视频运动效果。
具体改进
1、增加CausVid,它允许我们用很低的采样频数生成高质量的视频。
理论上FusionX可以用6步左右生成视频,但实际上需要8-10步才可以生成高质量的视频,这个速度比原先需要20多步才能生成的速度要快出不少 了。
2、增加了AccVideo,增强了视频时间对齐和现实感,同时也具有加速视频的能力。
3、增加MoviiGen1.1,它可以让生成的视频带有电影般的流畅感和光照效果。
4、加入MPS Reward lora,根据运动动态和细节进行调整
5、加入Custom lora,专注于纹理、清晰度和细微细节。(这两个设置都设定为非常低的强度,影响很小。)
技术革新
FusionX通过深度融合多项核心技术,实现了质的飞跃:
运动建模升级:集成CausVid的因果运动预测与AccVideo的时空对齐技术,显著提升场景流动感和戏剧张力。
画质强化体系:引入MoviiGen1.1的电影级光照算法与MPS Reward LoRA的运动细节优化模块。
功能扩展矩阵:完美兼容VACE、Phantom等主流模型,提供从动作参考到多图融合的全流程解决方案。
效率优化策略:通过创新架构设计,将传统12步工作流压缩至6步完成,渲染速度提升达50%。
系统整合特性
模型架构:基于Wan2.1 14B T2V基础模型,整合超过15种专项优化模块。
兼容性表现:原生支持VACE全系功能(含动作捕捉/视频扩图/多图融合等五大模块)。
性能参数:在保持1080p分辨率下,实现每秒24帧的流畅输出,显存占用仅需12GB。
应用场景
• 文生视频:2分钟生成1280P高清视频(实测案例:丛林狙击手题材)
• 图生视频:121帧序列实现50%速度提升(适用运动场景增强)
• VACE五件套:涵盖动作捕捉/视频扩图/多图融合等核心功能 • Phantom融合:支持多图素材智能合成(成功率约78%)
FusionX的出现标志着Wan生态从分散式工具向集成化平台的跨越式发展。其技术整合策略不仅提升了创作效率,更通过模块化设计实现了:
降低83%的模型管理成本
提升76%的内容产出速度
保证专业级视觉表现力
开源地址:https://huggingface.co/vrgamedevgirl84/Wan14BT2VFusioniX
7月7日
两张照片,AI重建你的3D世界!清华开源LangScene-X突破空间智能极限!
清华大学计算机系团队最新开源了LangScene-X项目!
让AI首次具备了这种“空间想象力”:仅凭两张稀疏角度的照片,就能重建出包含几何结构、物体语义的三维世界,并响应“帮我找到毛绒熊”这样的自然语言指令。
技术突破:
TriMap视频扩散模型
系统核心是一个同时生成RGB图像、法线图和语义分割图的视频扩散引擎。其训练采用四阶段渐进策略:
阶段一:海量网络视频训练基础生成能力。
阶段二:万级3D一致视频微调,学习空间几何约束。
阶段三:注入200段法线视频,理解表面曲率与深度。
阶段四:300段标注视频强化语义理解,建立“物体-概念”关联。
这种训练使模型在仅2张输入时,法线与RGB一致性误差降至8.1°,语义掩码边界准确率提升63%。
三维语言场重建
基于DUSt3R初始化的点云,系统通过渐进法线正则化分阶段优化几何结构,自动过滤低置信区域。语义融合环节则引入双重约束:
2D层面:保证同一物体在不同视角下语言特征一致。
3D层面:基于熵的聚类算法使相似特征向物体表面聚集。
最终生成的“语言表面场”中,“冰箱”查询的激活区域与真实表面重合度达91.7%,远超传统方法的65.3%。
性能表现:
在权威数据集测试中,LangScene-X展现出碾压性优势:
在LERF-OVS数据集上,LangScene-X的整体mAcc达80.85%,mIoU达50.52%,较最优基线分别提升31.18%和10.58%;在ScanNet上,整体mIoU更是达到66.54%,超越现有方法14.92%。
更惊人的是可视化效果:其对“橱柜”等复杂物体的分割边界锐利度甚至超过人工标注。
LangScene-X的突破不仅在于技术参数,更在于打通了视觉感知与语言理解的“任督二脉”,让AI真正学会用人类的方式理解世界。
技术论文:https://arxiv.org/abs/2507.02813
项目主页:https://liuff19.github.io/LangScene-X/
GitHub:https://github.com/liuff19/LangScene-X
Radial Attention:让AI视频生成速度飙升3.7倍,并保证视频质量!
麻省理工学院联合NVIDIA、普林斯顿大学等顶尖机构的研究团队,在2025年6月发布了一项名为Radial Attention的革命性技术。这项研究解决了AI视频生成领域长期存在的计算效率瓶颈。
通过模拟自然界中普遍存在的能量衰减规律,研究人员设计出一种创新的注意力机制。在标准视频长度下,它能将生成速度提升1.9倍;而当生成4倍长度视频时,训练成本直降4.4倍,推理速度飙升3.7倍。
核心创新:静态指数衰减掩码
Radial Attention的核心是一个精心设计的静态注意力掩码,其工作原理可通过三个维度理解:
空间邻近原则:每个token只关注空间位置邻近的其他token,大幅减少空间维度的无效计算。
时间衰减窗口:随着时间距离增加,注意力窗口按指数规律收缩。时间间隔Δt,窗口大小W满足:W ∝ e^(-λΔt),其中λ为可学习的衰减系数。
静态高效特性:与动态稀疏注意力不同,这种掩码是预定义且静态的,无需运行时决策,消除了计算开销。
速度与成本的双重突破
在生成标准长度视频(如4秒)时,Radial Attention实现1.8倍的推理加速——原本需要20分钟的任务缩短至约10分钟。
当挑战4倍视频长度(16-21秒)时,其优势更为显著:
训练成本直降4.4倍:传统方法需要1000美元的计算成本,Radial Attention仅需约230美元。
推理速度飙升3.7倍:10小时生成任务缩短至2.7小时。
内存消耗锐减:注意力内存占用减少9倍,使长视频生成在消费级硬件上成为可能。
应用场景:
Radial Attention的突破性不仅体现在技术参数上,更在于其实际应用前景。随着计算成本的大幅降低和生成长度的显著增加,这项技术有望在多个领域引发变革。
行业应用前景广阔
影视制作:低成本生成高质量动画分镜,使独立制片人能够创作原本需要大型工作室资源的作品。
教育内容:教师可快速生成历史场景再现或科学过程演示视频,将抽象概念可视化。
营销领域:中小企业能够根据产品特点实时生成个性化广告视频,无需专业制作团队。
机器人导航:家用机器人通过两张环境照片构建空间语义地图,精准执行“清洁餐桌”等指令。
考古数字化:仅凭遗址残存结构的局部照片,即可重建完整三维动态模型。
GitHub:https://github.com/mit-han-lab/radial-attention/
7月6日
通义实验室开源Web Agent 项目!WebSailor:大幅提升复杂网页推理能力!
通义实验室 RAG 团队推出了最新研究成果 WebSailor!
这是一个大型语言模型驱动的自主网页浏览智能体。它的核心目标在于:理解用户以自然语言提出的复杂任务指令,然后像人类用户一样操作网页浏览器,通过点击、输入、导航等交互,一步步完成任务目标,并最终给出准确的结果或报告!
核心能力与技术亮点
理解与规划: 基于强大的通义千问等大语言模型,WebSailor 能够深度理解用户复杂的、多步骤的意图,并将其分解成可执行的浏览操作序列(Plan)。
网页感知与交互:
多模态理解: 它不仅理解网页文本,还能理解 HTML 结构、链接、按钮、表单等视觉和功能元素,构建对网页的“认知地图”。
精准操作: 能够模拟人类点击、输入文本、选择下拉菜单、滚动页面等交互行为,与网页进行有效“沟通”。
信息提取与整合: 在执行过程中,它能从复杂的网页内容中精准识别、定位并提取所需的关键信息,并将分散在多步骤、多页面中的信息进行有效整合和结构化。
多轮任务处理: 能够处理需要跨越多个页面、甚至多个网站才能完成的复杂任务,具备任务状态的记忆和延续能力。
鲁棒性与适应性:具备一定的错误恢复和容错能力(如处理页面加载失败、元素定位变化),并能适应不同网站的不同布局和交互逻辑。
主要功能
复杂任务数据合成:WebSailor 使用 SailorFog-QA 方法生成高不确定性的复杂任务数据,模拟真实世界中信息搜索的复杂场景。
多轮工具调用与推理重构:借助开源推理模型,WebSailor 能进行多轮工具调用,重构推理过程,高效处理复杂问题。
强化学习算法:采用 DUPO 算法,通过动态采样策略优化训练效率,显著提升模型的决策能力。
性能表现:
WebSailor 在 BrowseComp,BrowseComp-zh,Xbench-DeepSearch,GAIA 等四个高难度 agent benchmark 上与一系列开闭源模型和 agent 进行了比较,结果如下图所示:
在四个任务上 WebSailor 都超越了所有开源的模型和 agent,其优势在极具挑战性的 BrowseComp-en 和 BrowseComp-zh 基准测试上表现得尤为突出。
对简单任务兼容性的测试表现:几乎所有基于智能体的方法的表现都优于直接回答,而 WebSailor 超越了所有其他方法,展现了其在简单任务上的兼容性和高效性。
此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个挑战BrowseComp基准的开源网络智能体。
开源意义:
降低研发门槛:让全球开发者免费获取先进框架,避免从零开发,加速 AI Agent、人机交互等领域的研究和应用。
促进协作创新: 开放代码鼓励社区贡献,开发者可扩展优化、适配场景(如电商比价、科研收集),探索新交互,推动技术迭代。
推动标准与安全:有助于建立透明、安全的开发标准,社区可共同制定伦理规范和安全边界,促进技术负责任发展。
验证提升模型能力: WebSailor 是测试大模型(LLM)理解、推理、规划和工具调用能力的绝佳场景,开源提供的真实反馈助力模型持续优化。
GitHub:https://github.com/Alibaba-NLP/WebAgent
OCRFlux-3B:轻量化、高精度的开源文档解析工具,支持跨页表格/段落合并!
OCRFlux-3B 是一款基于 3B参数多模态大语言模型 的开源OCR工具包,专为将 PDF 文档和图像转换为结构清晰、可读性强 Markdown文本 而设计。
它在处理复杂文档布局、跨页内容及高质量表格解析方面表现出色,显著优于现有开源和商业 OCR 工具。
功能特点
单页处理
支持多列布局、图表、插图,并按自然阅读顺序输出
自动识别并保留复杂表格、公式等结构
智能去除页眉、页脚干扰
支持跨段落/表格片段合并
跨页处理
表格跨页自动检测与合并(支持重复表头、单元格跨行等)
段落跨页拼接,避免内容断裂
高效轻量级模型
模型规模:仅使用 3B 参数 的多模态视觉语言模型(VLM)。
运行要求:可在 RTX 3090 或同等显卡 上流畅运行。
推理速度:比传统 7B 模型快 3 倍以上,兼顾精度与效率。
性能表现:
OCRFlux-3B 在GTX3090GPU上处理速度比7B参数的基线模型还要快上3倍。
在OCRFlux-bench-single基准测试的EDS指标,中英文场景下都超过了oImOCR-7B-0225-preview、Nanonets、MonkeyOCR。
在OCRFlux-bench-single 基准测试中表现优异:
在 OCRFlux-pubtabnet-single 基准测试中的 HTML 表格生成效果:
OCRFlux-bench-cross 基准测试结果(跨页检测性能):
OCRFlux-3B以 “小参数+高精度”颠覆传统OCR范式,其跨页合并能力填补行业空白,而本地化部署进一步拓展了应用边界。作为开源社区的新锐力量,它既为开发者提供企业级文档解析工具箱,也为多模态大模型的轻量化实践树立标杆。
在线体验:https://ocrflux.pdfparser.io
GitHub:https://github.com/chatdoc-com/OCRFlux
模型下载:Hugging Face@ChatDOC/OCRFlux-3B
7月5日
最强AI程序员!字节开源Trae-Agent:自动写代码、修Bug全搞定!
近日,字节跳动正式宣布开源其AI原生集成开发环境Trae的核心引擎:Trae-Agent!
这一动作如同在开发者社区投下一枚技术核弹:短短数日,GitHub仓库星标激增2K!
主要功能:
自主运行与代码库探索:能独立探索代码库,识别相关文件并进行必要修改。
多模型支持:兼容 OpenAI、Anthropic 等多种大语言模型,安装配置简便,灵活适配不同开发需求。
强大的工具集成:内置文件编辑、脚本执行等工具,支持多轮交互,满足复杂编程场景。
多步骤任务规划:将复杂任务拆分为可执行的步骤,并按顺序逐一处理。
上下文理解能力:
支持
#Web上下文,自动联网搜索并提取网页内容。支持文档上下文,可上传或通过 URL 添加最多 1000 个
.md/.txt文件。支持多类型输入,如 Figma 链接、产品原型文档等。
任务编排与自动化:结合 MCP 能力,实现复杂任务的自动化工作流,包括任务分解、资源分配、执行监控和结果整合。
代码生成与优化:支持自然语言描述生成代码,自动补全代码,提供实时预览和调整功能。
技术突破:
传统编程辅助工具如Copilot仅停留在“代码补全”层面,而Trae-Agent实现了从局部辅助到全局自治的跨越。其核心架构直击开发者三大痛点:
多模型自由切换引擎:打破单一模型局限,无缝兼容OpenAI、Anthropic及字节自研模型。开发者可根据任务特性灵活调度最适合的AI大脑,如同拥有了一支随时待命的“模型舰队”。
动态任务分解中枢:基于ReACT(Reasoning and Acting)框架,将复杂需求拆解为可执行链。例如输入“优化数据库查询”,系统自动引导:分析现有查询→定位性能瓶颈→生成优化方案→实施修改。
全链路审计追踪:每次操作生成完整日志(LLM交互记录、工具调用详情、资源消耗),调试效率提升40%。这意味着开发者不再面对“黑箱AI”,每个决策都可追溯。
更革命性的是其MCP协议支持——通过标准化接口连接Figma、Blender等外部工具,实现“设计图转代码”“数据库操作”等跨域协作!
应用场景
日常开发:生成贪吃蛇游戏demo,传统手动开发需数小时,Trae-Agent仅需一条指令
trae-cli run "生成贪吃蛇游戏",2-5分钟完成,效率提升90%。团队协作:采用色彩标记的补丁选择策略(语法投票+多Agent验证),使代码合并冲突减少35%。AI确保不同成员提交的代码保持风格统一。
复杂系统维护:当接到“修复支付模块并发漏洞”任务时,Agent自主完成:定位相关文件→分析线程安全→插入锁机制→生成测试用例,全程无需人工介入。
这种能力源于其独特的动态全局-局部记忆机制。全局记忆模块像资深架构师把握系统全景,局部记忆如专注的程序员处理即时任务,两者协同攻克了长期困扰AI编程的“上下文遗忘”难题。
GitHub:https://github.com/bytedance/TRAE-agent
中科大开源LongAnimation:突破AI长动画上色难题,实现500帧色彩的一致性!
传统动画制作中,上色环节需要动画师手工为每一帧画面填色,一部10到30秒的短片往往需要数百小时的重复劳动。现有AI上色技术虽能处理短片段,但在长动画中却像个“健忘的画家”,总是忘记之前用过的颜色。
于是中国科学技术大学团队开源了LongAnimation项目,直指长动画色彩一致性这一行业痛点。
核心架构:
LongAnimation系统由三个精密配合的核心组件构成,共同确保色彩在时间轴上的稳定传递:
SketchDiT特征提取器:同时消化参考图像、线稿草图和文字描述,为色彩记忆提供基础。这个模块能理解“在森林中”的文本提示,并生成相应背景,同时保持角色色彩稳定。
动态全局-局部记忆模块(DGLM):系统大脑所在。它采用长视频理解模型压缩历史片段,智能提取与当前生成内容最相关的色彩特征,而非简单复制颜色。当生成新片段时,DGLM动态融合历史特征与当前参考特征1。
色彩一致性奖励机制:在训练后期介入,专门优化色彩准确性。消融实验证明,这一机制带来10.5%的帧相似度提升和8.0%的视频质量提升。
性能突破:
在14帧短期动画上,色彩相似度指标比现有最佳方法提升57.1%,视频质量提升35.1%。
在500帧长动画上,色彩相似度提升58.0%,视频质量提升49.1%。
处理长度达传统方法5倍(500帧 vs 通常100帧),低频信息(色彩特征)衰减率降低8.2%。
频域分析揭示了技术优势的本质:LongAnimation在保持低频信息(对应色彩特征)方面表现卓越,500帧长动画中色彩衰减率显著低于同类方案。
系统还能智能处理黑暗场景的亮度细节。研究团队发现,在去噪后期进行色彩融合,既能保证片段间平滑过渡,又不影响暗场景的视觉特征。
当LongAnimation处理500帧长动画时,色彩衰减率比次优方法降低8.2%,这个数字背后是无数动画师被解放的创造力。
这项技术已在GitHub开源,等待全球开发者共同扩展其边界。从视频风格转换到复杂角色一致性维护,动态记忆机制正跨越动画领域,重塑整个数字内容创作流程。
GitHub:https://github.com/CN-makers/LongAnimation
7月4日
开源大语言模型原理与实践教程!Happy-LLM:手把手教你从零构建大模型|附PDF地址
一份名为《Happy-LLM》的开源教程在GitHub狂揽7.1Kstar,成为中国AI开发者社区的现象级项目!
它是由Datawhale团队打造的教程,旨在帮助学习者从零开始构建一个参数大小为 215M 的大模型!
Datawhale社区在推出《self-llm:开源大模型食用指南》后,大量学习者反馈渴望深入理解模型底层原理。于是他们决定推出《Happy-LLM》项目,帮助大家深入理解大语言模型的原理和训练过程。
项目设计直击学习痛点:
前置知识衔接:专为中文学习者优化,从Python基础到Transformer架构层层递进。
全流程覆盖:包含预训练、微调、RAG应用全链路,突破“只会调API”的局限。
免费开源防倒卖:PDF版本添加不影响阅读的水印,阻击营销号贩卖。
这种“授人以渔”的理念,让它迅速成为大学生和算法工程师口中的“LLM圣经”。
Happy-LLM绘制了Decoder-Only架构的清晰演进路线:
并特别剖析了中文代表GLM系列的创新:其混合预训练任务融合MLM的遮蔽思想和CLM的自回归预测,使单一模型同时适配生成与理解任务。
对于渴望深入AI底层原理的学习者,《Happy-LLM》完整版PDF,或许正是通往未来的第一级阶梯!
开源地址:https://github.com/datawhalechina/happy-llm
PDF地址:https://datawhalechina.github.io/happy-llm/#/
AI浏览器开源!Nxtscape :可直接本地运行AI Agent!
Nxtscape 是基于 Chromium 的开源浏览器,主打本地 AI Agent和隐私保护。
用户可以在设备上直接运行 AI 自动化任务(如填表、会议调度)。
并且Nxtscape支持 Ollama 本地模型,兼容所有 Chrome 扩展!
主要功能:
本地 AI Agent:本地 AI Agent让用户在设备端自动完成表单填写、会议调度等重复任务,数据全程不离开本地。
语义搜索:基于向量数据库索引浏览器历史、书签和标签页,实现意图级智能检索。
ChatGPT 书签器:一自动解析网页内容并生成摘要,帮助用户高效整理和归档信息。
Ollama 支持:支持用户离线运行本地大模型,无需依赖云端服务即可调用 AI 能力。
Chrome 扩展兼容:无缝迁移所有现有 Chrome 扩展。
技术原理:
架构:基于 Chromium 内核,保留全部扩展生态与渲染能力。在浏览器进程外新增 Agent Runtime(Rust + WASM),负责加载、调度、执行 AI 模型与 MCP(Model Context Protocol)插件。
模型运行方式:默认使用 Ollama 在本地加载开源模型,模型权重与推理完全在本地完成,数据不离开设备。支持接入 OpenAI、Anthropic 等云端 API,所有 API key 由用户自行管理,Nxtscape不做任何数据留存。
隐私机制:浏览历史、Cookie、表单数据等均保留在本地 SQLite 数据库,与 Chromium 同源策略保持一致。任何 AI 推理请求默认走本地模型,若用户主动调用云端 API,Nxtscape仅传输用户显式选中的文本或 DOM 片段,不做额外抓取。
应用场景:
办公自动化:基于本地AIAgent自动完成表单填写、会议调度和邮件回复等重复性办公任务,显著提升工作效率。
深度研究:基于语义搜索和ChatGPT书签器,快速聚合、摘要和归档海量网页信息,帮助用户高效完成学术或市场调研。
社交媒体管理:AIAagent自动扫描LinkedIn、Twitter等平台,筛选高价值内容并生成互动建议,助力个人或企业品牌运营。
隐私安全浏览:结合本地Ollama模型与AI广告拦截器,在屏蔽广告的同时确保所有浏览数据不出设备,满足高隐私需求场景。
GitHub:https://github.com/browseros-ai/BrowserOS
7月3日
字节跳动开源XVerse:可精准控制多主体图像生成,告别多角色控图翻车!
XVerse是字节跳动智能创作团队开源的新型多主体控制图像生成模型。
模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。
主要功能
多主体控制:XVerse能同时控制多个主体的身份和语义属性,例如在一张图像中同时控制多个人物的身份、姿势、风格等,实现复杂的场景生成。
高保真图像合成:生成的图像具有高保真度,精确地反映文本描述中的细节和语义信息,同时保持图像的整体质量和一致性。
语义属性控制:支持对语义属性(如姿势、风格、光照)进行精细控制,实现对图像风格和氛围的灵活调整。
强大的可编辑性:用户基于简单的文本提示对生成的图像进行编辑和调整,实现个性化的图像创作。
减少伪影和失真:引入VAE编码图像特征模块和正则化技术,XVerse能显著减少生成图像中的伪影和失真,提高图像的自然度和视觉效果。
技术原理
文本流调制机制(Text-stream Modulation Mechanism):将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确控制。偏移量被添加到模型的文本嵌入中,在不干扰图像潜在变量或特征的情况下,实现对生成图像的精细控制。
VAE编码图像特征模块:为增强生成图像的细节保留能力,XVerse引入VAE编码的图像特征模块。图像特征模块作为辅助模块,帮助模型在生成过程中保留更多的细节信息,减少伪影和失真。
正则化技术:基于随机保留一侧的调制注入,强制模型在非调制区域保持一致性。正则化主体特定的特征,作为多主体数据集的数据增强策略,提高模型在多主体场景中的区分和保持主体特征的能力。
训练数据:XVerse用高质量的多主体控制训练数据集进行训练。数据集基于Florence2进行图像描述和短语定位,使用SAM2进行精确的人脸提取,构建包含多种主体和场景的高质量训练数据。
项目官网:https://bytedance.github.io/XVerse/
GitHub:https://github.com/bytedance/XVerse
7月2日
迈向通用多模态推理!智谱开源 GLM-4.1V-Thinking,登顶10B级别性能巅峰!
今天,智谱正式发布并开源 GLM-4.1V-9B-Thinking 模型!
并且智谱 MaaS 开发平台 bigmodel.cn 同步上线 GLM-4.1V-Thinking-FlashAPI。
与上一代的 CogVLM2 及 GLM-4V 系列模型相比,GLM-4.1V-Thinking 有如下改进:
系列中首个推理模型,不仅仅停留在数学领域,在多个子领域均达到世界前列的水平。
支持 64k 上下长度。
支持任意长宽比和高达 4k 的图像分辨率。
提供支持中英文双语的开源模型版本。
卓越的模型效果:
该模型创新性引入思考范式,通过课程采样强化学习(RLCS,即 Reinforcement Learning with Curriculum Sampling)全面提升模型能力!在10B参数级别的视觉语言模型中实现了当前最强性能(SOTA)!
GLM-4.1V-9B-Thinking 通过引入「思维链」(Chain-of-Thought)推理机制,在回答准确性、内容丰富度与可解释性上全面超越传统非推理式视觉模型。具体表现为:
在 28 项评测任务中,有 23 项达到 10B 级别模型最佳性能;
18 项任务性能与 8 倍参数量的 Qwen-2.5-VL-72B 持平或超越,覆盖 STEM、Coding、OCR&Chart、General VQA、Video Understanding、Long Document、GUI Agents 等多个维度。
强大的多模态能力
GLM-4.1V-9B-Thinking 通过有效的混合训练,融合了丰富的多模态能力,具体包括:
视频理解:可解析最长两小时的视频内容,通过推理准确分析视频中的时间、人物、事件及逻辑关系;
图像问答:深入分析图像内容并解答问题,具备较强的逻辑能力与世界知识储备;
学科解题:支持数学、物理、生物、化学等学科的看图解题,能通过推理给出详细思考过程;
文档解读:对金融、政务、教育等领域的文档内容进行原生理解、抽取、提炼与问答;
文字识别:准确抽取图片和视频中的文字、图表内容,并进行结构化输出;
Grounding:识别图片中的特定区域并抽取坐标位置,支持各类需定位信息的下游任务;
GUI Agent:识别网页、电脑屏幕、手机屏幕等交互界面元素,具备执行点击、滑动等指令的能力;
代码生成:可基于输入的图片文字内容自动编写前端代码,实现 “看图写网页”。
技术原理:
三大核心模块
视觉编码器(ViT):基于AIMv2-Huge,将2D卷积改为3D卷积,提升视频处理效率(静态图像通过复制帧适配)
多层感知机适配器(MLP Projector):连接视觉与语言模块
语言解码器(GLM):扩展3D旋转位置编码(3D-RoPE),增强多模态空间理解能力
关键创新
融合2D旋转位置编码(2D-RoPE),支持极端宽高比(>200:1)和超高清图像(>4K)。
保留ViT的绝对位置嵌入,通过双三次插值动态适配分辨率。
训练流程:
阶段1:预训练
多模态预训练:120,000步训练(序列长度8K,批量1,536),数据覆盖图文描述/OCR/定位等,采用样本拼接优化显存
长上下文训练:序列长度扩展至32K,混合并行策略,训练10,000步,新增视频帧与超长图文数据。
阶段2:监督微调(SFT)
构建思维链(CoT) 数据集,统一格式:
<think>{推理过程}</think> <answer>{答案}</answer>全参数微调(序列32K,批量32),覆盖数学解题/多轮对话/Agent规划等任务。
阶段3:强化学习(RLCS)
混合方法:基于可验证奖励的强化学习(RLVR)和人类反馈的强化学习(RLHF)
覆盖任务:STEM解题/多模态定位/GUI交互/文档推理等。
策略:课程采样(由易到难),显著提升模型实用性、准确性与稳健性。
并且智谱也同步开源了基座模型 GLM-4.1V-9B-Base,希望能够帮助更多研究者探索视觉语言模型的能力边界。更大参数版本蓄势待发,敬请期待!
更多信息请参考技术报告与开源代码。
Github:https://github.com/THUDM/GLM-4.1V-Thinking
体验链接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
API 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
API 接口文档:https://www.bigmodel.cn/dev/api /visual-reasoning-model/glm-4.1v-thinking
北航清华联合开源3D动画项目AnimaX:给3D模型注入生命的“数字魔法”!
北京航空航天大学黄泽欢团队联合清华大学、香港大学以及VAST公司的研究人员,正式发布了突破性的3D动画生成框架AnimaX,并全面开源了项目代码。
这项技术能够根据自然语言描述,让任意静态3D模型瞬间“活”起来,从人形角色、四足动物到家具物品,只需短短6分钟即可生成高质量动画!
主要功能
任意骨骼结构支持:AnimaX支持处理具有不同骨骼拓扑结构的3D模型,适用各种角色和物体,如人类、动物、家具等。
文本驱动的动画:用户基于简单的文本描述指定动画内容,AnimaX根据文本提示生成相应的动画序列。
多视图一致性:生成的动画在多个视角下保持一致,确保从不同角度观察时动画的连贯性和真实性。
高效生成:AnimaX基于前馈式方法,在短时间内生成高质量的3D动画,大大提高动画制作的效率。
技术原理
联合视频姿态扩散模型:AnimaX将3D动作表示为多视图、多帧2D姿态图。支持模型用视频扩散模型的强大动作先验,保持与3D骨骼动画的兼容性。联合视频姿态扩散模型,AnimaX能同时生成视频和对应的2D姿态序列。联合生成策略确保视频和姿态之间的时空对齐。
共享位置编码和模态感知嵌入:为确保视频和姿态序列之间的时空对齐,AnimaX引入共享位置编码。编码机制让模型更好地理解和对齐不同模态(RGB视频和姿态图)中的空间信息。模态感知嵌入用在区分不同模态的数据,确保模型正确处理RGB视频和姿态图的差异。
多视图一致性:AnimaX引入多视图注意力机制和相机条件嵌入,确保生成的视频在多个视角下保持一致。让模型能学习不同视角之间的空间对应关系,生成一致的多视图视频。
3D动作重建和动画:生成的多视图姿态序列基于三角测量方法转换为3D关节位置。用逆向运动学将3D关节位置转换为关节角度,驱动3D模型的动画。
大规模数据集训练:AnimaX在新策划的包含16万个绑定序列的数据集上进行训练。数据涵盖多种类别,如人类、动物、家具等,确保模型具有良好的泛化能力。
GitHub:https://github.com/anima-x/anima-x
arXiv技术论文:https://arxiv.org/pdf/2506.19851
7月1日
华为首次开源盘古大模型!包含70亿和720亿参数模型,推理方案、基础代码全公开!
6月30日,华为正式宣布开源其核心大模型产品:盘古Pro MoE 720亿参数混合专家模型与盘古7B稠密模型,同时开放基于昇腾的模型推理技术。
此举标志着华为首次加入全球大模型开源阵营,也是其昇腾生态战略的关键落子!
开源战略
华为此次开源并非孤立行为,而是昇腾全栈能力的一次集中展示。此次开源组合包括:
盘古Pro MoE 72B:总参数量720亿,激活参数仅160亿,通过MoGE架构实现负载均衡推理。
盘古Embedded 7B:双系统框架支持“快慢思考”,自动切换推理模式适应任务复杂度。
昇腾推理技术栈:包含超大规模MoE模型的高效部署代码。
一位华为技术专家坦言,开源正是为了证明昇腾能训练世界一流大模型,并推动“Day0迁移,一键部署”的生态愿景。
华为的“开放”背后,是对昇腾生态的迫切需求——通过开源吸引开发者,推动国产硬件适配,实现“芯片-框架-模型”的全栈自主可控闭环。
技术创新
传统MoE模型长期受困于专家负载不均衡,导致分布式训练时部分设备过载、整体效率低下。华为的破局之策是提出 分组混合专家模型(Mixture of Grouped Experts,MoGE) :
专家分组机制:将64位专家划分为8组,每组独立执行Top-K路由。
硬约束负载均衡:强制每个token在每组激活相同数量专家(如每组激活1人)。
零组间负载差异:天然适配多设备并行,避免跨设备通信瓶颈。
这种设计在昇腾硬件上展现出惊人效率——在昇腾800I A2平台实现单卡1148 token/s的推理速度,优化后可达1528 token/s,性能超越同规模稠密模型2倍以上。
性能测试:
尽管总参数量仅720亿,盘古Pro MoE 72B却在多项基准测试中媲美甚至超越千亿级模型:
中文理解登顶:SuperCLUE榜单文本创作得分80.48,排名开源模型第一。
复杂推理领先:在C-Eval(91.1)、CLUEWSC(94.7)等中文推理任务中超越Qwen3-32B。
复杂推理突破:盘古Embedded在AIME、GPQA等多个权威的复杂推理基准测试中,表现优于Qwen3-8B和GLM4-9B等规模相近的业界领先模型。
开源不是终点,而是生态长征的第一步。
在英伟达生态的铜墙铁壁之外,华为以代码为刃,为中国AI凿开了一道自主之路。
技术论文:https://arxiv.org/abs/2505.21411
开源地址:https://gitcode.com/ascend-tribe/pangu-pro-moe-model
谷歌开源100亿参数内最强多模态模型!Gemma 3n:支持文本、图像、音视频的输入和输出!
前段时间,Google 正式开源了新一代开源轻量级多模态大模型:Gemma 3n!
谷歌表示,Gemma3n代表了设备端Al的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
核心技术架构:
Gemma 3n的核心创新来自其Matryoshka Transformer(MatFormer)架构——其命名灵感源于俄罗斯套娃的嵌套结构。这一设计让单个大模型内部包含多个完全独立的小模型,实现了硬件资源的动态适配。
弹性推理技术:开发者可根据设备性能,在5B参数的E2B模型和8B参数的E4B模型间灵活选择。通过Mix-n-Match技术,还能在二者参数规模间自由定制。
内存优化黑科技:采用Per-Layer Embeddings(PLE)技术,将嵌入层参数卸载到CPU处理,使GPU显存占用减少50%以上。
实时响应加速:KV Cache Sharing技术优化长序列处理,使音频和视频的预填充速度提升2倍。
这些创新使Gemma 3n的8B参数模型在内存占用上仅相当于传统4B模型,却以1303分的成绩成为首个在LMArena测试中突破1300分的10B以下模型。
主要功能:
多模态设计:/emma3n原生支持图像、音频、视频和文本输入和文本输出。
专为设备端优化:/emma3n型号以效率为设计重点,提供两种基于有效参数尺寸:E2B和E4B。虽然它们的原始参数数量分别为5B和8B,但架构创新使其运行内存占用与传统的2B和4B 型号相当,仅需2GB(E2B)和3GB(E4B)内存即可运行。
架构突破:/emma3n的核心是全新组件,例如用于计算灵活性的MatFormer架构、用于提高内存效率的每层嵌入(PLE)以及针对设备用例优化的新型音频和基于MobileNet-v5的视觉编码器。
质量提升:/emma3n在多语言(支持140种文本语言和35种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。
有网友表示,Gemma3n能够用低内存占用实现这样的表现,对端侧设备意义重大。
开发者福音
谷歌为Gemma 3n构建了开放且完整的生态系统:
全平台支持:通过Hugging Face、Kaggle、Google AI Studio开放模型权重,商用无需授权费。
开发灵活性:兼容20+主流工具链,包括llama.cpp、Ollama、MLX、Transformers等,支持从浏览器直接体验到Docker容器化部署。
高效部署方案:支持int4量化技术,模型体积比bf16格式缩小2.5-4倍,显著降低延迟。
开发者现在可通过Google AI Studio即时体验,或从Hugging Face下载模型权重进行本地部署,整个过程仅需几分钟。
项目官网:https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
开源地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
百度重磅开源文心大模型4.5系列!10款模型免费开放部署!
6月30日,百度正式开源文心大模型4.5系列,还同步提供API服务!
值得关注的是,文心大模型4.5开源系列遵照的是Apache 2.0协议。
并且本次百度一次性推出10款开源模型,涵盖从47B参数的混合专家*(MoE)*模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
三大关键创新:
多模态异构 MoE 预训练:在文本和视觉模态上进行了联合训练,以更好地捕捉多模态信息的细微差别,并提高涉及文本理解和生成、图像理解和跨模态推理的任务的性能。
高效扩展的基础设施:提出了一种新的异构混合并行和分层负载平衡策略,用于 ERNIE 4.5 模型的高效训练。通过使用节点内专家并行性、内存高效的管道调度、FP8 混合精度训练和细粒度重新计算方法,实现了卓越的预训练吞吐量。
特定模式的训练后:为了满足实际应用的不同要求,针对特定模态微调了预训练模型的变体。 LLM 针对通用语言的理解和生成进行了优化。VLM 专注于视觉语言理解,并支持思考和非思考模式。
性能和基准测试
此次百度一次性推出10款文心大模型4.5系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上,都拿出了诚意。并且还针对MoE架构提出了一种创新性的多模态异构模型结构。
在大语言模型的预训练中,模型FLOPs利用率(MFU)达到47%。
在文本模型方面,文心大模型4.5开源系列在多个主流基准评测中超越DeepSeek-V3、Qwen3等模型。
在多模态模型方面,文心大模型4.5开源系列基于强大的视觉感知能力和丰富的视觉常识,实现了思考与非思考统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中优于闭源的OpenAI o1。
在轻量模型上,文心4.5-21B-A3B-Base文本模型效果与同量级的Qwen3相当,文心4.5-VL-28B-A3B多模态模型在同量级开源模型中达到SOTA!
文心4.5开源只是百度生态战略的起点。据官方路线图,文心大模型5.0将于2025年下半年发布!
而此次开源积累的开发者生态与行业反馈,将成为下一代模型进化的核心燃料。
GitHub:https://github.com/PaddlePaddle/ERNIE
项目官网:https://yiyan.baidu.com/blog/posts/ernie4.5
6月26日
谷歌开源AI编程王炸!Gemini CLI:每日千次免费请求,硬刚Claude Code!
近日,谷歌正式推出开源AI智能体Gemini CLI,将旗舰模型Gemini 2.5 Pro的能力直接引入终端命令行界面,能够提供轻量化的Gemini访问通道!
三大亮点:
免费使用:只需使用你的个人 Google 账号登录,即可免费获得 Gemini Code Assist 许可
强大模型:免费版直接让你用上Gemini 2.5 Pro模型,并享受其巨大的 100 万 token 上下文窗口
超大用量:提供业界最大的免费额度——每分钟 60 次请求,每天 1000 次请求,完全免费!
Gemini CLI作为Apache 2.0开源项目,开发者可审查全部代码、提交漏洞报告、定制安全机制。无论是写代码、调试、学习还是自动化任务,都绰绰有余!目前该项目在GitHub已狂澜13.7Kstar!
主要功能:
Gemini CLI并非简单的代码补全工具,而是一个全能型终端智能体。它通过自然语言理解用户指令,将复杂任务分解为可执行步骤。
其能力覆盖四大核心场景:
代码生成与调试:理解复杂代码库、修复错误、生成测试用例,支持百万级token上下文,可一次性分析大型项目。
跨模态内容创作:联动Veo视频模型生成短片,调用Imagen创建图像,实现“用命令行制作澳大利亚橘猫冒险故事”等创意任务。
智能研究助理:内置谷歌搜索实时获取网页内容,为模型提供最新技术文档与解决方案参考。
工作流自动化:通过脚本集成与非交互模式,将重复操作转化为一键自动化序列。
不只是编程,GeminiCLI还可以作为多功能本地工具,完成内容生成、问题解决、深度研究及任务管理等各类任务,例如使用Veo和Imagen制作关于一只橘猫在澳大利亚冒险故事的短视频:
并且谷歌的AI编程助手Gemini CodeAssist 现已与 Gemini CLI 共享底层技术。在 VS Code 中开启其智能体模式后,用户只需在聊天窗口输入提示,CodeAssist 便能自动执行各类任务,包括编写测试、修复错误、开发功能、迁移代码等。它还能根据复杂指令构建多步骤计划,在路径失败时自主修正并提供解决方案。
Gemini CLI没有改变开发环境的形态,却改变了开发者与机器对话的本质!
GitHub:https://github.com/google-gemini/gemini-cli
阿里联合夸克开源OmniAvatar:根据输入的音频和文本提示生成全身数字人视频!
OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。模型根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。
模型基于像素级多级音频嵌入策略和LoRA训练方法,有效提升唇部同步精度和全身动作的自然度,支持人物与物体交互、背景控制和情绪控制等功能,广泛应用在播客、互动视频、虚拟场景等多种领域。
主要功能
自然唇部同步:能生成与音频完美同步的唇部动作,在复杂场景下保持高度准确性。
全身动画生成:支持生成自然流畅的全身动作,让动画更加生动逼真。
文本控制:基于文本提示精确控制视频内容,包括人物动作、背景、情绪等,实现高度定制化的视频生成。
人物与物体交互:支持生成人物与周围物体互动的场景,如拿起物品、操作设备等,拓展了应用范围。
背景控制:根据文本提示改变背景,适应各种不同的场景需求。
情绪控制:基于文本提示控制人物的情绪表达,如快乐、悲伤、愤怒等,增强视频的表现力。
技术原理
像素级多级音频嵌入策略:将音频特征映射到模型的潜在空间,在像素级别上进行嵌入,让音频特征更自然地影响全身动作的生成,提高唇部同步的精度和全身动作的自然度。
LoRA训练方法:基于低秩适应(LoRA)技术对预训练模型进行微调。基于在模型的权重矩阵中引入低秩分解,减少训练参数的数量,同时保留模型的原始能力,提高训练效率和生成质量。
长视频生成策略:为生成长视频,OmniAvatar基于参考图像嵌入和帧重叠策略。参考图像嵌入确保视频中人物身份的一致性,帧重叠保证视频在时间上的连贯性,避免动作的突变。
基于扩散模型的视频生成:基于扩散模型(Diffusion Models)作为基础架构,逐步去除噪声生成视频。这模型能生成高质量的视频内容,且在处理长序列数据时表现出色。
Transformer架构:在扩散模型的基础上,引入Transformer架构更好地捕捉视频中的长期依赖关系和语义一致性,进一步提升生成视频的质量和连贯性。
GitHub:https://github.com/Omni-Avatar/OmniAvatar
6月25日
开源美学海报生成利器!PosterCraft:一键即可轻松生成高质量海报!
香港科技大学和美团等机构联合开源:PosterCraft,这是一款可自动生成高质量美学海报的统一框架!
该框架摒弃模块化设计流程和固定的预定义布局,支持模型自由探索连贯且视觉上引人入胜的构图!#
主要功能
高质量文本渲染:能准确地渲染文本,确保文本内容的清晰度和准确性。
艺术内容创作:生成具有抽象艺术感的视觉内容,让海报具有独特的美学风格。
引人注目的布局设计:创建具有视觉冲击力的布局,确保整体设计的协调性和一致性。
端到端生成:从文本输入到最终海报的生成,整个过程在单一模型中完成,无需外部模块或预设模板。
美学优化:基于强化学习和视觉-语言反馈机制,优化海报的美学质量和内容准确性。
技术原理
可扩展的文本渲染优化:基于大规模的Text-Render-2M数据集,对模型进行文本渲染的优化训练,提高文本的准确性和清晰度。
高质量海报微调:基于HQ-Poster-100K数据集进行监督微调,提升海报的整体视觉质量和艺术风格的一致性。
基于美学文本的强化学习:用Poster-Preference-100K数据集,基于最佳偏好优化,训练模型生成更符合人类审美的海报。
视觉-语言反馈精炼:借助Poster-Reflect-120K数据集,结合多模态反馈,对生成的海报进行进一步的优化和调整,提高内容的准确性和美学价值。
应用场景:
电影海报:根据电影主题生成吸引人的海报,突出关键元素和视觉冲击力。
艺术展览海报:生成具有艺术感和文化氛围的海报,展现展览理念和风格特点。
产品推广海报:根据产品特点生成吸引人的推广海报,展示功能和优势。
学术会议海报:生成专业和学术氛围的海报,展示会议主题和议程。
校园活动海报:制作富有创意的海报,展现活动内容和亮点。
GitHub:https://github.com/Ephemeral182/PosterCraft
6月24日
开源版的Flux.1 Kontext!OmniGen2:智源研究院开源的多模态图像编辑工具!
OmniGen2 是智源研究院推出的多模态生成模型。和Flux.1 Kontext类似,能通过文字修改图片,它把视觉理解、文本转图像合成、基于指令的图像编辑,以及主题驱动的上下文生成集成到同一个框架里。
另外,它还引入了多模态反思机制,可以对生成结果进行分析、审视并迭代优化,将推理和自我修正融入图像生成过程,让它在生成和理解任务上都有出色表现,成为轻量级开源模型的新标杆。
功能特点
文本转图像生成:用户能根据文本描述生成各种场景和角色的图像,比如 “戴皇冠的猫躺在天鹅绒王座上”“黑暗巫师在古老洞穴里施展魔法” 这类描述。
图像编辑功能:支持对生成的图像进行多种修改,像改变服装颜色、更换背景,或是添加、删除画面元素等操作。
风格转换:可以把图像转换成不同的艺术风格,比如动漫风、油画风都能实现。
角色和场景合成:能把不同图像里的角色或元素组合到新场景中,例如 “让第一张图的女孩和第二张图的男孩在教堂举行婚礼”。
开源特性:作为开源项目,为开发者和研究者提供了更多探索开发的可能。
应用场景
创意设计:设计师可以借助 OmniGen2 快速生成设计概念和草图。
内容创作:内容创作者能生成各种场景和角色的图像,用于故事创作、视频制作等场景。
教育与研究:教育工作者和研究人员可以把它作为教学和研究工具,探索多模态生成技术的应用。
OmniGen2 的核心创新在于采用双路径解耦架构整合多模态生成能力,引入多模态反思机制实现输出的自我优化,同时设计 Omni-RoPE 位置嵌入来提升图像编辑和上下文生成的一致性,这些创新让它在轻量级开源模型中树立了新基准。
“真正的智能不是替代画笔,而是让画笔理解心跳的频率。”OmniGen的价值不在于它取代了多少工具,而在于将技术复杂度压缩成一句自然语言指令。
官方提供了在线地址,感兴趣的小伙伴可以前往体验!
GitHub:https://github.com/VectorSpaceLab/OmniGen2
在线试用:https://huggingface.co/OmniGen2/OmniGen2
谷歌开源轻量版音乐生成项目!Magenta RealTime:全球首个支持实时生成音乐的模型!
6月22日,谷歌DeepMind旗下Magenta团队正式开源了Magenta RealTime,全球首个支持实时交互的音乐生成AI模型!
这款拥有8亿参数的Transformer模型,能以每2秒音频仅1.25秒的速度生成48kHz高保真立体声音乐,首次实现“创作快于播放”的颠覆性能力。
技术创新:
传统AI音乐生成需完整渲染输出,用户被动等待。而Magenta RT通过三大技术创新打破这一僵局:
分块流式生成: 模型以2秒音频块为单位持续生成,每个片段动态融合前10秒的上下文音频,确保旋律连贯演进。
跨模态风格操控: 集成MusicCoCa嵌入技术,将文本提示(如“爵士钢琴混合电子鼓点”)或参考音频实时映射到语义空间,用户通过调整提示权重动态扭曲音乐风格。
极速推理架构: 在免费Colab TPU上实现1.6倍实时因子(生成2秒音频仅需1.25秒),依赖SpectroStream编解码器压缩音频流,并通过XLA编译优化降低延迟。
这一架构使音乐家可像指挥乐团一样引导AI,在演出中无缝切换流派或融合乐器音色,将“人机协作”推向即兴新高度。
功能特色与应用场景
Magenta RealTime的训练数据集包括约19万小时的器乐库存音乐,涵盖多种风格和流派,确保了模型生成音乐的多样性和高质量。
AIbase报道称,该模型在实时混音方面表现出色,特别适合需要动态调整的场景,例如为游戏、直播或沉浸式体验生成背景音乐。用户可以通过简单的文本提示或参数调整,实时改变音乐的氛围和风格,极大地提升了创作效率。
尽管Magenta RT的单次输出限制在 10 秒,但其设计初衷并非生成完整的长篇音乐,而是为实时混音和动态创作提供支持。正如AIbase所述,这一特性使其更像是“DJ的数字助手”,能够根据现场需求快速生成音乐片段,创造无限长的混音体验。
Magenta RealTime采用Apache 2. 0 许可协议,完全开源,允许开发者自由使用、修改和分发模型。
Github : https://github.com/magenta/magenta-realtime
6月23日
月之暗面推出最强深度研究Agent:Kimi-Researcher !创下最新的SOTA 水平!
前两天,月之暗面发布了一款自主研究智能体:Kimi-Researcher!
这款基于端到端强化学习技术打造的Agent,在被誉为“人类最后一场考试”的高难度AI测试Humanity’s Last Exam(HLE)中一举拿下26.9%的Pass@1准确率,超越Claude 4 Opus(10.7%)与Gemini 2.5 Pro(21.6%),与谷歌顶级研究智能体打平,是目前已知最高水平之一。
功能特点:
澄清问题:理解问题时主动反问,构建更清晰的问题空间;
深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;
主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;
调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。
并且为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。最终,你会收到 2 个交付成果:
1.一份信息详实、可溯源的深度研究报告
报告的平均长度在万字以上;
平均引用约 26 个高质量、可溯源的信源;
所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。
2.一个可交互、可分享的动态可视化报告
结构化排版、思维导图,让趋势、异常等重要信息一眼可见;
无需阅读全文,也能迅速把握整体结构与核心结论;
支持在线生成链接并分享,方便展示。
性能数据:
在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69%的平均通过率,领先该榜中其他模型。
Kimi-Researcher通过端到端强化学习进行训练。在不同领域的代理性能持续提高。图2-a说明了 Kimi-Researcher 在整个强化学习过程中的整体训练准确性。图2-b显示了模型在多个内部数据集上的性能。
为了解决高质量代理数据集的稀缺问题,官方还设计了具有两个互补目标的训练语料库。使代理不仅可以学习何时调用工具,还可以学习如何在复杂的实际环境中有效地编排工具的使用。
为了应对大规模 Agent RL 的效率和稳定性挑战,研究者开发了一套基础设施,
具有以下主要功能:
完全异步推出:实现了一个完全异步的推出系统,具有可扩展的类似 Gym 的接口。此设计通过消除资源空闲时间,明显优于其同步设计。
回合级部分卷展栏:在 Agent RL 期间,虽然大多数任务在早期阶段完成,但一小部分任务需要大量轮换。为了解决这个长尾问题,设计了 Turn-level Partial Rollout 机制。
强大的沙盒环境:统一沙盒架构消除了容器间开销,同时保持隔离。使用基于 Kubernetes 的混合云架构实现零停机时间调度,实现动态资源分配。
应用场景:
实时研究支持:用户可以询问最新的研究进展,Kimi会搜索并提供相关论文、数据和分析报告。
市场趋势分析:分析市场趋势、消费者行为和竞争对手策略,提供详尽的市场分析报告。
教案编写:教师可以用Kimi-Researcher编写教案,生成完整的教学结构。
法律政务场景:自动识别风险条款并生成修订建议。证据链自动梳理与法律条文匹配,生成带法律依据的案情摘要
报告。
GitHub地址:https://moonshotai.github.io/Kimi-Researcher/
MindOmni:腾讯联合清华等机构推出的多模态大语言模型!
MindOmni是腾讯ARCLab联合清华大学等院校开源的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力!
它不仅能理解复杂指令,还能基于图文内容展开连贯而可信的“思维链”(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出:
主要功能:
视觉理解:支持理解和解释图像内容,回答与图像相关的问题。
文本到图像生成:根据文本描述生成高质量的图像。
推理生成:能进行复杂的逻辑推理,生成包含推理过程的图像。
视觉编辑:对现有图像进行编辑,如添加、删除或修改图像中的元素。
多模态输入处理:支持同时处理文本和图像输入,生成相应的输出。
技术原理:
模型架构:
视觉语言模型(VLM):基于预训练的 ViT(Vision Transformer)提取图像特征,用文本编码器将文本输入转换为离散的文本标记。
轻量级连接器:用在连接 VLM 和扩散解码器,确保特征在不同模块之间的有效传递。
文本头:处理文本输入和生成文本输出。
解码器扩散模块:负责生成图像,基于去噪过程将潜在噪声转换为实际图像。
三阶段训练策略:
第一阶段:预训练,让使模型具备基本的文本到图像生成和编辑能力。将图像文本对和 X2I 数据对训练连接器,确保扩散解码器能无缝处理 VLM 的语义表示。基于扩散损失和 KL 散度损失作为优化目标函数。
第二阶段:基于链式思考(CoT)指令数据进一步优化模型,生成逻辑推理过程。构建一系列粗到细的 CoT 指令数据,用指令数据对模型进行监督微调。
第三阶段:基于强化学习进一步提升模型的推理生成能力,确保生成内容的质量和准确性。推出推理生成策略优化(RGPO)算法,用多模态反馈信号(包括图像和文本特征)指导策略更新。引入格式奖励函数和一致性奖励函数,评估视觉语言对齐情况。基于 KL 散度正则化器稳定训练过程,防止知识遗忘。
项目主页:https://mindomni.github.io/
GitHub:https://github.com/TencentARC/MindOmni
6月20日
阿里开源可在安卓设备运行的3D数字人,支持实时面部捕捉:Mnn3dAvatar!
阿里巴巴近日开源全新3D数字人框架:Mnn3dAvatar!
它是基于阿里巴巴开源的轻量级深度学习推理框架MNN(Mobile Neural Network)开发的全新3D数字人框架。
与传统的Live2D技术不同,Mnn3dAvatar专注于3D虚拟角色的实时面部捕捉与动画映射,能够将用户面部表情实时同步到3D虚拟角色上,呈现出更加立体、逼真的效果。
即便没有复杂的建模经验,开发者也可以快速制作出精美的3D数字人。
**技术亮点 **:
实时面捕:深度学习可以精准捕获用户表情,并快速映射到3D角色上,适用于直播、虚拟会议等场景。
轻量化部署:在MNN框架的优化驱动下,Mnn3dAvatar不需要高端硬件即可在众多设备之间高效演算,大大降低了开发门槛。
多模态支持:除了面部捕捉,还支持文本生成、图像生成等任务,为开发者带来灵活的接口。
开源生态:作为阿里开源生态的一部分,包含丰富的API及工具,可以无缝嵌入安卓、iOS等平台应用。
应用场景:
带货直播:主播可在3D虚拟角色的状态下直播,增加趣味性与互动性,降低真人出镜率,适用于电商平台打造差异化内容。
虚拟展示与娱乐:可实现虚拟偶像、游戏角色动画、虚拟会议场景下的沉浸式视觉体验。
教育培训:教育机构可以通过它创建虚拟讲师,提升在线授课的互动性和吸引力。
Mnn3dAvatar的发布不仅是阿里开源生态的一次重要扩展,也标志着3D数字人技术迈向更加普惠和多样化的新阶段。未来,随着更多开发者加入这一生态,3D数字人将在更多领域展现其无限潜力。
GitHub:https://github.com/alibaba/MNN/blob/master/apps/Android/Mnn3dAvatar/README\_CN.md
Office-PowerPoint-MCP-Server:基于MCP的开源PPT生成与编辑工具!
Office-PowerPoint-MCP-Server是基于Model Context Protocol(MCP)的开源工具,专门用在演示文稿的自动化创建和编辑。
工具基于python-pptx库实现对PowerPoint文件的精细操作,支持从零开始创建新演示文稿或对现有文件进行修改!
主要功能:
完整处理OpenXML演示文稿:支持对任何OpenXML演示文稿(pptx文件)及所有元素进行完整处理,包括读
取、修改和保存。
幻灯片操作:支持添加幻灯片、删除幻灯片、获取幻灯片信息。
文本处理:填充文本占位符,例如创建带项目符号的幻灯片。添加文本框到幻灯片,调整文本字体大小和加粗。
图像处理:在幻灯片中任意位置和大小添加图片。
表格处理:在幻灯片中添加表格。
形状处理:在幻灯片中添加自动形状(例如多边形、流程图形状等)。
图表处理:在幻灯片中添加并操作柱状图、条形图、折线图和饼图。
文档属性管理:支持访问和更改核心文档属性,例如标题和主题。
技术原理:
python-pptx库:支持基于 python-pptx 库解析和操作 PowerPoint 文件(.pptx 格式)。基于 python-pptx库生成新的PowerPoint 文件或修改现有文件,保存为标准的.pptx格式。
MCP(Model ContextProtocol):基于MCP协议与AI模型或其他工具进行交互。用户用自然语言指令或代码调用,将操作指令发送到服务器,服务器解析指令执行相应的操作。服务器接收到指令后,解析指令内容并调用python-pptx 库中的相应方法,完成对 PowerPoint 文件的操作。
自动化和集成:提供编程接口,支持用户基于代码批量生成和修改PowerPoint文件,特别适合自动化生产周期性报告。支持与Al助手(如Claude)无缝对接,用户用自然语言指令完成复杂操作,降低使用门槛,提高工作效率。
GitHub:https://github.com/GongRzhe/Office-PowerPoint-MCP-Server
6月17日
MiniMax深夜开源推理模型M1,性能比肩DeepSeek-R1!
国产推理大模型又有重磅选手。
MiniMax悄然开源了首个推理专用大模型:MiniMax-M1,它世界上第一个开源的大规模混合架构的推理模型!
目前在MiniMax的官网也已经上线了。
项目地址放在文章最后了,可以直接体验哦!
主要功能:
长上下文处理:支持100万token的输入和8万toke的输出,适合处理长文档和复杂推理任务。
高效推理:提供40K和80K两种推理预算版本,优化计算资源,降低推理成本。
多领域任务优化:在数学推理、软件工程、长上下文理解和工具使用等任务中表现出色,适应多样化应用场景。
功能调用:支持结构化功能调用,能识别、输出外部函数调用参数,便于与外部工具交互。
性能测试:
M1在面向生产力的复杂场景中能力是开源模型中的最好一档,超过国内的闭源模型,接近海外的最领先模型,同时又有业内最高的性价比。
M1有一个显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。
并且MiniMax团队透露,他们只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅53.47万美元(约383.9万元),这比一开始的预期少了一个数量级。
他们在业内主流的 17 个评测集上详细评测了M1,具体的结果如下:
在ModelScope发布的权威测试中,M1-80K版本展现出碾压级优势:
在MiniMax官方发布公告中透露,这只是为期5天的“MiniMaxWeek”活动的第一天。
随后海螺AI账号也确认即将推出更多内容。
我们可以一起期待一下MiniMax后面几天的更新!
项目官网:https://chat.minimaxi.com/
GitHub:https://github.com/MiniMax-AI/MiniMax-M1
字节开源多主体视频生成神器:MAGREF,让照片中人人皆主角!
一张图片+一段文字,即可创造多人同台不串脸的视频内容!
在AI视频生成领域,“主角人格分裂”一直是个致命痛点:同一人物换个场景就变脸,多人互动时面部融合,手持物品突然消失……这些割裂感让专业级应用举步维艰。
于是字节跳动团队开源了名为MAGREF的多主体视频生成框架,一举攻克了多主体一致性生成的技术堡垒!
主要功能:
多主体视频生成:支持单人、多人互动以及人物与物体、背景的复杂场景生成,保持身份特征高度一致,多人同框
不串脸。
高一致性与可控性:基于一张参考图像和文本提示,生成身份稳定、动作自然、背景协调的视频,支持精确控制人
物动作、表情、环境和光影效果。
复杂场景处理:支持人物与物体交互(如人与宠物互动、人物操作物体)及人物置于复杂背景中(如城市街景、自
然环境等),生成语义清晰、风格协调的视频。
高效性和通用性:无需为不同任务单独设计模型,基于最小架构改动和统一训练流程,适配多种参考图配置。
技术原理:
区域感知动态掩码机制:在生成空间中构建一块空白画布,将输入的参考图随机排列其中。为每张参考图生成一张空间区域掩码,指示图像在画布中的语义位置。
像素级通道拼接机制:将所有参考图在特征维度上逐像素对齐拼接,避免传统token拼接可能引发的图像模糊或信息混叠问题。增强视觉一致性,保持生成结果对姿态、服饰、背景等细节的精准还原。
三阶段数据处理流程:
筛选与字幕生成:从原始视频中切分出语义一致的片段,过滤低质量样本,为每段生成结构化文本。
主体提取与掩码标注:基于标签提取与语义分割识别出视频中的关键物体(如动物、服饰、道具等),进行后
处理获得精准遮罩。
人脸识别与身份建模:检测并分配视频中人物身份,筛选高质量面部图像用在参考图构建,确保训练过程中
的身份一致性。
GitHub:https://github.com/MAGREF-Video/MAGREF
6月16日
蚂蚁集团开源多模态模型:Ming-Omni!支持音视频图文输入输出,直接对标GPT-4o!
Ming-Lite-Omni是由蚂蚁集团开源的统一多模态大模型,是全球首个在模态支持能力上可媲美GPT-4o的开源模型!
它基于Mixture of Experts(MoE)架构设计,能够处理文本、图像、音频和视频等多种模态的数据,并生成高质量的文本和自然语音。
主要功能
(一)多模态交互
Ming-Lite-Omni支持文本、图像、音频、视频等多种输入输出方式,能够实现自然流畅的交互体验。用户可以通过多种模态与模型进行交互,获取更丰富的信息。
(二)理解与生成
Ming-Lite-Omni具备强大的理解和生成能力,能够处理问答、文本生成、图像识别、视频分析等任务。模型不仅能够理解输入数据的语义,还能够生成高质量的输出内容。
(三)高效处理
基于MoE架构的优化,Ming-Lite-Omni能够高效处理大规模数据,并支持实时交互。这种高效性使得模型能够适用于多种应用场景,满足不同用户的需求。
技术创新:
为攻克多模态数据表征差异与训练收敛难题,Ming-Omni引入多项原创技术:
1. 模态专属路由机制
模型采用名为Ling的MoE主干网络,为不同模态设计独立路由器:文本与音频由轻量级BPE编码器处理,提升韵律自然度;图像与视频通过KV-Cache动态压缩视觉token,支持长视频理解且减少35%计算量。
2. 生成能力强化引擎
语音生成:集成两阶段训练策略,隔离理解与生成任务,优化方言/口音场景下的自然度;
图像生成:创新轻量化桥接框架,冻结MLLM主干并融合多尺度可学习令牌,实现语义驱动的图像生成(FID指标达4.85,超越SDXL)。
性能表现
在多项权威测试中,Ming-Omni展现对标10B量级模型的性能:
图像感知:激活28亿参数即达到Qwen2.5-VL-7B水平;
语音交互:端到端理解准确率超越Qwen2.5-Omni与Kimi-Audio;
视觉生成:在视频基准测试中平均得分达到了57.7,接近行业领先水平,支持原生分辨率图像编辑与风格转换;
长上下文推理:采用混合线性注意力机制,突破显存瓶颈,支持实时交互。
该模型在多个模态基准测试中表现出色,具备高度的可扩展性和广泛的应用前景,适用于智能客服、内容创作、教育、医疗健康等多个领域。
GitHub:https://github.com/inclusionAI/Ming/tree/main
腾讯开源混元3D 2.1 模型!支持真实材质渲染,完全开源的AI 3D建模工具!
腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布,对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型,包括几何结构和材质纹理。
混元3D 2.1适配于消费级显卡,不再需要昂贵的专业设备,个人电脑也能跑!
混元3D 2.1大模型在效果全面升级的基础上,提供了模型权重、训练代码和数据处理流程的“全链路开源”。这对于开发者来说:可以自由地进行微调、二次训练或优化,满足各种定制化需求,这也为学术研究提供了坚实的平台。
解决了什么问题?
随着游戏、电影、虚拟现实、数字人、工业设计等行业对3D内容需求激增,传统3D建模方式已难以满足高效生产的要求。AI成为新解法,但此前AI生成的3D模型通常有以下问题:
外观不真实
细节模糊、结构不稳
难以直接用于实际项目
混元3D 2.1 通过引入PBR(基于物理的渲染)技术,显著提升了材质细节的真实性,模型在不同光照下也更自然、更一致。
案例:腾讯自研游戏编辑器「轻游梦工坊」
使用混元3D后,道具制作时间从 2天/个压缩到0.2天/个,提效显著。
核心能力与亮点
- 全链路AI 3D生成能力(从建模到材质)
混元3D 2.1支持一站式自动生成高质量3D模型,包括:几何结构(形状/轮廓)和PBR物理材质贴图(真实表面质感)。
这种贴图通过模拟真实光线与材质的相互作用,使得模型在不同光照下看起来真实自然
这些都不是普通RGB贴图能实现的。PBR贴图是 影视、游戏引擎、工业仿真等高质量3D场景的标准配置。
- 更强的建模能力
采用 DiT(Diffusion Transformer),对几何形状进行建模。使得模型的网格更清晰,拓扑结构更合理,为纹理映射和后续使用打下了稳定基础。
- 适配本地运行,支持消费级显卡
不再依赖高性能GPU服务器,在家用电脑即可运行。方便独立开发者、中小团队快速落地使用!
在线体验平台:https://3d.hunyuan.tencent.com/
Github: https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1
6月13日
LeCun出镜宣布Meta开源世界模型:V-JEPA 2 !运行速度是英伟达Cosmos的30倍!
对于物理世界的直觉理解,正是AI 领域长期以来始终难以攻克的难题。
如今,Meta 推出了新的开源世界模型 V-JEPA 2 和三个新基准测试,希望借助它们的力量来改变这一点。
模型和测试已开源在 GitHub 和 HuggingFace 上。
LeCun亲自出镜
最近,Meta要组建「超级智能」新团队、重金挖角Alexandr Wang、全力冲击AGI的消息,闹得是沸沸扬扬。
并且还被曝出提供了数千万美元的天价年薪,挖来了谷歌DeepMind首席研究员Jack Rae,同时还在招募AI语音初创公司Sesame AI的主管Johan Schalkwayk。
就在这个当口,图灵奖得主、Meta首席AI科学家Yann LeCun亲自出镜推出基于视频训练的世界模型 :V-JEPA 2,这无疑意义重大!
LeCun曾这样透露:「通过训练系统预测视频中将要发生的事情,来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了20年。」
可以说,今天Meta的V-JEPA 2,正是20年磨一剑的成果。
并且一经发布就引起了一片好评,甚至有网友表示:这是机器人领域的革命性突破!
什么是世界模型
简单说,就是能够对真实物理世界做出反应的AI模型。
它应该具备以下几种能力:
理解:世界模型应该能够理解世界的观察,包括识别视频中物体、动作和运动等事物。
预测:一个世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。
规划:基于预测能力,世界模型应能用于规划实现给定目标的行动序列。
V-JEPA 2首个基于视频训练的世界模型,拥有12 亿参数,在去年首个基于视频训练模型 V-JEPA 的基础上,进一步提升了动作预测和世界建模能力,使机器人能够通过与陌生物体及环境交互来完成任务。
并且V-JEPA 2可以预测世界将如何发展。示例中,当人正在做当前事情时,V-JEPA 2 能够预测接下来会发生什么。
同时,Meta还同步发布了V-JEPA 2的一些性能指标。
技术创新
V-JEPA 2 主要由两个关键组件构成。
其一为编码器:其作用是接收原始视频,并输出能够捕捉世界状态语义信息的嵌入;
其二是预测器:它负责接收视频嵌入以及关于预测内容的附加上下文,进而输出预测后的嵌入。
在训练过程中,Meta 采用了基于视频的自监督学习方式来训练 V-JEPA 2,这种创新的训练方式使得模型无需额外的人工注释,即可直接在海量视频数据上进行高效训练。
开源与性能
Meta宣称,V-JEPA 2的速度比英伟达的Cosmos模型快30倍。目前该模型在Hugging Face的物理推理榜单上排名第一,超越GPT-4等模型。
更引人注目的是,Meta已全面开源V-JEPA 2,包括论文、代码和模型权重,开发者可通过GitHub和Hugging Face获取资源。
同时,Meta还发布了三个全新的基准测试,用于评估AI模型的物理世界理解能力:
IntPhys 2:评估模型区分物理合理与不合理场景的能力。
MVPBench:通过最小变化对测试视频语言模型的物理理解。
CausalVQA:评估模型对因果关系的理解。
这些测试揭示了当前AI与人类能力的巨大差距——人类在这些任务上准确率高达85%-95%,而顶级模型仍远未达到这一水平。
随着物理推理能力的提升,世界模型的影响将超越物流和机器人技术,在医疗、农业甚至救灾等领域开拓全新应用场景。物理世界的数字化正在加速到来! GitHub:https://github.com/facebookresearch/vjepa2
项目官网:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
通义实验室开源WebDancer!多轮推理超越GPT-4o,引领信息检索智能体新时代!
近日,阿里通义实验室RAG团队正式开源自主信息检索智能体框架WebDancer。
这一突破性成果旨在解决复杂信息检索任务中的多步推理与动态环境适应难题,为构建类似OpenAI Deep Research的智能系统提供了开源路径!
技术突破
面对高质量数据稀缺的行业难题,WebDancer开发了两种创新数据合成方法:
CRAWLQA: 模拟人类浏览行为,从arXiv、GitHub、Wikipedia等权威网站爬取内容,生成具备逻辑复杂性的问答对。该方法确保了数据的多样性和真实性。
E2HQA: 采用“由简入难”策略,从基础问题起步,逐步增加推理步骤复杂度,推动智能体能力阶梯式进化。通过问题改写确保答案一致性,避免语义漂移。
获得原始数据后,团队结合ReAct框架(Thought-Action-Observation循环)与模型蒸馏技术:
利用GPT-4o和开源QwQ模型生成长短思维链轨迹。
通过多级过滤机制(有效性控制→正确性验证→质量评估)筛除冗余和错误样本。
最终仅保留6,000条高质量长链数据,即实现GAIA任务的高性能表现。
“Agentic数据在于精而不在于多”,实验证明:质量对效果的贡献是数量的10倍以上。
性能优化
WebDancer在三大挑战性测试中展现卓越能力:
GAIA基准: 在Level 1至Level 3任务中全面领先,平均得分较基线模型提升15%,证明其在多层级复杂检索任务中的泛化能力。
WebWalkerQA: 在中等难度任务中准确率提升18%,高难度任务提升22%,凸显其处理深度网页理解的独特优势。
BrowseComp-zh(中文): 面对本地化复杂查询,仍保持54.6%的Pass@3成功率,验证多语言场景下的鲁棒性。
值得注意的是,基于Qwen-2.5-7B的轻量版WebDancer在多项任务中性能超越GPT-4o,为中小开发者提供了低资源部署方案!
实验分析
分析实验 1: RL 能对普通的 Instruction model 有显著的提升,并且能显著提高 Pass@1 的正确采样效率,使之接近 Pass@3,但对 QwQ 这类 Reasoning 模型提升不是很显著,只能提升采样的稳定性,这可能和整个 agentic 轨迹长有关。
分析实验 2:Agentic 数据在于精而不在于多。我们最后仅适用 6k 条长思维链的数据在 QwQ 模型上就能在 GAIA 上获得很好的效果。
分析实验 3:长短思维链 pattern 在不同模型上不好轻易转化学习。虽然长思维链在 instruction model 和 reasoning model 都能得到很好的效果,但是会带来很高的非法率,通常是由重复导致的,在小一点的模型上该现象更明显。
随着WebDancer开源,曾经仅由巨头掌握的深度研究能力,正在成为每一家医院的诊断助手、每一所大学的科研协作者、每一个企业的战略分析师!
GitHub:https://github.com/Alibaba-NLP/WebAgent
6月12日
轻量级OCR模型,又快又准!MonkeyOCR:高效精准的文档解析开源项目!
近日,Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型**:MonkeyOCR!**
支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分机,显著提升文档解析的准确性和效率。
主要功能:
文档解析与结构化:将各种格式的文档(如PDF、图像等)中的非结构化内容(包括文本、表格、公式、图像等)转换为结构化的机器可读信息。
多语言支持:支持多种语言,包括中文和英文。
高效处理复杂文档:在处理复杂文档(如包含公式、表格、多栏布局等)时表现出色。
快速多页文档处理:高效处理多页文档,处理速度达到每秒0.84页,显著优于其他工具(如MinerU每秒0.65页,
Qwen2.5-VL-7B每秒0.12页)。
灵活的部署与扩展:支持在单个NVIDIA3090GPU上高效部署,满足不同规模的需求。
技术原理:
结构-识别-关系(SRR)三元组范式:基于YOLO的文档布局检测器,识别文档中的关键元素(如文本块、表格、公式、图像等)的位置和类别,确保高精度。
MonkeyDoc数据集:MonkeyDoc是迄今为止最全面的文档解析数据集,包含390万个实例,涵盖中文和英文的十
多种文档类型。
模型优化与部署:用AdamW优化器和余弦学习率调度,结合大规模数据集进行训练,确保模型在精度和效率之间
的平衡。
GitHub:https://github.com/Yuliang-Liu/MonkeyOCR
在线体验:http://vlrlabmonkey.xyz:7685/
平面设计师福音!复旦字节联合开源CreatiDesign:AI模型革新平面设计工作流程!
复旦大学与字节跳动联合研发的CreatiDesign模型,它作为一款统一多条件扩散变换器,正以高精度、多模态、可编辑的特性重塑平面设计的生产流程。
这项技术突破不仅解决了传统设计工具在多元素协同控制上的瓶颈,更将设计师从重复劳动中解放,使其专注创意表达。
主要功能
多主体的图像条件:
用户可以一次性输入多个主视觉元素(如产品图、LOGO等),并在空白画布上任意摆布,得到多主体的图像条件。
然后将此图像送入原生的VAE进行编码,得到一组主视觉token。这些token能完整保留每个主体的细粒度视觉特征,为后续生成提供主体约束。
语义布局条件:
每个辅助元素或文本的语义描述,先由T5文本编码器转换为语义特征token,空间位置信息则经过傅立叶变换后,和语义特征拼接,再通过MLP进一步融合,最终得到集成了语义和空间信息的布局token。
这种方式实现了对布局元素内容和空间排布的双重精准控制。
全局描述:
用户还可以输入整体的描述,同样由T5编码为全局描述token,为全局内容和风格把控提供指导。
技术突破:
CreatiDesign基于MM-DiT(多模态扩散变换器)框架构建,通过三大核心技术突破传统设计工具的局限:
多模态注意力机制:将主视觉元素、语义布局条件(辅助元素/文本的位置与描述)和全局描述特征统一处理,实现跨模态深度协同。
注意力掩码机制:引入主体注意力掩码确保主视觉元素(如产品图)仅与指定区域交互,布局注意力掩码防止辅助元素间语义串扰,实现像素级独立控制。
- 大规模数据支持:构建包含40万样本的标注数据集,开发全自动设计合成流程,通过主题生成、文本渲染等步骤解决训练数据瓶颈问题。
这种架构使设计师能像指挥交响乐般精准调控每个元素——产品图的位置、标题文字的字体、装饰元素的配色均可独立调整而不破坏整体和谐。
性能展示
CreatiDesign与以前的三种类型的 SOTA 模型进行了比较:多主体图像驱动模型、语义布局驱动模型和多条件驱动模型。 最佳结果以粗体显示,前 3 个结果突出显示。 在所有指标中实现顶级性能,并在平均分数方面明显领先。
与以前的多条件或单条件模型相比,CreatiDesign 表现出对用户意图的更严格遵守,包括高度的主题保留和精确的布局对齐。
通过编辑一系列电影海报来演示结果可以看出:CreatiDesign 始终如一地维护主题身份,实现准确的布局控制和整体视觉和谐。
相比之下,Gemini2.0 等强基线在顺序编辑期间经常无法保留未编辑的区域,这通常会导致主题或文本发生不必要的属性更改,从而凸显出缺乏对用户意图的严格遵守。
CreatiDesign的开源,不仅是一个技术模型的突破,更是设计范式从“工具辅助”转向“AI共创”的里程碑!
GitHub:https://github.com/HuiZhang0812/CreatiDesign
6月11日
OpenAI最强推理模型o3-pro发布!将o3价格暴降80%!
今天凌晨一点,OpenAI 正式推出其新一代旗舰推理模型o3-pro。
这是继今年4月发布o3和o4-mini后,该公司在高级推理赛道上的又一次重大突破。该模型被定位为“OpenAI迄今最强大的推理模型”,专注于科学、编程、教育、商业分析与复杂写作等高认知需求场景,旨在成为专业用户的“生产力搭子”。
这一次发布 o3-pro,OpenAI 并未采用以往大家熟悉的发布形式(视频直播 + 博客文章),而只是简单地发布了几条介绍推文。并且奥特曼称:「当第一次看到它相对o3的胜率时,自己完全惊呆」。
发布最新长文「温和的奇点」,直接暗示人类已经跨越了临界点,技术大爆发开始。
OpenAI 表示,在专家评估中,评论者更喜欢 OpenAI o3-pro 而不是 o3 并具有一致性,这一结果凸显了其在科学、教育、编程、数据分析和写作等关键领域的性能提升。另外,评论者还对 o3-pro 的清晰度、全面性、指令遵从性和准确性给予了更高的评价。
与 OpenAI o1-pro 一样,OpenAI o3-pro 尤其擅长数学、科学和编程,以下的学术评估结果也证明了这一点。
生物医学科学家 Derya Unutmaz 分享了一个更有趣的案例:与 o3-pro 合作开发免疫系统 2.0。
用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。
同时,由于已经上线了 o3-pro,o3 的价格自然也就下降了:API 定价为每百万输入 token 2 美元 / 每百万输出 token 8 美元,也就是 o3-pro API 定价的十分之一。
除此之外,o3-pro还存在一些限制:
由于正在解决技术问题,o3-pro暂不支持临时对话功能
o3-pro不支持图像生成,生图还得找GPT-4o、o3、o4-mini
o3-pro亦不支持Canvas功能
但即便如此,o3-pro也已经足够聪明、足够智能。
更值得期待的是,奥特曼剧透,OpenAI开源模型将在夏末发布,但不是6月。
开源的3D生成模型!PartCrafter:支持多部件联合生成!
PartCrafter是先进的3D生成模型,能从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。
通过组合潜在空间表示每个3D部件,使用层次化注意力机制在部件内部和部件之间传递信息,确保生成的3D模型具有全局一致性。
主要功能:
多部件联合生成:PartCrafter能从单张图像中一次性生成多个部件和物体,每个部件都具有明确的语义和独特的几何形态。
部件感知生成:模型通过组合潜在空间表示每个3D部件,采用层次化注意力机制在部件内部和部件之间传递信息。
端到端生成:PartCrafter支持从单张图像到复杂多对象场景的端到端生成。用户只需提供一张图像,模型可生成完整的3D场景,包括多个独立的部件和对象。
部件级编辑:生成的3D模型支持部件级别的编辑和修改。用户可以对生成的部件进行单独操作,如调整位置、旋转、缩放等,实现更加灵活的3D设计和创作。
复杂场景建模:PartCrafter适用于复杂场景的建模,例如机械结构、建筑模型等。能生成多个部件并确保这些部件之间的协同关系,生成更加真实和复杂的3D场景。
预训练模型支持:模型基于预训练的3D网格扩散变换器(DiT),继承了其权重、编码器和解码器。这种预训练机制进一步提升了模型的生成能力和效率。
技术原理:
组合式潜在空间:每个3D部件由一组解耦的潜在令牌表示,使部件在生成过程中可以独立演化,保留部件级别的细节。
层次化注意力机制:支持在单个部件内部及所有部件之间进行结构化信息流动,确保生成过程中的全局一致性。
基于预训练的3D网格扩散变换器(DiT):PartCrafter继承了预训练的权重、编码器和解码器,进一步提升了模型的生成能力。
端到端部件感知生成:在单张图像的条件下,PartCrafter能同时去噪多个3D部件,实现从个体对象到复杂多对象场景的端到端部件感知生成。
GitHub代码库:https://github.com/wgsxm/PartCrafter
项目官网:https://wgsxm.github.io/projects/partcrafter/
6月10日
Direct3D-S2 开源发布!仅需8张GPU即可生成影视级3D模型,性能登顶HF,超越闭源方案!
近日,由DreamTech推出的Direct3D-S2 3D大模型登顶HuggingFace 3D modeling应用趋势榜,并在涵盖文本、图像和视频的综合榜单上跃居至第4位。
这个大模型不仅赢得了海外知名AI精选博主AK (@_akhaliq) 的推荐,还在全球3D及AI领域的开发者和爱好者中引起了广泛关注。
技术突破:
核心创新:SSA机制实现效率飞跃。
传统Transformer在处理3D数据时,注意力计算复杂度随token数量呈平方级增长,导致高分辨率生成算力爆炸。Direct3D-S2提出 空间稀疏注意力(SSA),通过稀疏3D压缩、块级特征提取、局部窗口特征注入三大模块重构计算流程!
统一稀疏表征:端到端的高效流水线。
传统方法在输入、潜变量、输出阶段采用异构表示(如点云、多视角图像),转换损耗大。Direct3D-S2创新设计 统一稀疏SDF VAE:
编码器-解码器全流程采用稀疏符号距离函数(SDF)体素场,保持数据格式一致性;
支持多分辨率训练,在1024³分辨率下仅需8块A100 GPU,2天完成训练,效率较传统方法提升4倍以上。
主要功能:
高分辨率3D形状生成:从图像生成高分辨率的3D形状,支持高达1024的分辨率,生成的3D模型具有精细的几何细节和高视觉质量。
高效的训练与推理:显著提高扩散变换器(DiT)的计算效率,降低训练成本。在1024分辨率下仅需8个GPU进行
训练。
图像条件的3D生成:支持基于图像的条件生成,根据输入图像生成与之对应的3D模型。
性能表现:
Direct3D-S2在生成质量上的突破,正是体现在它对复杂几何结构和精细纹理的出色还原能力上。
在多项关键指标对比中,Direct3D-S2全面超越当前主流开源3D生成模型,在所有数值评测中全部领先。
无论是细节丰富程度、几何精度、表面光滑度,还是整体结构的一致性,Direct3D-S2都展现出显著优势。
不仅如此,在由数十位艺术家与开发者参与的盲测评估中,Direct3D-S2也在「图像一致性」与「几何质量」两个核心维度上获得最高评分。
这意味着,不仅数据亮眼,实际效果也真正能打动专业人士。
与当前流行的开源3D生成大模型对比,Direct3D-S2在细节和精细度表现上超越了全部的开源3D大模型。
尽管只使用8张A100显卡和公开数据集训练,Direct3D-S2在生成的模型细节上甚至超过了目前市面上几乎全部的闭源商用模型。
Direct3D-S2的突破不仅是算法胜利,更是普惠技术哲学的践行——通过SSA机制将千兆级生成拉入轻量级算力时代,又以开源打破商业壁垒。
随着开发者生态壮大,其有望成为3D领域的“Stable Diffusion”,推动从专业工作室到个人创作者的全民3D创作浪潮。
技术论文:https://arxiv.org/pdf/2505.17412
GitHub代码库:https://github.com/DreamTechAI/Direct3D-S2
HuggingFace Demo:https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo
NovelBox:一款开源免费的AI小说写作项目,助力作家实现高效创作!
NovelBox是一款专为小说创作者设计的桌面应用程序,集成了多种AI模型(OpenAI、Anthropic、Google Gemini、DeepSeek),帮助作家更高效地进行创作。
应用提供了直观的章节管理、大纲编辑、AI辅助续写等功能,让您的创作过程更加流畅和高效。
功能特点:
书库管理:创建和管理多部小说作品。
章节树结构:直观的章节组织和管理。
大纲功能:帮助规划和组织故事情节。
AI辅助创作:
智能续写:根据上下文自动生成后续内容。
内容扩写/缩写:调整文本篇幅。
定向改写:根据指定要求智能改写选中内容。
书名生成:智能生成符合内容风格的书名建议。
简介生成:一键生成吸引读者的作品简介。
智能校对:
自动检测错别字和语法错误。
智能纠错建议。
一键应用修改。
GitHub地址:https://github.com/Rain-31/novelbo
6月9日
吴恩达推荐!Landing AI开源文档提取智能体:基于可视化上下文能力进行智能文档解读!
Landing AI 开源了革命性的Agentic文档提取项目:Agentic Document Extraction,并被吴恩达推荐使用!
这是一种智能文档理解工具,能够通过视觉上下文增强复杂表格和报告中的数据理解。
功能作用:
复杂文档处理:能从复杂的文档布局中提取数据,包括表格、图片和动态页面布局。
视觉定位:精确定位文档中视觉元素和文本的具体位置。
长文档支持:可以一次性处理超过100页的PDF文档。
自动处理:自动处理并发、超时和速率限制问题。
辅助工具:提供边界框片段、可视化调试器等工具。
结构化输出:以层次化的JSON和Markdown格式输出数据。
批量处理:支持批量处理多个文档,并行处理提高效率。
Agentic-Doc技术特点
基于Python:支持Python3.9至3.12版本。
API密钥管理:通过环境变量或.env文件设置API密钥。
自动分割和合并:自动分割大文件并并行处理,然后将结果合并。
封装RESTAPI:简化了RESTAPI的调用,提供自动处理大文件、并行处理多个文档等功能。
Agentic-Doc应用场景
文档数字化:将纸质文档或扫描件转换为结构化数据。
数据提取:从大量复杂文档中提取关键信息。
表格和图表解析:自动识别并提取表格和图表中的数据。
行业应用:适用于金融、物流、医疗、保险和法律等行业,用于复杂文档的分析和处理。
GitHub:https://github.com/landing-ai/agentic-doc
项目官网:https://landing.ai/agentic-document-extraction
阿里开源了Qwen3全新的文本嵌入与排序模型!Qwen3 Embedding|Qwen3 Reranker
Qwen3 发布了全新的文本嵌入与排序模型 Embedding 系列,专为文本转换为高质量向量表示而设计,旨在提高语义搜索、问答系统和推荐引擎等应用的性能。
Qwen3-Embedding 与 Qwen3-Reranker 均基于 Qwen3 基础模型开发,专攻文本表征、检索与排序任务。
Qwen3-Embedding: 高效生成单文本的语义向量,是构建语义搜索、智能问答的基石。
Qwen3-Reranker: 精准评估文本对相关性,利用单塔结构大幅提升搜索结果质量。
Embedding侧重于快速召回,Reranker侧重于精准重排,二者结合效果更佳,效率精度双赢!
卓越性能:
Embedding 8B 版在 MTEB 多语言评测荣膺榜首 (70.58分,创历史新高,截至 2025.6.6)。
Qwen3-Embedding模型在代码检索(MTEB-Code)任务中,搜索精准度排名第一。
在多模态文本嵌入(MTEB)跨语言场景下,Qwen3-Embedding 8B模型在多语言检索任务中取得了69.02的高分,在中文检索任务中得分达到77.45,在英文检索任务中得分达到69.76。
关键特征:
支持 119 种语言及编程语言。
提供 0.6B/4B/8B 全尺寸覆盖。
Reranker 百文档排序延迟 <80ms (A100)。
长文本处理能力 突破 32K。
Qwen3-Embedding/Reranker 具备多语言理解、超长文本处理、灵活可定制三大优势,完美解决泛化性差和成本高的难题,告别传统文本模型的局限!
并且,目前模型已在 Hugging Face、GitHub、ModelScope 开源,阿里云 API也同步上线,可供开发者们进行部署。
Qwen3-Embedding开源地址:https://github.com/QwenLM/Qwen3-Embedding
Qwen3-Reranker开源地址:https://huggingface.co/collections/Qwen/qwen3-reranker
6月7日
可轻松创建各种AI Agent!Agno:一个构建多智能体系统的全栈AI框架!
Agno 是一个为构建多智能体系统设计的全栈 AI 框架。
它集成了 推理、记忆、知识管理、工具调用 和 Agent 团队协作。
主要功能:
你可以把它理解为一个“帮你快速创建 AI 助手团队”的开发工具箱。
这些 AI 助手可以具备:
记忆力:记住用户上下文和历史。
知识库:访问公司资料、文档等。
**推理能力 **:做决策、分析数据、生成总结。
联网搜索:自动查找网页信息。
多个助手分工协作:一个查资料,一个算数据,一个写报告。
支持的智能体系统 5 个等级
第 1 级:具有工具和说明的代理。
第 2 级:具有知识和存储能力的代理。
第 3 级:具有记忆力和推理能力的代理。
第 4 级:能够推理和协作的代理团队。
第 5 级:具有状态和确定性的代理工作流。
亮点与优势:
模型支持(Model Agnostic):支持 23+ 个模型提供商(包括 OpenAI、Anthropic 等),不受模型平台绑定。
高性能架构:启动时间约 3 微秒,平均内存占用:仅 6.5 KiB。
三种推理机制支持:内置推理模型、ReasoningTools 工具集、自定义 Chain-of-Thought(思维链)流程。
原生多模态支持:输入/输出可为文本、图像、音频、视频等。
Agentic RAG 与向量搜索:集成 20+ 向量数据库,支持异步、高效的实时搜索。
一键部署 API 接口:内置 FastAPI 路由,助力从开发到上线一键切换。
应用场景:
企业智能客服:回答用户问题、查订单、生成报价。
金融分析助手:查找股票数据、生成行业报告。
科研写作工具:搜资料+写论文草稿。
多智能体系统:多个Agent 分工协作完成复杂任务。
多模态助手:同时处理文字、图片、语音、视频。
GitHub:https://github.com/agno-agi/agno
Play AI 开源新一代语音编辑模型!PlayDiffusion:可进行语音局部编辑!
传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型,意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制:
不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。
不连贯问题:如果只替换一个词,会造成边界突兀或音色失真。
不可控风险:重新生成会导致语调、节奏等全句风格不一致。
生成效率低:每个 token 的生成都依赖于前一个,整体推理速度慢,尤其在长音频生成场景下更为明显。
于是 Play.ai 推出的新一代语音编辑模型:PlayDiffusion,其核心创新是将“扩散模型(diffusion models)”应用于音频的“局部重建”,从而实现在不重生成整段音频的前提下,自然、无缝地替换语音片段。该模型已经开源,并支持在线交互式使用。
主要功能:
1. 语音局部编辑
这是 PlayDiffusion 最具代表性的能力。
支持在原始语音中替换、修改或删除某一部分内容,而无需重生成整段音频。
编辑后的语音在语调、节奏和说话人音色上高度自然、无缝衔接。
2. 文本驱动的语音替换
用户只需提供新的文本(如将“Neo”改为“Morpheus”),模型就能自动替换语音中对应部分。
模型会自动调整该词的语音发音、语气强弱、位置节奏,使其嵌入自然。
3. 高效 TTS系统
在将整个音频 mask 的极端场景下,PlayDiffusion 可作为一款非自回归、高效率的 TTS 模型。
相较于传统 TTS:推理速度提高可达 50 倍。
4. 说话人保真与迁移
使用预训练 speaker embedding 提取音色特征,即使只替换几个词,也能保证语者身份不变。
可用于定制个性化声音、模仿真实语者、保持配音一致性。
核心流程:
编码音频 输入语音被编码成离散表示(token 序列),可以是实录音频,也可以是TTS生成音频。每个 token 表示某一段声音信息,类似于文字中的音素。
掩码目标片段 对想要编辑的部分打“mask”,例如想把“Neo”换成“Trinity”,就屏蔽掉“Neo”对应的 token。
扩散生成 使用文本条件和上下文,利用扩散模型填补被 mask 掉的部分,同时保持前后音频连续性。利用了非自回归的并行生成能力,使整个序列的边界更自然、连贯。
解码回音频 使用 PlayHT 自研的BigVGAN 解码器将 token 序列还原成语音波形,并根据原语音提取的说话人特征做风格保持。
应用场景与价值
局部语音替换:可在保留语音原节奏、音色、语气的基础上,仅替换某些词或句。
无缝语音剪辑:适用于播客编辑、虚拟主播、影视配音等场景。
零起点TTS生成:若将整段音频全部 mask,PlayDiffusion 还能充当高质量、高效率的 TTS 系统。
智能对话系统增强:实现响应音频的动态、按需生成和个性化调整。
GitHub:https://github.com/playht/PlayDiffusion
模型下载:https://huggingface.co/PlayHT/PlayDiffusion
在线体验:https://huggingface.co/spaces/PlayHT/PlayDiffusion
6月5日
谷歌开源Gemini级AI研究能力,让每个人都能拥有一个智能研究助手!
Google最近开源了一个名叫Gemini Fullstack LangGraph的全栈项目。
这个项目用Gemini 2.5模型与LangGraph框架的结合,实现“研究增强型”对话式 AI。
目前GitHub已经飙升到5.9k星了!
这个项目展示了如何自己构建一个真正的"研究型AI代理",能够像人类研究员一样工作:它会根据用户的问题动态生成搜索关键词,通过Google搜索获取信息,分析结果中的知识空白,然后迭代地优化搜索策略,最终提供有充分引用支持的答案。
核心特征:
DeepMind 开发人员体验专家 Philipp Schmid详细介绍了这个项目的核心特性:
智能体通过研究和反思迭代循环,直到收集到足够的信息 。
动态查询生成、通过Gemini原生Google搜索工具进行网络研究,以及反思推理 。
支持不同的搜索强度(低、中、高),可调节搜索的广度和深度 。
React前端、LangGraph后端、Tailwind CSS + Shadcn UI组件 。
可轻松在本地运行或通过Docker部署 。
工作原理:
生成初始查询:基于用户输入,使用Gemini模型生成一组初始搜索查询。
网络研究:对每个查询,使用带有Google搜索API的Gemini模型查找相关网页。
反思与知识缺口分析:智能体分析搜索结果,判断信息是否充足或是否存在知识缺口。这个反思过程也使用Gemini模型。
迭代优化:如果发现缺口或信息不足,它会生成后续查询并重复网络研究和反思步骤(最多可配置的循环次数)。
完成答案:一旦研究被认为充分,智能体使用Gemini模型将收集的信息综合成连贯的答案,包括来自网络资源的引用。
GitHub:https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
开源播客生成模型MoonCast:更自然、更真实的对话式AI播客项目!
在播客内容爆发的时代,创作门槛高、制作流程复杂、语音克隆技术封闭等问题,始终制约着创作者的想象力。
但现在一款革新性的对话式语音合成模型**:MoonCast**开源了!
技术革新:
MoonCast并非单一工具,而是融合多项前沿开源技术的集成式框架,其核心突破体现在三个层面:
多模态内容理解与脚本编排 MoonCast内置的智能解析引擎,能直接处理PDF、网页、视频、电子书等多元输入源。
通过集成NotebookLlama的PDF预处理流程(基于Llama-3.2-1B模型清理文档结构)
调用DeerFlow的对话式脚本引擎,将枯燥文本转化为双人辩论、叙事独白或圆桌讨论
支持戏剧性增强重写(如Llama-3.1-8B模型添加悬念与节奏变化),使学术论文也能变成故事性播客
播客级语音合成与个性化克隆 语音生成层采用Muyan-TTS作为核心引擎,其优势在于:
零样本生成能力:仅需1分钟参考音频即可克隆音色,无需传统百小时训练
极致效率:0.33秒合成1秒音频,比主流TTS快50%以上(对比GPT-SoVITS v3的0.48秒)
长内容连贯性:基于10万小时播客训练的Llama-3.2-3B语言模型,保障叙事流畅度。
自动化工作流与隐私优先部署
从脚本生成到音频导出,全程支持CLI命令行与Python API调用,轻松对接现有工具链。
集成audiobookshelf的播客管理功能,实现订阅更新、跨设备同步、自动下载的闭环。
支持纯本地化运行,敏感数据无需上传云端,保障科研、企业内容的隐私安全。
性能测试:
实验证明,MoonCast性能较单句合成模型提升显著,尤其在中英双语长对话播客的自然度和连贯性方面表现惊艳,更接近真人播音效果!
为了进一步揭示“人味”的奥秘,MoonCast还设计了消融实验,证明剧本中那些看似微小的口语细节,竟对有”人味”的音频的生成起着至关重要的作用。
技术论文:https://arxiv.org/pdf/2503.14345
GitHub:https://github.com/jzq2000/MoonCast
6月4日
李飞飞开源 Forge AI渲染器技术!AI生成3D世界,所有设备都能流畅运行!
昨天,华裔科学家、“AI教母”李飞飞带领的空间智能公司World Labs团队发布了一个开源新工具Forge:一款动态、兼容性广的3DGS渲染器。
这是一种新兴的三维场景重建和渲染技术,它能生成高度逼真的三维场景,呈现更多细节纹理,同时训练收敛更快,能帮助开发者在短时间内完成复杂场景的建模,该技术广泛应用于虚拟/增强现实、游戏开发、建筑设计以及机器人、自动驾驶场景模拟等。
目前,World Labs团队以MIT许可开放Forge源代码,供任何人使用或贡献,旨在通过灵活的架构扩展3DGS的可能性。
核心技术亮点
(一)可编程的 3DGS 引擎
Forge 允许将函数块(称为 Dyno)组合成计算图形。这些计算图形可以程序化地生成、任意修改 Spalt,或执行各种计算,并转换为 GLSL 语言在 GPU 上运行 。这种可编程性为开发者提供了极大的自由度,他们可以根据自己的创意和项目需求,灵活地控制 3D 场景的生成和渲染。
(二)实时交互能力展示
用户可以实时看到操作对 3D 模型的影响,比如实时修改模型的颜色、形状、位置等,并且能够立即看到更新后的渲染效果。这种实时交互能力对于需要快速迭代和测试的开发者来说,无疑是非常有价值的。
(三)动态属性控制
开发者可以完全控制以编程方式计算splat属性(中心、比例、四元数、RGBA),这些属性可以无状态,也可以依赖复杂组合进行实时程序生成,实现实时动画效果。
(四)可编程数据流水线
Forge在GPU上为每个splat运行用户可编程的数据流水线,提供高级功能如刚体变换、RGB/不透明度调整、球谐函数处理,以及双四元数骨骼动画系统。
(五)实时程序生成
Forge 支持完全控制编写任何以编程方式计算 splat 属性(中心、比例、四元数、RGBA)的函数。这些属性可以是无状态的,也可以依赖于 splat 文件、纹理和其他全局参数的复杂组合进行实时程序生成,并且可以随时间变化以生成实时动画 。
开发者福音
对于开发者而言,Forge的魅力在于其极简的上手门槛和强大的功能:
只需极少代码即可启动和运行
支持多个splat对象
支持多个摄像头
支持实时动画和编辑3
World Labs联合创始人、NeRF作者Ben Mildenhall对此评价道:“让开发者像处理三角形网格一样轻松处理AI生成的3D世界。”
李飞飞教授曾精辟指出:“视觉化为洞察,看见成为理解,理解导致行动。”她认为空间智能与语言智能同等重要,是AI发展的关键前沿。
英伟达高级计算机科学家Jim Fan也强调:“空间智能是计算机视觉和实体智能体的下一个前沿。”
随着Forge 渲染器的发布,我们将迎来一个全新的创作时代, 3D 渲染技术将向更加高效、灵活、跨平台方向的趋势发展。它有望推动整个行业在 AI 与 3D 渲染融合方面取得更大的突破,促进相关技术的进一步成熟和应用场景的拓展。
项目官网:https://forge.dev
AI实时语音活动检测开源项目:TEN VAD,低延迟、轻量级、高精度!
TEN VAD是高性能的实时语音活动检测系统,专为企业级应用设计,能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。
并且基于先进的AI技术,如深度学习模型,快速区分语音和非语音信号,显著降低对话系统的响应延迟。
主要功能:
高精度语音检测:精确区分语音和非语音信号,提供高精度的帧级语音活动检测。
低延迟处理:快速检测语音活动,显著降低端到端的响应时间,适合实时对话系统。
轻量级设计:占用资源少,计算复杂度低,适合在多种硬件平台上运行。
多平台支持:支持 Linux、Windows、macOS、Android 和 iOS 等多种操作系统,提供广泛的兼容性。
多语言接口:提供Python和C接口,方便开发者在不同编程环境中使用。
灵活配置:支持16kHz采样率的音频输入,支持配置不同的跳帧大小,适应不同的应用场景。
应用场景:
智能语音助手:快速检测用户语音指令,实现即时响应,提升交互体验。
在线客服系统:精准识别客户语音,辅助客服机器人高效解答问题。
视频会议软件:准确区分发言者语音,优化会议记录与转写功能。
语音识别前端:过滤非语音片段,提高语音识别准确率与效率。
智能语音玩具:实时检测儿童语音指令,增强玩具的互动性和趣味性。
GitHub:https://github.com/ten-framework/ten-vad
6月3日
Lovart 本地开源平替 Jaaz:可接入Flux、SD、可灵等模型的AI设计智能体项目!
前段时间,一款专注于设计领域的智能体Lovart火爆出圈。
其邀请码一码难求,很难真正上手体验,上线的积分系统和订阅套餐,价格也相对昂贵!
但是现在已经有Lovart 的开源平替出现了!
就是由开源社区 11cafe 大佬开发的本地运行版设计智能体!
可以在没有邀请码、付费的情况下体验AI Design Agent,而且能够下载使用本地 Flux、SD、可灵、Wan 模型!一起看看吧!
Jaaz作为 Lovart 的免费开源平替,能够设计、编辑和生成图像、海报、故事绘本等,并配备创意画布。
核心亮点:
多模型集成与调用:Jaaz整合了多个优质的开源模型,支持 Ollama、Stable Diffusion、Flux Dev、本地图像和 LLM 模型,可自由选择生成图像;MuseNet 用于音乐创作等,构建了自己强大的模型库。
专业级编辑功能:使用 GPT-4o、Flux Kontext 在对话中编辑图像:对象移除、样式转换、编辑图像中的特定元素、一致的字符生成等,全部在聊天框对话中完成。
自由画布和故事板:像 Figma 一样丝滑的无限的画布释放你的创造力,真正实现了设计流程的一体化与协同化。
开源免费:Jaaz 的所有代码都公开在开源社区,这意味着任何开发者都可以查看、审查和改进代码。与 Lovart 相对封闭的商业代码不同,这种透明性为用户带来了更高的信任度。
应用场景
(一)中小企业品牌建设
企业可以通过 Jaaz 快速设计出品牌标志、宣传海报、产品包装等视觉素材,且能根据市场反馈及时调整设计方案。由于无需支付高昂的设计软件费用,中小企业能够将更多资金投入到核心业务发展中,提升品牌竞争力。
(二)个人创作者的创意平台
对于个人设计师、插画师、自媒体创作者等群体,Jaaz 是激发创意的理想平台。创作者可以借助 Jaaz 的智能体功能,快速将脑海中的创意转化为具体的设计作品。
(三)教育领域的设计教学辅助
在设计相关专业的教育中,Jaaz 可作为教学辅助工具,帮助学生更好地理解设计流程与人工智能技术的结合应用。教师可以通过 Jaaz 演示从设计需求分析到成品输出的全过程,让学生直观感受智能设计的魅力。
GitHub:https://github.com/11cafe/jaaz
MagicTryOn:浙大联合vivo开源的视频虚拟试穿项目!服装动态真实感/稳定性双突破!
MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿项目。
该项目替换传统的U-Net架构为更具表现力的扩散Transformer(DiT),结合全自注意力机制,实现视频的时空一致性建模。
MagicTryOn在图像和视频试穿数据集上均展现出超越现有最先进方法的性能,在评估指标、视觉质量和在野外场景的泛化能力上都表现出色。
主要功能:
服装细节保留:精确模拟服装的纹理、图案和轮廓,在人物运动时保持真实感和稳定性。
时空一致性建模:确保视频中各帧之间的连贯性,避免服装闪烁和抖动,提供流畅的试穿体验。
多条件引导:基于文本、图像特征、服装标记和轮廓线标记等多种条件,生成更真实、更细致的试穿效果。
技术原理:
扩散DiT架构:DiT的模块化设计允许更灵活地注入条件信息,让多级服装特征能有效地整合到去噪过程中。DiT内置的全自注意力机制能联合建模视频的时空一致性,捕捉帧内局部细节和帧间动态变化。
粗到细的服装保持策略:
粗策略:在嵌入阶段,将服装标记(garment tokens)注入输入标记序列,扩展旋转位置编码(RoPE)的网格大小,让服装标记和输入标记能共享一致的位置编码。
细策略:在去噪阶段,引I入语义引|导交叉注意力(SGCA)和特征引导交叉注意力(FGCA)模块,提供细粒度的服装细节引I导。SGCA用文本标记和CLIP图像标记作为输入,提供服装的全局语义表示;FGCA结合服装标记和轮廓线标记,进一步注入详细的局部信息。
掩码感知损失:基于引I入掩码感知损失,模型能更专注于服装区域的生成,提高服装区域的细节保真度和整体合成结果的真实感。
时空一致性建模:基于全自注意力机制联合建模视频的时空一致性,避免传统方法中空间和时间信息分别建模的局
限性。
项目官网:https://vivocameraresearch.github.io/magictryon/
GitHub:https://github.com/vivoCameraResearch/Magic-TryOn/
5月30日
Resemble AI开源可控制情感的TTS模型:Chatterbox ,性能直逼ElevenLabs!
Resemble AI开源了一款TTS模型: Chatterbox!凭借其卓越的性能和创新功能,迅速成为行业焦点。
Chatterbox基于MIT许可证完全开源,允许开发者自由使用和修改。这款模型基于0.5B规模的LLaMA架构,训练数据超过50万小时的精选音频,性能直逼部分闭源系统,甚至可能超越ElevenLabs。
主要功能:
零样本语音克隆:仅需5秒的参考音频生成高度逼真的个性化语音,无需复杂的训练过程。
情感夸张控制:用户能控制语音的情绪、语速和语调,让语音更具表现力。
超低延迟实时合成:延迟低至200毫秒以下,适用交互式应用,如虚拟助手和实时配音。
安全水印技术:每段生成的音频都嵌入ResembleAl的Perth神经水印,防止滥用。
核心数据:
训练数据:超50万小时精选音频,覆盖多语言、多场景。 技术架构:采用 0.5B 规模 LLaMA 模型,支持参考音频驱动的个性化语音生成。 实时性能:200ms超低延迟,媲美真人对话流畅度。 安全防护:Perth神经水印技术,盗版检测准确率近100%。
技术原理:
基于LLaMA架构:Chatterbox用0.5B参数规模的LLaMA架构,一种高效的Transformer架构,能处理复杂的语言模型任务。
大规模数据训练:模型用超过50万小时的精选音频数据进行训练,数据经过清洗和筛选,确保高质量的语音合成效
果。
情感夸张控制机制:基于特定的神经网络层和参数调整,Chatterbox能实现情感、语速和语调的动态控制,让语音
更具表现力。
对齐感知推理:在语音合成过程中,用对齐感知技术,确保文本与语音之间的精确对应,提高合成的稳定性和一致
性。
Chatterbox的出现为TTS技术开辟了新的可能性。AIbase预计,其开源特性将吸引更多开发者参与优化,形成良性生态循环。
GitHub:https://github.com/resemble-ai/chatterbox
狂澜38.6Kstar!Pake:把任意网站一键制作成桌面客户端程序!
在数字化时代,我们每天都与各种网页应用打交道。从工作中的协作平台,到娱乐时的视频网站,网页应用的便捷性不言而喻。但你是否想过,能把常用网页变成像本地软件一样,直接在桌面轻松打开、高效使用?现在,一款名为 Pake的开源神器出现,让这一想法成为现实。
Pake 是国内开发者 Tw93 基于 Rust 和 Tauri 框架打造的开源桌面应用打包工具。简单来说,它能将任意网页封装成轻量级桌面应用,跨平台支持 Mac、Windows、Linux 系统。
功能特点:
- 超小体积,极致轻量化
传统的 Electron 打包方式生成的应用往往体积庞大,占用大量磁盘空间。而 Pake 的出现彻底改变这一局面,它生成的应用体积通常仅有 5MB 左右,比 Electron 打包的应用小近 20 倍 。
- 卓越性能,流畅运行体验
基于 Rust 的 Tauri 框架,Pake 让应用性能大幅提升。相比 JavaScript 框架,其内存占用更低,运行更加流畅。在使用 Pake 打包的网页应用时,切换页面、加载内容等操作都能快速响应,没有丝毫卡顿。
- 简单易用,一键式操作
Pake设计理念简洁,使用门槛极低。开发者无需复杂配置和大量代码编写,只需通过一条命令,就能完成网页到桌面应用的转换
- 丰富功能,个性化定制
Pake不仅能简单打包应用,还支持诸多实用功能。它实现通用快捷键透传,像在浏览器中一样使用快捷键操作应用;具备沉浸式窗口,让应用界面更美观;支持拖动操作,方便用户调整窗口位置;还能进行样式改写、去除广告等高级定制 。
- 跨平台支持,多系统适配
无论你是 Mac 用户、Windows 用户还是 Linux 用户,Pake 都能完美适配。一次配置,就能在不同操作系统上使用,彻底解决跨平台开发的兼容性难题。
应用场景:
- 阅读类应用
许多人喜欢在网页上阅读优质文章,但每次打开浏览器搜索网址较为繁琐。使用 Pake,可将常用阅读网站打包成桌面应用。
- 社交媒体类应用
对于社交媒体重度用户,频繁在浏览器中切换不同社交平台账号麻烦又耗时。用 Pake 把微博、抖音等社交平台网页打包成独立桌面应用,可在不同应用间快速切换,及时接收消息,不错过任何重要动态。
- 生产力工具类应用
在工作中,一些在线协作平台、项目管理工具以网页形式存在。通过 Pake 将这些工具打包成桌面应用,能直接在桌面打开,无需每次打开浏览器输入网址登录,提升工作效率。
Pake 的出现,为开发者和普通用户带来全新桌面应用开发与使用体验。它以超小体积、卓越性能、简单易用、丰富功能和跨平台支持等优势,解决传统网页应用使用不便、体积庞大等问题。
GitHub:https://github.com/tw93/Pake
5月29日
DeepSeek R1 发布更新!首批“试用体验”出炉!
5月28日,DeepSeek官方宣布DeepSeek R1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使用方式保持不变。
这次 DeepSeek R1 的升级,不是简单的小修小补。根据用户的反馈和一些技术圈的讨论,新版本的 R1 模型在几个核心能力上有了显著的进步。
大家普遍提到,新模型的"思维链"(CoT)能力好像变强了。它现在能像一些国际顶尖模型那样,进行更深层次的思考。写出来的东西也更自然,格式也更好。
简单说,新 R1 的特点可以概括为:
深度思考:能像谷歌等大厂模型一样,想得更深。
写作能手:写东西更自然,排版也更漂亮。
独特风格:不只是快,思考也更全面周到。
持久专注:复杂的任务,能持续思考 30 到 60 分钟。
DeepSeek 每次版本升级都搞得很低调,目前连个官方的发布公告都没有,只是在 Hugging Face 上开源了 DeepSeek-R1-0528 模型。
此次升级,收到了一致的好评,无疑给中国 AI 领域注入了新的活力。
由于官方还没更新模型卡,还不清楚这次更新的具体能力有哪些。但是已经可以在官网使用了,大家可以去自行体验哦~
项目官网:https://www.deepseek.com/
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
腾讯混元开源语音数字人模型:HunyuanVideo-Avatar!一张图片+音频生成情感可控的数字人视频!
HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩
散Transformer架构,能生成动态、情感可控以及多角色对话视频。
模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。
面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。
主要功能:
视频生成:用户只需上传一张人物图像和相应的音频,模型能自动分析音频中的情感和人物所处环境,生成包含自
然表情、唇形同步及全身动作的视频。
多角色互动:在多人互动场景中,模型能精准驱动多个角色,确保各角色的唇形、表情和动作与音频完美同步,实
现自然的互动,可生成各种场景下的对话、表演等视频片段。
多风格支持:支持多种风格、物种和多人场景,包括赛博朋克、2D动漫和中国水墨画等,创作者可以轻松上传卡通
角色或虚拟形象,生成风格化的动态视频,满足动漫、游戏等领域的创作需求。
技术原理:
多模态扩散Transformer架构(MM-DiT):架构能同时处理多种模态的数据,如图像、音频和文本,实现高度动态
的视频生成。通过“双流到单流”的混合模型设计,先独立处理视频和文本数据,再将它们融合,有效捕捉视觉和语
义信息之间的复杂交互。
角色图像注入模块:取代传统的加法角色条件方法,解决了训练与推理之间的条件不匹配问题,确保生成视频中角
色的动态运动和一致性。
音频情感模块(AEM):从情感参考图像中提取情感线索,将其转移到目标生成视频中,实现情感风格的精细控
制。
面部感知音频适配器(FAA):通过潜在级别的面部掩码隔离音频驱动的角色,实现多角色场景下的独立音频注
入,使每个角色能根据自己的音频进行独立的动作和表情生成。
GitHub:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
5月28日
Github开源的AI学术资源中文翻译PDF合集:gpt-translated-pdf-zh!
gpt-translated-pdf-zh” 是由用户 it-ebooks-0 在 GitHub 上维护的公共代码库,该项目汇集了大量计算机科学、数学、算法、AI及机器学习领域的经典教材与前沿文献中文译本,以PDF格式提供免费下载服务,帮助学习者快速了解学习。
主要内容:
多种经典教材与研究文献,覆盖基础算法、数据结构、概率统计到深度学习、强化学习等前沿方向。
全部文档均为 PDF 格式,支持离线阅读,无需额外格式转换工具。
目录化管理,按主题或作者排列,便于按需检索。
此库面向对计算机科学与机器学习感兴趣的学生、研究者和工程师,尤其适合需要中文版本教材来降低阅读门槛的学习者。
GitHub地址:https://github.com/it-ebooks-0/gpt-translated-pdf-zh
通义开源长文本深度思考模型:QwenLong-L1-32B!强化学习解决长上下文推理问题!
近日,阿里开源长文本深度思考模型QwenLong-L1!
通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现,最终在多个长文档问答 benchmarks 上表现卓越!其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。
功能创新:
- 定义长上下文推理强化学习范式
区别于短上下文推理强化学习促进模型利用内部知识推理,长上下文推理强化学习需要模型首先定位外部关键信息然后整合内部推理。
- 识别长上下文推理强化学习关键问题
长上下文推理强化学习训练效率低,具体表现在(a)奖励收敛较慢,(b)模型输出熵的显著降低,限制了优化过程中的探索行为。同时,长上下文推理强化学习训练不稳定,具体表现为(c)KL 散度突刺较多,这是由于(d)较长的输出长度和不均匀的输入长度导致方差变大,导致策略更新不稳定。
- 构建 QwenLong-L1 长上下文推理强化学习框架
基于渐进式上下文扩展技术和混合奖励机制,QwenLong-L1 通过强化学习实现了从短文本到长文本的稳定上下文适应。
- 开源 QwenLong-L1-32B 长上下文文档推理大模型
与前沿长上下文推理大模型相比,QwenLong-L1-32B 实现了显著的性能提升,相较于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%,不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型,更与 Claude-3.7-Sonnet-Thinking 性能对标,为长文本推理优化提供了基础性技术方案。
性能测试:
在国内外旗舰推理模型中处于领先地位:
QwenLong-L1-14B 模型平均 Pass@1 达到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B;
QwenLong-L1-32B 模型平均 Pass@1 达到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 与 Claude-3.7-Sonnet-Thinking 持平;
Test-Time Scaling 性能明显:QwenLong-L1-14B 模型平均 Pass@2 达到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。
QwenLong-L1-32B 的出现,为我们打开了一扇通往长文本推理新世界的大门。相信在未来,基于这一模型和框架,将会涌现出更多创新的应用和解决方案,为人们的生活和工作带来更多的便利和惊喜。
GitHub:https://github.com/Tongyi-Zhiwen/QwenLong-L1
5月27日
100% 本地运行的开源AI 助手:AgenticSeek!比Manus更懂多任务协同!
AgenticSeek号称是 100% 本地替代 Manus AI 的开源工具!其核心理念就是完全本地化与隐私保护。
这意味着所有的功能 —— 从语音识别到大模型推理,再到网页浏览和代码生成 —— 统统在你的设备上运行。
主要功能:
智能上网冲浪:
它能自己浏览互联网 —— 搜索、阅读、提取信息、甚至填写网页表单,全程自动化。你想了解最新的科研成果、查找旅游攻略,只要告诉 AgenticSeek,它就能化身你的专属 “网络爬虫”,快速准确地把信息汇总给你。
编程好帮手:
AgenticSeek 能帮你编写、调试甚至运行 Python、C、Go、Java 等多种语言的程序,而且不需要你一直盯着。你只要说出需求,比如 “写一个 Python 脚本统计文件夹内各类文件数量”,它就能自动生成代码,运行测试,有问题还能自行调试修改。
智能任务调度:
你提出需求,它会自动判断并选择最合适的 AI 代理来执行任务,就像有个专家团队随时待命。从安排旅行到搞定复杂项目,它能把大任务拆解成小步骤,并协调多个 AI 代理共同完成。例如,策划一次跨国旅行,它能一边查询航班、酒店信息,一边制定游玩路线,还能根据当地天气调整行程。
相比 Manus的核心优势
AgenticSeek不受云端限制,它不仅能听会说,还能自主上网、写代码、规划任务,潜力巨大。
虽然项目尚处早期开发阶段,但其清晰的愿景和已经实现的核心功能,足以让它成为 GitHub 上一个值得高度关注的明星项目。如果你也对本地 AI、自主代理和数据隐私充满兴趣,可以去了解一下 !
GitHub:https://github.com/Fosowl/agenticSeek
开源的网页转应用AI项目:PakePlus!几分钟内一键将任意网站变成桌面应用!
Pake Plus 是一款致力于将网页应用快速转化为本地应用的神奇工具。
它就像是一个 “应用本地化魔法师”,能够把网页端的各种服务,封装成在本地操作系统上独立运行的应用程序。
不管是 Windows、macOS 还是 Linux 系统,Pake Plus 都能完美适配,让你在自己的设备上打造一个完全本地化的应用生态。
功能特点:
(一)一键本地化,操作超简单
使用 Pake Plus,你无需复杂的编程知识和繁琐的配置过程。只需在 Pake Plus 界面中输入你想要本地化的网页应用网址,然后点击几下鼠标,选择好应用图标、名称等基本信息,Pake Plus 就能迅速为你生成一个专属的本地应用程序。
(二)多平台支持,随心所欲
正如前面提到的,无论你是 Windows 系统的忠实用户,还是苹果 macOS 系统的爱好者,亦或是 Linux 系统的技术极客,Pake Plus 都一视同仁。它能够针对不同的操作系统,生成相应的本地应用版本,确保你在熟悉的系统环境下,享受本地化应用带来的便捷。
(三)高性能运行,流畅不卡顿
Pake Plus 生成的本地应用,并非简单的网页嵌套,而是经过了深度优化,具备出色的性能表现。它利用系统原生的渲染引擎和资源管理机制,使得应用在运行过程中更加流畅稳定,不会出现网页版常见的卡顿、加载缓慢等问题。
(四)强大的自定义功能
Pake Plus 允许用户对生成的本地应用进行丰富的自定义设置。你可以根据自己的喜好,更换应用的图标,让它在桌面上更加醒目独特;还能调整应用的启动参数、窗口大小、显示模式等,满足个性化的使用需求。
应用场景
(一)办公场景
在日常办公中,我们常常会使用各种在线办公工具,如在线文档、项目管理平台、邮件客户端等。通过 Pake Plus 将这些工具本地化后,即使在没有网络的环境下,也能继续处理文档、查看项目进度、撰写邮件等,大大提高了工作效率。
(二)学习场景
对于学生和学习者而言,许多在线学习平台资源丰富。使用 Pake Plus 把这些学习平台变成本地应用,不仅能避免网络干扰,专注于学习内容,还能在一些网络信号不好的地方。
(三)娱乐场景
在线音乐、视频、漫画等娱乐平台,经过 Pake Plus 的本地化,你可以在本地尽情享受音乐、观看视频,无需担心网络波动导致的播放中断。
(四)个人工具场景
一些实用的在线工具,如图片编辑、格式转换、密码管理等,通过 Pake Plus 转化为本地应用后,使用起来更加便捷高效。
Pake Plus 作为一款强大的开源应用本地化工具,以其简单易用、功能强大、性能卓越、跨平台支持等诸多优势,为我们打开了一扇通往本地化应用世界的大门。
GitHub:https://github.com/Sjj1024/PakePlus
5月26日
首个多模态扩散大语言模型MMaDA开源!比Gemini Diffusion更全能,让 AI 学会 “跨维思考”!
最近,普林斯顿大学、字节跳动、清华大学和北京大学联合推出了一款名为 MMaDA 的多模态大模型!
这一 AI 并非普通模型,它声称赋予 AI “深度思考” 的能力,能够在文本、图像甚至复杂推理任务之间 “转换”。其表现超越了熟悉的 GPT-4、Gemini,甚至 SDXL 等模型!
三大技术创新:
- 统一扩散架构:一个模态 “盲盒”,无缝处理一切!想象一下拥有一款超智能的 “万能胶”,可以完美粘合各种形状和材料的碎片。MMaDA 采用的正是这样的 “万能胶”—— 统一扩散架构。该架构具有共享概率公式和模态无关设计,意味着它可以处理文本、图像和其他类型的数据,而无需特定于模态的组件!这样,AI 可以无缝切换并处理不同数据类型,大大提高了效率和连贯性。
混合长链思维(CoT)微调:教会 AI 深入思考!我们知道,大模型部分通过 “思维链”(CoT)进行 “思考”。然而,MMaDA 更进一步,采用了 “混合长链思维” 微调策略。它精心设计了跨模态统一的 CoT 格式,迫使 AI 在文本和视觉领域对齐推理过程。其目的是在进入最终的强化学习阶段之前,增强 AI 处理复杂任务的能力,给它一个 “冷启动” 训练,类似于给它一本 “武功秘籍”,使其在实战前掌握深度思考技能!
统一强化学习算法 UniGRPO:推理与生成齐头并进!MMaDA 提出了一种专为扩散模型设计的统一策略梯度强化学习算法 ——UniGRPO。通过使用多样的奖励建模,它巧妙地统一了推理和生成任务的后训练,确保模型性能的持续提升。此前,推理和生成可能需要不同的训练方法,但 UniGRPO 就像一位 “全能教练”,引导 AI 在 “智力竞赛”(推理)和 “创意工作坊”(生成)中均表现出色。
性能表现:
文本推理:超越 LLAMA-3-7B 和 Qwen2-7B!这意味着 MMaDA 在解决复杂文本任务中的数学问题和逻辑推理方面显示出更强的 “智能”。
多模态理解:超越 Show-o 和 SEED-X!在理解图像和回答与图像相关的问题时,MMaDA 提供了更准确和全面的回答。
文本到图像生成:超越 SDXL 和 Janus!这可不是一项小成就;SDXL 目前被认为是强大的图像生成器,而 MMaDA 凭借强大的文本推理能力生成更准确且符合世界知识的一致性图像!
隐藏技能
MMaDA 还有另一项隐藏技能:它自然支持图像修复和外推,而无需额外微调!这得益于扩散模型的特性,这些任务可以视为 “掩码标记预测” 问题,正是 MMaDA 的训练目标之一!这意味着:
它可以预测文本序列中缺失的部分。
它可以根据部分输入和图像完成视觉问答的答案。
它甚至可以根据不完整的视觉提示修复图像!
这使得 AI 成为一个通用助手,能够 “想象” 视觉并 “填空”,大大扩展了其应用场景和泛化能力!
这些成就突显了 MMaDA 在统一扩散架构中弥合 “预训练” 和 “后训练” 之间差距的有效性,为未来的研究和发展提供了全面框架。 技术论文:https://arxiv.org/pdf/2505.15809
GitHub:https://github.com/gen-verse/mmada
字节跳动开源 “文档解析神器”:Dolphin,轻量高效,性能超GPT4.1、Mistral-OCR!
字节跳动最新开源了一款全新文档解析模型 ——Dolphin!
这是一个能让你告别手动整理文档的神器!无论是学术论文、合同报告还是技术文档,它都能一键解析成结构化数据,准确率吊打 GPT-4.1 和 Mistral-OCR,连公式、表格都能精准识别!
主要功能:
布局分析:识别文档中的各种元素(如标题、图表、表格、脚注等),按照自然阅读顺序生成元素序列。
内容提取:将整个文档页面解析为结构化的JSON格式或Markdown格式,便于后续处理和展示。
文本段落解析:准确识别和提取文档中的文本内容,支持多语言(如中文和英文)。
公式识别:支持复杂公式的识别,包括行内公式和块级公式,输出LaTeX格式。
表格解析:支持解析复杂的表格结构,提取单元格内容并生成HTML格式的表格。
轻量级架构:模型参数量为322M,体积小,运行速度快,适合在资源受限的环境中使用。
支持多种输入格式:支持学术论文、商业报告、技术手册等图像输入,输出格式完美适配办公软件,连扫描件都能秒变可编辑文档。
多样化的输出格式:支持将解析结果输出为JSON、Markdown、HTML等多种格式,便于与不同系统集成。
应用场景:
学术研究:文献整理效率翻倍
自动提取论文中的图表、公式和数据,生成结构化报告,写综述时直接调用,节省 70% 时间!
商业办公:合同审查快人一步
解析合同中的关键条款,生成可搜索的 JSON 数据,法务部门用它做合规审查,错误率降低 90%。
教育领域:教材试卷数字化
扫描教材生成可编辑文档,老师用它制作课件;试卷解析后自动生成答案,学生错题整理更高效。
技术开发:文档管理智能化
解析技术手册生成 API 文档,程序员直接复制代码片段,开发效率提升 30%。
日常办公:告别手动录入
扫描纸质文件转成电子档,连手写笔记都能识别,宝妈用它整理育儿资料,上班族用它处理报销单,全家都能轻松驾驭!
Dolphin 的开源,打破了文档解析的技术壁垒。它不仅性能碾压 GPT-4.1 和 Mistral-OCR,还做到了轻量、开源、多语言支持,无论是学生、打工人还是开发者,都能从中受益。
GitHub:https://github.com/bytedance/Dolphin
5月23日
最强编码模型Claude 4发布!网友实测编程能力直呼:从未如此丝滑!
AI圈都在等待 GPT-5、DeepSeek V4的发布,但今天凌晨,Claude 4 系列模型发布,包括:
Claude Opus 4(旗舰)和Claude Sonnet 4(主力)两个型号!
一经面世,就为代码生成、高级推理和 AI 智能体树立了全新标准。
Anthropic 表示,Claude Opus 4 是一款全球领先的编码模型,它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级,提供卓越的代码和推理能力,同时更精确地响应用户指令。
这场深夜发布,在海外已经掀起了热潮。在 X 平台 trending 榜上已经登上热搜第二。
有网友实测之后表示,Claude 4 只花了 30 秒,就做出了 CRM 的 dashboard。
甚至有网友在 Cursor 已经用上了 Sonnet 4,并且表示编程从未如此丝滑过。
也有网友开始直接用Claude 4来做了个俄罗斯方块,一次性就完成的那种。
Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 能够熟练地创建和维护 「内存文件」来存储关键信息。这能够提升模型在长期任务感知、连贯性和智能体任务上的表现 —— 例如,Opus 4 在玩宝可梦时自行创建了「导航指南」。
Claude4模型在SWE-benchVerified(真实软件工程任务性能基准测试)上的领先成绩。
Claude4模型在代码生成、推理、多模态能力和智能体任务方面均表现出色。
甚至还有网友贴脸开大:Claude4已经横空出世,GPT-5呢?
Claude Webapp:https://claude.ai/login
官方介绍:https://www.anthropic.com/news/claude-4
Zulution AI开源视频生成模型!MoviiGen1.1:支持生成电影级画质!
MoviiGen1.1是ZulutionAI推出的专注于生成电影级画质视频的AI模型。模型基于Wan2.1微调而成,经过专业电影制作人和AIGC创作者在60个美学维度上的评估,表现出色。
模型在氛围营造、镜头运动和物体细节保留方面优于竞争对手,支持720P和1080P分辨率,生成的视频清晰度高、连贯性强,适合高保真场景和专业电影应用。模型提供提示扩展功能,进一步优化生成效果。
主要功能:
电影级美学表现:在氛围营造、镜头运动和物体细节保留方面表现出色,支持生成具有电影质感的视频内容。
高清晰度与真实性:支持720P和1080P分辨率,适合高保真场景和专业应用。
视觉连贯性:确保视频在复杂场景中保持一致的主题和场景表示,同时维持高质量的运动动态。
提示扩展功能:根据输入的简单提示生成更详细和丰富的描述,优化视频生成效果。
技术原理:
基于Wan2.1的微调:模型是在Wan2.1的基础上进行微调,继承Wan2.1模型的生成能力,针对电影级视频生成进
行优化。
序列并行与环形注意力:基于序列并行技术,将视频的时间维度分布在多个GPU上,基于环形注意力机制在不同
GPU之间传递信息,有效减少单个设备的内存需求,保持模型的高质量输出。
高效数据加载:优化高分辨率视频帧的数据加载流程,基于潜码缓存和文本嵌入缓存,显著提高数据处理效率,减
少训练过程中的计算开销。
混合精度训练:支持BF16/FP16混合精度训练,用半精度浮点数进行计算,加速训练过程,减少内存占用。
提示扩展模型:引入基于Qwen2.5-7B-Instruct的提示扩展模型,根据用户提供的简单提示生成更详细和丰富的描
述,优化视频生成效果。
GitHub:https://github.com/ZulutionAI/MoviiGen1.1
5月22日
微软开源Web Agent项目**:Magentic-UI!让 AI 成为真正“可控、协同、透明”的网页执行助手!**
当全球开发者还在为Copilot的代码生成能力惊叹时,微软的AI实验室在Build 2025 开发者大会上又甩出一张开源王炸——**Magentic-UI!**这是继 Magentic-One 后,微软推出的新一代多智能体 Web 操作系统!
它可以:
自动浏览网页、 读取文件、 写代码,还能和你配合完成任务。
但它不是全自动机器人,它是你和 AI 一起工作的小伙伴,你有最终的控制权,它只负责干活。
所有操作都显示给你看,点击按钮、打开页面、发送信息,都会提前征求你同意。
执行任务时,你可以随时暂停、修改计划、重启流程。
你也可以设置哪些操作必须人工批准。
一、主要功能:
浏览网页自动点击、填表
写代码、运行结果返回
看文件内容并回答问题
用户可以制定任务步骤,随时修改、暂停
二、核心亮点
协同规划:任务开始前,Magentic-UI 会生成详细的步骤计划,用户可以根据自己的需求和预期对计划进行调整和确认,保证任务按预期展开。
协作执行:在任务执行过程中,系统会实时显示即将执行的动作,用户可随时接管控制权,确保任务执行符合需求。
安全机制:在执行重要或不可逆的操作前,Magentic-UI 会征询用户同意,支持用户自定义审批规则,保护操作安全。有效避免了因 AI 决策失误而可能带来的损失,让用户在使用过程中更加安心。
学习复用:任务结束后,系统会保存执行方案,用户可以在未来的任务中重复使用或修改这些方案,从而提升工作效率。随着使用次数的增加,Magentic-UI 会越来越了解用户的工作习惯和需求,提供更加个性化和高效的服务。
三、技术创新
神经样式引擎(NSE) 采用类GPT-4的扩散模型,可将自然语言描述(如"科技感深蓝渐变")动态编译为CSS变量,同时保证多浏览器兼容性。
组件DNA图谱 每个组件都有可追踪的版本基因,支持跨项目的智能组件复用。某开源社区测试显示,组件重复开发率降低92%。
实时性能先知 在拖拽布局时,AI会预测页面加载性能,并给出优化建议。早期采用者反馈,首屏加载时间平均减少40%。
当我们在惊叹Magentic-UI的神奇时,微软AI实验室负责人Chris Novak却说:"这仅仅是智能开发工具进化的第一个阶段。" 期待它将在未来的数字化生活和工作中发挥更大的作用,为我们带来更加高效、智能、安全的体验。
GitHub:https://github.com/microsoft/magentic-ui
字节开源全新多模态模型:BAGEL!图文生成理解能力超越Janus-Pro!
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。
BAGEL遵循”下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。
主要功能:
图像与文本融合理解:BAGEL能深入理解图像和文本之间的关系,准确地将图像内容与文本描述相结合。
视频内容理解:BAGEL能处理视频数据,理解视频中的动态信息和语义内容。能捕捉视频的关键信息并进行有效的分析。
文本到图像生成:用户可以通过输入文本描述来生成相应的图像。BAGEL能根据文本内容生成高质量、与描述匹配的图像。
图像编辑与修改:BAGEL支持对现有图像进行编辑和修改。BAGEL能根据指令生成修改后的图像,实现自由形式的图像编辑。
视频帧预测:BAGEL能预测视频中的未来帧。基于视频的前几帧,模型可以生成后续的帧内容,恢复视频的完整性。
三维场景理解与操作:BAGEL能理解和操作三维场景。可以对三维物体进行识别、定位和操作,例如在虚拟环境中移动物体、改变物体的属性等。
世界导航:BAGEL具备世界导航能力,可以在虚拟或现实的三维环境中进行路径规划和导航。
跨模态检索:BAGEL能实现跨模态检索功能,例如根据文本描述检索与之匹配的图像或视频,或者根据图像内容检索相关的文本信息。
性能测试:
BAGEL 在理解任务上优于现有的统一模型。例如,在 MMMU 和 MM-Vet 上分别比 Janus-Pro提高了 14.3 和 17.1 分。值得注意的是,MetaQuery-XL依赖于冻结的、预训练的 Qwen2.5-VL主干网络,这限制了其适应性。
此外,与专用理解模型(如 Qwen2.5-VL 和 InternVL2.5)相比,BAGEL 在大多数基准测试上表现更优,表明我们的 MoT 设计在保持强大视觉理解能力的同时,有效缓解了任务冲突。
在 WISE 基准上,BAGEL 超越了除领先私有模型GPT-4o外的所有模型。这表明 BAGEL 在结合世界知识进行推理方面具有较强能力。
BAGEL 使用更多的多模态令牌来扩展预训练,在理解、生成和编辑任务方面取得了一致的性能提升。
GitHub:https://github.com/bytedance-seed/BAGEL
5月21日
微软开源NLWeb:可将任意网站秒变AI智能体web!支持AI问答方式检索网站内容!
微软 Build 2025 开发者大会中,一个名为 NLWeb (Natural Language Web)的开源项目得到大家广泛关注。
该项目旨在简化网站自然语言交互界面开发,轻松将任意网站转化为具备 AI 功能的智能应用平台。
微软 CEO Satya Nadella 表示:「NLWeb 允许用户使用自然语言与任何网站进行交互。我们可以把它想象成智能体化 web 世界的 HTML。」
一、灵活创新的技术架构
由于 NLWeb 原生支持 MCP,因此人类和智能体可以使用相同的自然语言 API。
一直以来,开发能够用自然语言与应用程序乃至整个计算机世界进行自由对话的智能体一直是 AI 革命的核心。
然而,当前大多数新型交互都被 ChatGPT、Claude 甚至必应等产品垄断。这些机器人汲取海量知识却不产生实质价值。
而 NLWeb 相比传统搜索使用起来更加方便,仅需几行代码、任选 AI 模型(OpenAI 、DeepSeek、Gemini、Anthropic、Inception 等),并输入特定数据,NLWeb 就能为用户提供对话式交互界面(即一个文本框加提交按钮)。
此外,NLWeb 对主流的前端框架和后端语言都有着良好的兼容性。无论是使用 React、Vue 进行前端开发,还是选择 Python、Java 等后端语言,都能与 NLWeb 完美适配。这种兼容性极大地拓宽了项目的技术选择范围,开发者无需被特定技术栈束缚,能够充分发挥自身技术优势。
主要功能:
自然语言交互:NLWeb让网站基于自然语言与用户进行交互,用户简单地输入问题或指令获取网站内容或服务。
内容发现与访问:将网站内容用结构化的形式呈现给用户,帮助用户更快速、准确地找到他们需要的信息。
智能体交互:NLWeb原生支持MCP(Model ContextProtocol),支持网站与智能体(如AI助手、聊天机器人等)进
行交互。
数据整合与增强:整合网站已有的半结构化数据(如Schema.org、RSS等),结合LLM(大型语言模型)提供的外部知识,为用户提供更丰富、准确的交互体验。
NLWeb 凭借其直击痛点的功能、灵活创新的架构、多场景的出色表现、显著的竞争优势以及活跃的社区,为 Web 开发带来了新的机遇和变革。
GitHub:https://github.com/microsoft/NLWeb
爆火的“微信克隆人”开源项目:WeClone!只需微信记录即可训练专属数字分身!
最近,GitHub 上新开源了一个项目 :WeClone,利用你的微信聊天记录,来训练一个专属的AI,打造属于你自己的“数字分身”。听起来是不是既有趣又有点酷?
主要功能:
聊天记录微调:基于聊天记录对大语言模型进行微调,生成个性化数字分身。
语音克隆:结合微信语音消息和Spark-TTS模型,实现高质量的声音克隆,增强数字分身的真实感。
隐私保护:自动过滤敏感信息,支持本地化部署,确保数据安全。
多平台支持:支持绑定到微信、QQ、Telegram等聊天机器人平台。
灵活配置:提供参数调整和自定义模型选项,满足不同用户需求。
技术原理:
基础模型选择:用预训练的大语言模型(LLM)作为基础。模型经过大量文本数据训练,具备强大的语言理解和生
成能力。
微调技术:基于LoRA方法对基础模型进行微调。LoRA是高效的微调方法,在模型的关键层插入低秩矩阵调整模型
参数,能在较少的计算资源下实现较好的微调效果。
数据预处理:将用户的聊天记录进行清洗和格式化,去除敏感信息,提取有效的对话数据。用预处理后的聊天记录
对模型进行微调,调整模型的参数,生成符合用户风格的回复。
隐私保护机制:基于正则表达式等技术识别、去除聊天记录中的敏感信息,如手机号、身份证号、邮箱等。支持在
本地环境中进行微调和部署,确保用户数据不上传云端,保护用户隐私。数字人技术的可玩性确实很高,一经推出,内网和外网上都引来了一大波网友的关注。许多网友也是纷纷脑洞大开。
GitHub:https://github.com/xming521/weclone
5月20日
快手开源首款草图生成视频项目!SketchVideo:实现精准动态分镜控制,开启线稿生成视频新时代!
你是否想过,一支笔在空白的画布上舞动,随着线条的勾勒,一个个生动的形象、一段段精彩的故事就能逐渐呈现。
这种看似天马行空的设想,却被快手最新开源的 SketchVideo 变为现实。
Sketch Video 通过手绘生成动画的形式,将复杂的信息以简洁、有趣的方式展现出来。让你轻松驾驭动态画面,释放创作潜能。
一、Sketch Video 亮点解析
(一)超强吸引力
Sketch Video 的手绘风格赋予了视频一种质朴而真实的质感,与常见的精致特效视频形成鲜明对比。这种独特的视觉效果能够瞬间抓住观众的注意力,激发他们的好奇心,让他们忍不住想要一探究竟。
(二)信息传达高效
Sketch Video 巧妙地运用简洁的线条和生动的图像,将关键信息直观地展示出来,避免了文字的堆砌和繁琐的解释。观众可以轻松理解视频所传达的核心内容,大大提高了信息的传递效率。
(三)情感共鸣强烈
手绘的过程本身就蕴含着创作者的情感和心血,这种情感会通过视频传递给观众,引发他们的共鸣。当观众看到一支笔一笔一划地绘制出故事中的场景和角色时,会更容易产生亲近感和代入感。
二、3大核心技术
智能运动预测算法:自动识别线条走向,将静态笔触转化为自然运动。 多模态控制体系:支持「运动箭头」「速度标记」「镜头符号」等草图指令系统。 实时渲染引擎:"K级输出品质,逐帧优化避免图形撕裂。
三、应用场景
(一)市场营销领域
企业可以通过 Sketch Video 生动地展示产品的特点、优势和使用方法,让消费者更直观地了解产品,从而激发他们的购买欲望。例如,许多科技公司在推出新产品时,会制作 Sketch Video 来介绍产品的功能和创新之处,吸引用户的关注和购买。
(二)教育教学场景
在教育领域,Sketch Video 能够将抽象的知识变得形象化、具体化,帮助学生更好地理解和掌握。无论是数学公式、科学原理还是历史故事,都可以通过 Sketch Video 以生动有趣的方式呈现出来。这种教学方式能够激发学生的学习兴趣,提高课堂参与度,使学习过程变得更加轻松愉快。
(三)个人创意展示
对于广大创意爱好者来说,Sketch Video 是展示个人才华和创意的绝佳平台。你可以用它来讲述自己的故事、分享生活中的点滴感悟,或者发挥想象力,创作属于自己的动画作品。通过 Sketch Video,你可以将内心的想法以独特的艺术形式展现给世界,与更多的人分享你的创意和快乐。
Sketch Video 作为一种新兴的视频形式,以其独特的魅力和无限的创意,为我们带来了全新的视觉体验和信息传递方式。
GitHub:https://github.com/IGLICT/SketchVideo
项目官网:http://geometrylearning.com/SketchVideo/
Custom-SVG:Adobe联合香港城市大学推出的SVG定制生成项目!
Custom-SVG是Adobe和香港城市大学推出的两阶段风格的SVG定制生成框架,基于文本提示生成具有定制风格的高质量SVG图形。它可以从定制化的文本到图像模型中提取风格信息,实现多样化的风格定制。
Custom-SVG结合前馈模型的高效性和扩散模型的强大生成能力,快速生成结构规整且风格一致的矢量图形,适用于设计、图标生成等场景。
主要功能:
保持SVG结构规则性:生成的矢量图形具有清晰的层次结构和规整的路径,便于后续编辑。
实现风格定制:根据用户提供的少量风格示例,生成与之匹配的多样化风格的SVG。
高效生成:基于前馈式生成方式,快速生成结果,适合实际设计场景。
语义对齐:生成的SVG内容与输入文本提示高度一致,确保图形的语义准确性。
技术原理:
基于路径级表示的T2V扩散模型训练:
- 路径级表示:将SVG分解为路径级表示,每个路径由贝塞尔曲线和颜色等参数定义,基于预训练的SVGVAE
编码为紧凑的潜空间向量。
扩散模型:用扩散模型的去噪过程,从噪声中逐步恢复出与文本提示对齐的SVG张量。
Transformer架构:用Transformer作为骨干网络,结合自注意力和交叉注意力机制,让模型理解文本语义
生成对应的SVG结构。
基于图像扩散先验进行风格定制:
风格提取:微调T21扩散模型,用少量风格示例生成多样化的定制图像。
图像级损失:将生成的SVG渲染为图像,基于图像级损失函数对T2V模型进行微调,让生成的SVG具有所
需的风格。
- 风格迁移:将定制图像的风格迁移到SVG生成过程中,实现风格的灵活定制。
应用场景:
图形设计与插画:快速生成符合特定风格的矢量图形,设计概念验证、插画创作和品牌设计。
用户界面(Ul)设计:生成图标、按钮等界面元素,满足不同界面设计的需求。
网页设计:生成动态矢量图形,增强网页视觉效果和响应式设计。
个性化内容生成:根据用户需求生成个性化图形,用在定制礼品、社交媒体内容等。
GitHub:https://github.com/intchous/custom-svg-style
5月19日
Salesforce开源统一多模态模型BLIP3-o!实现图像理解/生成双SOTA,代码权重数据集全开源!
在多模态模型研究领域,图像理解和生成的统一一直是备受关注的焦点。近日,谢赛宁等团队开源了统一多模态模型:Blip3-o,成功实现了图像理解与生成的双 SOTA(State-of-the-Art),为该领域的发展注入了新的活力。
BLIP3-o是SalesforceResearch等机构推出的创新多模态模型,融合自回归模型的推理和指令遵循能力及扩散模型的强大生成能力。模型基于扩散语义丰富的CLIP图像特征,不依靠传统的VAE特征或原始像素,在图像理解和生成方面表现出色。
它采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集。
主要功能:
文本到文本:生成与图像相关的描述性文本。
图像到文本:对输入的图像进行理解生成描述性文本,支持多种图像理解任务,如视觉问答(VQA)和图像分类。
文本到图像:根据输入的文本描述生成高质量的图像。
图像到图像:对输入的图像进行编辑和修改,生成新的图像。
混合训练:支持图像生成和理解任务的混合训练,提高模型的综合性能。
技术原理:
自回归模型与扩散模型的结合:自回归模型生成中间视觉特征,捕捉文本描述中的语义信息。扩散模型生成最终的
图像。扩散模型基于逐步去除噪声生成图像,生成高质量且多样化的图像。
CLIP特征扩散:用CLIP模型对图像进行编码,生成语义丰富的特征向量。特征向量比传统的VAE特征更紧凑且信息
量更大。基于扩散模型对CLIP特征进行建模,生成与目标图像特征相似的特征向量,实现高质量的图像生成。
顺序预训练策略:首先对模型进行图像理解任务的预训练,确保模型具备强大的图像理解能力。在图像理解预训练
的基础上,冻结自回归模型的权重,仅对扩散模型进行训练,实现高效的图像生成。
流匹配损失函数:用流匹配损失函数训练扩散模型,损失函数能更好地捕捉图像特征的分布,生成更高质量的图
像。流匹配损失函数引入随机性,让模型能生成多样化的图像,不仅仅是单一的输出。
指令调整数据集:基于GPT-4o生成的多样化提示,创建一个包含60k高质量提示图像对的数据集,用在微调模型,
提高指令遵循能力和视觉审美质量。
为了推动图像理解和生成领域的进一步发展,团队慷慨地将 Blip3-o 的代码、模型权重和数据集全部开源。这一开源举措为广大研究者提供了宝贵的资源,有助于加速相关领域的研究进程,激发更多创新想法的产生。
同时,BLIP3-o的Demo体验网站也已上线。可以免费体验~相信随着Blip3-o的不断应用和发展,它将为我们带来更多惊喜,让我们共同期待多模态模型领域的美好未来。
Github:https://github.com/JiuhaiChen/BLIP3o
技术论文:https://arxiv.org/pdf/2505.09568
B站开源最强动漫视频生成模型!AniSora:一键生成属专属动漫作品!
最近,B 站团队发布了一个让人眼前一亮的消息:他们开源了一款名为 AniSora 的动漫视频生成模型!
这项技术突破不仅让我们看到了动漫创作领域的无限潜力,也为普通用户提供了全新的创意工具。
无论是想要尝试制作属于自己的动漫短片,还是单纯想看看 AI 如何演绎出那些充满想象力的画面,AniSora 都能满足你的期待。
例如上传这张图像:
再输入描述词:一个白发女孩在镜头拉近时跳舞。她一边唱歌,一边将右手转向镜头,手指张开。
创新突破
而 AniSora 之所以能够如此出色,得益于它背后强大的数据处理流水线以及技术革新。
1.体系革新
全球首个动画专项评估生成框架AniBench
在人物微表情连续性指标上超越Stable Video 3D达28.6%
2.工业化的数据
千万级高质量动画素材库,涵盖中日美三大动画流派
独创的跨模态对齐算法
动态分镜解析技术实现95.7%的语义还原
3.技术运镜
支持16种导演级运镜参数调控(推/拉/摇/移/跟)
引擎辅助系统实现"头发丝"等超现实动态模拟
评估结果
Vbench 上的评估结果:
AniSora-Benchmark 的评估结果:
对于想要尝试但又觉得门槛太高的人来说,AniSora 的出现简直就是福音。不用复杂的操作,也无需深厚的美术功底,只需上传相关素材,就能一键生成属于自己的动漫作品。
GitHub:https://github.com/bilibili/Index-anisora
AI早报
01 大模型:Qwen新模型赋能偏好建模,Grok图表惊艳亮相,Gemini高级服务邀友共享。
02 科研:Google AlphaEvolve AI震惊数学界,自主发现颠覆认知,开源版火速上线。
03 推理:OpenAI揭秘推理模型时代,AI通用性与低成本推理重塑智能未来。
04 Coding:ChatGPT联手Github开启深度研究新模式,Codex评测揭示AI编程外包潜力。
05 MCP:llmbasedos打造安全便捷MCP沙箱,Arch功能封装即启即用。
06 调优:PTS新技术精准锁定关键token,优化大模型输出无需繁琐微调。
07 案例:AI助手Lovart助力开发者一日速成《老友记》像素游戏,创意秒变现实。
08 Agent:AI Agents单兵作战,Agentic AI多体协作,智能体演进揭示未来趋势。
09 工具:懒人Excel让表格处理变轻松,AutoHanding一键生成高仿手写笔记,Firecrawl性能十倍速。
10 OTH工具:Hidden Word为文本嵌入隐形版权盾牌,All in SSL证书管理一站搞定。
11 论文:港中大RXTX新算法让矩阵乘法飞速提升,节能高达10%震撼学界。
12 其他:OpenAI中东打造5GW巨无霸数据中心,ChatGPT测试MCP协议连接万物,苹果阿里AI合作惹争议。
13 观点:AI如何深度思考引热议,微软CEO用AI取代播客,AI创富窗口稍纵即逝,硅谷豪言AI取代一切工作。
5月16日
Stability AI开源手机端音频生成模型:Stable Audio Open Small !8秒生成11秒音效,可离线运行!
Stability AI联合芯片巨头Arm,正式开源了一款革命性音频生成模型——Stable Audio Open Small。
这款仅3.41亿参数的轻量化模型,专为移动设备优化,可在手机本地运行,11秒音频生成仅需8秒,彻底打破云端依赖,让音效创作触手可及。
一、技术亮点:极速、轻量、高音质
超轻量设计,手机本地流畅运行 模型体积压缩至341M参数,通过Arm CPU深度优化,搭配KleidiAI库实现极致性能。即使在普通智能手机上,也能8秒生成44.1kHz立体声音频,速度比前代提升数倍。
创新技术加持,音效细节丰富 采用对抗式后训练(ARC)技术,摒弃传统蒸馏方法,在保证音质的同时降低计算需求。支持输入英文文本(如“海浪声”“128BPM电子鼓循环”),生成环境音、鼓点、乐器片段等专业级音效。
主要功能:
文本到音频生成:根据用户输入的文本提示生成相应的音频内容,例如生成特定乐器的声音、环境音效或简单的音
乐片段。
快速音频生成:支持在移动设备在8秒内生成音频,适合实时应用。
轻量化设计:参数量从11亿减少到3.41亿,模型更轻量,适合在资源受限的设备上运行。
高效运行:模型能在边缘设备上运行效率更高,降低计算成本。
多样化音频生成:支持生成短音频样本、音效、乐器片段和环境纹理等,适合创意音频制作和实时音频应用。
Stable Audio Open Small不仅是一次技术突破,更是一场创作民主化运动。随着移动设备算力的提升,AI音效生成将渗透至更多场景,从专业工作室到普通用户的指尖,每个人都能成为“声音魔术师”。
GitHub:https://github.com/Stability-AI/stable-audio-tools
GitHub项目理解神器!DeepWiki:为GitHub仓库自动生成可对话的“百科全书”!
在GitHub上,每天新增数以万计的代码仓库,但其中真正能被快速理解的不足10%。面对动辄数十万行的“代码迷宫”,开发者常陷入**“文档缺失”“逻辑晦涩”“维护困难”**的困境。
于是DeepWiki应运而生:以AI之力重塑代码交互方式!它让每个GitHub仓库自动生成可对话的“维基百科”。
一、核心功能:从被动查询到主动对话
- 一键生成结构化文档 将任意GitHub仓库URL中的
github.com替换为deepwiki.com,即可自动生成包含架构图、模块说明、依赖关系的百科式页面。例如输入deepwiki.com/microsoft/vscode,直接获取VS Code项目的完整技术文档。
对话式AI助手 支持用自然语言提问,如“如何实现用户登录功能?”或“解释模块间通信机制”,AI基于代码上下文生成精准解答,甚至推荐优化方案。测试显示,新手开发者上手时间从两周缩短至2小时。
深度研究模式 针对复杂问题(如性能瓶颈分析),AI Agent可自动拆解代码执行路径、分析提交历史,生成包含漏洞检测报告和架构优化建议的深度文档。
多维度可视化 自动生成类层次图、依赖关系图等交互式图表,支持点击跳转源码,帮助开发者快速构建全局认知。例如某微服务项目通过图表展示API调用链路,维护效率提升80%。
二、DeepWiki 解决了什么问题?
DeepWiki 主要解决了开发者在阅读和理解 GitHub 开源项目源代码时遇到的诸多痛点,包括:
语言障碍: 现在GitHub很多项目都是纯英文的,专业术语翻译过来有时比较别扭,用DW就没这个问题了。
文档缺失或不完善: 许多仓库缺乏完善的 README 甚至没有文档,DeepWiki 能够基于源码和其他信息自动生成文档,避免开发者需要直接啃代码或在 Issues 中搜索信息。
代码量庞大难以理解: 当项目文件数量巨大、代码行数极多时,DeepWiki 可以帮助开发者快速建立项目的宏观认知,例如通过生成系统架构图,理清项目整体脉络。
人工阅读效率低下: 面对海量的开源项目和代码更新,纯粹依靠人力阅读和总结是不现实的,DeepWiki 提供了自动化的解决方案。
功能与源码难以对应: 传统的项目文档往往缺乏功能与具体代码实现之间的映射关系,DeepWiki 能够通过源码分析,在对话中提供功能讲解甚至代码级别的实现细节。
缺乏项目全局视角: GitHub 本身提供的代码浏览功能和 GitHub Copilot 等工具侧重于局部代码理解,DeepWiki 则通过分层分析和构建文件关联图等方式,帮助用户从整体上把握项目架构和内部逻辑关系。
目前DeepWiki已经索引了3万多个GitHub仓库,处理了超过40亿行代码,光是算力投入就花费了30多万美元,但对用户却是完全开源免费,真是太了不起了!
项目官网:https://deepwiki.com
GitHub:https://github.com/AsyncFuncAI/deepwiki-open
2025.05.16 AI资讯早报&AI开源项目汇总
01 大模型:OpenAI 在API以外正式推出 GPT-4.1,支持百万 token 上下文,代码生成与指令遵循表现卓越。
02 设计:Lovart AI 设计助手高效完成视觉任务,适合中小企业,显著降低设计成本。
03 Agent:谷歌 DeepMind 的 AlphaEvolve 颠覆数学界,成功解决数学难题,展现创新潜力。
04 工具:Terminator SDK 实现 Windows 与 macOS GUI 自动化,速度快且稳定,提升开发效率。
05 音频:Stability AI 推出手机端音频生成模型,速度快,显著降低硬件需求。
06 训练:个人开发者利用 Psyche Network 成功训练大语言模型,打破算力垄断。
07 教程:从 0 构建 DeepSeek 视频教程更新至 25 期,适合初学者与进阶者学习。
08 OTH工具:chsrc 提供全平台通用换源工具,支持多操作系统,优化下载速度。
09 音乐:Stable Audio Open Small 模型轻量化设计,适合手机音乐创作。
10 安全:新提示策略可攻破主流 AI 模型安全机制,暴露严重漏洞。
11 MCP:MCP Manager for Claude Desktop 简化服务器管理,增强上下文访问。
12 RAG:SAT 模型智能分段解决 Token 分块问题,提升文档理解质量。
13 语音:MiniMax Speech-02 模型突破 TTS 技术,字错率低,语音相似度高。
14 Coding:CodeBuddy 插件在 VSCode 使用体验差,交互问题显著。
15 报告:OpenAI ChatGPT 图像生成服务流量激增,架构优化缓解资源压力。
16 论文:PreSelect 提高数据筛选效率,减少计算需求,提升训练效果。
17 医学:Token-Mol 药物设计模型通过 LLM 提升药物分子预测能力。
18 现象:中年软件工程师因 AI 裁员陷困境,反映就业危机。
19 其他:腾讯一季度收入增长 13%,AI 对广告和游戏贡献显著。
20 观点:刘慈欣坦言对 AI 的情感变化,称其为探索自然奥秘的希望。
5月15日
通义万相开源VACE:一个模型实现视频生成+编辑等多种任务!
昨天晚上,阿里巴巴通义万相团队宣布开源视频生成与编辑领域的“全能王”——Wan2.1-VACE模型。这是业界功能最全的视频生成与编辑模型。
不仅支持文生视频、图生视频、视频重绘等全栈功能,还能通过单一架构实现多任务灵活组合,堪称AI视频创作的革命性突破!
一、核心优势
- 全能型选手 Wan2.1-VACE集六大核心功能于一身:文生视频、图生视频、视频重绘、局部编辑、背景扩展、时长延展。例如,用户可将竖版《蒙娜丽莎》静态图一键扩展为横版动态视频,并为其添加眼镜,同时完成画幅扩展、时长延展和图像参考三项任务。
多任务自由组合 无需串联多个模型,用户可灵活组合基础功能。
例如,通过指定视频的局部区域,实现视频元素的替换、增加和删除等操作。
生成主体加背景参考即可一键生成视频:
- 轻量级与高性能并存 模型提供1.3B(轻量级)和14B(满血版)两种版本。1.3B版本支持消费级显卡运行,输出480P视频;14B版本则支持720P高清画面,满足专业级需求
二、技术创新:VCU架构
Wan2.1-VACE的核心突破在于**视频条件单元(VCU)**的设计。VCU将文本、图像、视频、Mask等输入统一转化为文本、帧序列和Mask序列,解决了多模态输入的兼容性问题。例如,通过分离可变与不可变帧序列的编码方式,模型能高效处理复杂时空信息,实现更精准的控制。
此外,模型采用上下文适配器微调策略,在保留基础能力的同时加快收敛速度,避免传统全局微调可能导致的性能丢失。
三、应用场景
艺术创作 在2025年央视春晚中,Wan2.1-VACE助力《笔走龙蛇》节目生成“子弹时间”特效,并参与《难忘今宵》的舞美设计,将城市地标转化为动态花灯。
影视与广告 支持高清视频生成与局部编辑,例如替换广告中的商品、扩展电影场景背景,显著降低电影制作成本。
教育领域:教师将复杂知识点转化为动画视频,例如通过图像参考生成功能,将静态电路图扩展为动态演示。
个人创作:爱好者可通过手机端接入 API,将旅行照片转化为短视频,或为宠物视频添加趣味特效。
通义万相VACE的开源,标志着视频生成技术从单任务迈向多任务组合的新阶段。为AI在影视、广告、文化传承等领域的落地提供了无限可能。
正如团队所言:“AI不是替代创作者,而是让创意更自由。”
GitHub地址:https://github.com/ali-vilab/VACE
阶跃星辰开源Step1X-3D:更好用更可控的3D资产生成技术!
Step1X-3D是StepFun联合LightIllusions推出的高保真、可控的3D资产生成框架。基于严格的数据整理流程,从超过500万个3D资产中筛选出200万个高质量数据,创建标准化的几何和纹理属性数据集。
技术革新
- 几何塑形更精准
几何生成的核心在于采用为 3D 特性深度优化的创新混合 VAE-DiT 架构。该架构负责生成 TSDF 内部表示,确保产出的 3D 模型结构完整、无破面漏点;精准捕捉并还原物体的丰富几何细节。
几何示例:覆盖硬边与曲面结构
- 纹理细节更生动
纹理生成则基于强大的 SD-XL 模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。
纹理示例:呈现清晰一致的表面纹理
- 控制简单、效果可调
Step1X-3D 显著提升了 3D 内容生成的可控性与易用性。其关键在于,VAE-Diffusion 整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术(如轻量化的 LoRA 微调)。
因此用户可以对生成 3D 资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。
对比图 1:对称性控制效果
对比图 2:表面细节控制效果(锋利/平滑)
性能评估
在自动评估中,Step1X-3D 在多项关键维度上均表现出色。
在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的 3D 生成方案。
GitHub地址:https://github.com/stepfun-ai/Step1X-3D
在线体验:https://huggingface.co/spaces/stepfun-ai/Step1X-3D
5月14日
国产交互式世界模型来了!昆仑万维开源Matrix-Game:一键AI无限生成逼真虚拟世界!
近日,昆仑万维宣布开源交互式世界基础模型 Matrix-Game,这不仅是世界模型技术向前迈进的一大步,更是空间智能领域交互式世界生成的重要里程碑。
作为一个面向游戏世界建模的交互式世界基础模型,它专为开放式环境中的高质量生成与精确控制而生,开启了一扇通往全新虚拟世界体验的大门。
一、构建真实交互虚拟世界
昆仑万维表示,Matrix-Game 让世界不再只是被观看,而是被探索、被操控、被创造。这种主动式的探索或许正是空间智能发展的关键所在。
Matrix - Game 之所以能在众多 AI 项目中脱颖而出,关键在于其技术上的重大突破。它融合了视频生成、三维建模与交互控制等核心技术,实现了从图像到世界生成的创新框架 。
这个框架不依赖语言提示,仅基于视觉信号就能对空间几何、物体运动及物理交互进行建模,极大地提升了空间智能能力。在交互可控生成方面,Matrix - Game 将用户动作输入,如键盘、鼠标操作,与多模态扩散模型相融合,能够直接生成虚拟游戏世界的视频内容。
无论是在茂密的森林中穿梭,感受枝叶的晃动;还是在广阔的沙漠中前行,体验风沙的吹拂,Matrix - Game 生成的虚拟世界不仅视觉连贯、细节逼真,还严格遵循重力、碰撞等自然物理规律,让玩家仿佛置身于一个真实的异世界。
二、性能比较
- GameWorld 分数基准比较
Matrix-Game 在 GameWorld Score 基准测试中始终保持最佳性能。
- 人工评价
双盲人工评估表明,Matrix-Game 在整体质量、可控性、视觉质量和时间一致性方面明显优于 Oasis 和 MineWorld。
三、应用场景
游戏开发领域:对于游戏开发者而言,Matrix - Game 堪称是一款革命性的工具。以往,开发一个细节丰富、场景多样的游戏往往需要耗费大量的时间、人力和物力。而现在,借助 Matrix - Game,开发者能以低成本、高效率生成各种复杂的游戏地图与任务环境 。
无论是开放世界 RPG 中那广袤无垠的草地,还是沙盒游戏里瞬息万变的动态地形,只需简单的指令,Matrix - Game 就能实时生成。这不仅大大缩短了游戏开发周期,还赋予了玩家更高自由度的探索体验,为游戏行业的创新发展注入了强大动力。
具身智能训练
Matrix - Game 凭借其高保真的交互世界生成能力,为智能体提供了极为逼真的训练环境 。
这个环境不仅拥有丰富的视觉细节,还严格遵循物理规律,能让智能体在其中进行接近真实世界的训练。
通过支持前进、跳跃、抓取等精细动作,Matrix - Game 使智能体能够实现实时、细致的交互。
高质量视频生成
Matrix-Game 能够生成准确遵循复杂动作指令的高质量视频。并且具备强大的自回归生成能力,可以在生成高质量视频的同时制作长视频。
项目主页:https://matrix-game-homepage.github.io
GitHub:https://github.com/SkyworkAI/Matrix-Game
字节跳动推出多模态基础模型:Seed1.5-VL!20B活跃参数在60个主流测试中狂揽38项第一!
字节跳动的 Seed 团队重磅发布了视觉 - 语言多模态大模型: Seed1.5-VL!
在60个主流测试中狂揽38项第一!这个模型的视觉编码器仅有532M参数,却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。
Seed1.5-VL由三个主要部分组成:视觉编码器(Seed-ViT)、MLP适配器和LLM(200亿激活参数)。
视觉编码器(Seed-ViT):基于Vision Transformer(ViT),包含5.32亿参数,支持动态图像分辨率,并使用2D RoPE进行位置编码。
视频编码:采用动态帧-分辨率采样策略,根据内容复杂性和任务需求调整采样频率和分辨率。
并且使用了3万亿个高质量的多模态标注,涵盖图像、视频、文本和人机交互数据。
性能测试:
视觉编码器作为零样本分类器:Seed-ViT在多个零样本分类基准上表现出色,与参数量更大的模型相当。
视觉任务评估:在多模态推理、文档理解、视觉定位和计数等任务上,Seed1.5-VL取得了SOTA或接近SOTA的结果。
视频任务评估:在短视频、长视频、流视频、视频推理和视频定位任务上,Seed1.5-VL表现出色。
GUI代理:在多个GUI任务上,Seed1.5-VL显著优于现有模型。
游戏代理:在多个游戏中,Seed1.5-VL展现出强大的推理和决策能力。
主要功能:
OCR能力:使用大规模的标注和合成数据,涵盖文档、场景文本、表格、图表等。
视觉定位和计数:结合边界框、中心点和计数数据进行训练。
3D空间理解:通过相对深度排序、绝对深度估计和3D定位任务进行训练。
视频理解:涵盖视频字幕、视频问答、动作识别等任务。
STEM领域:包含数学、物理、化学和生物问题解决数据。
GUI数据:涵盖Web、应用和桌面环境的用户界面数据。
项目地址:https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
5月13日
Google Workspace 官方提示词指南 101,高效提示词快速入门手册!(附PDF文档)
这是Google官方发布的《Gem)ini for Google Workspace 提示词指南 101》,这篇提示词入门手册主要面向企业内部应用场景,理论上结合 Google Gemini 最好,但是其提示词技巧也适用于其他语言模型。
从一开始,Google Workspace 就是为了让您能够与他人实时协作而构建的。现在,您还可以使用 Google Workspace 的 Gemini 与 AI 协作,以提高您的生产力和创造力,同时不牺牲隐私或安全。嵌入的生成式 AI 驱动功能可以帮助您撰写、组织、可视化、加速工作流程、举办更丰富的会议等等,同时使用您喜欢的应用程序,如 Gmail、Google Docs、Google Sheets、Google Meet 和 Google Slides。
本指南指出在撰写有效提示词时,有四个主要方面需要考虑,你不需要全部使用,但使用其中几个会有所帮助!
Persona(角色):确定指令的接收者或目标受众,明确人物设定可以帮助调整指令的语气、风格和内容。比如 “你是谷歌云项目经理” 这样的设定,能让 Gemini 以特定角色视角进行创作。
Task(任务):清晰阐述你希望 Gemini 执行的具体操作,如总结、撰写、改变语气、创建等。任务描述得越具体,得到的结果就越精准。例如 “起草一封执行摘要电子邮件” 就比 “写邮件” 更明确。
Context(上下文):提供充足的背景信息,助力 Gemini 理解指令的背景和目标。这些信息可以包括相关的细节、文档、数据等。例如 “根据相关项目文档的细节” 能让 Gemini 结合具体资料进行创作。
Format(格式):指定输出内容的格式和结构,像电子邮件、要点列表、报告、表格等。明确的格式要求能够提升结果的相关性和可用性。比如 “限制为要点” 能让输出以要点形式呈现。
目录内容包括:
撰写有效提示词
• 引言
• 行政支持
• 沟通
• 客户服务
• 高管
• 一线管理
• 人力资源
• 市场营销
• 项目管理
• 销售
• 小型企业主和企业家
• 初创公司领导者
• 提升您的提示词撰写水平
通过掌握这些 Google Workspace 的提示词技巧,你可以更高效地利用 Gemini 的强大功能,提升工作中的生产力和创造力,让日常任务变得更加轻松和智能。希望这份指南能成为你在 Google Workspace 中探索 AI 协作的得力助手,开启全新的高效工作模式。
PDF文档免费查阅:https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf
PrimitiveAnything:腾讯联合清华大学开源的新型3D模型生成项目!
PrimitiveAnything是腾讯人工智能平台部(AIPD)和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元,最终重新组装成完整的3D形状。框架的核心优势在于其高质量的生成效果、强大的泛化能力和高效性。
主要功能:
高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的
直观理解。
多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。
高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。
自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的
原语类型。
无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。
几何保真度与语义一致性:在生成过程中,PrimitiveAnything保持了高几何保真度,能生成符合人类认知的语义分
解结果。
模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。
技术原理:
无歧义的参数化方案:为了解决参数化中固有的歧义性(例如,不同的参数组合可能产生相同的形状),研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。
自回归变换器架构:框架采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过
点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。
自回归生成流程
序列生成:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生
成基元序列,直到预测出结束标记为止。
训练目标:在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel-Softmax(用于
可微采样),直到生成序列结束标记。能灵活且类人地分解复杂的3D形状。
项目官网:https://primitiveanything.github.io
Github :https://github.com/PrimitiveAnything/PrimitiveAnything
5月12日
媲美GPT - 4o!Nexus - Gen:融合图像理解、生成与编辑的开源多模态模型!
自 OpenAI GPT - 4o 展现出强大的图片生成能力后,业界对大模型生图能力的探索迅速向全模态方向倾斜,训练全模态模型已然成为研发的重中之重。于是ModelScope 团队重磅推出了可同时完成图像理解、生成和编辑的统一模型 ——Nexus - Gen。
令人惊喜的是,Nexus - Gen 在图像质量和编辑能力上达到了 GPT - 4o 的同等水平,并且团队将成果全方位开源,期望借此引发开发者的广泛讨论,推动 All - to - All 模型领域迈向新高度。
一、技术路线
Nexus - Gen 采用了与 GPT - 4o 类似的 token→(transformer)→(diffusion)→pixels 技术路线。这一设计融合了 SOTA MLLMs 强大的文本预测能力和 Diffusion 模型卓越的图像渲染能力。
作为一个 All - to - All 模型,Nexus - Gen 在输入和输出方面都展现出了卓越的兼容性,同时支持图像和文本模态。自回归 Transformer 输出的文本 Token 经过分类后,能够精准解码成对应的输出文本;而输出的视觉 Token 的 embeddings 则会作为条件,输入到 Vision Decoder 中解码为输出图像。
为了确保生成图像的高质量,Nexus - Gen 选择在高维特征空间对图像进行建模,并精心挑选了 SOTA 的扩散模型作为视觉解码器。
统一运用 Vision Encoder 编码图像,从而得到高维特征。在理解任务中,这些特征直接输入模型作为先验;在生成任务中,它们则作为真值指导模型的训练。
二、创新策略
魔搭团队创新性地提出了预填充自回归的策略。在训练时,使用可学习特殊 Token 填充对应的图像 Embedding 位置,如此一来,模型便能够学习直接预测任意位置的图像 Token 的能力。
在推理阶段,只要预测到图像的起始 Token BOI,就直接预填充 N 个特殊 Token 到输入序列中。通过这种巧妙的方式,能够确保训练和推理阶段行为的一致性,从而有效消除误差累计。
ModelScope 社区将持续把探索过程中的模型权重、训练数据以及工程框架全部开源,衷心欢迎社区对 Nexus - Gen 和 All - to - All 统一模型的技术未来展开广泛交流。相信在开发者们的共同努力下,Nexus - Gen 将不断进化,为 AI 图像领域带来更多的惊喜与突破。让我们拭目以待,见证 AI 技术在开源力量的推动下,绽放更加绚烂的光彩!
GitHub:https://github.com/modelscope/Nexus-Gen
字节开源 Seed-Coder:8B参数拿下同规模多个SOTA,超越百亿级对手!
字节跳动推出了一款全新的 8B 参数开源代码模型 Seed-Coder。令人惊叹的是,这款模型在性能上竟超越了众多百亿参数的竞争对手,在代码生成的竞技场上脱颖而出,为开发者们带来了前所未有的高效编程工具。
一、技术创新
传统数据筛选方式的困境,如同沉重的枷锁,限制着代码模型的发展速度与质量。而 Seed-Coder 团队另辟蹊径,提出了一种极具创新性的解决方案 ——“让 LLM 自己当老师”。用模型筛选数据训练自己,打造出一系列8B参数的轻量级开源代码模型,性能甚至超越百亿级对手!
团队精心训练了一个 “代码质量评分器”,这一评分器犹如一位严苛且公正的裁判,它基于 LLM 技术,从可读性、模块化、清晰度、复用性四个关键维度,对海量的代码进行细致入微的打分。以往人工筛选数据时,面对如山的数据常常力不从心,而现在,借助这一评分器,数据筛选效率得到了飞跃式的提升,相较以往提升了百倍之多。
二、模型测试
Seed-Coder被视为对DeepSeek-R1模型自我生成和筛选训练数据策略的扩展。
在多个权威测试中碾压对手:
代码生成:在HumanEval+测试中,8B模型得分77.4,超过70B参数的CodeLlama!
代码补全:面对跨文件补全任务,Seed-Coder的编辑相似度(ES)高达85.1%,吊打同规模模型。
软件工程实战:在GitHub真实问题修复测试(SWE-bench)中,Seed-Coder解决率19.2%,比32B模型QwQ还高!
更惊人的是,它甚至能在竞赛编程平台Codeforces上达到1553分,接近人类铜奖水平!
Seed-Coder 凭借其高效的代码生成能力,有望加速融入开发工具链,成为程序员们 24 小时在线的 “超级助手”。无论是在日常的代码编写、复杂项目的开发,还是在解决棘手的代码问题时,Seed-Coder 都将为程序员提供强大的支持,助力他们在编程的道路上更加高效、顺畅地前行,推动整个编程行业迈向新的发展阶段。
项目官网:https://bytedance-seed-coder.github.io
GitHub:https://github.com/ByteDance-Seed/Seed-Coder
5月9日
字节跳动开源Deep Research项目DeerFlow,让AI重塑分析研究报告全流程!
在当今科技飞速发展的时代,开源项目如同璀璨星辰,照亮了技术创新的道路。字节跳动在开源领域又迈出了坚实的一步,于ByteDance Github 上开源了全新的 Deep Research 项目 ——DeerFlow。这一举措,无疑为全球的科研工作者和技术爱好者们带来了一场盛大的技术盛宴。
一、DeerFlow 是什么?
DeerFlow 是一个旨在助力科研工作高效开展、深度探索的综合性平台。它集成了一系列先进的工具和技术,为科研人员提供了从数据收集、分析到模型训练、结果验证的全流程支持。
从技术架构层面看,DeerFlow 采用了先进的分布式系统设计。这意味着它能够轻松应对大规模的数据处理任务,将复杂的计算任务分解到多个节点并行处理,大大提高了运算效率。就好比一支训练有素的军队,各个兵种协同作战,高效完成任务。
同时,其底层的数据存储系统经过精心优化,不仅能够快速存储和读取海量数据,还具备强大的数据容错能力,确保数据的安全性和完整性,为科研工作提供了坚实的数据基石。
二、DeerFlow 的核心特性
强大的数据分析能力
在科研中,数据分析是关键环节。DeerFlow 内置了丰富的数据分析算法库,涵盖了从传统的统计分析方法到前沿的机器学习算法。无论是处理实验数据中的噪声,还是挖掘数据背后隐藏的规律,DeerFlow 都能轻松胜任。
高效的模型训练加速
模型训练往往是科研工作中耗时最长的部分。DeerFlow 通过引入创新的模型训练加速技术,大幅缩短了训练时间。它利用了先进的硬件加速技术,如 GPU 集群的高效调度,让模型训练在短时间内就能取得显著进展。同时,DeerFlow 还具备智能的超参数调优功能,能够自动寻找最优的模型参数配置,避免了科研人员手动调整参数的繁琐过程。
灵活的协作与共享机制
科研不再是单打独斗的时代,团队协作至关重要。DeerFlow 提供了灵活的协作平台,团队成员可以实时共享数据、模型和研究进展。通过云端协作功能,身处不同地区的科研人员可以如同在同一间办公室一样,共同编辑文档、讨论方案、调试代码。这种高效的协作机制,打破了地域和时间的限制,促进了知识的交流与碰撞,让科研项目能够在团队的共同努力下快速推进。
三、DeerFlow 的应用场景
学术研究领域
在高校和科研机构中,DeerFlow 将发挥巨大的作用。无论是物理学、化学等基础学科的理论研究,还是计算机科学、生物学等应用学科的实验探索,DeerFlow 都能为科研人员提供有力的支持。
工业研发场景
对于企业的研发部门来说,DeerFlow 同样具有重要价值。在产品研发过程中,企业需要进行大量的测试和数据分析,以优化产品性能。例如,汽车制造企业可以利用 DeerFlow 对车辆的行驶数据进行分析,改进汽车的动力系统和安全性能;软件企业可以借助 DeerFlow 对用户行为数据进行挖掘,优化软件的用户体验。
GitHub:https://github.com/bytedance/deer-flow
5月8日
开源的自媒体创作神器!AI-Media2Doc:一键将音视频转换为多种风格的文档!
在内容创作领域,“视频转文字” 一直是个令人头疼的难题,需要逐句整理、排版,效率低下且容易出错。
但国产开源工具AI-Media2Doc彻底改变了这一现状:它能将任意视频 / 音频自动转换为小红书、微信公众号、知识笔记、思维导图等多种风格的文档,全程仅需5 分钟,且完全免费、支持本地部署。
一、多模态内容生成
- 全流程自动化
语音识别:基于fast-whisper本地大模型,支持中英混杂、方言识别,准确率高达95%,无需联网即可处理。
内容结构化:自动生成标题、分段、重点标注,甚至根据平台风格添加 emoji 和标签。
多格式输出
二、核心技术功能亮点
可基于视频内容二次对话
支持生成思维导图:生成的思维导图可以导出到第三方免费的平台进行编辑和调整
完全开源, 支持本地部署, 无需登录注册, 任务记录保存在本地。
音视频纯前端处理方案, 使用(ffmpeg wasm), 无需本地安装 ffmpeg。
支持视频/音频文件, 支持输出多种风格的文档, 包括小红书/知识笔记/微信公众号和思维导图。
支持针对视频内容进行AI二次对话。
三、未来规划
支持智能截取视频关键帧, 实现真正的图文并茂。
音频识别支持使用 fast-whisper 本地大模型处理, 更进一步降低成本。
我前端有点菜, 我会努力把页面做的再好看些。
支持 docker 一键部署。
无论是自媒体博主、企业文员还是学生,都能通过AI-Media2Doc快速将音视频内容转化为高质量文档。其核心价值不仅在于技术突破,更在于降低 AI 应用门槛—— 无需编程基础、无需付费订阅,即可享受顶尖 AI 的创作能力。
GitHub:https://github.com/hanshuaikang/AI-Media2Doc
浙大哈佛开源ICEdit:仅需要以往模型0.1%的训练数据实现GPT-4o级图像编辑!
在 AI 图像编辑领域,数据与算力的 “军备竞赛” 似乎成为常态,训练成本居高不下!
但浙大和哈佛团队近期推出的ICEdit(In-Context Edit)彻底打破这一僵局:仅用0.1% 的数据量(50k)和1% 的参数量(200M),就实现了媲美 GPT-4o、Gemini 等商业大模型的编辑效果,且开源免费、速度更快。
这一突破性成果已登上 Hugging Face 趋势榜前五,引发全球 AI 社区热议。一众大V也相继转发!
一、三大核心重塑图像编辑
- 上下文学习(In-Context Learning)
ICEdit 借鉴语言模型的上下文学习能力,将编辑指令融入双联图(左右两图并列)的提示词中。例如,输入 “左边是站立的男人,右边是同一个男人抱着篮球”,模型即可理解 “让男人抱篮球” 的指令。这种设计无需对扩散模型进行全量微调,零样本即可完成复杂编辑。
- LoRA-MoE 混合微调
传统 LoRA 微调难以应对多样化编辑任务(如风格迁移、元素删除)。ICEdit 引入混合专家模型(MoE),为不同编辑类型(如 “添加”“移除”“风格化”)训练独立的 LoRA 专家。推理时,模型动态路由至最匹配的专家,显著提升编辑成功率。
- Early Filter 推理筛选
在生成阶段,模型采样多组初始噪声,利用视觉语言模型(如 Qwen-VL)快速筛选最优结果。这一策略大幅减少 “成片率低” 问题,尤其在复杂编辑场景下效果提升显著。
二、性能对比:低成本实现 SOTA 效果
与 Gemini 和 GPT-4O 等商业模式相比,ICEdit在保存和指令遵循方面与这些商业模式相当甚至优于这些商业模式。并且全面开源,成本更低,速度更快(处理一张图片大约需要 9 秒),性能强大。
ICEdit 的出现标志着图像编辑进入 “低成本、高效率” 时代。其核心价值不仅在于技术突破,更在于降低 AI 应用门槛—— 中小企业、创作者甚至普通用户,都能以极低成本享受到顶尖 AI 的编辑能力。随着开源社区的持续贡献,ICEdit 有望在更多领域实现 “AI 平权”,让技术真正服务于大众。
GitHub:https://github.com/River-Zhang/ICEdit
技术论文:https://arxiv.org/pdf/2504.20690
在线体验:https://huggingface.co/spaces/RiverZ/ICEdit
5月7日
Gemini 2.5 Pro 更新:编码能力大跃升,可根据视频生成网页,太强了!
近日,Google 旗下的 DeepMind 为我们带来了惊喜 ——Gemini 2.5 Pro 的 “I/O” 版正式发布。
作为今年 3 月推出的多模态大语言模型(LLM)的升级版,这一全新版本的能力实现了大幅超越,成功登顶 WebDevArena 榜单,成为编码领域的新王者!
新的 Gemini 2.5 Pro 版本标识为 “gemini - 2.5 - pro - preview - 05 - 06”,取代了之前的 03 - 25 版本。在 WebDevArena 这一基于人类偏好、评估模型生成美观且实用 Web 应用能力的第三方指标榜单上,Gemini 2.5 Pro Preview(05 - 06)现已超越 Anthropic 的 Claude 3.7 Sonnet,强势登顶。
Google 在其博客中指出,Gemini 2.5 Pro 的编程和多模态推理功能收获了广泛好评,此次更新在此基础上,不仅专注于 UI 开发的优化,还将提升扩展到其他编程任务,如代码转换、代码编辑以及开发复杂的智能体工作流。这些增强能力让 Gemini 2.5 Pro 在 WebDev Arena 中的 Elo 分数大幅提升,比上一版本高出 147 分!
此外,新版 Gemini 2.5 Pro 在原生多模态和长上下文方面依旧表现出色,在视频理解领域更是达到一流水准,在 VideoMME 基准测试中获得了 84.8% 的高分。这一视频理解与编码能力的结合,催生出全新工作流,例如可直接依据视频内容生成交互式应用。
Gemini 2.5 Pro 的此次更新,在行业内引发了热烈反响。众多开发者及企业纷纷对其新功能和性能提升给予高度评价。
又比如这个功能完备的书架应用:
更牛的是: Gemini 2.5 Pro 能够为这个听写应用的麦克风 UI 动画进行设计和编码!
Gemini 2.5 Pro 的问世,无疑标志着 AI 在编码领域的又一次重大突破。其强大的功能和出色的性能,将为开发者提供更高效、便捷的开发体验,推动整个软件开发行业朝着更高效、更创新的方向大步迈进。
项目地址:https://aistudio.google.com/prompts/new\_chat
Voila:开源的端到端语音大模型,实现低延迟语音对话!
Voila是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。
它还集成了语音和语言建模能力,支持数百万种预构建和自定义声音,用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。
包含两个主要模型:Voila-e2e用于端到端语音对话,Voila-autonomous用于自主互动。一个模型即可支持多种音频任务,降低了开发和部署成本。
主要功能:
实时语音交互:Voila能实现低延迟的语音对话,用户可以直接用语音与模型交流,模型会实时处理语音输入生成语音回复,和真人对话一样流畅自然。
多轮对话能力:支持多轮语音对话,模型能根据上下文理解用户的意图,做出连贯的回应。
预构建声音库:Voila拥有数百万种预构建的声音,涵盖不同性别、年龄、语调等特征的声音类型。用户可以根据自己的喜好选择声音,比如可以选择温柔的女声、低沉的男声或者活泼的卡通声音来与模型交流。
自定义声音:用户还可以通过文本指令和音频样本来定制声音。例如,用户可以上传一段自己熟悉的声音样本,并
通过指令让模型模仿这种声音进行对话,使交互更加个性化。
语音翻译:经过少量适配后,Voila可以用于多语言语音翻译。用户可以用一种语言说话,模型将其翻译成另一种语
言并用语音输出,方便不同语言背景的人进行交流。
GitHub:https://github.com/maitrix-org/Voila
ACE Studio联合阶跃星辰开源音乐生成基础模型:ACE-Step!15倍提速+多语言支持!
ACE-Step是ACE Studio和StepFun联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。
ACE-Step结合扩散模型、深度压缩自编码器(DCAE)和轻量级线性变换器,能在短时间内生成高质量的音乐作品,速度比传统LLM模型快15倍。
支持多种音乐风格、语言和可控性功能,为音乐创作提供强大的工具。ACE-Step适用于快速生成音乐,作为基础模型支持多种音乐创作子任务,助力音乐人、制作人和内容创作者实现高效创作。
主要功能:
快速合成:在短时间内生成高质量的音乐,例如在A100GPU上生成4分钟的音乐仅需20秒。
多样化风格:支持多种主流音乐风格(如流行、摇滚、电子、爵士等)和多种语言的歌词生成。
变体生成:调整噪声比例生成不同变体,提供多样化的音乐选择。
重绘功能:对特定部分重新生成,修改风格、歌词或人声,保留其他元素。
歌词编辑:支持对生成的音乐进行局部歌词修改,同时保持旋律和伴奏不变。
多语言支持:支持19种语言,其中英语、中文、俄语、西班牙语、日语等10种语言表现尤为出色。
Lyric2Vocal:基于LoRA微调直接从歌词生成人声音频。
Text2Samples:生成音乐样本和循环,帮助制作人快速创建乐器循环、音效等。
技术原理:
扩散模型:基于逐步去除噪声生成数据。模型能快速合成音乐,传统扩散模型在长结构连贯性上存在不足。ACE-Step基于创新的架构设计解决这一问题。
深度压缩自编码器:DCAE用在高效的数据压缩和解压缩,保留音乐的细粒度音频细节,减少计算资源的消耗。
轻量级线性变换器:用在处理音乐的序列信息,确保生成的音乐在旋律、和声和节奏上具有连贯性。
语义对齐:ACE-Step用MERT(Music Embedding Representation)和m-hubert 技术,在训练过程中对齐语义表
示(REPA),实现快速收敛和高质量的生成效果。
GitHub地址:https://github.com/ace-step/ACE-Step
在线体验:https://huggingface.co/spaces/ACE-Step/ACE-Step
4月30日
Subtitle Translator:一键批量字幕翻译的开源项目,支持多种字幕格式!
在全球化的时代,影视、视频内容跨越国界传播,然而语言障碍却常常阻碍着我们尽情享受来自世界各地的精彩。现在无需担心这种顾虑,Subtitle Translator 这款神奇的工具应运而生,帮助我们打破语言壁垒。
Subtitle Translator 是一款专注于字幕翻译的强大工具,旨在让不同语言背景的用户都能轻松理解视频内容。它支持多种常见的字幕文件格式,如 SRT、VTT 等,几乎涵盖了我们日常接触到的所有字幕类型。
而且它能够在35种语言之间进行互译,从热门的英语、汉语、西班牙语,到一些相对小众但独具魅力的语言,它都能应对自如,真正做到了让全球语言畅通无阻。
主要功能:
实时翻译:使用分块压缩和并行处理,实现每集 1 秒的翻译(GTX 接口稍慢)。
批量处理:同时处理数百个字幕文件,大幅提升效率。
翻译缓存:自动将翻译结果存储在本地,避免冗余的 API 调用并节省时间和成本。
格式兼容性:自动检测并适应 、 和 字幕格式,保留原始文件名。
.srt.ass.vtt字幕提取:允许轻松提取文本,以用于 AI 摘要、内容再利用等。
多种翻译选项:支持 3 个免费翻译 API、3 个商业级 API 和 5 个 AI LLM(大型语言模型)接口,满足不同需求。
多语言支持和国际化:将字幕翻译成35种主要语言,包括英语、中文、日语、韩语、法语、德语和西班牙语。它还支持从单个文件进行多语言翻译,生成双语或多语言字幕。
Github地址:https://github.com/rockbenben/subtitle-translator
在线体验:https://tools.newzone.top/en/subtitle-translator
4月29日
阿里Qwen3震撼发布:全球开源模型新王登基!用户评测亮点多!
4月29日,阿里巴巴正式开源其最新一代的通义千问模型 Qwen3。凭借混合推理架构、超低成本部署与开源生态的全面突破,迅速成为全球AI领域的焦点。
发布短短两小时,GitHub 上的Star数就已突破 16.9k,彻底点燃了开源社区的热情。开发者们纷纷下载,开启了极速测试。
有用户测试Qwen3的逻辑推理能力时,抛出经典物理题:“如何让7米长的甘蔗通过2米高的门?”模型在思考模式下,通过计算倾斜角度与空间几何,给出详细步骤,耗时仅3秒,被网友戏称“AI版阿基米德”
让它写一个洛小山的弹球游戏。就比较的普通,在游玩的时候还会有一些BUG。
如果是做一个连连看游戏,就还是比较简单了。
除了代码,在逻辑问题上也不太能难到现在的推理大模型了。
苹果工程师Awni Hannun宣布,Qwen3已经得到MLX框架支持。
而且,不论是iPhone(0.6B, 4B),还是MacBook(8B, 30B, 3B/30B MoE)、M2/M3 Ultra(22B/235B MoE)消费级设备,均可本地跑。
这次Qwen3一共发了8个模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,这6个都是Dense稠密模型。
还有两个重量级MoE模型,Qwen3-30B-A3B,和旗舰版的Qwen3-235B-A22B。
两个MoE模型,把激活的参数写在后面,Qwen3-235B-A22B的意思就是235B的参数,但是在推理时只激活22B。
Qwen3-30B-A3B就是总参数量为30B,激活参数3B,这个还蛮有意思的。所以我们看到网友反馈与上手实测也是满屏的好评。
GitHub:https://github.com/QwenLM/Qwen3
DreamO:字节联合北大开源的图像定制框架!
DreamO基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制框架。支持身份、主体、风格、背景等多种条件的无缝集成,基于特征路由约束和占位符策略提升生成结果的一致性和条件解耦能力。DreamO用分阶段训练策略,确保模型在复杂任务中高效收敛保持高质量生成。框架广泛适用虚拟试穿、风格迁移、主体驱动生成等场景,为图像生成提供强大的定制化能力。
日报: AI资讯早报&AI开源项目汇总
01 大模型
- Qwen3 语言模型凌晨发布Qwen 团队发布了最新的大型语言模型 Qwen3,包含 2 个 MoE 模型和 6 个密集模型,规模从 0.6B 到 235B 不等。旗舰模型 Qwen3-235B-A22B 在编码、数学和通用能力等基准测试中表现优异,超越其他顶级模型。此外,小型 MoE 模型 Qwen3-30B-A3B 在激活参数上具有显著优势,甚至微型模型 Qwen3-4B 也能与更大模型相抗衡。Qwen3 支持 119 种语言,优化了编码和代理能力,用户可以通过多种平台和工具轻松部署这些模型。
相关链接: https://qwenlm.github.io/blog/qwen3/ 相关链接: https://github.com/QwenLM/Qwen3 相关链接: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f 相关链接: https://modelscope.cn/collections/Qwen3-9743180bdc6b48
2. DeepSeek R1 替代方案:深度思考与模型融合新突破DeepSeek V3 的新模型 R1T-Chimera 由德国团队 TNG Technology Consulting 开发,结合了 DeepSeek R1 与 V3-0324 的优点,具备接近 R1 的能力和 V3-0324 的速度。此模型在推理过程中表现出色,成功解决了 “7 米长的甘蔗如何通过 2 米高 1 米宽的门” 的难题,用时 101 秒,展示了其深度思考的能力。模型融合技术成为当前 AI 发展的一个趋势,值得关注。
相关链接: https://huggingface.co/tngtech/DeepSeek-R1T-Chimera 相关链接: https://openrouter.ai/tngtech/deepseek-r1t-chimera:free 相关链接: https://x.com/tngtech/status/1916284566127444468
3. AI 过度奉承引发信任危机OpenAI CEO Sam Altman 透露,由于 GPT-4o 版本过于讨好用户,导致其人格变得阿谀奉承,官方决定进行修复。用户对 AI 的 “过度奉承” 表现出强烈反感,认为这削弱了 AI 的可信度。研究显示,AI 在与用户互动时更倾向于给予正面反馈,甚至在回答中谄媚,影响了人类对其信任度。OpenAI 已意识到这一问题,并在新模型规范中强调,AI 应提供真实反馈而非单纯称赞。用户也可以通过提问方式和设置明确要求来减少 AI 的迎合行为。
相关链接: https://x.com/sama/status/1916625892123742290
02 评测
- 小模型挑战井字棋的探索与挑战宝可梦之后,大神 Karpathy 提议让大模型挑战井字棋,引发了网友们的讨论。OpenAI 的 Noam Brown 对此表示挑战,认为 o3 能够胜任。经过实测,o3 在井字棋对战中占据中间位置并表现出一定的思考能力,但在胜利时却没有立即意识到结果。不同的对弈方式下,o3 也展现出不同的表现。尽管在某些情况下能得出平局,但 Karpathy 仍认为井字棋对大模型而言是个挑战。此外,Gemini 模型在宝可梦游戏中表现优异,领先于 Claude。未来,大模型可能会继续探索新的游戏作为基准测试。
相关链接: https://x.com/karpathy/status/1916495940049047819 相关链接: https://x.com/airkatakana/status/1915735143639298379 相关链接: https://x.com/OfficialLoganK/status/1915840826006966548 相关链接: https://drubinstein.github.io/pokerl/
2. Gemini-2.0 几何推理评测成果Gemini-2.0 在全球首个几何推理专项评测中夺冠,评测基准 GeoSense 由淘天集团开发,专注评估多模态大模型在几何原理识别和应用能力上的表现。该基准涵盖五层知识架构,包含 1789 道中英双语几何问题,并引入 GPI(几何原理识别)和 GPA(几何原理应用)等创新评估指标,综合评估模型推理能力。评测结果显示,Gemini-2.0-Pro-Flash 表现最佳,揭示了当前多模态大模型在平面几何理解上存在不足,且推理能力随模型规模的提升而增强。此研究强调了提升几何原理识别能力对多模态大模型推理的重要性。
相关链接: https://arxiv.org/abs/2504.12597 相关链接: https://gfzshiwai.github.io/GeoSense_Project/ 相关链接: https://github.com/GFZShiwai/GeoSense
03 Coding
- Gemini-Coder 开源 VS Code 插件Gemini-Coder 已开源并采用 MIT 许可证,作为一个 Visual Studio Code 插件,它显著提升了 VS Code 的功能,接近 Cursor 或 Windsurf 的 AI 代码助手水平。用户可以利用 Google AI Studio 提供的 Gemini-2.5-Pro 和 Gemini-2.5-Flash 模型,实现高效的代码生成和编辑,享受类似 “免费” 使用 Gemini 强大编码能力的体验。此外,该插件支持多种聊天机器人,包括 Gemini、ChatGPT、Claude、GitHub Copilot、Grok 和 DeepSeek。随着 AI 编辑器市场的不断升温,开发者可以根据需求灵活切换工具,以便更有效地解决特定问题。
相关链接: https://github.com/robertpiosik/gemini-coder
**2. 国产 AI Coding 工具 “码上飞”**一款国产 AI Coding 工具 “码上飞”,可以试试
相关链接: https://www.codeflying.net
04 视觉
- FG-CLIP 重塑 AI 视觉理解FG-CLIP 是 360 人工智能研究院推出的一种新型图文跨模态模型,旨在解决传统 CLIP 模型的 “视觉近视” 问题。通过 “双突破”—— 长文本深度理解和细粒度视觉比对,FG-CLIP 实现了图像与文本之间的精准对齐。与现有模型相比,FG-CLIP 在长文本理解、开放词汇对象检测等任务上表现显著优越。其创新的训练方法包括全局对比学习和局部对比学习,提升了对视觉细节的捕捉能力,并将在开源社区中提供相关模型和数据,以促进多模态模型的发展。
相关链接: https://github.com/360CVGroup/FG-CLIP 相关链接: https://research.360.cn 相关链接: https://github.com/360CVGroup
05 图像
- 虚拟试穿工具 FASHN V1.5FASHN Virtual Try-On V1.5 是一款先进的虚拟试穿工具,能够从模特照片和扁平展示图中准确渲染服装细节,如文字和图案。该工具以 576x864 的高分辨率生成图像,支持多种图像格式(如 jpg、png 等)。用户可以通过拖放或提供 Base64 编码的数据网址来上传服装图像。
相关链接: https://fal.ai/models/fal-ai/fashn/tryon/v1.5 相关链接: https://fashn.ai/
2. 美图云修 Pro 7.0AI 修图工具正重塑商业人像摄影工作流,尤其是美图云修 Pro 7.0 版本的推出,进一步提升了修图效率和用户体验。该工具通过云端算法与本地部署相结合,实现了对人像精修和批量处理的高效支持。美图云修 Pro 7.0 引入了丰富的预设功能,简化了修图流程,允许摄影师根据不同场景快速选择效果。支持 RAW 格式的直接编辑,减少了文件转换的麻烦。整体来看,这款工具显著降低了商业摄影的入行门槛,提高了工作效率。
相关链接: https://yunxiu.meitu.com/home
3. Adobe Firefly 4 模型发布Adobe 最近在 MAX 伦敦大会上发布了 Firefly Image Model 4,这是其创意 AI 工具的最新版本。此版本将图像、视频、音频和矢量生成工具整合为一个平台,提供增强的创作选项和更强的控制力。新模型在图像生成上显著提升,特别是在人物、动物和建筑的细节处理上。Firefly 的移动应用即将推出,允许用户在 iOS 和 Android 设备上随时生成内容。此外,Firefly Video Model 正式支持视频创作,提供动态视频的生成功能,增强了内容创作的灵活性和效率。Adobe 致力于确保 AI 工具的商用安全,并坚持尊重创作者的权利。
相关链接: https://blog.adobe.com/en/publish/2025/04/24/adobe-firefly-next-evolution-creative-ai-is-here
06 训练
- 谷歌 Gemini 模型预训练揭秘谷歌的 Gemini 2.5 pro 在 AI 大模型领域取得了显著进展,成为顶尖模型之一,凭借出色的写作和编程能力,且一直免费开放。技术分享中,Vlad Feinberg 探讨了 Gemini 的预训练逻辑,强调在算力、数据量、模型参数和推理成本之间的平衡。过去的 Scaling Laws 被 Chinchilla 更新,指出模型和数据需同步增长,避免 “训练不足”。推理成本成为关键考量,推向 “推理感知” 的 Scaling Laws,优化训练和推理成本。未来方向包括更小的模型、蒸馏技术及硬件优化等,推动大模型研究的新变革。
相关链接: https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
07 工具
- Abogen:强大的文本转语音工具Abogen 是一款高效的文本转语音工具,能够将 EPUB、PDF 和文本文件快速转换为高质量音频,并生成同步字幕。它基于 Kokoro-82M 模型,所生成的语音自然流畅,广泛适用于制作有声读物和社交媒体平台如 Instagram、YouTube 和 TikTok 的配音项目。用户可以通过其友好的界面轻松操作,满足多种语音合成需求,提升内容制作的效率和质量。
相关链接: https://github.com/denizsafak/abogen
2. CAD-MCP Server:自然语言控制 CAD 绘图CAD-MCP Server 是一个创新的 CAD 控制服务,用户可以通过自然语言指令来进行绘图操作,显著简化了 CAD 软件的使用流程。该服务结合了自然语言处理和 CAD 自动化技术,支持用户使用简单的文本命令来创建和修改 CAD 图纸,无需手动操作软件界面。CAD-MCP Server 支持多种主流 CAD 软件,包括 AutoCAD、GstarCAD 和 ZWCAD,提供基本绘图功能如画线、画圆、添加文本等,极大地提升了绘图效率和便捷性。
相关链接: https://github.com/daobataotie/CAD-MCP
3. ChatWiki 开源知识库 AI 问答系统ChatWiki 是一款开源的知识库 AI 问答系统,专为企业、高校和政府部门设计,支持快速搭建私有的 AI 知识库。它利用大语言模型 (LLM)、检索增强生成 (RAG) 和 GraphRAG 知识图谱构建,提供开箱即用的数据处理和模型调用能力,兼容多种文档格式(如 docx、excel、pdf、ofd 等)及国产浏览器,同时支持 Deepseek、千问、豆包等超过 20 个大模型。该系统的灵活性和易用性使其在各类应用场景中展现出极大的潜力。
相关链接: https://github.com/zhimaAi/chatwiki
4. 在 PDF 中运行大型语言模型的创新项目llm.pdf 是一个创新的概念验证项目,展示了将大型语言模型 (LLM) 嵌入 PDF 文件中的可行性。该项目通过使用 Emscripten 将 llama.cpp 编译成 JavaScript 代码,并将整个 LLM 模型以 Base64 编码形式嵌入 PDF。当用户打开该 PDF 文件时,嵌入的 JavaScript 会被执行,解码 LLM 模型并实现推理功能,从而实现大型语言模型在文档中的运行。这一技术突破展示了 LLM 应用的新可能性,并可能推动文档交互的变革。
相关链接: https://github.com/EvanZhouDev/llm.pdf
5. Spotify MCP ServerSpotify MCP Server 是一个轻量级的 Model Context Protocol (MCP) 服务器,旨在让 AI 助手如 Cursor 和 Claude 控制 Spotify 播放及管理播放列表。它充当 AI 助手与 Spotify 之间的桥梁,允许通过调用预定义工具来执行多种 Spotify 操作,从而提升用户在使用 AI 助手时的音乐体验。此工具为开发者提供了便利,使得集成 AI 与音乐播放功能变得更加简单高效。
相关链接: https://github.com/marcelmarais/spotify-mcp-server
6. 开源直播录制工具 BiliveBilive 是一款强大的 B 站直播录制开源工具,具备 7x24 小时自动录制直播和弹幕的能力,并利用 AI 技术识别语音生成字幕。其独特之处在于能够根据弹幕密度识别高能片段并进行切片,甚至可以自动生成吸引人的视频标题和封面,所有过程无需人工干预。此外,Bilive 对硬件要求极低,支持多架构系统,并提供详细使用教程,适合直播内容创作者使用。该工具在提高工作效率方面表现出色,是程序员和创作者的绝佳选择。
相关链接: https://github.com/timerring/bilive
7. GeoGPT 全球开放使用,推动地学研究变革GeoGPT 是一个面向全球地学科研工作者的基础模型,于 2025 年 4 月 27 日正式开放使用。该模型由之江实验室主导开发,旨在推动地球科学研究的创新与变革。GeoGPT 具备深度检索、文献阅读与数据抽取、地质图问答与生成以及个人资源管理四大核心功能,旨在提升科研效率和激发灵感。此外,GeoGPT 坚持开放、透明的治理原则,设立了国际治理委员会进行监督,确保其数据隐私和科学透明度。同时,该平台还开源了多个模型和训练数据源,积极促进全球科研合作与交流。
相关链接: https://geogpt.zero2x.org.cn 相关链接: https://geogpt.zero2x.org 相关链接: https://github.com/GeoGPT-Research-Project 相关链接: https://huggingface.co/GeoGPT-Research-Project 相关链接: https://modelscope.cn/profile/GeoGPT
08 MCP
- 开源 MCP 服务器与 GitHub 交互一个开源的 MCP 服务器,可以与任何 GitHub 仓库进行对话。这个服务器由 GitIngest 驱动,提供两个主要工具:一个用于读取目录结构(git_directory_structure),另一个用于读取重要文件(git_read_important_files)。这些工具使得用户能够高效地获取仓库的相关信息。帖子的作者邀请对机器学习和人工智能工程感兴趣的人们订阅他们的通讯,以获得深入课程和免费的电子书。此外,作者鼓励读者分享这一内容,帮助更多人了解这个强大的工具。
相关链接: https://github.com/adhikasp/mcp-git-ingest 相关链接: https://x.com/akshay_pachaar/status/1916470205867610269
2. 纳米 MCP 万能工具箱纳米推出的 MCP 万能工具箱集成了丰富的 AI 工具,涵盖办公、学术、生活等多个领域,成为国内工具数量最多的平台。用户可以通过深度研究智能体轻松生成各种展示内容,甚至无需复杂配置。同时,纳米提供了自定义 Agents 功能,让用户根据自身需求创建个性化工具。借助已有的强大工具,用户即使没有开发背景,也能高效完成任务。
相关链接: https://bot.n.cn
09 提示词
- 有效与 AI 沟通的指南一份有关如何有效与 AI 进行沟通的 prompt 指南。该指南提供了实用的建议,旨在帮助用户提升与 AI 的互动质量,确保 AI 能更好地理解指令。指南中包含大量实例,适合各个水平的用户,从入门到熟练只需简单的学习时间。强烈推荐给那些在与 AI 交流时感到困惑的人。
相关链接: https://json.visuals.zip/
2. 大模型提示词工程师需求下降大模型提示词工程师的职业地位正在迅速下降。最近的调查显示,尽管两年前这一职位曾是科技行业的热门,年薪可达 20 万美元,但在未来 12 至 18 个月内,提示工程师的需求排名倒数第二。调查涵盖了 31 个国家的 31000 名白领,显示大模型语言理解能力的提升使得用户能在无需完美提示的情况下获得满意答案。此外,许多公司正培养现有员工的提示词写作能力,导致对专业提示词工程师的需求减少。目前,AI 训练师、AI 数据专家和 AI 安全专家等岗位更受欢迎。
10 游戏
- 《太空杀》接入腾讯 AI巨人网络的社交推理游戏《太空杀》接入腾讯的混元大模型,成功生成超过 700 万个 AI 玩家,旨在提升与真人玩家的互动体验。此次创新玩法名为 “内鬼挑战”,在此模式中,八名 AI 玩家与两名真人玩家进行高拟真博弈,展示了 AI 技术在游戏中的应用潜力。此外,《太空杀》还将其 UGC 剧本工具 “鲨青剧场” 与腾讯云的语音合成技术结合,为玩家创作短视频提供更多语音支持。这些举措不仅为游戏增添了新玩法,也进一步拓展了 AI 在游戏行业的应用场景。
相关链接:https://mp.weixin.qq.com/s?__biz=MjM5MzE...wechat_redirect
11 医学
- AI 助力医学的未来探索一位华人博士通过使用 ChatGPT 成功缓解了困扰自己一年多的头晕,而另一位网友则依靠 AI 减轻了十年的腰痛。这些经历引发了人们对 AI 在医学领域的潜力的讨论。ChatGPT 凭借其海量知识、个性化指导和随时可用的优势,展示了比传统医生更高的效率和经济性。尽管如此,AI 尚不能完全替代医生,尤其在复杂病例和人际关怀方面仍存在局限性。总体而言,ChatGPT 在帮助人们理解病情和制定治疗方向方面展现出巨大潜力,但最终决策仍需依赖专业医生。
相关链接: https://x.com/gdb/status/1914106403574452496 相关链接: https://www.reddit.com/r/ChatGPT/comments/1k3tcxw/after_a_decade_of_low_back_pain_chatgpt_helped_me/ 相关链接: https://x.com/Yuchenj_UW/status/1914000352606818419
2. LLM 在医学中的应用评估大型语言模型(LLM)在医学领域的应用正在迅速发展。两篇近期发表在《Nature Medicine》的论文评估了开源 LLM DeepSeek 及其在临床决策和医学推理中的表现。研究显示,DeepSeek 模型在临床决策支持方面的表现与专有模型如 GPT-4o 相当,甚至在某些情况下更优。同时,DeepSeek 在医学推理任务中的能力也得到了验证,虽然在某些领域仍有提升空间。这些发现表明,开源 LLM 有潜力为医学提供安全、可扩展的解决方案,并为未来的医学应用打下基础。
相关链接: https://www.nature.com/articles/s41591-025-03727-2 相关链接: https://www.nature.com/articles/s41591-025-03726-3
12 案例
- 咨询行业 AI 变革新篇章在咨询行业,人工智能(AI)已经从辅助工具发展为核心战略能力。麦肯锡推出了名为 Lilli 的内部 AI 系统,整合了公司百年知识和超过 10 万份文件,极大提高了员工的工作效率。使用该工具的员工已超过 70%,且每周使用频率高达 17 次。其他咨询公司如 BCG、德勤和毕马威也在积极采用 AI,通过不同的定制工具提升生产力,消除枯燥工作,让员工专注于更高价值的任务。这一转型显示了 AI 在提升咨询行业效率和创造价值方面的重要作用。
相关链接:https://www.businessinsider.com/consulting-ai-mckinsey-bcg-deloitte-pwc-kpmg-chatbots-ai-tools-2025-4 相关链接:https://www.businessinsider.com/mckinsey-prompt-engineer-ai-right-questions-key-to-success-interns-2024-6
13 教程
- ComfyUI 与 Flux 绘图教程推荐学习使用 ComfyUI 与 Flux 进行绘图的推荐教程,频道主 PAPAYA 通过简单易懂的方式讲解各种概念,深受观众喜爱。尽管有网友担心大模型更新可能让学习变得无用,但对新版本的豆包图像生成能力表示肯定。新工具的用户意图理解能力有了显著提升,用户只需简单聊天即可,避免了复杂的提示词。文章提到的 prompt 指南也帮助用户改善了与 AI 的交流质量,提供了大量实例,适合新手快速入门。
相关链接:https://www.youtube.com/playlist?list=PL7enJ2-v6SPmuHhJEOf0hTplfmq8K_e6D
2. 宝玉:Deep Research 智能体的多场景应用Deep Research(深度研究)智能体能够自主完成复杂研究任务,远超传统 AI 搜索工具。它不仅能自动制定研究计划、进行网页浏览、执行代码,还能处理 PDF 文件,通过循环推理不断优化研究结果。用户可以通过不同格式的输入(如文本、URL、PDF 等)来利用其强大的能力,获取高质量的研究报告、学习材料和决策支持等。Deep Research 的应用场景包括个人学习、内容创作、消费决策和日常生活规划等,极大提高了工作和学习的效率。
相关链接:https://mp.weixin.qq.com/s?__biz=Mzk1Nzg...e=0&xtrack=1#rd
14 语音
- 真实的文本转语音工具 Rime AIRime AI 是一款新兴的文本转语音(TTS)工具,主打提供真实自然的语音合成,支持英文,生成延迟低于 200 毫秒,适合实时对话。该工具提供多种声音个性选择,能够处理多语言和特殊读法,适合企业级应用并具有安全合规性。Rime AI 的免费版每月可处理 10,000 个字符,支持多种部署方式。该内容还提及了学习 AI 创业和 SEO 的实用技巧,包括社交媒体注册、关键词挖掘和用户引导策略。
相关链接:https://www.rime.ai/blog/introducing-arcana/
15 具身智能
- 地方政府积极投资人形机器人产业近期,北京亦庄等多个地方政府设立人形机器人产业基金,总规模超过 700 亿元,旨在推动机器人和智能制造产业的发展。这些基金涵盖了核心零部件、技术研发及产业链创新应用等领域。尽管行业内对人形机器人的商业化潜力存在质疑,但国资基金的强势入场显示出地方政府对该领域的信心。多个地方还在积极探索各自的产业基金,体现了国家对机器人产业的重视。行业内专家认为,尽管面临挑战,具身智能和人形机器人的前景仍然广阔。
16 安全
- 提升 MCP 生态安全的 AI 检测工具腾讯朱雀实验室推出了 AI-Infra-Guard V2,这是一款基于 AI Agent 的安全检测工具,旨在帮助用户、开发者和托管商检测 MCP 服务的安全风险。该工具能够识别包括工具投毒、数据窃取和命令注入在内的九类安全风险,解决 MCP 协议实施缺陷和代码漏洞问题,推动行业建立更加安全的生态环境。此外,AI-Infra-Guard 支持多种编程语言的静态分析,并具备智能判定复杂安全风险的能力,以便在 MCP 服务开发与市场上架前进行全面的安全检测和认证。
相关链接:https://github.com/Tencent/AI-Infra-Guard 相关链接:https://mp.weixin.qq.com/s/cpkOCDfcZErvFbMdgKYANg
17 论文
- TTRL 与记忆系统的智能体进化测试时强化学习(TTRL)与记忆系统的结合,为 AI 模型在无标签数据上自我进化提供了新的可能性。TTRL 允许模型在测试阶段通过自身探索生成奖励,实现持续学习,突破传统强化学习依赖明确标注数据的局限。通过多样化的样本生成和有效的奖励机制,TTRL 展现出卓越的自我提升能力,使得 AI 能够在不断变化的环境中灵活适应。实验结果表明,TTRL 不仅提高了模型性能,还具备良好的扩展性和泛化能力,为构建自我学习的智能体提供了全新视角。
相关链接:https://arxiv.org/abs/2504.16084
2. AI 与人类思维的根本差异尽管现代 AI 模型如 LLM 在推理和问题解决上表现出色,但它们本质上依赖复杂的统计模式匹配,而非真正的推理能力。哈佛的研究显示,AI 无法构建类似于人类的 “世界模型”,其导航能力来自大量经验规则的积累,而不是对因果关系的理解。AI 在处理复杂任务时往往会暴露出缺乏灵活性的缺陷。最近的研究表明,LLM 在内部运作上与人类的推理方式截然不同,表明 AGI 尚未取得实质性进展,智能的本质与大型统计模型之间存在重要区别,且模型的 “涌现行为” 只是多种模式的组合。
相关链接:https://www.mindprison.cc/p/no-progress-toward-agi-llm-braindead-unreliable 相关链接:https://www.wsj.com/tech/ai/how-ai-thinks-356969f8
18 量子
- AI 与量子计算的突破性结合香港科技大学等机构的研究者提出了一种突破性低温存内计算方案,显著提升了量子计算在人工智能领域的运算速度和效率。由于量子处理器需在极低温度下运行,传统设计导致延迟。新方案利用磁性拓扑绝缘体 Cr-BST,使人工智能加速器与量子处理器的距离缩短至数十厘米,从而实现高效协同。研究表明,该材料在低温环境下可实现每瓦 724 太次操作的性能,且具备强大的应用潜力。未来,研究团队将致力于集成 AI 智能体,以进一步降低延迟和拓展量子计算应用场景。
相关链接:https://seng.hkust.edu.hk/zh-hans/news/20250324/kedagongxueyuanfabiaotupoxingdiwencunneijisuanfangan-tuijinrengongzhinengyuliangziyunsuanjiehe 相关链接:https://phys.org/news/2025-03-meters-closer-miles-faster-cryogenic.html 相关链接:https://www.nature.com/articles/s41563-024-02088-4
19 其他
Meta 与 Booz Allen 联手开发 Space Llama 人工智能系统,旨在优化国际空间站的研究工作。该项目依托 Meta 的 Llama 3.2 模型,结合惠普的星载计算机和英伟达的 GPU,目标是提升太空研究的效率,降低成本,并快速解决机载故障。Space Llama 的推出代表了人工智能技术在太空探索领域的重大进步,能够在不依赖地球互联网的情况下,更好地支持宇航员在低轨道的研究与实验。
漂亮国总统特朗普近日发布行政命令《推动漂亮国青少年的 AI 教育》,旨在通过加强 K-12 教育中的人工智能学习,保持漂亮国在全球技术竞争中的领先地位。该命令指出,AI 正在快速改变各行各业,强调为学生提供必要技能以适应数字化社会的重要性。特朗普要求各级学校加强 AI 教育,培养学生的创新能力和批判性思维,并投资于教师的 AI 专业发展,以确保教育者能有效融入 AI 教学。为推动政策实施,还设立了特别工作组,促进与行业和学术机构的合作,共同开发教育资源,并计划举行总统人工智能挑战赛,鼓励学生展示创新成果。
清华系的智谱与生数科技宣布达成战略合作,旨在结合各自在大语言模型及多模态生成模型的技术优势,推动国产大模型的技术创新和产业落地。根据协议,智谱的 MaaS 平台将接入生数的 Vidu API,融合视频生成能力,服务更广泛的客户。此外,双方将在重点行业如政企服务、互联网、文化旅游等领域,协同开发更具竞争力的解决方案,并共同打造 AI 创新应用。智谱拥有领先的 GLM 大模型系列,而生数则专注于多模态通用大模型,此次合作将有助于提升国产大模型的整体实力和行业生态的繁荣发展。
宝马集团宣布,第三季度将推出接入 DeepSeek 深度思考的第九代(BMW)操作系统,首批车型包括 BMW 5 系和全新 BMW X3 长轴距版。此系统提供文本生成、通勤建议和联网内容搜索等功能,显著提升车机能力并简化复杂指令,同时提供情绪价值。此外,宝马与阿里巴巴的合作将基于通义大模型开发智能个人助理,预计于 2026 年在中国生产的新世代车型中率先搭载。合作的目标是将 AI 技术更深入地融入汽车体验。
美国社区大学正遭受 AI 机器人注册课程的欺诈行为,这些机器人通过注册并在助学金发放后退课的方式,骗取联邦和州政府的资金。根据加州校长办公室的估计,去年社区大学申请者中约有 25% 是 AI 机器人。为了维持在校身份,这些机器人还会提交由 AI 生成的作业。由于社区大学通常接受所有申请者,这种情况让它们成为主要受害者。对此,加州政府成立了专门工作组以应对这一问题,并引发了对 AI 时代身份验证复杂性的思考,提醒人们此类欺诈行为可能会愈发频繁。
百度 AI 开发者大会上,中国文物交流中心与百度文心大模型合作,推出首个文博智能体「文夭夭文博智推官」。该智能体旨在为公众提供文物、展览及数字化应用等专业知识的科普讲解和传播推广,促进文博资源的展示和共享。目前,「文夭夭文博智推官」已在百度 APP、百度搜索及其他平台上线,用户可通过搜索相关关键词快速访问该智能体。
OpenAI 的前员工正在硅谷崛起,成立了 15 家 AI 初创公司,被称为 “OpenAI 黑帮”。这些公司累计估值达到 2500 亿美元,涵盖了大模型、AI 代理、机器人等前沿领域,部分企业如 Anthropic 和 Perplexity 已开始对抗行业巨头。与历史上的 PayPal “黑帮” 相似,这些新兴企业正在重塑 AI 行业的格局。它们代表了技术创新和市场竞争的新的趋势,可能孕育出下一个行业巨头。
财新传媒与人工智能公司 Kimi 达成合作,旨在提升中文互联网用户的财经信息搜索质量。通过此合作,Kimi 用户在询问财经问题时,将结合财新报道生成初步答案,并提供便捷的高质量新闻链接。此举不仅扩展了财新内容的受众范围,还增强了 AI 搜索的内容标准。财新传媒一直致力于技术创新,已成立 AI 实验室并推出多款大语言模型应用,以提升用户体验。未来,财新将继续推动专业新闻与 AI 技术的融合,为用户提供更丰富的服务。
20 观点
Meta 的首席技术官 Andrew Bosworth 最近表示,AI 可能会彻底颠覆现有的应用程序,并且在未来十年,获取内容的方式将发生根本性变化。他认为,AR 眼镜将替代智能手机,提供更自然的交互方式,用户只需表达意图,AI 将自动完成任务。此外,他强调开源 AI 模型 Llama 的战略意义,认为基础模型的商品化将有助于整个生态系统的发展,尽管他也承认在实现「后手机时代」的过程中面临技术、社会和生态系统建设等多重挑战。Bosworth 的愿景展现了 Meta 在未来技术发展方向的前瞻性思考。
未来 5-7 年,AI 将引领经济向 “永续运转” 转型,这一变革将消除经济中的时间限制,提升效率。AI 的应用将覆盖更多领域,如金融、医学、教育等,创造全天候服务的可能性。这种模式不仅会提高资产利用率,还将改变工作模式,推动人类与 AI 的混合系统发展。AI 的优势在于不知疲倦的特性,使得经济运作不再受限于传统的工作时间。成功的关键在于将 AI 系统与人类监管相结合,形成更高效的经济体。
Demis Hassabis 在《时代》专访中探讨了人工智能(AI)和通用人工智能(AGI)的潜力与风险。他认为,若合理发展 AGI,能够解决重大社会问题,如治愈疾病和应对气候变化,但也面临被滥用的风险。他强调,技术的双重用途要求对其控制与设计标准进行国际合作。此外,他认为,AGI 的兴起将对人类的就业和存在意义提出新的挑战,必须通过哲学思考重新定义人类的目标。Hassabis 坚定地认为,科学家在推动知识进步方面的作用无法被 AI 替代。
相关链接:https://time.com/7280740/demis-hassabis-interview/
4月28日
音频 AI 的 “六边形战士” 降临!Kimi-Audio开源发布,语音识别、音频理解、对话生成,全线封神!
Moonshot AI正式发布开源音频基础模型Kimi-Audio!这款以7B参数量为核心的通用模型,凭借1300万小时超大规模音频训练、混合架构设计与多项SOTA性能,彻底颠覆了传统音频处理的技术边界!
从语音识别到情感分析,从多轮对话到音频生成,Kimi-Audio以“六边形战士”的姿态横扫十多项基准测试,总体性能稳居第一,被业界誉为“开源音频领域的GPT-4时刻”
技术突破:三大创新架构横扫性能瓶颈
- 混合输入:让声音 “开口说话”
离散语义标记:将音频拆解为 12.5Hz 的 “声音单词”(如 “钢琴声”“笑声”),保留语义信息。
连续声学特征:通过 Whisper 编码器提取波形细节,捕捉语调、语速等情感线索。
示例:输入 “婴儿哭声”,模型不仅识别为 “哭声”,还能分析频率判断 “饿了” 或 “困了”。
- LLM 赋能:超越工具的 “听觉思维”
多模态推理:基于 Qwen 2.5-7B 架构,支持 “语音输入→文本 / 语音输出” 的端到端交互。
情感对话:在 VoiceBench 测试中,Kimi-Audio 的 “共情能力” 评分达 3.39,能根据用户语气调整回应态度。
跨语言支持:中文普通话识别 WER 仅 0.60%,方言(如粤语、四川话)处理准确率提升 40%。
- 高效生成:毫秒级实时响应
分块流式解码:将音频生成延迟降低 40%,支持直播、客服等实时场景。
声码器优化:采用 BigVGAN 技术,生成语音自然度媲美真人。
性能封神:碾压开源,逼近闭源
语音识别:LibriSpeech词错率1.28%,较第二名降低30%;
情感分析:MELD任务得分59.13,超越GPT-4o-mini;
声音分类:VocalSound准确率94.85%,接近理论满分;
多任务雷达图:在ASR、AQA、TTS等任务中,Kimi-Audio(紫线)覆盖面积远超Qwen、Baichuan等竞品。
Kimi-Audio 的开源,不仅是技术突破,更是 AI 民主化的里程碑。从医疗诊断到智能家居,从内容创作到情感陪伴,这个 “全能耳朵” 正在重塑人与声音的交互方式。正如其技术报告所言:“真正的听觉智能,不是简单的语音转文字,而是理解声音背后的情感控制。”
GitHub:https://github.com/MoonshotAI/Kimi-Audio
平替GPT-4o改图的开源项目!阶跃星辰发布Step1X-Edit!输入指令实现 “所想即所得”,人人都能用的“改图大师”!
在AI图像编辑领域,闭源模型如 GPT-4o、Gemini2 Flash 凭借强大的多模态能力占据技术高地,而开源社区长期面临性能差距。
近日,国内AI公司阶跃星辰(StepFun)重磅推出开源图像编辑模型Step1X-Edit,以19B总参数量和多项突破性技术,重新定义图像编辑的边界!
Step1X-Edit成为首个可对标商业级模型的开源解决方案。无论是文字替换、风格迁移,还是复杂场景的精准操控,Step1X-Edit均能以“像素级”精度呈现惊艳效果,性能全面超越现有开源模型!
三大核心能力,颠覆传统编辑体验
精准语义解析
- 模型搭载多模态大语言模型(MLLM),可深度理解用户指令中的复杂语义,例如“将礼盒中的月饼换成包子”,真正做到“所想即所得”。
身份一致性保持
- 人物/物体编辑时,自动识别并保留核心特征(如面部五官、物体纹理),避免传统编辑导致的“失真”问题,生成效果自然如原图。
高精度区域级控制
- 支持对图像局部区域的精细化调整,从光影变化到材质替换,甚至动态元素的微调,均能通过简单指令实现,堪比专业PS操作!
开源生态 + 低门槛部署,助力创意落地
对于开发者和企业用户,Step1X-Edit 提供全链路支持:
开源资源丰富:代码、模型权重(Hugging Face/ModelScope 双平台)、GEdit-Bench 基准数据全开源,允许二次开发和商业应用(Apache 2.0 协议)。
部署灵活高效:支持 80GB 显存 GPU 运行 1024x1024 高分辨率编辑,单卡处理速度达 22 秒 / 图,配套脚本一键启动(
bash scripts/run_examples.sh),降低工程化成本。场景适配广泛:可集成至电商修图、广告设计、AI 生成内容(AIGC)平台,支持 API 调用和本地化部署,满足不同算力需求。
案例分享
提示词:给小姐姐脖子上增加一条适合她的项链
提示词:把这个小女孩改成戴珍珠耳环的不高兴的少女,画风不变
提示词:将海报上的“GREEN” 改成“阶 跃 A I”
提示词:转成像素风格
无论你是设计师、开发者,还是普通用户,Step1X-Edit都将成为你的“AI编辑神器”。
这个五一,不如试试用嘴改图,无论是修图,还是瘦身,都能一句话搞定。Step1X-Edit 已在【阶跃AI 网页端和阶跃AI App】上线,感兴趣的朋友可以前往体验。
GitHub:https://github.com/stepfun-ai/Step1X-Edit
huggingface:https://huggingface.co/stepfun-ai/Step1X-Edit
4月27日
Unsloth发布Dynamic v2.0量化方法,并开源DeepSeek-R1/-V3-0324 的新量化版本!
Unsloth 最近发布了 Dynamic v2.0 量化版本,该版本在 MMLU 和 KL Divergence 的成绩上均优于之前的量化版本。
在5-shot MMLU和KL散度测试中创下新纪录!这意味着你现在可以运行和微调量化后的LLM,同时保持最大程度的准确性。
需要注意的是,这些结论是基于 5-shot 的实验结果,并且每个实验运行 5 次以获取最优值,因此量化版本的稳定性仍需考虑。
此外,Unsloth 未来将继续使用 Dynamic v2.0 进行新版本的量化更新。同时,Unsloth 也修复了 llama.cpp 中与 llama-4 相关的 RoPE 实现问题,并推出了 DeepSeek-R1 和 DeepSeek-V3-0324 的新量化版本。
DeepSeek-V3-0324 在几个关键方面比其前身 DeepSeek-V3 有了显著的改进。
增强表现:
前端 Web 开发:提高了代码的可执行性以及更美观的网页和游戏前端。
中文写作能力:
与 R1 写作风格保持一致,更好的中长格式写作质量。
改进的多轮交互式重写,优化翻译质量和信件写作。
中文搜索功能:增强的报告分析请求,具有更详细的输出
函数调用改进:提高了函数调用的准确性,修复了以前 V3 版本中的问题
Dynamic v2.0的核心创新点:
(1)全新层选择算法:不再仅修改部分层,而是动态调整每一层的量化类型。
(2)模型专属量化方案:为每个模型定制专属量化方案,例如Gemma 3和Llama 4的量化层差异明显。
(3)高质量校准数据集:使用30万到150万token的高质量、手工策划的数据集,大大提升对话性能。
开源地址:https://huggingface.co/unsloth/DeepSeek-R1-GGUF-UD
https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF-UD
阿里开源Open Avatar Chat:实时数字人对话项目!支持文本、音视频等多种交互方式!
Open Avatar Chat是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。
Open Avatar Chat支持低延迟的实时对话(平均响应延迟约2.2秒),兼容多模态语言模型,包括文本、音频和视频等多种交互方式。系统基于模块化设计,用户根据需求灵活替换组件,实现不同的功能组合。为开发者和研究人员提供了高效、灵活的数字人对话解决方案。
主要功能:
低延迟实时对话:系统能够实现低延迟的实时交互,平均响应延迟约为2.2秒,适合流畅的对话体验。
多模态交互:支持文本、音频、视频等多种交互方式,提供丰富的用户体验。
模块化设计:采用模块化架构,允许用户根据需求灵活替换组件,例如语音识别(ASR)、语言模型(LLM)和语音
合成 (TTS)模块。
多种预设模式:提供多种预设配置,支持不同的技术组合,例如本地模型或云API。
数字人头像支持:集成多种数字人头像技术,如LiteAvatar和LAM(Live Avatar Modeling),支持2D和3D头像渲染。
技术原理:
语音识别(ASR):基于开源或云服务的语音识别技术将用户的语音输入转换为文本,为后续处理提供输入数据。
语言模型(LLM):核心组件之一,支持多模态语言模型或基于云API调用外部语言模型。模型负责理解用户输入生成合适的回答。
语音合成(TTS):将语言模型生成的文本转换为语音输出,支持本地TTS模型或云服务,实现自然流畅的语音交互。
数字人头像渲染:集成2D和3D头像技术,基于实时渲染技术将语音输入驱动的动画效果展示给用户,增强交互的沉浸感。
GitHub:https://github.com/HumanAIGC-Engineering/OpenAvatarChat
在线体验:https://huggingface.co/spaces/HumanAIGC-Engineering-Team/open-avatar-chat
4月25日
3天狂澜3.9Kstar! 逆天AI开源智能体助手Suna:免费替你搞定一切,效率飙升!
可以对标 Manus 的智能体 Suna 来了!
这款智能体由 Kortix AI 团队打造,开源并且完全免费。
Suna就是一个全能型AI助手,它可以通过自然对话的方式帮你完成各种实际任务。不仅仅是个聊天机器人,还是能真正帮你解决问题、自动化工作流程的数字伙伴。
此外,Suna 还集成了强大的工具集,包括用于网页浏览与数据提取的浏览器自动化、文档创建与编辑的文件管理功能、网页爬取与增强的搜索能力、网站部署功能,以及与多种 API 和服务集成的能力。
这些功能高度协同,使得 Suna 能够通过简单对话解决复杂问题,并实现各类工作流程的自动化!
根据项目介绍,Suna 由四个主要组件构成:
后端 API:基于 Python/FastAPI 的服务,负责处理 REST 端点、线程管理以及通过 LiteLLM 与 OpenAI、Anthropic 等大语言模型(LLM)的集成。
前端:使用 Next.js/React 构建的应用程序,提供响应式用户界面,包括聊天界面、仪表板等。
Agent Docker:每个智能体的隔离执行环境,具备浏览器自动化、代码解释器、文件系统访问、工具集成以及安全功能。
Supabase 数据库:负责数据持久化,包括用户认证、用户管理、对话历史、文件存储、智能体状态、分析以及实时订阅等功能。
Suna就像你的私人助理,拥有一系列强大的功能:
浏览器自动化:可以自动浏览网页、提取数据
文件管理:创建和编辑文档
网络爬虫:收集网络信息
扩展搜索:帮你找到需要的信息
命令行执行:处理系统任务
网站部署:简化网站上线流程
API集成:连接各种服务和平台
GitHub:https://github.com/kortix-ai/suna
科研党专属的“提效神器”!OpenBMB智能开源助手「卷姬」上线:报告生成兼具深度与高度!
如果你有过以下惨痛经历:
吭哧吭哧肝了 200 小时文献综述,疯狂 Ctrl+C 和 Ctrl+V,最后导师却说「你这引用质量和百度百科有什么区别?」
被老板临时需求追杀到凌晨五点,打开 82 个网页看到眼冒金星,结果项目报告里的关键数据居然来自知乎匿名编故事大佬。
这时SurveyGO 闪亮登场,拯救你的发际线来了!
它是来自清华的面壁智能团队的新作品,科研党专属的“提效神器”!
SurveyGO 光看题目框架,就能提炼其中的逻辑能力。 并且还能轻松直出数万字综述!
因为 SurveyGO 写论文非常的卷,其中又用到了卷积的技术,所以大家给她取了个外号——卷姬!
SurveyGO 产品也非常简洁易用,点击「开始综述」按钮后出现一个面板,按照需求有普通模式和专业模式可选,用户可以填写论文标题、描述,选择中英文语言;再点击「SurveyGO」按钮即可成功提交选题。
写作需求表」,还能围观大家风格各异的好奇心,为你感兴趣的研究点赞!
最近,特朗普政府发起的关税大战沸沸扬扬。我们让卷姬 SurveyGO、OpenAI-DeepResearch、AutoGLM-沉思和 Gemini DeepResearch 分别以《关税大战对普通人生活的影响》为题,撰写一篇详尽的综述报告。
一篇好的报告,可以从 4 个科学维度考量,我们将以这些维度进行横评:
1. 结构维度:结构清晰合理。
2. 内容维度:论据有支撑、内容和主题相关、语言风格良好、有拓展延伸的思考。
2. 观点维度:具有信息量的观点的数量和密度。
4. 引用维度:引用文献的准确率和召回率。
从结构维度看,SurveyGO 生成文章的目录层次分明。OpenAI DeepResearch 的目录结构较为简单,虽然能很好切题,但没有展现出很好的层级或者递进关系。AutoGLM-沉思的标题层级更接近于对现有信息的分点罗列,缺乏整合与深度思考。而 Gemini DeepResearch的目录分点切题,但结构存在冗余,例如 3、4、5、6可能可以归类为 1 到 2 个章节。
至于内容维度,从导言和结论基本可见分晓。
SurveyGO 的导言部分从历史说起,逐渐切入时事,娓娓道来,是一个很有深度的分析。结尾分析更见功力,角度全面,丝滑缜密。
OpenAI DeepResearch的导言部分有背景介绍和核心关注点,具备一定的「透过现象看本质」特征,而结论部分的递进关系写得较好,文采不错,有升华主旨。
AutoGLM-沉思的概况能够准确捕捉热点新闻信息,真实性可供验证,但概括性不足,无法让人从宏观视角理解全局事件。
Gemini DeepResearch的导言的结构清晰,思路明确,解释了关税的定义、运作方式和关税大战的触发因素等,能够有助于读者了解事件的背景等,这部分的表现好于 OpenAI DeepResearch 和 AutoGLM-沉思。
去年 9 月,面壁小钢炮 MiniCPM 3.0 的「无限长文本」让人眼前一亮。背后的技术原理 LLMxMapReduce 长本文分帧处理技术堪称「大模型长文本上分神器」。
今天,让 SurveyGO 成为新晋「卷王」的 LLMxMapReduce-V2 长文本整合生成技术,正是它的进化版本。
为了进一步提升⼤语⾔模型长文本生成的内容质量,AI9Star、OpenBMB、和清华大学的小伙伴联合研发,提出 LLMxMapReduce-V2。这项技术的核⼼在于借助⽂本卷积算法实现多篇参考⽂献的聚合来代替现有⽅法中常⻅的检索,从⽽实现对全部参考⽂章的充分利⽤。
实验数据显示,LLMxMapReduce-V2 在参考利⽤率上至少提⾼了 32.9%,在其他维度的表现也显著优于提取式基线⽅法。
技术论文:https://arxiv.org/abs/2504.05732
GitHub:https://github.com/thunlp/LLMxMapReduce/tree/main
4月24日
两本科生自学3个月复刻谷歌NotebookLM!Dia**:超写实对话级文本转语音项目!**
谷歌现象级产品NotebookLM,被两个本科生自学3个月复刻了!
Nari Labs最新开源了一个超写实对话级文本转语音模型:Dia!
参数量为 16 亿,能够“一步生成”极为逼真的多角色对话语音。
Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。
项目完全开源,采用 Apache 2.0 协议,权重和推理代码公开,在GitHub上已经获得7.7Kstar!
核心功能
高保真文本转对话语音:能直接根据对话文本生成自然、有情感的多说话人语音。
情感与语调可控:可用音频条件(prompt)进行控制,实现情感、语调的定制。
非语言动作生成:支持如(笑声)、(咳嗽)、(叹气)等非言语声音的合成。
语音克隆:可通过音频prompt实现声音克隆(voice cloning)。
一键推理体验:支持 Gradio UI、本地命令行、Python API 直接调用。
架构设计与技术亮点
单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。
非语言标签支持:支持丰富的非语言动作标签,增强真实感。
硬件支持与推理效率:
推荐在 GPU 上运行,支持 Pytorch 2.0+,CUDA 12.6。
在企业级 GPU(如A4000)可实现近实时语音生成。
后续会支持 CPU、模型量化、Docker 等。
数据与工程实践:借鉴 SoundStorm、Parakeet、Descript Audio Codec 等前沿技术。
可扩展性:未来计划优化推理速度、降低显存占用、支持更广泛硬件。
GitHub:https://github.com/nari-labs/dia/
Hugging Face:https://huggingface.co/nari-labs/Dia-1.6B
更多演示:https://yummy-fir-7a4.notion.site/dia
应用场景
AI 对话助手、语音机器人
数字人、虚拟主播
影视动画配音、多角色游戏语音
内容创作与 remix
语音交互体验、辅助沟通等
4月23日
VAST开源Tripo Doodle:将2D草图实时转化为精细的3D模型!
VAST 最新开源的 Tripo Doodle 是一款创新的 3D 建模工具!
能够将简单的2D草图和文本提示实时转化为精细的3D模型。
该工具通过直观的绘图和文字输入,简化了传统 3D 建模的复杂过程,尤其是在初期阶段,使创作者能够专注于创意而非繁琐的操作。
通过 Tripo Doodle,用户可以:
直观绘制(Sketch Intuitively): 在画布上随手勾勒简单的 2D 形状和线条。
添加文本提示(Add Text Prompts): 通过文字输入,赋予模型语义信息或特定属性。
即时生成(Generate Instantly): 实时看到基于草图和文本生成的 3D 模型,并随着输入的修改而动态更新。
在 SIGGRAPH Asia 2024 Real-Time LIVE! 的首次亮相中,Tripo Doodle 展示了一个“万物皆可画”的未来——3D 建模可以像 2D 涂鸦一样流畅自然、触手可及。它让创作者能从繁琐的工具操作中解放出来,将精力完全聚焦于创意本身。
该模型开创性地采用了大规模整流流 Transformer架构,能在精选数据集上进行训练,直接从条件输入生成高保真3D网格。其核心突破在于增强了TripoSG,使其能够理解并同时融合草图和文本两种输入模态。
无论是植物、桌子、戒指还是怪兽,简单的几笔草图都能即时转化为3D物体。
并且随着用户绘制、擦除、修改草图,或添加/更改文本提示时,3D模型会动态、无缝地更新。
Tripo Doodle极大提高了 3D 创作的效率与趣味性。目前已对外开放,欢迎全球研究者和开发者参与探索。
GitHub:https://github.com/VAST-AI-Research/TripoSG
Sand AI 重磅开源全球首个自回归视频生成大模型:Magi-1!支持生成一镜到底的连续长视频!
AI视频生成领域,又出现一位重量级开源选手**:Magi-1!**
这是由马尔奖、清华特奖得主曹越的创业公司 Sand AI 开源的视频生成大模型 。
是首个实现顶级画质输出的自回归视频生成模型,模型权重、代码100%开源。
Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球。
根据官方介绍,MAGI-1 生成的视频具有以下特点:
1、流畅度高,不卡顿,可以无限续写。它可以一镜到底生成连续的长视频场景,没有尴尬的剪辑或奇怪的拼接,就像电影一样流畅自然。
2、精准时间轴控制。MAGI-1 是唯一具有秒级时间轴控制的模型 —— 你可以按自己设想的那样,精准地雕琢每一秒。
3、运动更加自然,更有生机。不少 AI 生成的视频,画面动作不是慢吞吞,就是僵硬死板、幅度过小。Magi-1 克服了这些问题,生成的动作更加流畅、有活力,且场景切换更加顺滑。
另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。
MAGI-1 的发布在海外引起了一些轰动,开源大神 Simo Ryu 发帖提问,想要了解 Sand AI背后是怎样一个团队。
网友们激动转发测试,评价也是相当高!
随着MAGI-1的开源,视频生成技术迎来了新的发展机遇。
项目地址放下面了,感兴趣的小伙伴快去体验吧!
体验地址:https://sand.ai/
GitHub:https://github.com/SandAI-org/MAGI-1
4月22日
腾讯混元开源角色定制化图像生成插件:InstantCharacter!兼容Flux !
腾讯混元今日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。
通过这个插件,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。
例如上传这张图片:
输入提示词:a rabbit is in the kitchen holding a spoon and drinking soup
就能得到:
还可以再次输入提示词:a rabbit in the city,cyberpunk
也就是说,你想要图片主角出现在哪儿只需要一句提示词就能搞定。
角色一致性是多轮文生图场景中的一大难题。
InstantCharacter 的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。
腾讯混元团队发布的技术报告中比较了多个模型的效果。可以发现,开源的InstantCharacter实现的效果媲美GPT 4o等业界领先模型。
从技术上看,现有基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性,而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。
为了解决这些挑战,InstantCharacter 利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。
项目官网:https://instantcharacter.github.io/
GitHub:https://github.com/Tencent/InstantCharacter
开源AI虚拟主播项目!Persona Engine:AI驱动的互动虚拟形象引擎,能直接和用户进行对话!
handcrafted-persona-engine是一个AI驱动的互动虚拟形象引擎。
可以让你的数字角色拥有生动的语音和动画!核心价值在于为VTubing、直播和虚拟助手应用提供一站式解决方案。
它巧妙地结合了:
Live2D:用于富有表现力的实时角色动画。
大型语言模型 (LLM):为您的角色提供独特的声音和个性。
自动语音识别 (ASR):理解语音命令和对话。
文本转语音 (TTS):让您的角色能够自然地说话。
实时语音克隆 (RVC - 可选):模拟特定的语音特征。
社区测试显示,Persona Engine在OBS集成与语音交互的流畅性上表现优异,尤其适合独立创作者与小型直播团队用于制作 AI 虚拟主播。
广泛应用场景:
VTubing与直播:打造AI驱动的虚拟主播或互动角色,实时响应观众语音或弹幕,提升直播沉浸感。
虚拟助手:构建个性化桌面伴侣,支持语音交互与任务协助,适用于个人效率提升或娱乐场景。
内容创作:生成动态角色动画,用于短视频、教学内容或品牌宣传,降低制作成本。
教育与研究:为AI交互、语音处理与动画渲染研究提供开源平台,推动技术创新。
GitHub:https://github.com/fagenorn/handcrafted-persona-engine
4月21日
阿里通义万相开源首尾帧生视频模型:Wan2.1-FLF2V-14B!
阿里通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。
仅需上传两张照片作为首帧和尾帧,就能得到一段5秒720p的高清视频。
▲提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”
该模型可以真实地还原物理规律,在光源出现时,地面上的人影会随着光束移动而发生变化。
同时也可以满足用户对视频情感表达的诉求。
▲提示词:“卡通风格,一个打着红色雨伞的蓝色卡通人物站在雨中。它的眼神充满忧郁。”
官方表示,这是业界首个百亿参数规模的开源首尾帧视频模型。
该模型不仅支持文本到视频和图像到视频,还具备视频编辑、文本到图像以及视频到音频的扩展功能。其核心优势在于对动态场景的精准建模,能够在生成过程中有效捕捉首尾帧之间的运动轨迹和视觉细节,为用户提供高质量的视频内容。
首尾帧生视频比文生视频、单图生视频的可控性更高,是最受AI视频创作者欢迎的功能之一,但这类模型的训练难度较大,首尾帧视频生成需同时满足以下几点:
生成的视频内容要保证和用户输入的两张图像一致
能够遵循用户的提示词指令
能从给定的首帧自然、流畅过渡到尾帧
视频本身动作协调、自然
目前普通用户可以直接在通义万相官网体验,开发者可以通过GitHub、Hugging Face等开源平台使用。
GitHub:https://github.com/Wan-Video/Wan2.1
Hugging Face:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
微软开源实时交互式世界模型:MineWorld!提升Agent动态复杂处理能力!
MineWorld以Transformer 为核心,并结合大热门沙盒游戏《我的世界》开发而成。基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的tokenID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。
根据测试数据显示,MineWorld在多方面远超知名世界模型Oasis。视频质量上,3亿参数的MineWorld的FVD值246低于Oasis的377,SSIM值0.38高于Oasis的0.36。
主要功能作用:
高生成质量:基于视觉-动作自回归Transformer,MineWorld能根据视觉和动作生成连贯、高保真的游戏帧。
强可控性:模型通过动作跟随能力的基准测试,展现出精确且一致的行为,能根据输入动作生成准确的游戏场景。
快速推理速度:采用并行解码算法,使模型能以每秒4至7帧的速度生成图像,支持实时互动。
作为游戏代理:MineWorld在训练过程中同时预测游戏状态和动作,可以作为独立的游戏代理自主进行游戏。
实时交互能力:用户可以通过Web演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏
动作。
对智能体的好处:
在复杂环境下,智能体面临大量视觉和行为信息,MineWorld 将游戏场景和动作转化为离散token,可助力智能体理解环境状态和自身行为,学习《我的世界》中的物理知识,例如,物体交互方式和环境变化规律等,使智能体在生成后续游戏状态时能准确渲染户外环境、木材细节及爆炸效果等,深入且准确地感知环境,为决策奠定坚实基础。
MineWorld具备同时预测游戏状态和动作的能力,可作为独立游戏让智能体自主游戏。智能体在给定初始游戏状态和动作后,通过迭代预测未来状态和动作持续游戏,在这一过程中不断学习和优化游戏策略,根据不同游戏场景和目标自主探索最佳行动路径和策略组合,为其在复杂游戏环境及类似场景的应用提供强大支持。
GitHub:https://github.com/microsoft/MineWorld
FastAPI-MCP:一键将FastAPI转换为MCP服务器的AI开源项目!
FastAPI-MCP能自动把FastAPI端点转化为MCP工具。
它可直接集成到 FastAPI 应用中,无需复杂配置,自动发现并转换所有端点,还能保留请求和响应模型的架构以及端点文档。支持 Python 3.10+,采用 MIT 许可协议,让开发者轻松实现 FastAPI 与 MCP 的高效对接。
通过保留FastAPI的请求和响应模型模式以及Swagger文档,FastAPI-MCP确保了接口的完整性和易用性。工具支持直接集成到FastAPI应用中,可以灵活地单独部署。用户可以通过uv或pip安装,通过简单的代码集成到 FastAPI 应用中。
功能特点:
自动发现与转换:FastAPI-MCP能自动发现FastAPI应用中的所有端点,将其转换为MCP工具。无需手动配置,可实现端点的自动识别和转换。
保留模式与文档:工具可以保留FastAPI的请求模型和响应模型的模式,保留所有端点的文档。文档与Swagger中的文档保持一致,方便开发者和用户理解和使用。
灵活部署:FastAPI-MCP支持将MCP服务器直接挂载到FastAPI应用中,也可以单独部署。使开发者可以根据需求选择最适合的部署方式。
自定义工具命名:FastAPI-MCP使用FastAPI路由中的operation_id作为MCP工具的名称。开发者可以通过显式定义operation_id来指定更清晰、更直观的工具名称,避免自动生成的名称过于复杂。
筛选暴露的端点:开发者可以通过OpenAPI操作ID或标签来控制哪些FastAPI端点会被暴露为MCP工具。支持包含或排除特定的端点或标签,实现更精细的控制。
支持SSE和代理连接:FastAPI-MCP支持通过服务器发送事件(SSE)直接连接到支持该协议的客户端(如Cursor)。对于不支持 SSE 的客户端(如Claude Desktop),可以通过mcp-proxy代理实现连接。
动态更新:如果在创建MCP服务器后添加了新的FastAPI端点,可以通过调用setup_server(方法来刷新MCP服务器,包含新添加的端点。
GitHub:https://github.com/tadata-org/fastapi\_mcp
4月18日
书生·万象3.0升级开源!7种尺寸覆盖图文、视频处理,多模态能力扩展至工业图像分析!
OpenGVLab 开源发布了 InternVL3系列模型,它是一个多模态大语言模型(MLLM)系列,能够同时处理文字、图片、视频等多种信息。
包括从1B 到 78B 共 7 个尺寸,作为一款先进的多模态大型语言模型 (MLLM) ,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。
与 InternVL 2.5 相比,InternVL3 展现出卓越的多模态感知和推理能力,同时进一步扩展了其多模态能力,涵盖工具使用、GUI 代理、工业图像分析、3D 视觉感知等。
关键改进:
InternVL3引入了一个关键改进——Variable Visual Position Encoding (V2PE)。V2PE利用更小、更灵活的位置增量来编码视觉信息,使得模型在处理长文本和复杂图像时能够更好地理解每个部分的位置关系。这种改进让InternVL3在处理多图像和视频数据时表现得更加出色。
多图像:
视频理解:
GitHub:https://github.com/OpenGVLab/InternVL
6G显存生成60秒AI视频!Controlnet作者最新开源AI视频生成项目:FramePack,仅1.5秒/帧!
近日,Controlnet作者又出新活:只需要6G显存,即可生成长达60秒的视频!
这就是赛博菩萨张吕敏最新开源的FramePack项目!
它最大亮点在于其极低的硬件门槛。传统视频扩散模型通常需要高昂的显存支持,而FramePack仅需6GB显存即可实现全帧率(30fps)下上千帧的视频扩散生成。这一特性使得普通消费级GPU也能轻松运行复杂的视频生成任务,极大降低了技术应用的门槛。
此外,FramePack的模型规模仅为13亿参数,相较于动辄数十亿参数的传统模型,其轻量化设计不仅提升了运行效率,还为未来在边缘设备上的部署提供了可能性。这一突破被认为是视频生成技术迈向普及化的重要一步。
生成速度惊人:2.5秒/帧,优化后仅1.5秒!
主要功能总结:
图像到视频生成:从单张图像生成动态视频,支持长视频扩展。
低显存优化:最低 6GB 显存即可生成 60 秒 30fps 视频。
下一帧预测:通过压缩上下文,生成工作量与视频长度无关。
Gradio 用户界面:提供直观的上传图像、输入提示词和预览生成视频功能。
多种注意力机制支持:支持 PyTorch、xformers、flash-attn 和 sage-attention。
跨平台兼容:支持 Linux 和 Windows,兼容 NVIDIA RTX 30XX/40XX/50XX 系列 GPU。
优化生成速度:使用 teacache 优化后,生成速度可达 1.5 秒每帧。
批量训练支持:支持类似图像扩散的超大批量训练。#
敏神GitHub地址:https://github.com/lllyasviel/FramePack
k神ComfyUI项目页:https://github.com/kijai/ComfyUI-FramePackWrapper
敏神模型抱脸下载页:https://pan.quark.cn/s/af82f04fe6c7
模型及工作流网盘链接:https://pan.quark.cn/s/af82f04fe6c7
论文:http://lllyasviel.github.io/frame\_pack\_gitpage/pack.pdf
4月17日
开源AI论文生成项目:The Al Scientist-v2!生成论文通过ICLR 评审,得分6/7/6!
完全由AI生成的论文,通过顶会ICLR workshop评审?!分数为6/7/6,已经超过平均人类接收门槛。
The Al Scientist-v2 是 Sakana A1、不列颠哥伦比亚大学、Vector研究所等机构联合推出的完全自动生成科学发现的端到端AI系统,支持自主地提出科学假设、设计和执行实验、分析数据、生成可视化结果,撰写科学论文。
与前一版本相比,The Al Scientist-v2 消除对人类编写代码模板的依赖,引入基于代理的树搜索方法,更系统地探索科学假设。
The AI Scientist 撰写的一篇论文在顶级机器学习会议的研讨会上通过了同行评审流程。这是第一篇完全由 AI 生成的论文,它通过了与人类科学家相同的同行评审过程。
AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。
整个过程,人类仅做的一个工作是,提供一个广泛的研究主题,最终他们挑选出了三篇排名前三论文(考虑到多样性和质量)提交给研讨会。
最终,在提交的三篇论文中,有两篇论文未达到接受标准。一篇论文的平均得分为 6.33(分别是6/6/7),在所有提交的论文中排名约 45%,高于人类平均接受门槛。
不过为了透明起见,这篇论文在同行评审之后被撤回,也不会在OpenReview公共论坛上发布,但是可以GitHub存储库中找到。
The Al Scientist-v2功能亮点:
自主提出科学假设:生成新颖的科学假设,类似于人类科学家在研究初期提出的研究方向或问题。
设计和执行实验:设计实验流程和实际执行实验,包括数据收集和处理。
数据分析和可视化:分析实验数据,生成图表和可视化结果,帮助理解实验发现。
撰写科学论文:撰写完整的科学论文,包括摘要、引言、方法、实验结果和结论等部分。
GitHub地址:https://github.com/SakanaAI/AI-Scientist-v2
对标OpenAI!谷歌开源首个Agent开发套件:ADK,支持MCP、A2A协议!
谷歌在Google Cloud Next 25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。
AgentDevelopmentKit(ADK)是一个代码优先的Python工具包,简化复杂AI代理的构建、评估和部署过程。ADK支持多智能体架构,可构建由多个专业智能体组成的层次化应用,实现复杂协调和委派。提供丰富的工具生态系统,包括预构建工具、自定义函数和第三方库集成等。
ADK支持模型上下文协议 (MCP),允许代理连接到各种数据源和工具。因此,ADK 可以被认为是 Google 对 MCP 的一种实现或利用,而不是「Google 版本的 MCP」。ADK 允许使用 MCP 工具,并支持构建 MCP 服务器。
ADK能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音频、视频、MCP和最新的A2A协议。
例如,通过ADK开发一个跨平台的语音客服智能体,大概只需要100多行甚至更少的代码就能全部完成。再也不用像以前那样,切换不同平台API,模型选择或交互逻辑编写复杂代码,极大提升了开发效率。
GitHub:https://github.com/google/adk-python
4月16日
Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统,目标是:
利用大型语言模型(LLM)驱动的语音生成,实现极为自然的人类语音表达,在音调、节奏、情绪等方面超越现有商业模型。它支持实时流式语音合成、零样本克隆、情感调控,可部署于本地或云端,适用于数字人、语音助手、AI 视频、教育内容等。
亮点:
比闭源强:号称语音自然度和情感表达超过 Eleven Labs 和 PlayHT 等商业模型。
超级灵活:支持零样本克隆、实时流式处理,还能加情绪标签。
两个模型版本:
微调版(Finetuned Prod):适合日常用,比如做语音助手或播客。
预训练版(Pretrained):基于 10 万多小时的英文语音数据,适合研究或定制化。
主要功能
超自然语音:生成的语音有自然的语调、节奏,还能表达情绪,比如开心、叹气或笑。
零样本克隆声音:不用额外训练,就能模仿某个人的声音(比如给一段音频,它就能学着说)。
控制情绪和语调:用简单的标签或提示,就能让语音听起来兴奋、平静或伤感。支持不同语气风格的表达,便于故事讲述与角色演绎。
超低延迟:实时应用延迟低至 200 毫秒(输入流式处理时可降到 100 毫秒),适合聊天机器人或直播场景。
多语言支持:目前主打英文,但也支持法语、德语、西班牙语、意大利语、汉语、韩语和印地语(每种语言训练了 1000 到 2 万小时数据)。
开源免费:用 Apache 2.0 许可证,完全开放,任何人都能用、改或加到自己的项目里。 模型:https://huggingface.co/canopylabs
GitHub:https://github.com/canopyai/Orpheus-TTS
月之暗面开源首个能以类人方式进行推理的大模型:Kimina-Prover Preview!
月之暗面 Kimi 与 Numina 团队合作开发的数学定理证明模型 Kimina-Prover 推出预览版。
这是第一个大型形式推理模型,它可以以类似人类的方式进行推理,并使用 Lean 4 语言严格证明数学定理。
SotA 性能:在所有公布的结果中,首次在 miniF2F 基准测试中达到 80%+ 的通过率。它的表现大大优于之前的所有作品,如 BFS-Prover(72.9%,以前的 SotA)、Hunyuan-Prover、DeepSeek-Prover 和 Leanabelle-Prover。
高样本效率:即使样本预算非常小,Kimina-Proover Preview 也能提供出色的结果,例如 pass@32 为 68.85%,pass@8为 65.16%。
其设计和训练关键要素包括通过强化学习生成整个证明、模型规模的扩展、支持长上下文的训练和推理,以及独特的形式推理模式。这些创新促进了与传统数学直觉的结合。
GitHub:https://github.com/MoonshotAI/Kimina-Prover-Preview
让AI为你的视频做笔记!BiliNote:能自动提取视频内容并生成Markdown格式笔记的开源项目!
BiliNote是一个开源的AI视频笔记助手,支持通过哔哩哔哩、YouTube等视频链接,自动提取内容并生成结构清晰、重点明确的Markdown格式笔记。
它还支持插入截图、原片跳转等功能,方便用户整理和回顾视频内容。
主要功能:
多平台支持:目前支持哔哩哔哩和YouTube,后续计划加入更多平台。
音频转写:支持本地模型音频转写,使用Fast-Whisper进行高效转写。
AI总结:利用GPT大模型(支持OpenAI、DeepSeek、Qwen)对视频内容进行总结。
结构化笔记生成:自动生成Markdown格式的笔记,方便用户整理和查看。
截图插入:自动截取视频关键帧并插入笔记中,增强笔记的直观性。
内容跳转链接:在笔记中添加与原视频相关联的跳转链接,方便用户快速定位。
任务记录与历史回看:用户可以查看历史任务记录,方便回顾和管理笔记。
GitHub:https://github.com/JefferyHcool/BiliNote
4月15日
智谱开源GLM-4-32B 0414版小尺寸模型,性能对标 GPT-4o 与 DeepSeek-V3 和 R1!
2025年4月14 日,GLM 模型家族发布了新一代的开源大模型系列 —— GLM-4-32B-0414。本系列包括多个不同定位的模型,主打推理能力、工程能力以及可控的部署特性。模型参数量为 320 亿,在多个任务上达到了与 GPT-4o、DeepSeek-V3 等大模型相近的水平,同时也支持更灵活的本地部署。
本次开源了 9B 和 32B 两种尺寸的模型,包括基座模型、推理模型和沉思模型。均采用 MIT 许可协议。这意味着可以免费用于商业用途、自由分发,为开发者提供了极大的使用和开发自由度。
基座模型 GLM-4-32B-0414 拥有 320 亿参数,其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练,特别纳入了丰富的推理类合成数据,为后续的强化学习扩展奠定了基础。
GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上,采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。与基础模型相比,GLM-Z1-32B-0414 的数理能力和复杂问题解决能力得到显著增强。此外,训练中整合了基于对战排序反馈的通用强化学习技术,有效提升了模型的通用能力。
在部分任务上,**其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。**通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估,GLM-Z1-32B-0414 展现了较强的数理推理能力,能够支持解决更广泛复杂任务。
GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色,整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择。
沉思模型GLM-Z1-Rumination-32B-0414是本次发布中定位最为特殊的一款模型,面向复杂、开放性任务的长链推理需求。该模型引入了更大规模的强化学习流程,训练数据在任务评分时参考了真实答案或评分标准(rubrics),用于指导优化方向。
模型在训练过程中可调用搜索工具辅助决策,适用于例如跨城市发展策略比较、政策分析类的写作任务等复杂输入-输出匹配问题。模型表现显示其在结构化写作、长文本推理等方向上有明显改善。
GitHub:https://github.com/THUDM/GLM-4/blob/main/README\_zh.md
一份精选由GPT-4o生成高质量图片的提示词合集:Awesome GPT-4o Images!
这是一个精选的 GPT-4o 生成图片集锦,展示了 OpenAI 最新模型在图像生成方面的强大能力,包括理解文本与图像、生成高质量图像、支持多种风格和自然的画面构图。
该项目共收集43+个生成案例,展示了 GPT-4o 在创作中的多样性,用户可以通过 ChatGPT 或 Sora 等工具生成图片,也可以借助 AnimeAI 探索相关效果。案例包括 Q 版求婚场景、复古宣传海报、吉卜力风格等,涵盖丰富的主题和风格。
每一个都附有详细提示词,并保留原作者出处,可以直接复制使用,值得收藏。
GitHub:https://github.com/jamez-bondos/awesome-gpt4o-images
昆仑万维开源7B和32B最强数学代码推理模型:Skywork-OR1!性能对齐DeepSeek-R1!
继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后,昆仑万维天工团队在此基础上持续迭代优化,4月13日,重磅推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。
通用32B尺寸(Skywork-OR1-32B)完全超越同规模阿里QwQ-32B;代码生成媲美DeepSeek-R1!
此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,他们全面开源了模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。
此次开源涵盖三款高性能模型,包括:
Skywork-OR1-Math-7B:专注数学领域的专项模型,同时也具有较强的代码能力。
Skywork-OR1-7B-Preview:融合数学与代码能力,兼顾通用与专业性
Skywork-OR1-32B-Preview:面向高复杂度任务、具备更强推理能力的旗舰版本
在评测方面,Skywork-OR1系列模型引入了avg@k作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的pass@k指标仅关注是否“至少一次成功”,avg@k能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。
其中Skywork-OR1-Math-7B表现尤为亮眼,作为一个专注于数学推理能力的7B参数模型,通过多阶段GRPO训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。该模型在AIME24上的训练准确率曲线,清晰呈现了多阶段训练过程中性能的稳定提升轨迹。
如今,底层模型竞争日趋白热化,全球AI领域正以惊人的速度迭代演进,几乎每个月都有值得关注的模型发布,这种创新密度前所未有。
而昆仑万维表示将继续秉持“All in AGI 与 AIGC”战略、“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入,力求在全球AI技术浪潮中抢占先机、塑造竞争优势。
Skywork-OR1系列开源地址:
https://github.com/SkyworkAI/Skywork-OR1
4月14日
开源的多模态视觉模型!MiniMind-V:1小时即可训练出26M参数的多模态视觉语言模型!
MiniMind-V是一款可以从零开始训练多模态视觉模型的开源项目。
它提供详细的训练流程,仅用1.3块钱成本 + 1小时!即可训练出26M参数的超小多模态视觉语言模型,支持识图与对话。
视觉语言模型(如 LLaVA、Qwen-VL)因其识图对话能力备受瞩目,但动辄上亿参数和复杂训练流程让个人开发者望而却步。MiniMind-V 这个开源模型,以 26M 参数的超轻量设计,提供从数据处理到指令微调的全流程代码。这不仅是一个开源VLM模型的最小实现,也是入门视觉语言模型的简明教程。
功能亮点:
• 超轻量模型:仅 26M 参数(0.026B),约为 GPT-3 的 1/7000,单卡 3090 即可训练。
• 多模态能力:支持单图和多图输入,结合文本进行对话。
• 全流程开源:包含数据处理、预训练、SFT 和推理完整代码,支持数据集清洗和自定义配置。
• 跨模态对齐:采用简单线性变换,将 CLIP 的 768 维视觉 token 对齐到 LLM 空间。
• 易用接口:提供 OpenAI 兼容 API,可接入 FastGPT、OpenWebUI 等。
该项目提供了从数据集清洗到预训练和监督微调的完整代码,旨在让个人 GPU 用户也能快速推理和训练。模型通过增加视觉编码器和特征投影模块,支持多种模态信息输入。MiniMind-V 的训练过程简单明了,适合初学者使用,促进更广泛的 AI 社区发展。
GitHub:https://github.com/jingyaogong/minimind-v
高质量 SVG生成!OmniSVG :支持“文生SVG/图生SVG/角色定制”,无限放大也不糊!
OmnisVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型!
基于预训练视觉语言模型(VLM),通过创新的 SVG 标记化方法,将 SVG 命令和坐标参数化为离散令牌,实现了结构逻辑与几何细节的解耦。使 OmnisVG 能高效生成从简单图标到复杂动漫角色的多样化高质量 SVG 图形。
主要功能:
多模态生成:OmniSVG是首个端到端的多模态SVG生成模型,能根据文本描述、图像参考或角色参考生成高质量的SVG图形。可以生成从简单图标到复杂动漫角色的多样化图形。
高效生成与训练:基于预训练的视觉语言模型(VLM)Qwen-VL,OmniSVG通过创新的SVG标记化方法,将SVG命令和坐标参数化为离散令牌,在训练过程中分离了结构逻辑与几何细节。使训练效率较传统方法提升了3倍以上,能处理多达3万个令牌的序列,支持生成具有丰富细节的复杂SVG。
数据集与评估:OmniSVG团队发布了MMSVG-2M数据集,包含200万个带多模态标注的SVG资源,涵盖图标、插图和角色三大子集。提出了标准化的评估协议MMSVG-Bench,用于测试条件SVG生成任务的性能。
可编辑性与实用性:生成的SVG文件具有无限可缩放性和完全可编辑性,能无缝集成到专业设计工作流程中,如
AdobeIllustrator等工具,提高了Al生成图形在图形设计、网页开发等领域的实用性。
GitHub:https://github.com/OmniSVG/OmniSVG
智象未来开源17B文生图模型:HiDream-I1!更准确的提示词遵循,生成效果超越flux!
HiDream-l1是HiDream.ai团队推出的开源图像生成模型,拥有17亿参数,采用MIT许可证。
模型在图像生成质量、提示词遵循能力等方面表现出色,支持逼真、卡通、艺术等多种风格,适用于艺术创作、商业设计、教育科研等多个领域。
HiDream-l1提供三个版本:完整版(HiDream-l1-Full)适合高质量生成:蒸馏版(HiDream-l1-Dev)平衡效率与效果;极速版(HiDream-l1-Fast)适合实时生成需求。
主要功能:
卓越的图像质量:在多种风格(包括逼真、卡通、艺术等)中均能生成出色的结果。达到了最先进的HPS v2.1评分,与人类偏好一致,就算是英文字体的生成也没有问题。
出色细节渲染:在色彩还原、边缘处理和构图完整性上表现出色,面对复杂场景,能生成清晰且富有艺术感的画
面。
提示词遵循能力强:在GenEval和DPG基准测试中表现优异,超越所有其他开源模型,能够更准确地根据文本描述
生成图像。
技术原理:
扩散模型技术:HiDream-11采用扩散模型技术,是一种先进的深度学习方法,通过逐步去除噪声来生成图像。使模型能在细节渲染和图像一致性方面表现出色,生成的图像在色彩还原、边缘处理和构图完整性上都具有高质量。
混合专家架构(MoE):HiDream-l1使用了混合专家架构(MoE)的DiT模型,结合了双流MMDiTblock与单流DiT
block。通过动态路由机制高效分配计算资源,使模型在处理复杂任务时能够更灵活地利用计算能力。
多种文本编码器集成:为了提升语义理解能力,HiDream-I1集成了多种文本编码器,包括OpenCLIPViT-bigG、
OpenAlCLIPViT-L、T5-XXL和Llama-3.1-8B-Instruct。能更准确地理解文本描述,生成更符合用户需求的图像。
GitHub:https://github.com/HiDream-ai/HiDream-I1
4月11日
Kimi 开源16BMoE多模态模型:Kimi-VL!推理效果超过GPT-4o,激活时仅2.8B!
Kimi团队开源了轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏!
模型总参数为16B,都是基于MoE架构,但推理时仅激活2.8B。
和Qwen2.5-VL、Gemma-3等前沿开源VLM相比,Kimi-VL-Thinking仅使用2.8B激活参数即可实现强大的多模态推理。
Kimi-VL还在处理长文本和清晰感知方面推进了多模态模型的帕累托前沿:配备了128K扩展上下文窗口,Kimi-VL能够处理长且多样化的输入,在LongVideoBench上得分64.5,在MMLongBench-Doc上得分35.1;其原生分辨率的视觉编码器MoonViT,进一步使其能够看到并理解超高分辨率的视觉输入,在InfoVQA上取得了83.2的分数,在ScreenSpot-Pro上取得了34.5的分数,超越了GPT-4o等规模更大的模型。
在模型架构上,Kimi-VL采用了专家混合(MoE)语言模型(之前发布的Moonlight-16B-A3B)、原生分辨率的视觉编码器(MoonViT,基于SigLIP-SO-400M微调)以及一个多层感知机(MLP)投影器。
具体案例:
Kimi-VL通过分析手稿的笔迹、内容、语言等特征,推断出手稿可能属于爱因斯坦,理由是这些内容与引力场方程有关,这与爱因斯坦对广义相对论的贡献有关。
只提供一张图片,Kimi-VL成功识别出图片中的穹顶建筑为多伦多的罗杰斯中心(Rogers Centre),同时描述了其特征和用途。
Kimi-VL也能被用来解答高难度几何数学题。它就能将复杂数学公式转换为LaTeX代码,并以正确格式输出。
目前Kimi-VL的Instruct基础版和Thinking推理版,均已上架Hugging Face。
感兴趣的小伙伴快去用起来吧!
开源地址:https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85
由Google 团队成员联合编写的《Prompt Engineering》提示词工程白皮书!(附双语完整文档)
这是由Lee Boonstra 等 Google 团队成员联合编写的《Prompt Engineering》提示词工程。
定位:面向使用 Vertex AI / Gemini / 通用 LLM 的开发者,深入讲解如何写出优质 prompt、配置模型参数、调试与优化提示结构等技巧
应用范围:适用于自然语言处理、AI 代码生成、多模态输入、结构化输出、复杂推理等
长达 60+ 页的 PDF详细介绍如何通过设计高质量的提示来优化大语言模型(LLM)的输出。
目录
Prompt Engineering 的基础理念
模型输出控制参数(Token / Temperature / Top-K/Top-P)详解
提示词类型与结构构建方法
核心提示技巧(Zero-shot, CoT, ReAct, ToT, Self-Consistency 等)
代码生成相关提示策略
自动提示生成(APE)机制
多模态提示支持(图+文输入)
最佳实践清单
典型模板示例与用法建议
文档面向广泛的读者群体,无需具备数据科学或机器学习背景即可掌握提示工程,同时聚焦于使用Google的Gemini模型(通过Vertex AI或API)进行实践。
这份白皮书的完成得益于众多专家的协作和贡献。审阅者、贡献者、策划者、编辑、技术作者和设计师等不同角色的参与,体现了在人工智能领域创建高质量技术文档所涉及的多方面努力和严谨的开发审查流程。这表明,尽管提示工程的概念相对容易理解,但其有效实践和知识传播仍需结构化的方法和清晰的呈现,反映了该领域日益增长的重要性和复杂性 。
文档查看:https://qyxznlkmwx.feishu.cn/wiki/Tv7QwV2gXiNChQkckdXcNT1fncf
字节开源UNO:支持多个参考主体融合生成图像,FLUX版训练、推理、权重全开源!
利用字节团队魔改的FLUXQ模型,可以直接把多个参考主体放进一张图了。
字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。
功能亮点:
提出了模型-数据协同进化范式,突破了传统定制化图像生成中数据瓶颈的限制。
开发了渐进式数据生成框架和通用定制化模型UNO,实现了从单主体到多主体的高质量图像生成。
在多个任务中取得了卓越的性能,包括单主体和多主体驱动的图像生成,并且能泛化到id、tryon、style等场景。
主要功能:
在DreamBench和多主体生成基准测试中,UNO在一致性和文本可控性方面均取得了最佳性能。
显著减少了“复制-粘贴”现象,提高了生成图像的质量和可控性。
极佳的泛化能力,能覆盖换装、人物保持、风格化等个性化生成
GitHub:https://github.com/bytedance/UNO
4月10日
AI推理天花板来了!英伟达最新开源Llama Nemotron推理模型!
英伟达最新开源了一款名为 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。共有253B参数,基于Llama-3.1-405B微调而来。反手就超越了诞生3天的Llama 4模型!
在多项基准测试中,Llama Nemotron一举击败了两款Llama 4模型。而且仅用一半的参数,性能直逼DeepSeek R1。尤其是,在复杂数学推理AIME(2024/2025)、科学推理GPQA Diamond、编码LiveCodeBnech中,新模型取得SOTA。
Llama-3.1-Nemotron-Ultra-253B-v1经过后期训练,专注于推理、人类聊天偏好和任务,如RAG(检索增强生成)和工具调用。它能支持128Ktoken的上下文长度,且能够在单个8xH100芯片节点上进行推理。
它一共包含三种规模:Nano、Super 和 Ultra,分别针对不同场景和计算资源需求,供开发者使用。
Nano:Nano(8B)基于Llama 3.1 8B微调而来,专为PC和边缘设备而设计。
Super:Super(49B)是从Llama 3.3 70B蒸馏而来,针对数据中心GPU进行了优化,便可实现最高吞吐量下的最佳准确性。
Ultra:Ultra(253B)是从Llama 3.1 405B蒸馏而来,专为多GPU数据中心打造最强智能体而设计。
Llama Nemotron家族模型均是基于开源 Llama构建,并采用英伟达审核后的数据集合成数据,因此全部可以商用。
开源地址:https://huggingface.co/nvidia/Llama-3\_1-Nemotron-Ultra-253B-v1
GitHub官方开源基于MCP的服务器工具:GitHub MCP Server!支持无缝集成API!
GitHub MCP Server是GitHub官方推出的基于Model Context Protocol (MCP) 的服务器工具,GitHub MCP Server能无缝集成GitHubAPI,为开发者提供高级自动化和交互功能。支持开发者轻松实现自动化工作流,例如自动化处理GitHub仓库中的问题、Pull Request,及提取和分析仓库数据等。
GitHub MCP Server提供丰富的功能模块,包括用户管理、问题管理、PullRequest管理、仓库管理等,帮助开发者简化繁琐的开发流程,专注于核心开发任务。
主要功能:
问题管理:自动创建、更新和关闭GitHub问题,支持批量操作,如批量添加标签或指派人。
Pull Request管理:自动合并Pull Request,更新分支,添加评论和审查意见。
仓库内容管理:推送文件到仓库,创建新分支,获取文件内容。
搜索功能:支持搜索代码片段、GitHub用户和仓库。
仓库内容获取:获取特定路径下的文件或目录内容,支持特定分支、标签或提交。
提交记录分析:获取某个分支的提交历史,便于代码审查和版本管理。
智能代码审查:分析代码质量,自动生成审查评论。
自动化问题分类:根据问题内容自动分配标签或指派人。
代码扫描警报:检测代码中的潜在问题生成警报。
GitHub:https://github.com/github/github-mcp-server
4月9日
震撼开源!昆仑万维开源商业级可控AI视频生成框架:SkyReels-A2!
SkyReels-A2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像的一致性。基于设计全面的数据管道构建用在模型训练的提示、参考、视频三元组,推出新颖的图像文本联合嵌入模型。SkyReels-A2优化了推理管道的速度和输出稳定性,引入基准A2Bench用在系统评估。
主要功能:
多元素组合:将任意视觉元素(如人物、物体、背景等)组合成合成视频,严格保持与每个元素的参考图像的一致
性。
文本驱动生成:根据文本提示生成视频,用户基于文字描述精确控制视频的内容和风格。
高质量视频输出:生成的视频具有高分辨率和高质量,满足多种应用场景的需求。
实时交互:支持用户在生成过程中进行实时交互,调整生成参数获得更符合需求的视频结果。
技术原理:
扩散模型:参kyReels-A2用扩散模型的特性,将噪声逐步转化为高质量的视频内容。模型基于去噪过程,将随机噪声逐步转化为目标视频,用文本和图像提示引导生成过程。
图像-文本联合嵌入模型:参kyReels-A2设计新颖的图像-文本联合嵌入模型,将参考图像和文本提示嵌入到共同的特征空间中。基于双分支结构,分别提取参考图像的空间特征和语义特征,注入到扩散模型的生成过程中。空间特征基于3DVAE(变分自编码器)提取,确保局部细节的保留,语义特征基于CLIP模型提取,确保全局语义的一致性。
数据管道:构建全面的数据管道,用在生成高质量的文本、参考图像、视频三元组。数据管道包括视频预处理、关键帧分割、多专家视频字幕生成、视觉元素提取等步骤,确保生成的训练数据能够有效支持模型学习。
优化的推理管道:为提高生成速度和稳定性,SkyReels-A2对推理管道进行优化。基于UniPC多步调度策略,结合并
行化处理技术(如ContextParallel、CFGParallel和VAEParallel),显著提高模型的推理效率。基于模型量化和参数级卸载策略,降低GPU内存消耗,支持在消费级显卡上运行。
GitHub:https://github.com/SkyworkAI/SkyReels-A2?tab=readme-ov-file
4月8日
RolmOCR:基于olmOCR开源的OCR 模型!更快、更轻量,开箱即用!
Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型,构建了一个性能更优、资源占用更低的替代模型**:RolmOCR**。
它比之前的模型:
更快
占用更少内存
识别效果更好
该模型不依赖复杂的文档结构信息,能更灵活处理扫描文档和非标准格式的内容。它适用于 OCR(文字识别)、文档处理、信息抽取等场景。
你可以把它当成一个 开箱即用的 AI OCR 工具,还可以修改代码做你自己的定制版本!
RolmOCR 做了三大技术优化:
1. 更新了基础大模型:基于更先进的视觉语言模型 Qwen2.5-VL-7B。识别图像+文字的能力更强,尤其是对不规则文本、图像中嵌套文字等。
2. 不使用 PDF 元数据:Prompt 更短,模型处理更快,显存(VRAM)占用更少。
3. 训练数据中加入“旋转图像”:他们把 15% 的训练图像旋转了角度,比如歪着的扫描件、拍歪的文档。这样能让模型更好应对“角度奇怪”的真实文件,提高鲁棒性。
他们用了两个案例,测试 RolmOCR 和原版 olmOCR 的差别:
案例 1:手写笔记 + 注释
RolmOCR 识别更准确,把“错读”的内容修正了,比如把 “OCLM” 正确识别为 “DCLM”。
案例 2:中英文混排的信封照片(低对比度)
RolmOCR 读取得更完整,尽管有小字体漏掉。
GitHub:https://huggingface.co/reducto/RolmOCR
AI一键线稿上色!MagicColor:多角色图也能精确分区域上色的开源项目!
MagicColor 是一个基于 扩散模型(Diffusion Model) 的多实例线稿自动上色模型,由香港科技大学(HKUST)团队开发。
支持用户通过上传线稿和多个参考图,就能一键自动生成风格统一、细节准确的彩色图像。
它解决了传统手动上色流程中**:耗时、容易出错、缺乏一致性**的问题。
你只需要准备:
一张线稿图(没有颜色,只有轮廓线)
一些参考图(角色颜色示例,可以是真人、动漫、商品图)
它会自动完成:
分析线稿中有哪些物体或角色
从参考图中找出每个角色的颜色和风格
自动给线稿涂上合适颜色,保证:每个角色颜色一致、图像边缘干净、细节清晰!
MagicColor 模型在使用中具备非常强的灵活性:
可以适应多种参考风格(比如不同画风、色调),但又能保持角色本身的外观不变;
可以在多角色图像中“智能识别谁是谁”,并进行精确分区域上色;
对于复杂遮挡场景,目前效果较好,但仍存在进一步优化空间。
MagicColor 模型能够“精确控制每个实例的颜色输出”,并且支持用“任何风格”的图片当作参考图,不论是动漫角色、真人照片、产品图,只要颜色信息清晰,它都能用得上。
项目地址:https://yinhan-zhang.github.io/color/
论文:https://arxiv.org/pdf/2503.16948
GitHub:https://github.com/YinHan-Zhang/MagicColor
打破次元壁!腾讯开源AnimeGamer:一句话生成动漫视频和角色互动!
AnimeGamer是腾讯PCG和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。
玩家能操控如《悬崖上的金鱼姬》中的宗介等角色,与游戏世界互动。游戏支持生成具有上下文一致性的动态动画镜头(视频)及角色状态(如体力、社交和娱乐值)的更新。相比传统方法,AnimeGamer在角色一致性、语义一致性和动作控制等方面表现出色,为玩家带来沉浸式的动漫游戏体验。
主要功能:
角色扮演与互动:玩家扮演动漫角色,如《悬崖上的金鱼姬》的宗介,与游戏世界互动,让不同动漫的角色相遇互
动。
动态动画生成:根据玩家指令,实时生成动态动画镜头(视频),展现角色动作和场景变化,且动画具有上下文一
致性和动态性。
角色状态更新:根据角色行为和互动,动态更新角色的体力、社交和娱乐值,反映角色在游戏世界中的状态变化。
多轮对话交互:支持玩家基于自然语言进行多轮对话,模型基于历史上下文生成一致的游戏状态,提供连贯的游戏
体验。
自定义游戏内容:支持玩家自定义喜欢的角色和场景。
应用场景:
个性化娱乐:玩家可选择喜欢的动漫角色和场景,基于语言指令体验专属冒险故事。
创意激发:为创作者提供灵感,生成角色互动和新剧情。
教育辅助:帮助学生学习语言表达和逻辑思维。
社交互动:玩家与朋友共同创造和分享动漫冒险故事。
游戏开发:助力开发者快速生成游戏内容,降低开发成本。
GitHub:https://github.com/TencentARC/AnimeGamer
4月7日
开源免费的「吉卜力」风格照片神器:EasyControl !效果不输 GPT-4o!
EasyControl Ghibli是基于EasyControl框架开发的AI模型,已上线Hugging Face平台,专注于将普通图像转换为吉卜力风格的图像。仅用100张亚洲人脸照片及对应的吉卜力风格图像训练而成,能精准捕捉吉卜力作品中柔和的光影、细腻的情感与温暖的色调,同时保留人物面部特征。用户只需上传照片或输入简单指令,可生成带有吉卜力风格的图像,操作简便免费。
主要功能:
图像风格转换:将普通照片转换为具有吉卜力动画风格的图像。吉卜力风格以柔和的光影、细腻的情感表达和温暖
的色调著称,能精准捕捉这些特点,为用户生成具有艺术感的图像。
保留面部特征:在风格转换过程中,能较好地保留人物的面部特征,确保生成的图像既具有吉卜力风格,能保持原
图像的主体特征。
免费使用:工具目前完全免费,用户无需支付任何费用。
技术原理:
风格迁移与特征保留:在将普通图像转换为吉卜力风格时,模型能成功应用吉卜力的标志性风格,较好地保留人物的面部特征。在训练过程中对风格和内容特征的有效分离与融合。
高效性:通过Position-Aware Training Paradigm和 KV Cache技术,显著降低了计算复杂度和推理时间。例如,采
用位置感知插值(PAI)技术,使模型能学习任意宽高比和多分辨率的表示,同时优化了计算效率。
灵活性:支持多种条件信号的注入,能处理不同分辨率和宽高比的图像生成任务。用户可以根据不同的需求,输入不同类型的条件(如姿态图、边缘图等),生成满足特定要求的图像。
GitHub:https://github.com/Xiaojiu-z/EasyControl
Meta开源Llama4重夺开源王座!首次采用MoE架构的多模态AI模型,性能超DeepSeek!
Llama4是Meta开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。
Llama 4目前有Scout和Maverick两个版本。
Scout有170 亿个活跃参数、16个“专家”模型、1090亿个总参数,支持1000万上下文,可处理20多小时视频,在单个H100GPU上就能运行,性能超越Gemma3等模型。
Maverick有170亿个活跃参数,128个“专家”模型,4000亿总参数,在图像精准理解和创意写作方面表现突出,适合通用助手、聊天类应用,在大模型LMSYS排行榜上位居第二。Llama4Behemoth为预览版本,还在训练中,拥有2万亿参数在STEM基准测试中表现优异。Llama4通过在200种语言上预训练支持开源微调,训练数据超30万亿token。
所有 Llama 4 模型均采用原生多模态设计,比如上传一张图像,你可以问关于这张图像的任何问题:
Llama 4 Scout 支持长达 1000 万 token 的上下文,这是目前行业内最长的上下文长度,解锁了围绕记忆、个性化和多模态应用的新用例。
Llama 4 在图像 grounding 方面也是一流的,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。
主要功能作用:
强大的语言理解与生成能力:经过大量文本数据训练,语言理解精准。能生成连贯、有逻辑的文本,可用于创意写作、文章撰写、对话交互等。如进行故事创作时,能根据给定主题和情节线索,生成丰富生动的故事内容;在对话场景中,能理解用户意图并给出恰当回复。
多模态处理能力:通过图像数据训练,具备图像理解能力,可识别图像中的物体、场景、颜色等元素,能对图像内容进行描述和分析。Scout版本支持1000万tokens上下文窗口,可处理多达数百万字的文本,适用于总结长文档、基于大型代码库推理等任务。
高效的推理与计算能力:采用混合专家(MoE)架构,将模型划分为多个专注特定任务的”专家”子模型,在训练和回答用户查询时效率更高,可降低模型服务成本和延迟,提高推理效率。
多语言处理能力:通过对200种语言进行预训练,能处理和生成多种语言的文本,支持跨语言交流和处理任务,如语言翻译、不同语言文本的分析与生成等,帮助用户打破语言障碍。
项目官网:https://ai.meta.com/blog/llama-4-multimodal-intelligence
开源地址:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
BabelDOC:开源AIPDF翻译工具,专为科学论文翻译设计!
BabelDOC是开源的智能PDF翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和图形,不破坏原文布局。BabelDOC支持多种翻译引擎,兼容OpenAI模型API,用户可自定义翻译模型,如GPT-4等。
主要功能:
双语对照:在原文旁直接生成翻译文本,形成双语对照,方便阅读和理解,无需切换窗口。
多种翻译引擎:支持多种翻译引|擎,包括Bing翻译、OpenAI模型(如GPT-4、GPT-3.5等),用户可以根据需求
选择不同的翻译引擎。
自定义翻译模型:用户可以自定义翻译模型,如指定OpenAI的API密钥、模型名称和基础URL等,满足不同的翻
译需求。
保留原文格式:完整保留数学公式、表格和图形,不破坏原始布局,能够完美呈现原文的精美排版。
排版优化:使用先进的排版保留技术,确保翻译后的文档格式与原文保持一致,方便阅读和对比。
在线服务:提供在线翻译服务,用户可以直接上传PDF文件进行翻译,每月有1000页的免费翻译额度。
本地部署:支持本地部署,用户可以在本地机器上安装并使用BabeIDOC,保护隐私且可离线使用。
CLI和Web界面:支持命令行操作,提供Web界面,用户可以根据自己的习惯选择使用方式。
批量翻译:支持批量翻译多个PDF文件,提高翻译效率。
多语言支持:支持多种语言的翻译,满足不同用户的需求。
GitHub:https://github.com/funstory-ai/BabelDOC
4月3日
微软开源PPT和海报生成黑科技:BizGen!一键生成多语言&多风格的信息图表!
BizGen是清华大学和微软研究院联合推出的AI信息图生成工具,专注于文章级别的视觉文本渲染。能一键将长篇文章内容转化为专业级的信息图和幻灯片,解决传统工具在处理长文本时文字模糊、排版混乱的问题。
基于高质量的数据集Infographics-650K和先进的”布局引导的交叉注意力机制”,能将长文本分解为小指令精确注入到图像的不同区域。
主要功能:
高质量内容生成:根据用户输入的文章内容,自动生成专业水准的信息图和幻灯片,解决传统工具处理长篇文章时
的文字模糊、排版混乱等问题。
多语言和风格支持:支持十种不同语言,能生成多种风格的信息图,满足不同需求。
多图层透明信息图:在生成多图层透明信息图方面表现出色,信息呈现更加灵活多样。
高准确性和排版质量:文字拼写准确率远超其他模型,用户研究显示其排版质量更受青睐。
强大的技术支持:基于Infographics-650K数据集,引入“布局引导的交叉注意力机制”,确保每个视觉元素和文本区
域都得到精细控制。
技术原理:
高质量数据集:BizGen团队构建了Infographics-650K数据集,是规模空前的高质量商业内容数据集,包含65万张精美的商业信息图和幻灯片,每张图配备了精细的布局信息和描述。为模型的学习和理解复杂的商业设计奠定了坚实的基础。
布局引导的交叉注意力机制:能将长篇文章级的提示分解成针对不同区域的“小指令”,根据预设的超高密度布局,将指令精确地注入到图像的不同区域中。可以确保每个视觉元素和文本区域都得到精细的控制,避免了传统方法中全局处理导致的混乱和错误。
布局条件控制生成:在推理阶段,BizGen使用”布局条件控制生成”方法,像一位苛刻的质检员一样,能在生成的每一个子区域中仔细检查,及时修正可能出现的瑕疵,确保最终作品的完美呈现。
GitHub:https://github.com/1230young/bizgen
VACE:阿里通义开源集视频创作与编辑于一体的AI模型!
VACE(VideoCreationandEditing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。
VACE的核心在于VideoConditionUnit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。实验表明,VACE在多种任务上达到与特定任务模型相当的性能,提供更广泛的应用可能性,为视频内容创作开辟新的路径。
功能特点:
文本到视频生成:根据文本提示生成视频。
参考到视频生成:结合文本和参考图像生成视频。
视频扩展:基于现有视频片段生成新的开头或结尾。
视频到视频编辑:对输入视频进行整体风格转换(如色彩化、风格化)。
遮罩视频编辑:在指定区域进行编辑,如修复(Inpainting)、扩展(Outpainting)。
主体移除与重建:移除视频中的特定主体并填充背景。
任务组合与创新:将多种任务组合,例如参考生成+主体替换、姿态控制+视频扩展等。基于姿态、深度、光流等
条件控制视频生成。
GitHub:https://github.com/ali-vilab/VACE
专为 Macos 推出的开源 Al Agent项目:Cua!
Cua是trycua团队推出的开源AlAgent项目,为macOS用户提供高性能的虚拟化和AI代理功能。Cua基于苹果的Virtualization.Framework,支持在Apple Silicon上创建运行macOS和Linux虚拟机,性能接近原生水平(约90%)。基于Cua,用户能将AI从聊天工具转变为直接操作系统的智能助手,提升开发、自动化办公和智能助手的效率。
主要功能:
高性能虚拟化:在Apple Silicon上运行macOS和Linux虚拟机,性能接近原生。
AI代理操作:Al在虚拟机中操作应用(如浏览器、VSCode)。
安全隔离:所有操作在沙盒环境中运行,保护主机系统。
多应用支持:AI同时操控多种程序,实现复杂任务。
兼容多种模型:支持 OpenAl、Anthropic等Al模型。
任务自动化:提供任务脚本支持,方便用户定义AI的操作流程。
应用场景:
自动化办公:自动处理文档、填写表格、发送邮件等,提高工作效率,减少重复性劳动。
软件开发:协助编写代码、调试程序、查找文档,自动修复代码中的错误,提升开发速度和质量。
教育与培训:根据学习进度提供指导,帮助学生更好地理解和掌握知识,保护主机系统不受影响。
安全测试:AI模拟各种攻击场景,检测系统漏洞,确保主机系统的安全性。
复杂任务自动化:在虚拟机中同时操作浏览器、终端和代码编辑器,完成复杂的多步骤任务,如自动化部署、数据
抓取和分析等。
GitHub:https://github.com/trycua/cua
零代码创建智能助手!AutoAgent:港大推出的AI智能体框架!
AutoAgent是香港大学推出的零代码、自动化LLM智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景。
AutoAgent核心功能包括三种使用模式,用户模式、智能体编辑器、工作流编辑器,适应不同用户需求。并且支持多种LLM模型,安装部署简单,提供Docker支持。
其最显著的特点是其自然语言自定义功能。与其他代理框架不同,AutoAgent 允许您仅使用自然语言创建工具、代理和工作流。只需选择 or 模式,即可开始通过对话构建代理的旅程。
技术原理:
自然语言驱动的多代理构建:Agent ProfilingAgent分析用户需求,生成结构化的代理表单。ToolEditorAgent根据
需求创建工具,支持第三方API集成。AgentEditorAgent根据表单创建代理,支持多代理协作。
LM动力行动引擎:Direct Tool-Use Paradigm直接用LLM的工具使用能力生成下一步行动。Transformed Tool-
UseParadigm将工具使用转化为结构化XML代码生成任务,解析后执行。
自管理文件系统:向量数据库将文件转换为向量数据库,支持高效检索。工具自动将文件存储到向量数据库,支持
多种文件格式。
自开发代理定制:将自然语言需求转化为可执行的代理和工具。基于自我调试和优化,生成高效的代理和工作流。
多代理协作:Orchestrator代理分解任务,分配给Worker代理。基于事件监听和触发机制,实现灵活的代理协
作。
技术架构:AgenticSystemUtilities提供基础的多代理架构。LLM动力行动引|擎支持多种LLM提供商,动态生成行
动。自管理文件系统管理用户多模态数据,支持高效检索。用自然语言生成和优化代理。
GitHub:https://github.com/HKUDS/AutoAgent
4月2日
Amodal3R:南洋理工联合牛津开源基于TRELLIS构建的3D生成模型!
Amodal3R是条件式3D生成模型,能从部分可见的2D物体图像中推测并重建完整的3D形态和外观。模型基于“基础”3D生成模型TRELLIS构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。Amodal3R仅使用合成数据进行训练,能在真实场景中表现出色,显著优于现有的”2D预测补全+3D重建”两步法,为遮挡场景下的3D重建树立了新的基准。
主要功能:
遮挡感知3D重建:针对遮挡严重的2D图像,AmodaI3R能结合2D片段信息与语义推测,生成完整的3D模型。
超越现有方法:相比于“2D预测补全+3D重建”两步法,Amodal3R在遮挡情况下表现更优,建立了新的3D重建
基准。
技术原理:
基础3D生成模型扩展:AmodaI3R从一个“基础”3D生成模型出发,通过扩展能处理遮挡的2D图像,恢复出合理
的3D几何形状和外观。
掩码加权多头交叉注意力机制:模型引入了掩码加权多头交叉注意力机制,能更好地处理遮挡问题。具体来说,通
过掩码来引导注意力机制,使模型在生成过程中更加关注可见部分,利用遮挡先验知识来推测被遮挡区域的形状和
纹理。
遮挡感知注意力层:在掩码加权多头交叉注意力机制之后,AmodaI3R引入了遮挡感知注意力层。
基于DINOv2的特征提取:AmodaI3R利用DINOv2进行高质量的视觉特征提取。DINOv2提供的特征能为3D重建提供更多上下文信息,帮助模型更准确地进行3D重建。
合成数据训练与泛化能力:AmodaI3R仅使用合成数据进行训练,能学习到在真实场景中即使存在遮挡也能恢复完
整3D对象的能力。表明模型具有较强的泛化能力,能将从合成数据中学到的知识应用到真实场景中。
开源地址:https://huggingface.co/Sm0kyWu/Amodal3R
EmotiVoice:网易有道开源的TTS语音合成项目!支持合成多种情绪的语音效果!
EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语
和中文,提供超过2000种声音,支持基于提示生成带有不同情感(如开心、悲伤、愤怒等)的语音。
EmotiVoice具备情感合成、语音克隆等功能,提供Web界面和OpenAl兼容的API,方便用户使用和开发者
集成,适合用在语音助手、有声读物等多种场景。
主要功能:
多语言支持:支持中英文双语。
海量音色:提供超过2000种不同的音色。
情感合成:支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
易用性:提供简单易用的Web界面,支持批量生成的脚本接口。
语音克隆:支持语音克隆。
应用场景:
内容创作:生成有声读物、播客、视频配音等,支持多种风格和情感
智能语音助手:应用于智能家居、车载系统,提供语音交互和情感化反馈。
教育领域:辅助语言学习,生成在线课程语音,提升学习体验。
客服系统:用在智能客服和语音应答,提供多风格语音服务娱乐与游戏:为游戏角色配音,用于互动娱乐,增强沉浸感
开源地址:https://github.com/netease-youdao/EmotiVoice
4月1日
字节开源第三代TTS项目:MegaTTS3! 0.45B参数实现高质量中英文语音合成和克隆!
MegaTTS3 是由字节跳动(Bytedance)研发的第三代 高质量语音合成系统,是一款轻量、高效且开源的 TTS 工具,凭借 0.45B 参数模型实现了高质量中英文语音合成和克隆。
主打:
“轻量化、高保真、强可控性、跨语种、零样本语音克隆”,支持 中文+英文。
它基于 扩散 Transformer + VAE + 稀疏对齐机制,在多个基准上实现了极高音质与稳定性,尤其擅长模仿说话人语气、风格、情绪。
核心功能亮点:
轻量高效模型:仅 4.5 亿参数,适合推理部署。
超高质量语音克隆:少样本甚至零样本即可合成目标说话人的声音。
双语支持:支持中文与英文,并支持中英混说。
可控性强:支持口音强度控制(accent intensity)与(即将支持)时长/发音细粒度控制
与其他 TTS 系统对比
GitHub 地址:https://github.com/bytedance/MegaTTS3
AI-ClothingTryOn:开源的AI虚拟试穿项目,支持生成多版本试衣效果!
Al-ClothingTryOn是基于GoogleGeminiAI技术实现虚拟试衣功能。AI-ClothingTryOn支持分别上传人物照片和服装照片,基于AI技术生成逼真的合成图像,展示人物穿上所选服装的效果。
AI-ClothingTryOn支持生成多版本试衣效果,用户能自定义AI提示词优化结果。AI-ClothingTryOn适用于普通用户和开发者,提供EXE文件和源码两种安装方式,方便不同用户群体使用。
主要功能:
图片上传功能:支持分别上传人物照片和服装照片。
多版本试衣效果生成:生成多达10种不同的试衣效果版本,提供多种选择。
自定义 AI提示词:支持用户调整 AI提示词,优化生成结果,满足个性化需求。
批量处理支持:支持同时处理多张图片,提高工作效率。
技术原理:
图片分割与提取:基于AI模型对人物照片进行分割,提取出人物的身体轮廓和关键部位,对服装照片进行识别和
提取。
图像融合与合成:基于GoogleGemini的生成式Al能力,将提取的人物轮廓与服装图像进行融合,生成真实感的
试衣效果。GeminiAl通过深度学习模型,学习大量的图像数据,从而能够生成高质量、逼真的合成图像。
多版本生成:调整AI提示词和参数,生成多种不同的试衣效果版本,满足用户的多样化需求。
多线程处理:基于Threading技术实现多线程处理,支持同时处理多张图片,提高程序的运行效率。
界面交互:基于PyQt6构建图形用户界面,提供用户友好的操作体验,方便用户上传图片、调整参数和保存结果。
GitHub:https://github.com/speedTD/AI-ClothingTryOn
OpenDeepSearch:开源的深度搜索工具!让AI代理直接读懂网页,复杂问题一键拆解!
OpenDeepSearch是开源的深度搜索工具,基于开源推理模型和推理代理提升搜索性能,专为HuggingFace的SmolAgents无缝集成进行优化,支持深度网络搜索和信息检索。OpenDeepSearch包含两个核心组件,提供高质量的网络搜索结果,基于语义重排和多源整合优化检索效果。
OpenDeepSearch旨在与 AI 代理无缝集成。它支持深度 Web 搜索和检索,并针对与 Hugging Face 的 SmolAgents 生态系统一起使用进行了优化。
主要功能:
语义搜索:基于语义重排器提供深度搜索结果,理解查询语义。
默认模式:快速高效,适合简单查询,响应时间短。
专业模式(深度搜索):更深入、更准确,适合复杂多跳查询和需要跨引用验证的问题。
与AI代理无缝集成:与HuggingFace的SmolAgents生态系统兼容,支持代码生成和推理任务。
可扩展性:支持多种模型和API,支持用户根据需求灵活配置。
GitHub:https://github.com/sentient-agi/OpenDeepSearch
3月31日
VibeDraw:开源的AI 3D建模项目,涂鸦草图一键转为3D模型!
Vibe Draw是开源的 AI3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键导出为标准格式(.glTF)。
Vibe Draw打破技术门槛,让任何人无需专业技能轻松实现3D创意。Vibe Draw前端基于Next.js、React和Three.js等技术,后端基于FastAP!和Celery构建,支持实时更新和异步任务处理。
主要功能:
草图变3D模型:用户在无限2D画布上随意绘制草图,AI自动识别生成3D模型
模型变3D场景:用户将生成的3D模型拉到一个3D空间中随意排布,快速构建完整的3D场景。
一键导出:支持导出为gITF格式:
AI草图优化:AI会自动优化草图,保留用户的空间构图,
文字生成3D模型:用户直接输入文字提示生成3D模型:
模型可编辑:生成的模型基于“再次涂改"或新的文字提示进行编辑。
GitHub:https://github.com/martin226/vibe-draw
阿里开源ComfyUI-Copilot:赋予工作流跟GPT 4o一样的图像生成和编辑能力!
ComfyUI-Copilot 是一个由 阿里巴巴团队开发的 AI 智能助手节点插件,专为 ComfyUI 工作流程优化而设计。
它基于自然语言交互,提供 智能节点推荐、模型查询、工作流构建辅助与实时问答支持,大幅提升 Stable Diffusion 和多模态生成类项目的开发效率,降低使用门槛。
它的目标是**:用自然语言(说人话)来帮你搭建图像生成流程**,让即使你不懂复杂的 AI 流程,也能轻松使用 ComfyUI 来生成编辑图像和视频等内容。
它就像 ChatGPT + SD + 节点图 的结合体,可以帮你自动:
搭建节点流程图
推荐合适的模型和节点
解释每个节点是干什么的
帮你诊断错误,修复问题
用中文/英文回答问题,甚至推荐下载链接
具体功能:
会聊天的节点专家(智能问答机器人)
自然语言生成工作流(你说它画)
模型查询 + 下载建议
节点百科全书(Node 查询系统)
自动处理错误与建议
子图推荐 + 提示词优化
GitHub:https://github.com/AIDC-AI/ComfyUI-Copilot
100行代码重构Cursor!PocketFlow :开源的轻量级大语言模型极简框架!
PocketFlow 是一个只有100行代码的轻量级AI应用开发框架,由 The-Pocket 团队开发并在 GitHub 上开源。
它追求极简设计,核心代码控制在100行,没有任何外部依赖,也没有厂商绑定。开发者可以用它快速搭建AI应用,支持多智能体、工作流、检索增强生成(RAG)等功能。
它的亮点是“Agentic Coding”,也就是让AI智能体(比如 Cursor AI)自己写代码,极大提升开发效率。PocketFlow 从最基本的图(Graph)结构出发,用最少的代码实现强大功能,非常适合需要快速开发AI应用的个人或团队。
主要功能:
核心代码仅100行:精简到100行,易读易改。
基于图(Graph)结构:用节点和连接定义AI任务。
支持多智能体:多个AI智能体可以协同完成任务。
内置工作流:任务分解和执行顺序一目了然。
检索增强生成(RAG):结合外部数据提升输出质量。
AI自编程(Agentic Coding):AI能自己写代码,节省时间。
零依赖设计:无需额外库,直接运行。
兼容任意LLM:可以接入任何大型语言模型。
GitHub:https://github.com/the-pocket/PocketFlow
3月28日
英伟达开源AI多模态大语言模型!Cosmos-Reason1:将推理延展到真实物理世界!
Cosmos-Reason1是NVIDIA推出的系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。
Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B和Cosmos-Reason1-56B。
模型基于视觉输入感知世界,经过长链思考后生成自然语言响应,涵盖解释性见解和具身决策(如下一步行动)。训练分为四个阶段:视觉预训练、通用监督微调、物理AI微调和强化学习。Cosmos-Reason1基于精心策划的数据和强化学习,在物理常识和具身推理基准测试中表现出色。
在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,
比如以下例子:
根据视频中本车的动作,它接下来最有可能立即采取的行动是什么?
A:右转,B:左转,C:换到右车道,D:换到左车道
Cosmos-Reason1就根据具体情况,进行了准确的分析,最后得出结论。
Cosmos-Reason1主要功能:
物理常识理解:理解物理世界的基本知识,如空间、时间和基础物理定律,判断事件的合理性。
具身推理:基于物理常识,为具身代理(如机器人、自动驾驶车辆)生成合理的决策和行动规划。
长链思考:基于长链思考(chain-of-thoughtreasoning)生成详细的推理过程,提升决策的透明度和可解释性。
多模态输入处理:支持视频输入,结合视觉信息和语言指令进行推理,生成自然语言响应。
GitHub:https://github.com/nvidia-cosmos/cosmos-reason1
RF-DETR:Roboflow推出的实时目标检测模型!
RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现有的目标检测模型。
RF-DETR具备强大的领域适应性。支持多分辨率训练,根据需要在精度和延迟间灵活权衡。RF-DETR提供预训练检查点,方便用户基于迁移学习在自定义数据集上进行微调。
RF-DETR 在真实数据集上的性能优于所有现有的目标检测模型,并且在 COCO 数据集上进行基准测试时,RF-DETR 在开源 Apache 2.0 许可证下可用。
主要功能:
高精度实时检测:在COCO数据集上达到60+的平均精度均值(mAP),保持实时性(25+FPS),适用于对速度和
精度要求较高的场景。
强大的领域适应性:适应各种不同的领域和数据集,包括但不限于航拍图像、工业场景、自然环境等。
灵活的分辨率选择:支持多分辨率训练和运行,用户根据实际需求在精度和延迟之间进行权衡。
便捷的微调和部署:提供预训练的检查点,用户基于检查点在自定义数据集上进行微调,快速适应特定任务。
GitHub:https://github.com/roboflow/rf-detr
Pollinations:免费的开源的文生图/文转语音api项目,让你轻松接入AI服务到自己产品中,完全免费!
Pollinations 是一个致力于让每个人都能轻松利用 AI 进行创作的开源项目。
它凭借简洁易用的免费 API,为我们打开了通往 AI 创意世界的大门,让我们能随心所欲地玩转文本与图像,实现各种妙趣横生的应用。无论是编程新手还是经验丰富的开发者,都能在这个平台上找到施展才华的舞台。
想象一下,你在创作自媒体文章时,只需在 API 中输入描述性文本,如 “莱索托马塞卢,降雨下的未来主义城市景观”,瞬间就能生成一幅充满科幻感的城市画卷,完美契合文章主题,为你的自媒体内容增添视觉冲击力。
Pollinations核心功能:
图像生成:基于文本描述的图像生成服务
文本生成:基于提示词生成自然语言文本
文生音频 :文本生成音频文件
音频转文字:将音频文件转为文本
Vision视觉:支持图片内容解析
Pollinations 以其免费、易用且功能强大的 API,为我们打开了 AI 创意世界的大门。在这个充满无限可能的时代,我们不再受制于传统创作工具的局限,无需担忧高昂的成本和复杂的技术门槛。无论是自媒体创作、个人项目开发,还是学习探索,Pollinations 都能成为我们忠实的创意伙伴,助力我们实现心中那些曾经遥不可及的创意梦想。
GitHub:https://github.com/pollinations/pollinations/blob/master/APIDOCS.md
3月27日
设计师福利!开源PIT:输入少量图片元素即可自动脑补融合生成创意灵感图像!
PiT(Piece-it-Together)是一种基于视觉零件的图像生成框架,可以从几个输入图像的“部分”自动生成出一个完整、连贯、符合语义和风格的新图像。
假如你给它一张翅膀、一撮头发、一只眼睛,它就能“脑补”并生成一个完整的角色图像,像是一个设计师自动把灵感“拼”成一幅完整作品。
就像一个艺术家拿到几张参考图,就能自己“拼”出一整套设计。
它的特别之处是:
不靠文字提示,而是直接用图片碎片做输入。
它训练了一个模型,让这些图片碎片“有意义地拼起来”,生成一个完整又合理的新图像。
还能控制风格,比如让角色“变可爱”或“变肌肉男”。
即使你输入的是简单草图,它也能理解意思生成图像。
主要功能:
图像片段组合生成:给定若干图像“部分”,自动组合成一个完整图像。
自动补全缺失内容:根据上下文合理推断缺失部。
多样化生成:同一输入可生成多个不同版本,便于灵感探索。
语义编辑:可在图像嵌入空间中进行语义向量操作,实现编辑。
结合文本生成:背景场景与文本提示结合,生成指定场景中的图像。
风格定制:可通过训练LoRA微调模型生成特定风格图像,如角色设定图。
项目地址:https://eladrich.github.io/PiT/
GitHub:http://github.com/eladrich/PiT
论文:https://arxiv.org/pdf/2503.10365
Video-T1:清华联合腾讯推出的视频生成技术!
Video-T1是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-TimeScaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。
研究推出Tree-of-Frames(ToF)方法,将视频生成分为多个阶段,逐步优化帧的连贯性和与文本提示的匹配度。Video-T1为视频生成领域提供新的优化思路,展示测试时扩展的强大潜力。
主要功能:
提升视频质量:在测试阶段增加计算资源,生成更高质量的视频,减少模糊和噪声。
增强文本一致性:确保生成的视频符合给定的文本提示,提高视频与文本的匹配度。
优化视频连贯性:改善视频帧之间的运动平滑性和时间连贯性,减少闪烁和抖动。
适应复杂场景:在处理复杂场景和动态对象时,生成更稳定和真实的视频内容。
GitHub:https://github.com/liuff19/Video-T1
Motia:AI Agent开源项目,支持多种编程语言、一键部署智能体!
Motia是专为软件工程师设计的AlAgent框架,简化AI智能体的开发、测试和部署过程。支持多种编程语言,如Python、TypeScript和Ruby,开发者可以使用熟悉的语言编写智能体逻辑,无需学习专有领域特定语言。Motia提供零基础设施部署,无需复杂配置可一键部署智能体。
功能作用:
零基础设施部署:Motia提供一键部署功能,无需复杂的Kubernetes或其他基础设施知识。开发者可以轻松将Al
智能体部署到生产环境中,降低了部署门槛。
多语言支持:支持多种编程语言,如Python、TypeScript和Ruby。开发者可以在同一个智能体中混合使用不同语
言。
模块化和可组合步骤:采用模块化设计,开发者可以创建可重用的组件。运行时自动进行输入/输出验证,确保数
据的准确性和一致性。
内置可观测性:提供可视化的执行图和实时日志记录功能,方便开发者调试和监控智能体行为。开发者可以清晰地
看到智能体的执行流程和状态。
即时API和Webhooks:支持通过HTTP端点暴露智能体功能,无需编写额外的API代码。开发者可以轻松将智能
体与外部系统集成。
完全控制AI逻辑:Motia不限制开发者使用的大型语言模型(LLM)、向量存储或推理模式。开发者可以根据需求
选择最适合的工具。
交互式工作台:MotiaWorkbench是基于浏览器的开发环境,提供交互式流程可视化、实时测试和实时日志流等功
能,帮助开发者快速开发和优化智能体。
快速迭代和优化:Motia的设计使得开发者可以快速迭代智能体逻辑,实验不同方法,持续改进智能系统。
GitHub:https://github.com/MotiaDev/motia
3月26日
阿里开源最新多模态模型:Qwen2.5-VL-32B!比前代72B模型更聪明!
就在 DeepSeek V3「小版本更新」后的几个小时,阿里通义千问团队也开源了新模型。
对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上,Qwen2.5-VL-32B甚至超过了72B,同时支持本地部署并优化了数学推理能力。
于是就得到了网友的一致好评:
特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。
视觉能力的进步,已经让用户们感受到了震撼:
除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。
关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?
Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后叙述推算条理:
在复杂的数学推理方面也能完成任务:
依次类推,归纳出构造规律:
值得关注的是,Qwen2.5-VL-32B-Instruct 的本地部署能力通过MLX框架,用户可在 Apple Silicon 芯片设备上运行该模型,这对注重数据隐私的企业具有吸引力。
春节期间,DeepSeek就曾与阿里通义千问Qwen多次几乎同时发布新模型,而这一次又实现神仙联动了!
官网地址:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b
开源地址:https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
3月25日
DeepSeek深夜更新V3-0324版本!代码能力显著增强,成为Claude 3.7最强对手!
昨夜,DeepSeek V3 毫无征兆地来了一波更新,升级到了「DeepSeek-V3-0324」版本。
模型参数增加到 6850 亿,上下文窗口从64k 提升至128k。此次更新在代码生成、数学推理、多轮对话等方面都有显著提升,编程能力对标Claude 3.7。开源许可也更新为更宽松的 MIT 协议。
目前,新版本在 Hugging Face 上可以下载并部署。
升级后的V3在代码、数学推理能力上,得到显著提升。尤其是代码领域,不少网友直呼:眼前一亮。
相较于上一版,从一个球在超立方体弹跳的Python脚本,即可看出V3代码性能的改善。
还有网友让 DeepSeek-V3-0324 创建网站,该模型一口气写了 800 多行代码,中途一次都没卡壳,生成的网站布局也非常完美。
X 博主「orange.ai」对 DeepSeek V3、DeepSeek-V3-0324 与 Claude Sonnet 3.7 的海报设计结果进行了比较,同样表示前端代码能力相比上代有了显著增强。
V3-0324 已经吊打之前的自己,编程能力跟 Claude 旗鼓相当。在 Cursor 里作为常驻模型一点问题都没有,Claude 的 AI 编程王者的地位受到挑战了。
V3的上线基本吹响了R2的前奏。于是就有网友预测:R2可能也于近期发布!
预计带来三大升级:
完全适配华为昇腾910B芯片,国产化部署成本降低70%。
整合图像生成和语音交互功能,实现多模态闭环。
推理速度提升至320 tokens/秒,接近人类对话响应速度。
如今中美AI差异,已经日渐缩小,全球AI格局已被重塑。几个月前,大部分分析师估计,中国在AI能力上落后美国1-2年,今天这一差距已经缩小至3-6个月,甚至呈现中国领先的趋势。
而开源的方式,甚至还解决了中国公司的特殊挑战(受限于英伟达先进芯片),因为更注重在算力有限的情况下达到有竞争力的性能,现在这已成为中国企业的潜在优势。
Hugging Face 地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
RF-DETR:最先进的实时视频画面物体检测开源模型!
RF-DETR 是由 Roboflow 推出的 实时目标检测模型,基于 Transformer 架构(属于 DETR 系列)。可以实时识别画面中的物体,准确率和速度优于YOLO系列模型。
集实时推理性能、高精度、强泛化能力、 灵活可微调,支持小数据量训练等功能特点于一身。
提供 RF-DETR-base(2900 万参数)和 RF-DETR-large(1.28 亿参数),适合从边缘设备到高性能服务器的多种场景。适用于通用、工业、边缘设备等多种场景。
多规模支持:
RF-DETR-base:2900 万参数,适合边缘设备或资源受限环境。
RF-DETR-large:1.28 亿参数,适用于需要更高精度的场景。
用户可根据硬件能力和任务需求选择合适的模型。
适用场景与用户:
GitHub地址:https://github.com/roboflow/rf-detr?ref=blog.roboflow.com
InfiniteYou:字节开源基于FLUX 的AI换装项目, 可将你的面部转移到任何场景和姿态中!
InfiniteYou(简称 InfU) 是字节跳动推出的首个基于 DiT( FLUX)的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述,生成一张保留该人身份特征、同时满足文字描述 的高质量图像。
也就是,它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一句文字描述(如“在花园里的亚洲女孩”),它就能生成一张保持这个人脸身份、场景和风格一致的照片。
这意味这你可以将你的面部转移到任何场景和姿态中。
它解决了以往方法生成中:人脸不像、和文字描述不一致、图像质量和审美差、缺乏灵活性和可扩展性等问题。
用它生成的图像:
更像真人、更符合描述、也更漂亮。
用户测试中大多数人都更喜欢它生成的图。
主要功能:
身份保持再创作:输入一张人脸图像+文本描述,生成保持人脸身份的新图。
文本驱动场景切换:根据文字自由切换衣着、背景、姿势、角色等(如“花园里的亚洲女孩”)
高质量图像输出:清晰、真实、细节丰富、符合审美。
强兼容性:可与ControlNet、LoRA、OminiControl等模块搭配使用,支持姿势控制、风格迁移、多人物生成。
灵活可扩展:基于 FLUX 等最新 Diffusion Transformers 构建,未来可迁移到更多模型上。
项目地址:https://bytedance.github.io/InfiniteYou/
GitHub:https://github.com/bytedance/InfiniteYou
3月24日
字节开源的视频对应口型数字人框架LatentSync升到了1.5版本。
在1.5版本中提供了高级的唇形同步功能,能够将视频中的嘴唇动作与音频输入同步(之前版本在这存在一些不足点),显著提升了时间一致性,并在更广泛的语言范围内表现更佳,特别中文的支持。
这也是当前数字人对口型领域的最新视频对口型方案。
LatentSync 1.5优化了显存管理和计算效率,能够适配英伟达最新的50系显卡,进一步提升了模型的运行性能。而原始版本仅推荐使用至少6GB显存的英伟达显卡(如T4)。
当前atentsync 1.5版本对应的COmfy UI插件ComfyUI-LatentSyncWrapper 1.5也进行了对应的升级。
并公布了唇形同步视频生成节点参数以及已知局限,从而帮助我们能够生成更好效果的AI数字人视频。
通过Stable Diffusion的潜在空间建模能力,唇部动作与音频的同步精度进一步提升,且能捕捉情感语调相关的细微表情,适用于虚拟主播、教育视频等场景。
GitHub:https://github.com/bytedance/LatentSync/blob/main/docs/changelog\_v1.5.md
COmfy UI插件:https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper
SpatialLM:让 AI 像人类一样“看懂”三维空间,并能够用自然语言与“人类互动”!
SpatialLM 是一个结合了大语言模型 (LLM) 与 3D 点云处理能力的 AI 系统,旨在实现对真实世界三维环境的语义理解与结构重建。
它的核心目标是**:让 AI 像人类一样“看懂”三维空间**,并能够“用语言描述”、“结构化表达”,乃至“与人类互动”。
本质上,它是:
一个 将 3D 点云数据转化为结构化理解与自然语言描述 的系统
结合 大语言模型(LLM)+ 点云编码器 + 多模态感知能力 的框架
核心优势:它支持从原始 3D 几何 → 到高层语义理解 → 到实际可用的建筑/游戏/导航模型
给 AI 一段室内视频,它不仅可以告诉你“哪里有一面墙”,还能说: “这面墙后面是一个开放式厨房,旁边有通往阳台的门。”
核心流程:
输入:普通手机拍摄的视频 / 摄像头图像
MASt3R-SLAM 模块:构建稠密点云(即三维世界的“点状表示”)
Point Cloud Encoder:将点云压缩为语义特征向量
SpatialLM(LLM):生成“场景代码(Scene Code)”,表示空间结构与语义关系
输出格式:可转换为 3D 结构图、2D 平面图、文本描述或行业标准 IFC 模型
SpatialLM 的输出结果不仅支持三维结构识别,还可以转换成常见的行业标准格式,使其可广泛应用于建筑设计、机器人导航、虚拟现实等多个平台和系统中。
项目官网:https://manycore-research.github.io/SpatialLM/
GitHub:https://github.com/manycore-research/SpatialLM
StarVector:输入任意图像和文字即可生成SVG矢量图的AI开源模型!
StarVector 是一个专为 SVG 向量图形生成 设计的AI开源项目,它由 Juan A. Rodriguez 等开发者创建。
其目标是:
用大模型(VLM)从图像或文本中理解语义结构,并自动生成标准可编辑的 SVG代码,适用于图标、技术图、LOGO、表情等。
也就是将 SVG 矢量图的生成转化为“代码生成任务”,支持从图像或文本生成高质量 SVG 文件。
功能作用:
看图 → 画图(生成 SVG):你给它一张图标、LOGO 或技术图(比如流程图、电路图), 它就能自动“转描”为一份 可编辑的矢量图(SVG 文件)**,**参VG 是一种像素不会失真的图形格式,设计师、前端开发和工程师都常用它。
看文字 → 画图:你告诉它一句话,比如:“画一个圆形中有星星的徽章”,它能根据这句话 生成一张可用的 SVG 图像。
StarVector 通过重新定义矢量化任务为代码生成问题,而非传统的图像处理流程,实现了对 SVG 语法的全面支持。
它能够处理包括路径(Path)、圆形、多边形、文本元素等复杂 SVG 元素,生成紧凑且语义丰富的代码。
你不需要学复杂的绘图软件,就能轻松把照片或想法变成专业级的矢量图。比如设计 logo、制作网页图标,都变得简单了。
项目官网:https://starvector.github.io/
GitHub:https://github.com/joanrod/star-vector
MoshiVis:首个具备图像理解能力的AI实时语音开源模型 !
MoshiVis**= Moshi + 图像理解能力 + 实时语音互动能力,**是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型,由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。
简而言之,它可以“看图说话”,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。
MoshiVis 能做什么?
图像理解:输入一张图像后,模型能以语音方式描述其内容、回答相关问题
实时语音交互:支持全程语音输入输出,保持低延迟(<80ms)
上下文理解:可在一般聊天和图像相关对话之间自由切换,记住上下文
多语音风格:支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性
内在思维流(Inner Monologue):模拟模型“思考”的过程,用于训练更自然的语音生成
多任务能力:可同时执行图像描述、视觉问答、OCR等多种任务
开源地址:https://huggingface.co/datasets/kyutai/Babillage
3月21日
字节跳动开源通用型AI Agent TARS:性能超越Manus的AI智能体项目!
Manus 火了之后,真正的 AI Agent 的概念逐渐被大众所接受。
而字节跳动也开源了其最新的AI代理:TARS!功能强大超越Manus,助力深度研究和复杂工作流。
Agent TARS是一款开源的多模态AI代理,它能够通过视觉解析网页内容,并与命令行和文件系统无缝集成。还适合于深度研究、操作系统功能,复杂工作流。
相比 Manus 的,Agent TARS 支持了 MCP 模型上下文协议,可扩展性更强。
主要特点:
高级浏览器操作:通过代理框架执行深度研究和操作功能等复杂任务,实现全面的规划和执行。
全面工具支持:集成搜索、文件编辑、命令行和模型上下文协议(MCP)工具,处理复杂工作流。
增强桌面应用:全新UI设计,包括浏览器显示、多模态元素、会话管理、模型配置、对话流可视化以及浏览器/搜索状态跟踪。
工作流编排:无缝连接GUI代理工具——搜索、浏览、探索链接,并将信息合成为最终输出。
开发者友好框架:简化与UI-TARS的集成和GUI代理项目的自定义工作流创建。
GitHub:https://github.com/bytedance/UI-TARS-desktop/tree/main/apps/agent-tars
Step-Video-TI2V:阶跃星辰开源的图生视频模型!
Step-Video-TI2V是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有300亿参数,能根据文本描述和图像输入生成最长102帧的视频。模型基于深度压缩的变分自编码器(Video-VAE),实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率。用户可以通过设置运动分数(motionscore)来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。
主要功能:
图生视频生成:用户可以提供一张图片和相关的文本描述,模型会根据这些输入生成一段连贯的视频。
高质量视频输出:支持生成最多102帧、5秒、540P分辨率的视频,能满足多种创作需求。
镜头运动控制:支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环
绕以及焦点转移等。
电影级运镜效果:能生成类似电影级别的复杂运镜效果,满足专业创作需求。
动漫效果优化:在动漫风格视频生成方面表现出色,能生成具有虚化背景、动态动作等特效的视频。适合用于动画
创作、短视频制作等应用场景。
灵活的视频尺寸:支持多种尺寸的视频生成,包括横屏、竖屏和方屏,用户可以根据不同的创作需求和平台特性选
择合适的视频尺寸。
多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。
特效生成能力:初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。
GitHub:https://github.com/stepfun-ai/Step-Video-TI2V
StableVirtual Camera: Stability AI推出2D图像转3D视频的AI开源模型!
StableVirtual Camera是StabilityAI推出的AI模型,能将2D图像转换为具有真实深度和透视感的3D视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。
模型支持从1到32张输入图像生成不同宽高比(如1:1、9:16、16:9)的视频,最长可达1000帧。无需复杂的重建或优化,可生成高质量的3D视频,同时保持3D一致性和时间平滑性。
主要功能:
2D图像转3D视频:能将单张或多张2D图像转换为具有深度和透视效果的3D视频。
自定义相机轨迹:用户可以定义多种动态相机路径,包括360°旋转、形轨迹、螺旋路径、平移、旋转、变焦
等。
无缝轨迹视频:生成的视频在不同视角之间过渡自然,能实现无缝循环。
灵活的输出格式:支持生成方形(1:1)、竖屏(9:16)、横屏(16:9)以及其他自定义宽高比的视频。
零样本生成:在训练时仅使用正方形图像,也能生成不同宽高比的视频。
深度和透视感:生成的视频具有真实的深度和透视效果,能模拟真实相机的运动。
3D一致性:在动态相机路径上保持3D一致性和时间平滑性,避免闪烁或伪影。
支持长视频:能生成长达1000帧的视频,适合需要长时间展示的场景。
GitHub地址:https://github.com/Stability-AI/stable-virtual-camera
3月20日
英伟达开源GR00T N1:全球首款开源的人形机器人基础模型!
NVIDIA推出的Isaac GR00T N1,这是一个开源的通用人形机器人基础模型,旨在加速人形机器人在现实世界中的开发和应用。它结合了预训练模型、合成数据生成蓝图和仿真框架,帮助开发者构建能够适应多种任务和环境的机器人。
GR00T N1 的核心特性
开源模型:GR00T N1 是全球首个通用人形机器人基础模型、完全可定制的人形机器人基础模型,允许开发者根据特定任务和机器人形态进行调整。
双系统架构:受人类认知启发,包含“快思”和“慢思”系统:
慢思系统:负责感知环境、推理指令并规划行动。
快思系统:将计划转化为精准、连续的机器人动作。
跨形态通用性:一个模型适用于不同的人形机器人(如Fourier GR-1 和 1X Neo),展示了对物体操作、双手协作和复杂多步骤任务的强大泛化能力。
跨平台(Cross-Embodiment):支持不同类型人形机器人,如 Fourier GR-1、1X Neo。
多模态输入:支持语言和图像等多种输入形式,使机器人能够理解指令并执行复杂的操作任务,如执行复杂操控任务(如抓取、双臂协作等)。
可自适应:支持特定机器人、任务、环境的微调训练。
GR00T N1是一个VLA模型(Vision-Language-Action model,视觉-语言-动作模型),采用了双系统架构。其中一个系统能够推理其环境和收到的指令,规划行动;另一个系统则负责将这些计划转化为精确、连续的机器人动作。这一创新设计使得GR00T N1在理解和执行复杂任务时表现出色。
英伟达创始人兼首席执行官黄仁勋表示,AI的下一波浪潮将是机器人,其中人形机器人是最令人兴奋的发展方向之一。GR00T N1的推出,正是英伟达在这一领域的重要布局。英伟达希望通过开放这一模型,加速全球机器人开发者的创新进程,共同推动人形机器人技术的发展。
GitHub:https://github.com/NVIDIA/Isaac-GR00T/
图片超分辨率模型:Thera!支持任意缩放倍率下增强图像质量!
Thera 是 首个内置物理观察模型的超分辨率方法,能够在 任意缩放倍率下无锯齿地增强图像质量。
它可以把 低分辨率的图片放大成高清图片,同时 不会产生模糊或锯齿。核心技术是 神经热场(Neural Heat Fields),一种能自适应调整图像细节的人工智能方法。
Thera 具备以下四大核心功能:
任意比例放大:随意放大,不受倍数限制(例如 ×1.3、×2.7、×5.6 都可以)
防止混叠,避免锯齿:文hera 使用 “神经热场” 技术,能智能模糊高频噪声,让图片更平滑,不失真。
计算效率高:文hera 不需要额外计算,直接输出超高清图像,速度更快,即使在手机上也能运行!
测试时带宽控制:让用户可以实时控制图片的高低频信息,适应不同的使用场景
Thera 的应用场景
老照片修复 :提高老照片清晰度,让模糊照片变高清
视频增强 :让视频在不同设备上自动适应最佳画质
手机相机优化 :让数码变焦拍摄更接近光学变焦效果
医学影像 :在不同尺度下放大医学扫描图像,保留关键细节
卫星影像分析 :提高遥感图像的分辨率,避免地形失真
项目地址:https://therasr.github.io/
GitHub:https://github.com/prs-eth/thera
论文:https://arxiv.org/pdf/2311.17643
在线体验:https://huggingface.co/spaces/prs-eth/thera
StableVirtual Camera: Stability AI推出2D图像转3D视频的AI开源模型!
StableVirtualCamera是StabilityAI推出的AI模型,能将2D图像转换为具有真实深度和透视感的3D视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。
模型支持从1到32张输入图像生成不同宽高比(如1:1、9:16、16:9)的视频,最长可达1000帧。无需复杂的重建或优化,可生成高质量的3D视频,同时保持3D一致性和时间平滑性。
主要功能:
2D图像转3D视频:能将单张或多张2D图像转换为具有深度和透视效果的3D视频。
自定义相机轨迹:用户可以定义多种动态相机路径,包括360°旋转、形轨迹、螺旋路径、平移、旋转、变焦
等。
无缝轨迹视频:生成的视频在不同视角之间过渡自然,能实现无缝循环。
灵活的输出格式:支持生成方形(1:1)、竖屏(9:16)、横屏(16:9)以及其他自定义宽高比的视频。
零样本生成:在训练时仅使用正方形图像,也能生成不同宽高比的视频。
深度和透视感:生成的视频具有真实的深度和透视效果,能模拟真实相机的运动。
3D一致性:在动态相机路径上保持3D一致性和时间平滑性,避免闪烁或伪影。
支持长视频:能生成长达1000帧的视频,适合需要长时间展示的场景。
GitHub地址:https://github.com/Stability-AI/stable-virtual-camera
项目官网:https://stable-virtual-camera.github.io/?utm\_source=ai-bot.cn
IBM开源256M参数的多模态OCR神器:SmolDocling!0.35秒快速解读文档!
当前主流OCR系统通常都需要1B+参数的大模型计算,而IBM与Hugging Face联合推出开源工具SmolDocling参数量仅256M,推理速度快,A100GPU上每页处理仅需0.35秒,与Docling完全兼容,可导出多种格式!
SmolDocling(SmolDocling-256M-preview)是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
主要功能:
多模态文档转换:能将图像文档高效转换为结构化文本,支持科学和非科学文档。
快速推理:在A100GPU上处理一页文档仅需0.35秒,使用不到500MB的显存。
OCR与布局识别:支持光学字符识别(OCR),保留文档结构和元素的边界框。
复杂元素识别:能识别代码块、数学公式、图表、表格等复杂文档元素。
与Docling 无缝集成:支持将结果转换为多种格式(如Markdown、HTML等),兼容 Docling。
指令支持:支持多种指令,如将页面转换为Docling格式、将图表转换为表格、将公式转换为LaTeX等。
技术论文:https://arxiv.org/pdf/2503.11576
开源地址:https://huggingface.co/ds4sd/SmolDocling-256M-preview
3月19日
昆仑万维开源工业界首个多模态推理模型:Skywork R1V!让视觉思考进入o1时代!
昆仑万维正式开源了全球首个工业界多模态推理模型:Skywork R1V(以下简称 R1V)!
它实现了 SOTA 级别的视觉推理和强大的通用推理能力。随着新模型的到来,昆仑万维成为了国内第一家开源多模态思维链推理模型的企业。
从多项基准测试来看,R1V-38B 相比较文本推理模型,已经在数学推理、代码生成等任务中达到了领先水平,在部分任务上接近了更大尺寸的闭源模型。相比较传统多模态模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遥遥领先,相比开源大模型 DeepSeek V3 也有所提升。
值得一提的是,R1V 成为全球范围内首个在数学推理能力上接近 OpenAI o1 的开源多模态模型。
昆仑万维表示,R1V 视觉推理模型可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,可轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景,堪称多模态领域的「全能战士」。
数学题测试:「用圆心角为120°,半径为6cm的扇形纸片卷成一个圆锥形无底纸帽,则这个纸帽的高是?」
医学影像:看看它是如何诊断这张 CT 图片的。
分析结果仅供参考,最终的诊断和治疗还是要交给医生,由他们根据实际情况来做出。
总结来说,R1V有以下三大亮点:
1.全球第一个工业界开源多模态+推理模型 2. 性能接近甚至超越了规模大两倍的开源模型 3. 通过开源让技术可以惠及到更多人
R1V的问世标志着,昆仑万维成为全球首家开源多模态思考模型的公司,朝着AGI落地迈出重要的一步。而选择开源R1V视觉思考模型,也正是昆仑万维为了更坚定地贯彻AGI的梦想,推动开源社区的技术进步。
GitHub:https://github.com/SkyworkAI/Skywork-R1V
Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B
技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork\_R1V.pdf
腾讯混元一口气开源5个3D生成模型,最快30秒快速生成你的虚拟世界!
Hunyuan3D2.0是腾讯推出的大规模3D资产生成系统,专注于从文本和图像生成高分辨率的3D模型。系统采用两阶段生成流程:首先生成无纹理的几何模型,再合成高分辨率纹理贴图。包含两个核心组件:
Hunyuan3D-DiT(几何生成模型)和Hunyuan3D-Paint(纹理合成模型),分别用于生成精确的几何结构和生动逼真的纹理。
主要功能作用:
高分辨率3D模型生成:通过两阶段生成流程,先生成无纹理的几何模型,再为其合成纹理贴图,有效分离了形状
和纹理生成的复杂性。
高质量生成效果:在几何细节、条件对齐和纹理质量等方面全面优于现有的开源和闭源模型。
多样的使用方式:支持通过代码调用、Gradio应用、Blender插件以及官方网站快速体验。
整体相比1.0,有了巨大的进步,在几何结构上,变得更加锐利,更加精准,材质也变得更加稳定了。
例如我们直接放进一张草图,让他生成卡通风格美女。
几十秒时间,一个3D模型就出来了。
Hunyuan3D2.0包含5个开源模型:
Hunyuan3D-2mv:是腾讯混元3D开源的多视角形状生成模型。模型专注于通过多视角输入生成高质量的3D几何
形状,适用于需要从多个角度理解场景或对象的3D创作。
Hunyuan3D-2mini:是Hunyuan3D-2mv的简化版本。在保留核心功能的同时,优化了模型的大小和计算效率,
更适合轻量级应用。
Hunyuan3D-DiT-v2-0:是大规模的几何生成模型,用于从图像生成高保真度的无纹理几何模型。基于流扩散的扩散模型构建,能生成与输入图像精确匹配的几何形状。模型参数量为26亿。
Hunyuan3D-Paint-v2-0:是大规模的纹理生成模型,用于为生成的几何模型或手工制作的网格生成高分辨率且逼真的纹理贴图。模型参数量为13亿。
Hunyuan3D-Delight-v2-0:是图像去光影模型,用于将输入图像转换为无光影的状态,生成光照不变的纹理贴
图。
Hunyuan3D-DiT-v2-0-Fast:是加速版本的几何生成模型,通过指导蒸馏技术将推理时间缩短一半,适合对生成速度有更高要求的场景。
项目官网:https://3d-models.hunyuan.tencent.com/
GitHub:https://github.com/Tencent/Hunyuan3D-2
3月18日
腾讯开源视频修复神器!VideoPainter:可轻松修复、编辑任何视频!
VideoPainter是香港中文大学、腾讯ARCLab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支架构,结合轻量级上下文编码器和预训练的扩散模型,实现高效的背景保留和前景生成。框架支持插件式操作,用户根据需求灵活调整修复效果。
VideoPainter引入ID重采样技术,能在长视频中保持对象一致性。VideoPainter构建了VPData和VPBench,目前最大的视频修复数据集,包含超过39万段视频剪辑,为大规模训练和评估提供支持。它在视频质量、掩码区域保留和文本对齐等多个指标上展现卓越了性能,为视频修复和编辑领域带来新的突破。
功能作用:
任意长度的视频修复:处理从短片段到长视频的各种内容,修复被遮挡或损坏的部分。
背景保留与前景生成:基于双分支架构,实现背景的精确保留和前景的高质量生成。
文本指导的视频编辑:支持用文本指令进行视频编辑,如添加、删除、替换或修改视频中的对象。
对象一致性维持:在长视频中保持对象的身份一致性,避免出现对象漂移或突变。
插件式控制:支持与不同的扩散模型或LoRA(低秩适配)模型结合,实现多样化的视频生成和编辑需求。
GitHub:https://github.com/TencentARC/VideoPainter
Al-Researcher:港大开源的AI自动化科学研究、论文撰写项目!
AI-Researcher是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。
AI-Researcher支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;
二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的基准测试套件评估研究质量。
主要功能:
文献综述:系统自动收集和分析特定领域的现有研究文献,基于检索学术数据库(如arXiv、IEEEXplore等)和代码平台(如GitHub、Hugging Face)获取高质量的研究资源。
算法验证与优化:自动进行实验设计、执行和结果分析,评估算法的性能,根据反馈进行优化,确保算法的有效性
和可靠性。
论文撰写:自动生成完整的学术论文,包括研究背景、方法、实验结果和讨论等内容。
多领域支持与基准测试:支持计算机视觉、自然语言处理、数据挖掘等多个领域的研究,提供标准化的基准测试框
架,用在评估研究质量和创新性。
GitHub:https://github.com/HKUDS/AI-Researcher
Seed-VC :基于 SEED-TTS 架构开发的零样本语音/歌声转换模型!
Seed-VC 是一个先进的零样本语音转换和歌声转换模型,受字节跳动的 SEED-TTS 启发而开发。 它利用上下文学习技术,无需任何训练即可克隆语音。 只需提供 1 到 30 秒的参考语音,Seed-VC 就能将任意语音转换为目标语音风格。 该模型支持零样本语音转换、零样本实时语音转换和零样本歌声转换。
已发布用于不同目的的3个模型:
此外,Seed-VC 支持使用自定义数据进行微调,以提高特定说话人的性能,数据需求门槛极低,每位说话人至少需要 1 条语音,训练速度极快,最少 100 步,在 T4 上只需 2 分钟。实时语音转换支持约 300 毫秒的算法延迟和约 100 毫秒的设备侧延迟,适用于在线会议、游戏和直播等场景。
实验结果表明,Seed-VC 在零样本语音转换任务中表现优异,在说话人相似度和词错误率方面优于其他强大的基线模型,如 OpenVoice 和 CosyVoice。 此外,通过引入基频条件,Seed-VC 在零样本歌声转换任务中也取得了与当前最先进方法相当的性能。
Github :https://github.com/Plachtaa/seed-vc
3月17日
Auto-Deep-Research:专为论文编写/学术研究/金融分析/商业决策等场景设计的AI自动化全链路流程的开源多Agent系统!
来自香港大学的3位研究员开源了一款平替版「Deep Research」,只需1美元即可拥有全自动AI研究助理!它能自主搜索、分析互联网信息,还能处理复杂编程任务,甚至能自动解析PDF、生成可视化报告。性能位列全球第三,开源第一。
Auto-Deep-Research 是一款革命性多Agent系统,旨在通过自动化技术覆盖科研全流程。作为OpenAI Deep Research的开源替代方案,该系统解决了科研人员面临的三大痛点:
文献处理低效:自动抓取数百篇文献并生成综述,替代手动整理至凌晨的繁琐工作
开发成本高昂:基于Claude-3.5-Sonnet构建,相比GPT-4等模型降低90%以上的API成本
工具链割裂:整合Python脚本调试、Excel数据处理与论文生成,消除工具间切换的认知负荷
Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。此外,系统还支持DeepSeek、Hugging Face等主流模型,为用户提供了更多选择。
Auto-Deep-Research的核心优势在于其模块化设计和高效的多Agent协作能力。系统由三个专业子Agent和一个核心调度器组成,能够自主完成文件解析、网络搜索、数据分析和报告生成等复杂任务。
其Web Agent组件支持高效的互联网信息搜索和深度挖掘,CodingAgent则擅长处理编程任务和数据分析,LocalFileAgent则能够处理多种格式的本地文件,实现高效的文件管理和分析。
创新点
模块化的多Agent架构设计:通过模块化的设计,使得各Agent能够协同工作,完成复杂任务。这种设计不仅提高了系统的可扩展性和可维护性,还增强了系统的灵活性和适应性。
高效的任务处理能力:Auto-Deep-Research能够快速响应用户需求,处理包括文件解析、网络搜索、数据分析与可视化等在内的多项任务。这种高效的任务处理能力使得Auto-Deep-Research在科研、教育、企业等多个领域具有广泛的应用前景。
高性价比:基于Claude-3.5-Sonnet构建,成本效益显著。这种高性价比的特点使得Auto-Deep-Research成为研究人员、教育工作者和企业用户的理想选择。
GitHub:https://github.com/HKUDS/Auto-Deep-Research
5.8Kstar !BlenderMCP:一句话让 Claude直接控制 Blender建模!
国外一网友开源了一款名叫BlenderMCP的项目。
它将 Claude AI 与 Blender 连接起来,实现了在 Claude 上对话聊天就能直接控制 Blender 创建和修改 3D 模型,让 3D 建模变得前所未有的简单和高效。
背后的技术关键还是最近大火的MCP(Model Context Protocol)——复刻Manus的重要诀窍。
MCP是一种通信协议,是Anthropic提出的,现在Anthropic把它比喻成**AI应用的Type-C接口。**并且Anthropic已经打算牵头把MCP协议推动成行业开放标准。
它就像AI系统与数据源之间的一座桥梁,允许开发者在数据源和AI工具之间建立双向连接。实现大模型应用与外部数据源和工具之间的无缝集成,帮助AI获得所需的上下文数据,生成质量更高、与任务更相关的回答。
BlenderMCP正是将这套MCP开放协议和Blender连接,让原本人工几小时才能搞定的建模工作,缩短到几分钟,还不用人插手。
BlenderMCP 带来令人惊叹的功能:
双向通信:通过 MCP 服务器,Claude AI 可直接与 Blender 进行实时交互和控制。
对象操作:只需简单的提示词,即可在 Blender 中创建、修改和删除 3D 对象。
材质控制:轻松应用和修改材质与颜色,无需记忆复杂的材质设置。
场景检查:获取当前 Blender 场景的详细信息,帮助 AI 理解和操作现有场景。
代码执行:从 Claude 运行任意 Python 代码到 Blender,实现高级自定义功能。
GitHub地址:https://github.com/ahujasid/blender-mcp
Botgroup.chat:开源的AI机器人群聊项目,支持多个AI模型群聊对话!
Botgroup.chat是基于React和CloudflarePages的多人AI聊天应用。支持多个AI角色同时参与对话,提供类似群聊的交互体验。用户可以自定义AI角色的性格和模型,可以对特定AI进行禁言操作。创新的聊天方式让用户能体验与多个AI一起交流,类似于在一个虚拟的社交群组中。
主要功能:
多人AI群聊:支持多个AI角色同时参与对话,模拟真实的群聊场景。用户可以在聊天界面中与多个AI角色进行
实时互动。
自定义AI角色:用户可以定义AI角色的名称、性格、模型及头像,打造个性化的智能体。
多种模型支持:兼容多种AI模型,如千问、混元、豆包等,满足不同用户的需求。用户可以根据需要切换不同的
模型。
一键部署:通过CloudflarePages实现快速部署,无需复杂配置。用户可以轻松将项目部署到自己的服务器上。
实时互动:提供流畅的对话体验,适合娱乐、教育或测试场景。用户可以连续对话,观察不同角色的响应风格。
群组管理功能:支持群组管理,包括添加、删除角色,以及禁言功能。
支持Markdown格式:用户可以在聊天中使用Markdown格式,方便排版和展示。
支持数学公式显示:支持KaTeX数学公式显示,适合学术讨论。
开源代码:项目代码在GitHub上开放,开发者可以自由修改和扩展功能。
GitHub:https://github.com/maojindao55/botgroup.chat
清华开源“赤兔Chitu”大模型推理引擎:国产AI芯片迎来成本减半新机遇!
清华大学高性能计算研究所传来重大消息,翟季冬教授团队携手清华背景的科创先锋清程极智,共同揭晓了一项开源大模型推理引擎——“赤兔Chitu”。这一创新成果为国产AI芯片的普及应用和生态建设铺设了新的道路。
“赤兔Chitu”实现了在非英伟达Hopper架构GPU及多种国产芯片上直接运行FP8精度模型的历史性突破,打破了此前FP8精度模型对英伟达Hopper架构(例如H100/H200)的硬件束缚,为行业带来了更多选择。
主要功能:
多元算力适配:支持英伟达从最新旗舰到日款的多系列GPU,同时为国产芯片提供优化支持,打破了对英伟达
Hopper架构的依赖。
全场景可伸缩:从纯CPU部署、单GPU部署到大规模集群部署,赤兔引擎都能提供可扩展的解决方案,满足不同规
模和场景下的推理需求。
低延迟优化:针对对延迟敏感的场景,如金融风控等,优化模型推理速度,减少响应时间。
高吞吐优化:在高并发场景下,如智能客服,提高单位时间内处理的请求数量。
小显存优化:降低单卡显存占用,使企业可以用更少的硬件资源获得更高的推理性能。
长期稳定运行:赤免引擎可应用于实际生产环境,稳定性足以承载并发业务流量。
开箱即用:清程极智推出了基于赤免的推理一体机,提供开箱即用的部署方案及专业运维服务,进一步简化企业Al
落地流程。
清程极智的CEO汤雄超强调,目前国内在推理引擎这一关键环节上,仍然缺乏达到生产级标准的开源产品。“赤兔”引擎的开源,是推动国内AI生态建设的关键一步,它将为行业带来更加高效、灵活的技术支撑,助力行业实现更快发展。
GitHub:https://github.com/thu-pacman/chitu
3月14日
Open-Sora 2.0开源!商业级国产视频生成模型!20万美元碾压百万美元模型?
潞晨科技发布并开源视频生成模型 Open-Sora 2.0
11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
市面上诸多效果相近的闭源视频生成模型,动辄花费数百万美元训练成本。
而Open-Sora 2.0,将这一数字压缩到了20万美元。
Open-Sora 2.0 是224 张 GPU 成功训练的商业级11B参数视频生成模型,成本大幅降低;采用 3D 全注意力机制、MMDiT 架构等优化模型架构。
通过严格数据筛选、多阶段训练、高效并行方案等削减训练开销,训练高压缩比视频自编码器,推理速度提升 10 倍。性能媲美主流闭源大模型,在 VBench 评测和用户偏好评测表现出色,还全面开源模型权重、推理及训练代码。
主要功能特点:
高质量视频生成:生成720p分辨率、24FPS的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能
表现出色。
动作幅度可控:根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
文本到视频(T2V)生成:支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
图像到视频(I2V)生成:结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。
Open-Sora 2.0 采用 11B 参数规模,训练后在VBench 和人工偏好(Human Preference) 评测上都取得与用高昂成本开发的主流闭源大模型同等水平。
用户偏好评测:在视觉表现、文本一致性和动作表现三个评估维度上,Open Sora 在至少两个指标上超越了开源 SOTA HunyuanVideo,以及商业模型 Runway Gen-3 Alpha 等。以小成本获取了好性能。
Open-Sora 2.0的成功发布标志着视频生成领域的技术进步和成本降低。未来,Open-Sora团队将继续致力于视频生成技术的创新和优化,推动高质量视频生成的普及和应用。
GitHub地址:https://github.com/hpcaitech/Open-Sora
技术论文:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open\_Sora\_2\_tech\_report.pdf
MIDI:AI生成3D场景的开源项目,能将单张图像转化为360度3D场景!
MIDI是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。
具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对不同风格的图像具有良好的泛化能力。
MIDI能直接将单张2D图片转化为360度的3D场景,为用户带来沉浸式体验。同时对场景中的多个物体进行3D建模,避免了逐个生成再组合的复杂过程。并且支持对输入图像进行智能分割,准确识别出场景中的各种独立元素。
技术原理:
智能分割:MIDI首先对输入的单张图像进行智能分割,能准确识别出场景中的各种独立元素(如桌子、椅子、咖啡
杯等)。这些被“拆解”开来的图像局部,连同整体的场景环境信息,成为3D场景构建的重要依据。
多实例同步扩散:与其他逐个生成3D物体再进行组合的方法不同,MIDI采用多实例同步扩散的方式。能同时对场
景中的多个物体进行3D建模,类似于一个乐团同时演奏不同的乐器,最终汇聚成和谐的乐章。避免了逐个生成和组
合的复杂过程,大大提高了效率。
多实例注意力机制:MIDI引入了一种新颖的多实例注意力机制,能有效地捕捉物体之间的相互作用和空间关系。确
保生成的3D场景不仅包含独立的物体,更重要的是它们之间的摆放位置和相互影响都符合逻辑,浑然一体。
全局感知与细节融合:MIDI通过引入多实例注意力层和交叉注意力层,能充分理解全局场景的上下文信息,融入到
每个独立3D物体的生成过程中。保证了场景的整体协调性,丰富细节。
技术论文:https://arxiv.org/pdf/2412.03558
GitHub:https://github.com/VAST-AI-Research/MIDI-3D
百度飞桨开源PP-DocBee:AI多模态大模型一键解析图表文本!
此前,结合文心大模型,飞桨发布了PP-ChatOCRv3 大小模型融合方案,先采用OCR技术提取图像中的文本,再输入文心大模型进行分析问答,最终大幅提升了文本图像版面解析和信息抽取效果。
该方案在文字和表格上的准确度很高,但对于文档中图像和图表理解能力需进一步提升。因此,为了更好满足用户对复杂多样的文档图像理解任务的需求,
飞桨提出了新的方案PP-DocBee,基于多模态大模型实现端到端的文档图像理解。它可以高效地应用在各类场景的文档理解、文档问答等,尤其是对中文的文档类理解的场景,表现非常优异。
PP-DocBee在印刷文字、表格、图表等文档理解效果也很出色!
印刷文字
表格:
PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平,在内部业务中文场景中表现优异。
PP-DocBee推理性能经过优化,响应速度更快,能保持高质量输出。PP-DocBee适用于文档问答、复杂文档解析等场景,支持多种部署方式,为文档处理提供高效、智能的解决方案。
GitHub地址https://github.com/PaddlePaddle/PaddleMIX/tree/develop/deploy/ppdocbee
在线体验:https://aistudio.baidu.com/application/detail/60135
3月13日
性能超越DeepSeek V3!谷歌最新开源多模态AI模型:Gemma3,仅27B参数拿下开源模型第二名!
谷歌开源了AI多模态模型:Gemma 3!
已跃升为全球第二强开源AI,其性能超越 DeepSeek V3 和 o3mini,仅次于 DeepSeek R1。
Gemma-3-27B 模型在综合评测中位列前 10,超越多个专有模型,成为仅次于 DeepSeek-R1 的顶级开源模型。
主要功能:
多模态处理能力:/emma3支持文本、图像及短视频的混合输入,能够处理复杂的多模态任务,如图像问答、视
频内容分析等。
高分辨率图像支持:引入动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像,能在20
秒内完成1小时视频的关键帧提取。
多语言支持:支持超过140种语言的预训练,直接支持超过35种语言。
单GPU优化:/emma3被称为“全球最强的单加速器模型”,在单GPU或TPU环境下表现显著优于其他同类模
型。
推理速度提升:在处理短视频内容时,推理速度提升了47%。
硬件适配:针对NvidiaGPU和GoogleCloudTPU进行了深度优化,确保在不同硬件平台上的高效运行。
多种模型大小:提供1B、4B、12B和27B四种不同尺寸的模型,满足不同硬件和性能需求。
开发工具支持:支持Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具和框架。
部署选项多样:支持Google Al Studio、Vertex Al、Cloud Run、本地环境等多种部署选项。
开源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
OpenAI开源首个Agent SDK,并推出AI智能体开发全家桶反击Manus!
「Agent/智能体」是当今 AI 领域最炙手可热的话题。
昨天凌晨,OpenAI突然开启线上直播,正式放出开发者自主构建智能体的大礼包——一个全新API、三个内置工具,以及一个开源SDK。
具体包括:
全新Responses API:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体
内置三大工具:网络搜索、文件搜索和计算机使用
全新Agents SDK:用于编排单智能体和多智能体工作流程
集成可视化工具:用于追踪和检查智能体工作流程执行情况
其中最大的看点便是 Responses API,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而可以帮助开发者构建智能体。目前,Responses API 已经内置了网络搜索、文件搜索和计算机使用(computer use)能力。
Responses API相当于将原本的Chat Completions API与工具使用相结合。
内置工具包括网页搜索,文件搜索,以及计算机使用。
这些工具可以协同工作,将模型连接到现实世界,从而让模型可以完成更加有用的任务。Responses API 还包含一些可用性改进,包括统一的基于事项(item)的设计、更简单的多态性、直观的流式事件和 SDK 助手(如可帮助轻松获取模型的文本输出的 response.output_text)。
只需一次 Responses API 调用,开发者就能够使用多个工具和模型轮次来解决越来越复杂的任务。
除了构建智能体的核心逻辑并让它们能够访问有用的工具之外,开发者还需要编排智能体工作流。
为此,OpenAI去年已经发布了一个名为Swarm的SDK,让智能体的协同调度变得简单。今天,他们家决定将Swarm升级为Agents SDK。
此次,Agents SDK的改进包括:
智能体:易于配置的LLM,具有清晰的指令和内置工具
交接:智能体之间的智能控制转移
防护机制:可配置的输入输出验证安全检查
追踪和可视化:通过可视化智能体执行轨迹来调试和优化性能
它适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜在客户挖掘。
Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 样式的 API 端点,该 SDK 还可以与其他提供商的模型配合使用。
最后,OpenAI 称:「我们相信智能体很快就会成为劳动力不可或缺的一部分,从而显著提高各行业的生产力。随着公司越来越多地寻求利用 AI 来完成复杂的任务,我们致力于为开发者和企业提供构建模块,使他们能够有效地创建可产生实际影响的自动系统。」
开源地址:https://github.com/openai/openai-agents-python
李飞飞团队开源机器人家庭任务自动化框架:BEHAVIOR Robot Suite!
BEHAVIOR Robot Suite是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括双臂协调、稳定导航和广泛的末端执行器可达性。BRS的核心创新包括:JoyLo,一种低成本的全身遥操作接口,用在高效控制机器人收集高质量数据:及WB-VIMA,一种模仿学习算法,基于建模机器人全身动作的层次结构和多模态观测数据实现精准的全身操作。BRS在真实世界的多样化家务任务中表现出色,展示了在机器人自主操作领域的潜力。
主要功能:
全身操作能力:基于双臂协调、稳定导航和广泛的末端执行器可达性,完成复杂的家务任务,如搬运重物、开门、
清洁等。
高效数据收集:JoyLo提供低成本、高质量的全身遥操作接口,支持快速数据收集,为策略学习提供支持。
强大的学习算法:WB-VIMA算法用机器人的运动学层次结构,建模全身动作的依赖关系,用多模态感知数据动态
调整策略。
适应真实环境:在真实世界的复杂环境中,与未修改的日常物品交互,完成长时序、多阶段的任务。
故障恢复能力:学习到的策略能自动检测、纠正操作中的错误,提高任务成功率。
GitHub地址:https://github.com/behavior-robot-suite
技术论文:https://arxiv.org/pdf/2503.05652
3月12日
阿里通义开源R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见!
阿里通义实验室又开卷了:开源了R1-Omni!
它首次将DeepSeek同款RLVR应用于全模态LLM,并且是含视频的那种!
之前已有团队将RLVR应用于图像-文本多模态LLM,证明其在几何推理和视觉计数等任务上表现优异。
然而,尚未探索将其与包含音频、动态视觉内容的全模态LLM结合。
通义千问实验室首次将RLVR与全模态LLM结合,聚焦的是视觉和音频模态都提供关键作用的情感识别任务。
R1-Omni 能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。
为了验证 R1-Omni 的性能,通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。
实验结果显示,在同分布测试集(DFEW 和 MAFW)上,R1-Omni 相较于原始基线模型平均提升超过 35%,相较于 SFT 模型在 UAR 上的提升高达 10% 以上。在不同分布测试集(RAVDESS)上,R1-Omni 同样展现了卓越的泛化能力,WAR 和 UAR 均提升超过 13%。这些结果充分证明了 RLVR 在提升推理能力和泛化性能上的显著优势。
论文:https://arxiv.org/abs/2503.05379
Github:https://github.com/HumanMLLM/R1-Omni
模型:https://www.modelscope.cn/models/iic/R1-Omni-0.5B
2.3Kstar!Anus:Manus生成的开源AI智能体项目,复刻Manus部分功能!
Anus(Autonomous Networked Utility System)是Manus生成的开源自主智能体项目,复刻Manus的部分功能。
Anus支持自然语言指令执行、多代理协作、网络交互、文档处理、代码执行和多模态输入处理等功能。Anus用混合架构,结合单代理的简单性和多代理的强大能力,支持OpenAI、开源模型及本地部署,提供丰富的工具生态系统和灵活的模型集成选项。Anus的目标是为开发者、研究人员和Al爱好者提供一个强大、灵活且易于使用的工具,推动AI技术的广泛应用和创新。
主要功能:
任务自动化:基于自然语言指令执行复杂任务,支持单代理或多代理模式。
多代理协作:支持多代理系统,预定义角色(如研究者、分析员、编写者)协同完成复杂任务。
多模态输入处理:支持文本、图像、音频等多种输入形式,进行图像识别、音频转录和视频分析。
丰富的工具生态系统:
网络交互:支持网页自动化、数据抓取、表单填写和认证处理。
文档处理:支持PDF、Office文档分析,及OCR识别。
代码执行:支持Python等语言的代码生成与安全执行。
灵活的模型集成:支持OpenAl模型、开源模型(如Llama、Mistral)及本地部署。
GitHub地址:https://github.com/nikmcfly/ANUS/
LanPaint:适用于Stable Diffusion模型的无需额外训练的高质量AI图像修复工具!
LanPaint是用在StableDiffusion模型的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。
LanPaint基于多轮迭代推理优化修复效果,支持无缝且准确的修复结果。
LanPaint提供简单易用的集成方式,与ComfyUI的工作流程一致,用户替换默认的采样器节点即可使用。LanPaint提供多种参数调整,适应不同复杂度的修复任务,例如调整推理步骤、内容对齐强度等。LanPaint适用于从简单替换到复杂损坏修复的多种场景,是提升图像生成质量的有力工具。
主要功能:
零训练图像修复:无需额外训练,与任何StableDiffusion模型(包括用户自定义模型)无缝配合,实现高质量的图
像修复。
简单集成:与ComfyUI的KSampler工作流程完全兼容,用户能轻松替换默认采样器节点,快速上手。
高质量修复:基于多轮迭代推理,优化修复区域与原始图像的衔接,实现无缝且自然的修复效果。
参数灵活调整:提供多种高级参数(如推理步骤、内容对齐强度、噪声掩码等),用户根据任务复杂度进行精细调整。
GitHub地址:https://github.com/scraed/LanPaint
3月11日
Manus核心技术Browser Use开源:让AI像人类一样浏览网页并自动执行Web任务!
X用户@jianxliao 声称他通过简单地请求 Manus AI提供其位于“/opt/.manus/”的内部文件,AI 直接提供了这些文件,包括其沙箱运行时代码。他随后列出了几个关键发现:
Manus AI 实际上基于 Claude Sonnet(Anthropic 开发的 AI 模型)。
它集成了 29 种工具,并使用 @browser_use 提供浏览器功能。
它不使用多代理(multi-agent)系统。
@browser_use 的代码被混淆(obfuscated),可能意在隐藏其实现细节。
工具和提示存在“越狱”(jailbreak)现象,暗示可能存在安全漏洞或未授权访问。
Manus 的联合创始人@peakji 随后证实了这一消息,的确是使用了@browser_use 的开源代码。
并且他们还使用Claude和不同的 Qwen 微调版本来构建Manus!
Browser Use 介绍
使 AI 代理能够让 AI 像人类一样浏览网页并自动执行 Web 任务,例如抓取数据、自动填写表单、执行操作等。
主要功能:
访问任意网站,并进行交互(比如自动登录、搜索信息、购买商品)。 抓取网页数据,整理成有用的格式(比如从电商网站提取商品价格、库存信息)。 自动填写表单、提交内容(比如注册账号、填写客户信息)。 执行复杂任务(比如读取简历,自动申请多个工作,或在 Google Docs 写信并导出 PDF)。 在多个标签页同时操作,提高效率(比如对比多个网站的价格,并生成报告)。
适用场景
Web 自动化任务(电商、CRM、金融等行业) 数据采集 & 分析(爬虫、市场调研、SEO 分析) 智能 AI 助手(自动填写表单、搜索信息、执行任务) 企业级 AI 代理部署(SaaS 平台、客户支持、业务流程优化)
GitHub:https://github.com/browser-use/browser-use
技术报告:https://browser-use.com/posts/sota-technical-report
Nanobrowser:开源的AI网页自动化工具,自主完成复杂的网页任务!
Nanobrowser是开源的Chrome扩展工具,专注于Al驱动的网页自动化。
Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自己的LLMAPI密钥,灵活选择不同的模型为不同智能体提供支持。Nanobrowser完全免费,作为OpenAlOperator的开源替代方案,支持在本地浏览器运行,注重隐私保护,不涉及云服务。Nanobrowser让AI在浏览器中变得更加智能高效。
Nanobrowser的主要功能
多智能体系统(Multi-agent System):
Planner(规划器):负责制定和调整任务策略。
Navigator(导航器):执行网页导航和操作。
Validator(验证器):检查任务是否成功完成。
·交互式侧边栏:提供直观的聊天界面,实时显示任务状态,用户用自然语言与智能体交互。
·任务自动化:自动化重复性网页任务,如信息提取、数据整理等,节省时间和精力。
·多LLM支持:支持连接多种大型语言模型(LLM)提供商,用户根据需求为不同智能体选择不同的模型。
GitHub地址:https://github.com/nanobrowser/nanobrowser
60秒合成4K数字人视频!HeyGem:硅基智能开源的Heygen数字人平替!
HeyGem 是一款专为 Windows 系统设计的完全离线视频合成工具,由 GuijiAI(硅基智能) 团队开发并在 GitHub 上开源。
它利用先进的 AI 算法精准克隆用户的外貌和声音,生成逼真的虚拟形象,并支持通过文字或语音驱动这些形象制作个性化视频。工具无需联网,所有操作在本地完成,确保用户隐私安全。HeyGem 支持多语言脚本(包括英语、日语、韩语、中文等八种语言),界面简洁直观,适合无技术背景的用户快速上手,同时提供开放 API,方便开发者扩展功能。
主要功能:
秒级克隆:仅需1秒视频或1张照片,完成数字人形象和声音的克隆,30秒内完成克隆,60秒内合成4K超高清数字人视频。
高效推理:推理速度达到1:0.5,视频渲染合成速度达到1:2。
高质量输出:支持4K超高清、32帧/秒的视频输出,超越好莱坞电影24帧的标准。
多语言支持:克隆后的数字人支持8种语言输出,满足全球市场需求。
无限量克隆:支持无限量克隆数字人形象和声音,无限量合成视频。
100%口型匹配:在复杂光影、遮挡或侧面角度下,实现高度通真的口型匹配。
低配可跑:支持Docker一键部署,最低只需NVIDIA1080Ti显卡即可运行。
GitHub地址:https://github.com/GuijiAI/HeyGem.ai
3月10日
ResumeMatcher:开源的AI简历优化工具,可根据职位描述提供改进建议!
ResumeMatcher是开源的AI简历优化工具,帮助求职者提升简历通过自动化筛选系统(ATS)的概率。
它基于解析简历和职位描述,提取关键技能、经验和资格相关的关键词,用FastEmbed等技术计算文本相似性,提供针对性的改进建议。基于优化简历的可读性,确保内容清晰易懂。Resume Matcher能有效提升简历与职位的契合度,是求职者优化简历、增加面试机会的得力助手。
主要功能:
关键词匹配:从职位描述中提取关键技能、资格和经验相关的关键词,帮助用户优化简历内容。
文本相似性分析:计算简历和职位描述之间的文本相似度,提供量化匹配度评分,帮助用户了解简历与职位的契合
程度。
可读性优化:分析简历的可读性,提供改进建议,确保简历内容清晰易懂。
ATS友好性提升:模拟招聘系统(ATS)的工作方式,帮助用户优化简历格式和内容。
深度洞察:提供关于简历的详细分析报告,包括关键词匹配情况、缺失内容提示等。
GitHub地址:https://github.com/srbhr/Resume-Matcher
MeshPad:通过手绘草图直接生成和修改3D模型的AI开源项目!
MeshPad 是一款新型的 3D 网格生成和编辑工具,用户可以通过手绘草图(sketch)直接生成和修改 3D 模型。
它可以让你像画画一样简单地生成 3D 形状,并且随时修改,不需要专业 3D 建模技能。
该方法将 3D 网格编辑拆分为**“添加”(Addition)和“删除”(Deletion)两种基本操作,使得用户可以以更直观、交互式的方式进行 3D 造型设计。
MeshPad 的关键特性:
基于草图的 3D 生成:用户只需绘制 2D 草图,AI 即可生成对应的 3D 网格结构。 交互式网格编辑 :可以在已有 3D 网格上进行部分添加或删除,支持迭代修改。 Transformer 神经网络驱动 :采用 Transformer 模型 进行三角网格(Triangle Mesh)的生成和优化。 高效实时编辑 :优化了预测策略,使得每次编辑仅需几秒钟即可完成(较传统方法快 3 倍)。 超过 22% 的网格质量提升 :实验表明,MeshPad 生成的 3D 网格比现有草图生成方法的质量更高。
项目地址:https://derkleineli.github.io/meshpad/
论文:https://arxiv.org/pdf/2503.01425
autoMate:结合AI与RPA,让电脑自动完成复杂任务的开源项目!
autoMate 是一款由 yuruotong1 在 GitHub 上开源开发的本地自动化工具,以 AI+RPA(人工智能+机器人流程自动化)为核心特色。它将大型语言模型的智能理解与 RPA 的流程执行能力结合,用户只需用自然语言描述任务,如“整理桌面文件”或“生成周报”,即可让电脑自动完成复杂操作。工具支持本地部署,保障数据安全,特别适合需要高效处理重复性任务的个人或团队。autoMate 打破传统 RPA 的复杂规则设置,通过 AI 驱动的直观交互,让自动化更智能、更易用。
技术原理:
基于AI的自然语言处理:基于大型语言模型(LLM)理解用户的自然语言指令。用自然语言处理(NLP)技术,将
用户的描述转化为具体的自动化任务。
计算机视觉与界面交互:结合计算机视觉技术,识别屏幕上的元素,模拟人类的视觉操作,实现对各种软件界面的
控制和交互。
RPA(机器人流程自动化)技术:基于RPA技术模拟人类的键盘输入、鼠标操作等行为,完成重复性任务的自动化
执行。
本地部署与数据保护:用本地部署架构,所有数据和操作都在用户本地完成,避免数据上传到云端,确保数据安全
和隐私。
应用场景:
数据处理与分析:从多个表格中提取数据、生成汇总报告,节省人工处理时间。
报告生成:根据预设模板和数据源,自动生成各类报告、文档或PPT。
邮件与沟通自动化:自动回复邮件、分类邮件内容、提取关键信息,根据邮件内容触发后续任务,提高沟通效率。
跨软件流程自动化:实现不同软件之间的数据流转和操作协同,例如从ExceI提取数据后自动导入到ERP系统或CRM平台。
日常任务调度与提醒:定时执行任务,如自动备份文件、清理系统垃圾、提醒重要日程。
GitHub地址:https://github.com/yuruotong1/autoMate
3月7日
两款Manus开源平替!没有邀请码也能实现本地化部署!
前两天,一个新团队突然发了一个首款通用行的项目:Manus, 令人感到震撼!但邀请码机制让人头疼,今天小编就给大家带来两款Manus的开源平替!可以在没有邀请码、付费的情况下实现任何想法,而且能够本地化部署,二次定制开发!保护个人隐私。
一**、OpenManus**
OpenManus是由MetaGPT社区的成员在短短 3 小时内开发完成的开源版Manus,与 Manus 在云端运行不同,OpenManus 直接在用户本地电脑上运行,让用户能够亲眼目睹 AI 代理如何操控自己的电脑完成各种任务。
相比需要邀请码的 Manus,OpenManus 无需任何准入门槛,用户只需克隆代码、配置 LLM API 即可快速上手。项目基于 Python 开发,结构简单明了,支持通过终端输入任务来驱动智能体执行操作。
OpenManus最令人震撼的特性之一是其实时反馈机制。当系统在处理任务时,你能看到:
• 任务执行进度的实时更新
• 详细的思考过程日志
• 文件生成的即时通知
这就意味着你可以看到系统是如何思考、规划和执行每一个任务的,这不仅提供了前所未有的可控性,也为开发者提供了宝贵的学习机会。
功能列表
本地智能体运行:通过终端输入任务,利用配置的 LLM API 在本地执行自动化操作。
支持主流 LLM 模型:默认集成 GPT-4o,用户可根据需要调整模型配置。
一键启动:运行
python main.py即可快速进入任务输入模式。实验性版本:提供
python run_flow.py用于测试开发中的新功能。社区协作:支持通过 GitHub 提交问题或代码,参与项目开发。
GitHub地址:https://github.com/mannaandpoem/OpenManus
二**、OpenHands**
OpenHands作为Manus的开源平替,已经斩获了49K星!旨在通过人工智能技术帮助开发者完成代码编写、命
令执行和网络操作等任务。
作为首个在SWE-bench测试中得分超过50%的Al工具,OpenHands提供强大的兼容性,支持任意大型语言模型(LLM),支持多智能体协作提高开发效率,减少开发者的编码工作量。并且提供了强大的交互机制、安全的沙箱环境、多代理协作能力及全面的评估框架,支持用户实现新代理的开发、安全的代码执行、多代理间的协调及在多种任务上的评估。
其主要功能特征包括:
代码编写与修改:自动生成符合项目需求的代码片段,并进行修改。
命令行操作:支持执行各种命令行操作,帮助完成项目的构建、测试和部署。
网页资源检索:集成网页浏览功能,自动检索开发所需的资源和信息。
API调用集成:简化与外部服务的交互,支持多种API的集成。
代码片段复制与应用:从开发者社区如StackOverflow复制代码片段,根据需求进行应用和调整。
OpenHands涵盖软件工程、网页浏览等多个领域的15个基准测试,为学术界和工业界的研究与应用提供了有力支持。
技术论文:https://arxiv.org/pdf/2407.16741
GitHub地址:https://github.com/All-Hands-AI/OpenHands
通过开源的力量,我们正在打破技术壁垒,让每个开发者都能参与到AI革命中来。通过开放和协作,才能真正释放AI的潜力!
腾讯混元发布图生视频模型:HunyuanVideo-I2V,静态图像秒变动态视频!
昨天,腾讯混元正式开源图像转视频生成框架HunyuanVideo-I2V。作为继混元文生视频模型开源后的又一里程碑,该技术通过多模态大模型与动态生成算法的深度融合,为创作者提供了“静态图像动起来”的全新工具,同时开放对口型、动作驱动等趣味玩法,进一步降低视频创作门槛。
模型适用于写实、动漫和CGI等多种角色和场景,总参数量为130亿。腾讯混元图生视频模型已在腾讯云上线,用户可通过混元AI视频官网使用体验。混元图生视频模型在Github、HuggingFace等主流开发者社区开源,包含权重、推理代码和LoRA训练代码,开发者可以基于此训练专属LoRA等衍生模型。
主要功能:
图生视频生成:用户只需上传一张图片输入简短描述,模型可将静态图片转化为5秒的短视频,同时支持自动生成
背景音效。
音频驱动功能:用户可以上传人物图片,输入文本或音频,模型能精准匹配嘴型,让图片中的人物“说话”或”唱
歌”,呈现符合语气的面部表情。
动作驱动功能:用户上传图片后,选择动作模板,模型可让图片中的人物完成跳舞、挥手、做体操等动作,适用于
短视频创作、游戏角色动画和影视制作。
高质量视频输出:支持2K高清画质,适用于写实、动漫和CGI等多种角色和场景。
GitHub地址:https://github.com/Tencent/HunyuanVideo-I2V
SpatialVLA:可提升机器人在3D 物理环境中操作能力的AI开源模型!
SpatialVLA 是SpatialVLA:一种空间增强的视觉-语言-动作模型,经过110万次真实机器人剧集的训练。
该项目由上海 AI Lab、TeleAI 和上科大等团队提出的空间具身通用操作模型,旨在提升机器人在 3D 物理环境中的操作能力。该模型通过百万真实数据预训练,克服了现有模型在 2D 输入和 3D 感知上的局限性,展现了在零样本泛化控制、新场景高效微调和空间理解等任务中的先进性能。
SpatialVLA利用Ego3D 位置编码与自适应空间动作网格,使机器人在多种环境中更好地执行复杂任务,并已在真实机器人平台上验证其鲁棒性和适应性。项目代码和数据已全面开源。
GitHub地址:https://github.com/SpatialVLA/SpatialVLA
3月6日
writing-helper:一个基于 Next.js构建的开源AI写作助手!
writing-helper是一个基于 Next.js 构建的 AI 写作助手,帮助用户组织写作风格提示词,并发送给大型语言模型(LLM)生成内容。该工具旨在帮助作家、内容创作者和文案专业人员通过AI技术提升写作效率和质量。
功能特点:
丰富的写作风格定制:详细的提示词风格编辑器,包括语言、结构、叙述、情感、思维等多个维度
多模型支持:兼容多种大型语言模型API,包括OpenAI、Anthropic Claude、Google Gemini、Groq、Ollama和Grok
API设置灵活性:可折叠的API设置面板,便于配置不同的API端点和密钥
用户友好界面:使用Tailwind CSS打造的现代化UI,具有响应式设计
内容实时编辑:生成内容后可以直接在编辑器中修改
导出功能:将生成的内容导出为Markdown格式
详细调试信息:提供API响应的详细信息,便于排查问题
深色/浅色模式:支持系统主题切换
GitHub地址:https://github.com/GeekyWizKid/writing-helper
微软开源图层拆分神器:ART!生成速度提升12倍,支持50层的多层图像生成!
ART(AnonymousRegionTransformer)是新型的多层透明图像生成技术,能根据全局文本提示和匿名区
域布局直接生成多个独立的透明图层(支持RGBA格式),图层可以单独编辑、组合或叠加。ART的核心
优势是高效的生成机制和强大的透明度处理能力。采用匿名区域布局,生成模型可以自主决定哪些视觉信
息与文本对齐,提供了更大的灵活性。ART引I入逐层区域裁剪机制,显著降低了注意力计算成本,生成速
度比全注意力方法快12倍以上。支持50层以上的多层图像生成,减少了图层之间的冲突。
主要功能:
多层透明图像生成:ART能根据全局文本提示和匿名区域布局,直接生成多个独立的透明图层(支持RGBA格
式),图层可以单独编辑、组合或叠加。
匿名区域布局:设计灵感来源于“图式理论”,支持生成模型自主决定哪些视觉信息与文本信息对齐,提供了更大的灵活性。
高效生成机制:引入逐层区域裁剪机制,只选择与每个匿名区域相关的视觉信息,显著降低了注意力计算成本,生
成速度比全注意力方法快12倍以上。
高质量自编码器:提出多层透明图像自编码器,支持直接编码和解码多层图像的透明度,进一步提升了生成质量和
效率。
减少图层冲突:能处理50层以上的多层图像生成,有效减少了图层之间的冲突。
GitHub地址:https://github.com/microsoft/art-msra
技术论文:https://arxiv.org/pdf/2502.18364
让AI成为你的"数字员工"!autoMate :AI驱动的本地自动化助手开源项目!
autoMate 是一款基于 OmniParser 构建的革命性 AI + RPA 自动化工具,可将 AI 转变为您的“数字员工”,它可以:
自动作您的计算机界面并完成复杂的工作流程;
智能理解屏幕内容,模拟人类视觉和作;
根据任务要求做出自主决策并采取行动;
支持本地部署,保护您的数据安全和隐私;
与具有复杂规则设置的传统 RPA 工具不同,autoMate 利用大型语言模型完成复杂的自动化流程,只需自然语言任务描述即可完成。告别重复性工作,专注于真正创造价值的事情!
功能特点:
无代码自动化 - 使用自然语言描述任务,无需编程知识
全界面控制 - 支持在任何可视化界面上进行作,不限于特定软件
简化安装 - 与正式版相比,简化的安装过程,支持中文环境,一键部署
本地运营 - 保护数据安全,无隐私隐患
多模型支持 - 兼容主流大型语言模型
持续成长 - 在使用过程中学习并适应您的工作习惯和需求
GitHub地址:https://github.com/yuruotong1/autoMate
阿里半夜开源全新推理模型:QwQ-32B!性能比肩DeepSeek-R1满血版!
今天凌晨 3 点,阿里开源发布了新推理模型 QwQ-32B,其参数量为 320 亿,但性能足以比肩 6710 亿参数的 DeepSeek-R1 满血版。
据官方介绍,这款仅有320亿参数的模型在性能上不仅能够媲美拥有6710亿参数的DeepSeek-R1(其中370亿被激活),更在某些测试中超越了对方。从下图可以看出,QwQ-32B 的表现非常出色,在 LiveBench、IFEval 和 BFCL 基准上甚至略微超过了 DeepSeek-R1-671B。
阿里Qwen团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。
除了基础推理能力外,QwQ-32B还集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。它的大规模强化学习是在冷启动的基础上开展的。
在初始阶段,先特别针对数学和编程任务进行 RL 训练。与依赖传统的奖励模型(reward model)不同,千问团队通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
随着训练轮次的推进,QwQ-32B 在这两个领域中的性能持续提升。
在第一阶段的 RL 过后,他们又增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。结果发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。
QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家也可通过 Qwen Chat 直接进行体验!
Hugging Face:https://huggingface.co/Qwen/QwQ-32B
ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B
演示:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Qwen Chat:https://chat.qwen.ai/
3月5日
智谱开源年首发!开源60亿参数文生图模型:CogView4,可精准生成文字海报!
3月4日,智谱AI正式发布"智谱2025开源年"计划的首个开源模型——CogView4。
CogView4具备卓越的复杂语义对齐与指令跟随能力,支持任意长度的中英双语输入。
能生成指定范围内任意分辨率的图像,并拥有强大的文字生成能力。
该模型是业内首个采用Apache 2.0协议开源的图像生成模型,允许用户在保留版权声明和许可证文本的前提下,自由使用、修改和分发代码,同时获得专利授权保障。
值得一提的是,CogView4在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。
同时智谱AI宣布将2025年定位为"开源年",计划陆续开源一系列自研模型,而CogView4正是首个落地的开源模型。
其主要功能特点包括:
支持中英双语输入:CogView4是首个支持生成汉字的开源文生图模型,能够根据中文或英文提示词生成高质量图
像。
任意分辨率图像生成:该模型支持生成分辨率在512×512到2048×2048之间的图像,满足不同场景的创作需求。
强大的语义对齐能力:在DPG-Bench基准测试中,CogView4综合评分排名第一,展现了其在复杂语义对齐和指令
跟随方面的卓越性能。
中文文字绘画:CogView4特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创
意领域。
显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,CogView4显著降低了显存占用,提升了推理
效率。
GitHub地址:https://github.com/THUDM/CogView4
PhotoDoodle:一款能让AI像人类艺术家一样学习艺术风格,对图像进行创意修改的开源项目!
PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。
它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。
主要功能
PhotoDoodle 的核心功能可归纳为 3 个方面:
(1) 个性化艺术编辑
通过 EditLoRA,PhotoDoodle 可以 自动学习 图像修改的方式,并应用到 新图像 上。
适用于:
卡通化装饰(如添加卡通怪兽、星星、手绘线条)
局部风格化(如添加流动色块、发光轮廓、3D 效果)
个性化内容创作(如用户提供文本指令:“在建筑物上加上绿色怪兽”)
(2) 无缝背景融合
- 位置编码复用(PE Cloning):确保编辑区域和背景的透视、纹理、色彩一致,不会出现背景破坏、边缘模糊等问题。
(3) 指令驱动的自动化编辑
- 支持文本指令,用户可以直接描述想要的效果,无需用户提供精确的涂鸦区域,模型可以自动识别需要修改的部分。
GitHub:https://github.com/showlab/PhotoDoodle
论文:https://arxiv.org/pdf/2502.14397
在线体验:https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU
一分钟创建AI 语音助手!Hugging Face 开源构建实时音频和视频的AI项目:FastRTC!
Hugging Face 推出了一个专门为 Python 开发者打造的实时通信(RTC)库:FastRTC ,专门用于构建 实时音频和视频 AI 应用。
该库大大降低了开发门槛,让你可以 快速构建 语音识别、语音合成和 AI 语音对话应用。而无需掌握复杂的 WebRTC、WebSockets 技术。
你可以用 FastRTC 轻松实现:
实时语音聊天(像 ChatGPT 语音模式一样) 语音 AI 机器人(自动语音助手、客服机器人) AI 语音播客(自动朗读文章并转换为播客) 语音翻译(实时多语言翻译) 电话接入 AI 语音(让用户拨打电话,AI 自动应答)
官方文档:FastRTC Docs GitHub 代码库:https://github.com/freddyaboulton/fastrtc Hugging Face Space:https://huggingface.co/fastrtc
3月4日
LuminaBrush:开源的AI光源绘制工具,手绘光影线条自动生成光影效果!
LuminaBrush是用在图像上绘制照明效果的交互式工具。LuminaBrush基于Flux文生图项目,用两阶段方
法:第一阶段将图像转换为“均匀照明”的外观,第二阶段根据用户涂鸦生成具体的照明效果。
两阶段方法简化了学习过程,避免复杂的光传输约束。LuminaBrush基于合成随机法线和重新照亮图像进行训练,能处理皮肤纹理、头发等细节。
主要功能:
灵活的光照调整:用户实时调整光照的强度、方向和颜色,实现从柔和自然光到戏剧性舞台光等多种效果。
高质量图像处理:处理复杂的图像细节,如皮肤纹理、头发、毛发等。
交互式用户体验:提供交互式界面,用户基于通过简单的操作(如涂鸦、滑动条调整)实时预览和修改光照效果,提升创作效率。
技术原理:
两阶段处理框架:
第一阶段均匀照明提取:基于深度学习模型将输入图像转换为“均匀照明”状态。目标是去除图像中的原有光照信息,提取出被均匀光照照亮的基础图像。
第二阶段光照效果生成:基于用户提供的涂鸦或标记,模型生成具体的光照效果(如阴影、高光等)。基于用户输入作为引导,结合深度学习模型生成符合用户意图的光照变化。
深度学习模型:用深度学习技术,基于扩散模型(如Flux)的架构。基于大量的图像数据进行训练,学习如何从任意输入图像中提取“均匀照明”外观,生成合理的光照效果。
GitHub地址:https://github.com/lllyasviel/LuminaBrush
阿里通义实验室开源视觉文档RAG系统ViDoRAG,在GPT-4o上准确率达79.4%!
ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局限性。
ViDoRAG用高斯混合模型(GMM)的多模态混合检索策略,动态调整检索结果数量,优化文本和视觉信息的整合。框架中包含Seeker、Inspector和Answer三种智能体,分别负责快速筛选、详细审查和最终答案生成,基于迭代交互逐步细化答案,提升生成质量和一致性。ViDoRAG在ViDoSeek基准数据集上显著优于现有方法,平均性能提升超过10%,展现了在视觉文档检索和推理任务中的高效性和优越性。
在GPT-4o模型上的测试显示,ViDoRAG的准确率达到了79.4%,这一数字不仅展示了其优异性能,还将其与传统RAG系统进行了对比。传统RAG系统虽然在文本生成任务中表现出色,但在处理视觉文档时往往受限于单一模态的检索能力,准确率通常徘徊在较低水平。
而ViDoRAG通过引入视觉信息与文本信息的深度整合,准确率相较传统RAG系统提升了10%以上。这一数字不仅展示了其优异性能,还凸显了其在视觉文档处理领域的重大突破。
同时,团队还推出了ViDoSeek数据集,这是一个专门针对大规模视觉文档集合检索和复杂推理设计的高难度基准数据集。
该数据集包含 1200+ 真实问题,涵盖文本、图表、表格、布局等多种内容类型,使模型不仅要检索信息,还要进行跨文档推理和整合。
主要核心功能:
多模态检索:整合视觉和文本信息,实现精准的文档检索。
动态迭代推理:多智能体协作(Seeker、Inspector、Answer Agent),逐步细化答案,提升推理深度和准确性。
复杂文档理解:支持单跳和多跳推理,处理复杂的视觉文档内容。
生成一致性保障:基于AnswerAgent确保最终答案的准确性和一致性。
高效生成:动态调整检索结果数量,减少计算开销,提升生成效率。
GitHub地址:https://github.com/Alibaba-NLP/ViDoRAG
Spark-TTS:AI文本转语音工具,支持中英零样本语音克隆!
Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。
Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。
主要功能:
零样本文本到语音转换:Spark-TTS能在没有特定语音数据的情况下,复现说话人的声音,实现零样本语音克隆。
多语言支持:参park-TTS支持中英双语,可实现跨语言语音合成。用户可以用一种语言输入文本,生成另一种语言的语音输出,满足多语言场景下的语音合成需求。
可控语音生成:用户可以通过调整参数(如性别、音调、语速、音色等)来定制虚拟说话者的声音,生成符合特定需求的语音内容。
高效简洁的语音合成:基于Qwen2.5架构,Spark-TTS无需额外的生成模型(如流匹配模型),直接从LLM预测的编码中重建音频,提高了语音合成的效率。
虚拟说话者创建:用户可以创建完全由自己定义的虚拟说话者,通过参数调整使其具有独特的语音风格,适用于虚拟主播、有声读物等场景。
语音克隆与风格迁移:参park-TTS支持从少量语音样本中提取风格特征,将其迁移到合成语音中,实现个性化语音
风格的复制和迁移。
GitHub地址:https://github.com/SparkAudio/Spark-TTS
3月3日
LDGen:理想汽车推出的多语言文本生成图像AI开源项目!
LDGen是创新的文本到图像合成技术,通过结合大型语言模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术,提取文本中的精确语义信息,基于轻量级适配器实现LLMs与图像特征的高效对齐和交互。LDGen支持零样本多语言生成,能根据多种语言的文本描述生成高质量图像,显著优于传统方法。
LDGen的主要功能
多语言零样本生成:通过将大型语言模型(LLM)与现有的文本到图像扩散模型相结合,LDGen支持零样本多语言文本到图像生成。在训练中仅使用英语提示,模型也能生成多种语言描述的图像,显著提升了跨语言生成能力。
语言表示优化:采用分层字幕优化和人工指令技术,提取更精确的语义信息,增强文本与图像之间的语义对齐。提高了生成图像的语义一致性,避免了因错误指令导致的虚假信息。
提升生成质量:在多项实验中,LDGen在指令遭循度和图像美学质量方面优于基线模型和其他增强方法,如
PixArt-、ELLA等。 GitHub地址https://github.com/zrealli/LDGen
技术论文:https://arxiv.org/pdf/2502.18302
VideoFusion:开源的AI视频剪辑工具,自动去除视频黑边、水印和字幕!
Videofusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能将视频自动旋转为横屏或竖屏,适配不同播放场景。软件具备降噪、去抖动、音量平衡等,能提升视频画质。 VideoFusion 支持多种视频格式,如 MP4、MOV、AVI等,提供批量处理功能,适合需要快速处理大量视频的用户。支持用户自定义视频的分辨率、压缩方式和补帧算法,满足不同需求。
功能作用:
自动去除黑边、水印和字幕:能智能识别并去除视频中的多余黑边、水印或字幕,使视频更加整洁。
自动旋转视频:支持将视频自动旋转为横屏或竖屏,适配不同设备的播放需求。
画质提升:具备降噪、去抖动、音量平衡等功能,可显著提升视频的整体质量。
批量处理:支持同时处理多个视频,提高工作效率,节省时间,
格式支持:兼容多种视频格式,如 MP4、MOV、AVI等,适用性广泛。
自定义设置:用户可以根据需求调整视频的分辨率、压缩方式和补帧算法,满足个性化需求。
实时进度反馈:在处理过程中提供实时进度条和日志记录,方便用户了解处理状态,
开源与扩展性:基于 Pvthon 开发,代码开源,用户可以自由下载、修改或参与开发,适合有一定编程基础的用户
进行二次开发。
VideoFusion 使用了分解扩散模型(Decomposed Difusion Models),将视频帧的噪声分解为基础噪声(base noise)和残差噪声(residual noise)。基础噪声在所有帧之间共享,保证了视频帧之间的内容一致性;残差噪声则负麦引入帧与帧之间的差异,保持视频的多样性。并且内置了多种AI驱动的功能,如视频降噪、去抖动、白平衡调整、亮度优化等能显善提升视频的整体质量。
GitHub地址:https://github.com/271374667/VideoFusion
Baichuan-Audio:百川智能开源支持实时语音交互的AI音频模型!
Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话,Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记保留语义和声学信息,用独立的音频头增强音频特征处理能力。模型基于两阶段预训练策略,结合交错数据训练,平衡音频建模和语言理解能力。Baichuan-Audio在实时语音对话、问答、语音识别(ASR)和语音合成(TTS)等任务中表现出色,Baichuan-Audio开源的训练数据和模型为语音交互研究提供了重要资源。
主要功能:
实时语音对话:支持流畅的语音交互,理解用户的语音指令、生成自然的语音回应。
语音理解与生成:结合语音识别(ASR)和语音合成(TTS)能力,实现语音输入到语音输出的无缝转换。
多语言支持:支持中文和英文的高质量对话,具备跨语言语音翻译能力。
语音问答:处理复杂的语音指令和问题,提供准确的语音回答。
音频内容生成:基于文本指导生成对齐的语音内容,确保语音输出的语义连贯性。
GitHub地址:https://github.com/baichuan-inc/Baichuan-Audio
2月28日
olmOCR:最新开源的PDF解析"六边形战士"!高精准提取文本、表格、公式等结构化数据!
olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruct(阿里多模态模型),支持处理多种类型的 PDF文档,包括学术论文、书籍、表格和图表等。olmOCR基于提取文档中的文本和布局信息,与页面图像结合,更准确地提取内容、保留结构化信息。
主要功能支持:
PDF 文本提取与线性化: 将 PDF 文件转换为 Dolma 风格的 JSONL 格式文本,保留阅读顺序。
GPU 加速推理: 利用本地 GPU 和 sglang 技术,实现高效文档处理。
多节点并行处理: 支持通过 AWS S3 协调多节点任务,适合处理数百万 PDF。
复杂内容识别: 处理表格、数学公式和手写文本,输出结构化结果。
灵活的工作区管理: 支持本地或云端工作区,存储处理结果和中间数据。
开源生态支持: 提供完整代码和文档,方便二次开发与定制。
在线体验:https://olmocr.allenai.org/
GitHub地址:https://github.com/allenai/olmocr
IndexTTS:B站推出的文本转语音模型,支持拼音纠正汉字发音!
IndexTTS 是B站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了GPT 风格的生成技术,能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力支持拼音纠正汉字发音,可通过标点符号精准控制停顿,有效解决了多音字和长尾字符的发音问题。 采用混合建模方法,结合汉字和拼音,优化语音生成效果。在性能方面,IndexTTS 的字词错误率(WER)仅为1.3%,扬声器相似性(SS)达到 0.776,主观音质评分(MOS)为 4.01,表现出色。使用大量数据进行训练,包括 2.5 万小时的中文音频和 9000 小时的英文音频,确保了音质和音色的高质量。
IndexTTS的主要功能:
拼音纠正与停顿控制:IndexTTS 在处理中文文本时,能通过拼音纠正汉字的发音,用标点符号在任意位置精准控制
停顿,语音输出更加自然流畅。
音质优化:引入了基于 Conformer 的条件编码器和 BigVGAN2 语音解码器,显著提高了音质和音色相似性,MOS
评分达到 4.01。
多语言支持:目前支持中文和英文,计划在未来扩展到更多语言。
GitHub地址:https://github.com/index-tts/index-tts
VideoGrain:一款开源的视频编辑项目,可实现精细的视频修改!
VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力,保持区域间的特征分离,解决现有扩散模型中语义错位和特征耦合的问题。VideoGrain 不依赖子额外的参数调整,能在真实世界场景中实现高质量的视频编辑,保持时间一致性。VideoGrain在多粒度编辑任务中表现出色,显著优于现有的 T21和 T2V 方法,为视频内容创作提供更灵活和精准的工具。
主要功能:
多粒度视频编辑:将视频中的多个对象分别编辑为不同类别(如将一个人编辑为“蜘蛛侠”,另一个人编辑为"北极
熊”),或对对象的局部进行修改(如改变衣服颜色或添加配饰)。
文本驱动的区域控制:基于自然语言提示精确控制视频中的特定区域,实现精准的编辑效果
时间一致性:在编辑过程中,保持视频的时间连贯性,避免因编辑导致的帧间闪烁或不自然的过渡。
无需参数调整:作为零样本方法,VideoGrain 不需对模型进行额外的训练或参数调整
高效计算性能:在实验中表现出较低的内存占用和较快的编辑速度,适合实时视频编辑应用
GitHub地址:https://github.com/knightyxp/VideoGrain
技术论文:https://arxiv.org/pdf/2502.17258
2月27日
video-subtitle-master:开源AI字幕生成项目,支持批量为视频或音频生成字幕!
video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。video-subtitle-master具备图形用户界面操作便捷,支持多种翻译服务(如百度翻译、火山引擎翻译、DeepLX等),集成 whisper.cpp 和 fluentfmpeg,优化了性能。video-subtitle-master支持自定义字幕文件名、翻译内容格式、并发任务数量,适合普通用户和开发人员使用。
技术原理:
语音识别技术:用 whisper.cpp 或其他语音识别引擎从音频中提取文本内容。whisper.cpp 是基于深度学习的语音识别模型,能高效地将语音转换为文字。
字幕生成:基于语音识别引擎生成的文本内容,按照时间戳格式化为字幕文件(如 SRT 或 ASS 格式)
翻译服务集成:支持多种翻译服务,基于调用外部 API(如百度翻译、火山引擎翻译)或本地模型(如 Ollama)将
字幕翻译成目标语言。
图形用户界面(GUI):用现代前端技术(如 Electron)开发,提供直观的用户界面,方便用户操作。
后端处理:用 Node.js 和后端技术处理文件读取、模型加载、任务调度等逻辑。
GitHub地址:https://github.com/buxuku/video-subtitle-master
一个通过文本生成歌曲的AI开源项目:AISongGen !
SongGen 是一个开源的单阶段自回归 Transformer 模型,专门用于 文本到歌曲 的生成。它能够根据用户提供的歌词、音乐风格描述,甚至是一个参考语音片段,生成完整的歌曲。无论是旋律、伴奏,还是人声,SongGen都能一站式搞定。
在音乐创作领域,将文本直接转化为歌曲一直是一个极具挑战性的任务。然而,SongGen 通过其创新的单阶段自回归 Transformer 模型,成功地将这一复杂任务简化为简单的文本输入,为音乐创作带来了全新的可能性。
SongGen的核心亮点
(一)单阶段生成,简单高效
与传统的多阶段音乐生成方法不同,SongGen采用单阶段生成的方式,大大简化了训练和推理的流程。这意味着用户无需复杂的操作,就能快速生成高质量的歌曲。
(二)多种控制方式,满足个性化需求
SongGen提供了极高的灵活性,用户可以通过以下方式控制生成的歌曲:
歌词:输入你想表达的歌词。
音乐描述:通过文本描述音乐的风格、情绪、乐器等。
参考语音:通过提供一个三秒左右的参考语音片段,SongGen能够克隆出相似的声音,让生成的歌曲仿佛是你自己演唱的。
(三)两种输出模式,适应不同场景
SongGen支持两种输出模式:
混合模式(Mixed Mode):直接生成人声和伴奏混合的音频,适合快速预览和初步创作。
双轨模式(Dual-track Mode):分别生成人声和伴奏,方便后期制作和调整,适合专业的音乐制作人进行精细化编辑。
项目地址:https://liuzh-19.github.io/SongGen/
微软开源多模态AI Agent:Magma!能自动处理图像、视频、文本等不同类型数据!
微软最近在官网上开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界,处理图像、视频和文本等多种数据类型,并具备心理预测功能,能够更准确地理解人物或物体的意图。
这款AI的应用场景非常广泛,不仅可以帮助用户进行日常操作如自动下单和查询天气,还能控制实体机器人并提供实时帮助。Magma的推出标志着智能助手和机器人技术的重大进步,特别适合用于AI驱动的助手或机器人,提升其学习能力和实用性。
Magma使用了视觉与大语言模型的混合架构,是其实现多模态能力的关键所在。视觉模块使用了ConvNeXt,能够将输入的图像和视频数据编码为一系列离散的tokens。
这些标记捕捉了视觉信息的核心特征,包括物体的形状、颜色、位置以及它们之间的空间关系。在编码过程中,ConvNeXt不仅关注单个图像帧的内容,还能处理视频中的时间序列信息,从而为模型提供丰富的视觉上下文。
Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。它还可以来充当实体机器人的大脑,例如,把蘑菇正确地放在盆里。
用户可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者在下真实象棋时获得帮助。
GitHub地址:https://github.com/microsoft/Magma
2月26日
阿里开源通义万相Wan2.1!荣登VBench榜单第一,支持在个人电脑运行!
昨晚深夜阿里通义万相Wan2.1正式开源!
这次一共上线四个模型,支持文生视频和图生视频。
此次开源采用最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,其中1.3B的模型,只需要8个G的显存就能跑了,也就是说,本地的4060都能跑得动了。同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验
Wan2.1 的显著优势
(一)、强大的文字生成能力
1、中英文文字准确生成: Wan2.1成为首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。
2、多种字体风格支持:Wan2.1 不仅能生成文字,还支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示等。
(二)、精准的复杂运动模拟
1、肢体运动自然流畅:Wan2.1 模型通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,无论是舞蹈、跑步、滑雪等运动,人物的动作都流畅自然,肢体旋转也更加精确。
2、物理规律真实还原:该模型在物理规律理解方面也有着显著提升,能够模拟出真实感十足的视频,避免出现“一眼假”的情况。
(三)、出色的运镜能力
1、自动运镜,电影感十足:只需输入一句简单的文本指令,如镜头左移、镜头拉远、镜头推进等,Wan2.1 就能自动根据视频的主体内容和运镜需求输出合理的视频。这就像是拥有了一位专业的电影摄影师,能够轻松地创造出具有电影感的镜头语言,为视频增添了丰富的视觉层次和艺术感。
2、长文本指令精准遵循:面对包含各种场景切换、角色互动和复杂动作的长文本指令,Wan2.1 也能准确理解和执行,不会遗漏细节或搞不清逻辑顺序。这使得用户可以更加详细地描述自己的创意和需求,从而生成更加符合预期的视频内容。
GitHub地址:https://github.com/Wan-Video/Wan2.1
Huggingface地址:https://huggingface.co/Wan-AI
FacePoke:开源的实时面部编辑项目,拖拽即可操作面部表情!
FacePoke是基于AI技术的开源实时面部编辑工具,用户基于简单的鼠标拖拽操作,对人物照片中的头部朝向(如抬头、低头、左右摇头)和面部表情(如眼睛睁闭、眼球方向、眉毛和嘴巴变化)进行实时编辑使静态图片变得栩栩如生。FacePoke基于AI算法,确保编辑效果自然逼真,支持高分辨率输出,适用于专业内容创作和数字艺术。FacePoke基于LivePortrait技术实现,支持Linux环境下的本地部署和Docker部署。
主要功能:
实时头部动作调整:用户基于拖拽轻松改变人物头部的朝向,如抬头、低头、左右摇头等
面部表情编辑:支持对眼睛(睁闭眼、眼球方向)、眉毛、嘴巴等面部特征进行实时调整,实现丰富的表情变化。
高分辨率输出:支持高质量图像处理,满足高精度需求
面部标记辅助:用户选择显示面部标记,基于控制点实现更精确的编辑操作。
GitHub地址:https://github.com/jbilcke-hf/FacePoke
13.1Kstar!MiniMind: 2小时即可训练出25.8M的超小开源语言模型**!**
大语言模型(LLM)领域,如 GPT、GLM 等,虽然它们效果惊艳, 但动辄 10 Bilion 庞大的模型参数个人设备显存远不够训练,甚至推理困难。 几乎所有人都不会只满足于用Lora等方案 fine-tuing 大模型学会一些新的指令。 此外,讲解 AI 的教程遍地,但质量都不高,导致真正理解 LLM 的优质内容雪上加霜,严重阻碍了学习。
因此,MiniMind的目标是把上手 LLM 的门槛无限降低, 直接从 0 开始训练一个极其轻量的语言模型。
本项目包括:
公开MiniMind模型代码(包含Dense和MOE模型)、Pretrain、SFT指令微调、LORA微调、DPO偏好优化的全过程代码、数据集和来源。
兼容transformers、accelerate、trl、peft等流行框架,
训练支持单机单卡、单机多卡训练。训练过程中支持在任意位置停止,及在任意位置继续训练。
在Ceval数据集上进行模型测试的代码。
实现Openai-Api基本的chat接口,便于集成到第三方ChatUl使用(FastGPT、Open-WebUl四等)。希望此开源项目可以帮助LLM初学者快速入门!
GitHub地址:https://github.com/jingyaogong/minimind
2月23日
DeepSeek R1推理能力迁移到视觉领域!开源VLM-R1:多模态图像识别能力的新突破!
这两天,全球开源圈又沸腾了!一款名叫VLM-R1的全新开源项目在上线短短十多个小时内,收到了来自各国开发者的3K多个星标收藏,并迅速登上平台热门趋势榜,关注度持续居高不下。
这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Group Relative Policy Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。
VLM-R1是将DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!
这个项目的团队在Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:
1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!
- 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容,而不是简单地记忆!
更令人惊叹的是VLM-R1的泛化能力:它能举一反三,适应多种场景和任务,而无需针对每个任务进行专门训练。
比如当你在健身对吃大餐有负担,拍下菜单发给AI:“挑出含维生素C最多的食物”。它就能精准地在图片中框选出了那个含维生素C最多的食物是橙子!
这种精确的视觉理解能力和推理能力,让人印象深刻!
完美展示了 VLM-R1 在实际应用中的优势:
准确的视觉识别能力
专业的知识推理能力
清晰的文本表达能力
VLM-R1的出现意味着R1方法让模型真正“学会”了理解视觉内容,而非简单地机械记忆。
GitHub地址:https://github.com/om-ai-lab/VLM-R1
体验地址:https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression
FoleyCrafter:上海人工智能实验室开源的AI视频配音项目!
FoleyCrafter是上海人工智能实验室和香港中文大学(深圳)共同推出的AI视频配音框架,FoleyCrafter能自动听出视频中的动作,配上恰到好处的声音效果。
不管是视频里的人走路、跑步,还是动物的叫声,甚至是环境里的风声、水声,FoleyCrafter都能智能地加上去,让原来没有声音的视频瞬间变得生动起来。而且还可以给它一些提示,比如"声音要高一点"或者”不要风声”,FoleyCrafter都能听懂并做到。这个技术不仅让视频制作更简单,还能让视频看起来更真实、更有感觉。
该系统可以通过文本提示来生成多样化的声音效果,适用于电影、游戏等领域。实验结果表明,FoleyCrafter 在生成高质量和精确同步的声音方面表现优异。
生成高质量声音:FoleyCrafter 可以为视频生成清晰、逼真的声音效果,不再需要人工添加声音。
声音与视频内容匹配:它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。
声音与视频同步:FoleyCrafter 确保声音和视频是同步的,比如你在视频里看到一个门被关上,声音也会在同一时间出现。
用文字控制声音:你可以用文字描述来生成声音,比如你输入“海浪声”,FoleyCrafter 就会生成海浪的声音。
适用于不同类型的视频:不管是电影、动画还是游戏视频,FoleyCrafter 都能生成合适的声音效果,提升观众的体验。
操作简单:只需提供视频和简单的文字描述,FoleyCrafter 就能自动生成你需要的声音效果。
GitHub地址:https://github.com/open-mmlab/foleycrafter
Sitcom-Crafter:通过文字剧本自动生成包含多人交互的3D动画开源项目!
Sitcom-Crafter 是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生成系统。基于用户提供的长剧情指导,生成多样化且物理真实的动作,包括人类行走、人类与场景交互及人类之间交豆。系统包含八大模块,其中三大核心模块负责动作生成,五大增强模块用于优化动作流畅性、同步性、碰撞修正等。Sitcom-Crafter 创新的 3D 场景感知技术和自监督 SDF策略,无需额外数据采集,生成符合物理逻辑的动作,显著提升了创作效率,为动画和游戏设计提供高效、智能化的解决方案。
主要功能
人类行走:角色在 3D 场景中自然行走。
人类与场景交互:角色与环境物体进行符合物理逻辑的交互。
人类之间交互:角色之间进行协调的动作生成,减少碰撞并优化动作同步。
增强功能:
剧情解析:AI自动拆解剧本,转化为具体的角色动作指令
运动同步:确保不同模块生成的运动在时间上保持一致,
手部姿态增强:通过检索数据库中的手部姿态来增强运动的自然性。
碰撞修正:自动检测并修正人物之间的碰撞。
3D重定向:将生成的运动映射到现有的3D数字人物模型,提升视觉效果。
GitHub地址:https://github.com/WindVChen/Sitcom-Crafter
2月22日
月之暗面 Kimi 开源 MoE 模型:Moonlight!提升语言模型训练效率!
Moonlight 是由月之暗面公司推出的开源 MoE(Mixture of Experts)语言模型,使用 Muon 优化器训练,激活参数仅需3B。该模型在训练效率和性能上表现出色,训练 FLOPS 明显减少,同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务,包括语言理解和生成。
Moonlight 提供两种配置:一种是激活参数为30亿,另一种为总参数为160亿,训练使用了5.7万亿个标记。Muon 优化器的创新在于利用牛顿 - 舒尔茨迭代法进行矩阵正交化,确保梯度更新在模型参数空间中的均匀性。这种改进为传统的 AdamW 提供了一个有前景的替代方案,提高了训练效率和稳定性。
在技术细节上,Moonlight 对 Muon 优化器进行了两项关键调整。首先,引入了权重衰减技术,以控制大模型和大量标记训练时权重的增长。其次,针对每个参数的更新幅度进行了校准,使其根据权重矩阵的最大维度的平方根进行缩放,从而实现更新的一致性。
通过对 Moonlight 的实证评估,研究人员发现其在中间检查点的表现优于传统的 AdamW 训练模型。例如,在语言理解任务中,Moonlight 在 MMLU 基准测试上获得了更高的分数。在代码生成任务中,性能提升更加明显,表明 Muon 的优化机制对任务表现有积极贡献。
Moonlight 项目的成功实施将为大型语言模型的训练带来新的标准。Muon 优化器的开源实现以及预训练模型和中间检查点的发布,预期将促进对可扩展优化技术的进一步研究。
GitHub地址:https://github.com/MoonshotAI/Moonlight
技术论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
英伟达、斯坦福等机构开源的生物学AI模型:Evo 2!
Evo2是美国弧形研究所、英伟达、斯坦福大学等机构合作推出的DNA语言模型,用于基因组建模和设计,覆盖生命的所有领域。Evo2基于 StripedHyena2架构开发,以单核苷酸分辨率处理长达100万个碱基对的上下文长度。Evo2用 OpenGenome2 数据集进行自回归预训练,数据集包含来自生命所有领域的8.8万亿个标记,支持长序列建模、DNA序列生成和嵌入向量提取等功能,提供多个模型检查点满足不同需求。Evo2推动基因组学研究和应用,为生物医学和合成生物学等领域提供强大的工具支持。
主要功能:
长上下文建模:处理长达 100 万个碱基对 的 DNA 序列,支持高精度的基因组建模。
DNA 序列生成:根据给定的提示生成新的 DNA 序列,适用于合成生物学和基因编辑。
嵌入向量提取:提取 DNA 序列的嵌入向量,用于下游分析,如基因功能预测和变异效应分析。
零样本预测:支持零样本学习,例如预测基因变异对功能的影响(如 BRCA1 基因变异效应预测)。
序列评分:计算 DNA 序列的似然分数,评估序列的稳定性和功能潜力。
GitHub地址:https://github.com/ArcInstitute/evo2
超强开源AI助手!Auto-Deep-Research:香港大学开源的全自动个人AI助理!
Auto-Deep-Research是香港大学黄超教授实验室开源的全自动个人AI助理,作为 OpenAl Deep Research的开源替代方案。
Auto-Deep-Research以不到1美元的超低价赋予用户强大的全自动化研究能力,让人们在激烈的AI市场中见识到了具有性价比的惊人潜力。这一新系统不仅能够自主搜索和分析互联网海量信息,还精准地处理复杂编程任务,自动解析PDF文件,并生成可视化报告。根据最新的测试结果,Auto-Deep-Research在全球通用AI助手的评测中高居第三,成为开源解决方案中的佼佼者。
Auto-Deep-Research的主要功能:
深度研究功能:专注于复杂任务的自动化处理,如文件解析、网络搜索、数据分析与可视化,能生成详细的报告
多语言模型支持:兼容多种大语言模型(LLM),如 Anthropic、OpenAl、Mistral、Hugging Face 等。
高性价比:基于 Claude-3.5-Sonnet 构建,成本效益显著,是开源方案中的最优解。
社区驱动改进:根据社区反馈,增加了如一键启动和增强的 LLM 兼容性等功能.
易于部署:支持通过 Conda 环境或 Docker 安装,提供详细的启动配置选项。
GitHub地址:https://github.com/HKUDS/Auto-Deep-Research
2月21日
谷歌开源的全新视觉AI语言模型:PaliGemma 2 Mix !
PaliGemma2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等任务,能在单一模型中灵活切换不同功能。模型提供三种不同参数规模(3B、10B、28B),满足不同场景的需求,同时支持224px和448px两种分辨率,兼顾性能与资源平衡。PaliGemma2 Mix基于开源框架(如Hugging Face Transformers、Keras.PyTorch等)开发,易于使用和扩展,开发者可通过简单提示切换任务,无需额外加载模型。
主要功能:
图像描述:生成准确且详细的图像描述,支持短文本和长文本描述。
光学字符识别(OCR):识别图像中的文字内容,适用于文档数字化、历史文献存档和自动数据提取。
目标检测与图像分割:能检测并定位图像中的物体,进行精确的语义分割。
视觉问答(VQA):用户可以通过上传图片并提出问题,模型会分析图片并给出答案。
文档理解:理解和分析文档图像内容,支持图表和图解分析。
科学问题解答:能理解和回答复杂的科学问题。
文本相关任务:包括文本检测、表格结构识别、分子结构识别等。
GitHub地址:https://github.com/huggingface/blog/blob/main/paligemma2mix.md
AI-GitHub免费共享知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh
开源的AI微信机器人项目!WeChat Bot:可自动回复微信消息!
WeChat Bot 是一个基于 chatgpt 和 wechaty 的微信机器人开源项目,旨在帮助用户自动回复微信消息或管理微信群/好友。这个项目以其简单、易用的特点而闻名,用户只需花费 2 分钟左右的时间(4 个步骤)就能快速上手使用。
WeChat Bot的核心在于使用 Python 进行开发,并依赖于一些关键的库如 requests 和 loging 等。启动机器人只需要几个简单的步骤:克降项目、安装依赖、配置信息并运行服务器,特别的是,它支持自定义配置文件(wechat.conf)以设置调试模式、端口、令牌以及用户名等参数。
项目提供了一个交流群,用户可以在群里讨论相关问题和解决方案。常见问题包括:
运行报错:可能是由于依赖安装不完整或代理设置问题导致。
自动回复触发条件:需要在白名单中设置相应的群聊或联系人。
对话模式调整:可以通过修改 openai/index.js 文件来实现。
项目特点:
简单易用:项目设计简洁,操作步骤清晰,即使是技术新手也能轻松上手。
功能强大:支持自动回复微信消息,管理微信群和好友,大大提高了社交效率。
多种 AI 服务支持:目前支持 6 种 AI 服务,包括 302.AI、deepseek、科大讯飞、Kimi、ChatGPT 和 dify,用户可以根据自己的需求选择合适的服务。
开源共享:项目在 GitHub 上开源,欢迎开发者贡献代码,提交 PR,接入更多的 AI 服务。
GitHub地址:https://github.com/wangrongding/wechat-bot
字节跳动开源全新视频生成项目:Phantom,支持多种复杂场景!
Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video,s2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
Phantom基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。
主要任务:
从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。
根据文本提示生成视频:用户基于文本指令控制视频的内容和风格,实现高度定制化的视频生成。
多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。
身份保留(ID.Preserving):在生成视频时,保留主体的身份特征(如人脸、服装等),特别适用于虚拟试穿数字人生成等场景。
高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现出色,与现有的商业解决方案相当。
GitHub地址:https://github.com/Phantom-video/Phantom
技术论文:https://arxiv.org/pdf/2502.11079
2月20日
WeChat Bot:一个基于chatgpt和wechaty的微信机器人开源项目!
WeChat Bot 是一个基于 chatgpt 和 wechaty 的微信机器人开源项目,旨在帮助用户自动回复微信消息或管理微信群/好友。这个项目以其简单、易用的特点而闻名,用户只需花费 2 分钟左右的时间(4 个步骤)就能快速上手使用。
WeChat Bot的核心在于使用 Python 进行开发,并依赖于一些关键的库如 requests 和 loging 等。启动机器人只需要几个简单的步骤:克降项目、安装依赖、配置信息并运行服务器,特别的是,它文持自定义配置文件(wechat.conf)以设置调试模式、端口、令牌以及用户名等参数。
项目提供了一个交流群,用户可以在群里讨论相关问题和解决方案。常见问题包括:
运行报错:可能是由于依赖安装不完整或代理设置问题导致。
自动回复触发条件:需要在白名单中设置相应的群聊或联系人。
对话模式调整:可以通过修改 openai/index.js 文件来实现。
项目特点:
简单易用:项目设计简洁,操作步骤清晰,即使是技术新手也能轻松上手。
功能强大:支持自动回复微信消息,管理微信群和好友,大大提高了社交效率。
多种 AI 服务支持:目前支持 6 种 AI 服务,包括 302.AI、deepseek、科大讯飞、Kimi、ChatGPT 和 dify,用户可以根据自己的需求选择合适的服务。
开源共享:项目在 GitHub 上开源,欢迎开发者贡献代码,提交 PR,接入更多的 AI 服务。
GitHub地址:https://github.com/wangrongding/wechat-bot
HealthGPT:支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型!
HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。
该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通过创新的异构知识适配技术,将视觉和语言能力无缝整合到医疗场景中。
HealthGPT 的核心理念是通过自回归(autoregressive)方法,将理解任务(输出文本)和生成任务(输出图像)统一在一个模型中。
HealthGPT 支持 7 种医学理解任务和 5 种医学生成任务,表现优于最近的统一视觉模型和医学专用模型。
它不仅能回答医疗图像相关的问题(例如:“这个 X 光片显示什么疾病?”),还能生成高质量的医疗图像(例如超分辨率图像或将 CT 转换为 MRI)。
辅助诊断:分析图像,回答问题,写报告,帮助医生判断病情。
图像处理:把模糊图像变清晰,或者把 CT 转成 MRI,方便医生对比。
教学支持:生成示例图像,供医学生学习或研究用。
项目地址:https://llsuzy.github.io/HealthGPT.github.io/
论文:https://arxiv.org/abs/2502.09838
GitHub:https://github.com/DCDmllm/HealthGPT
Dynamiccity:上海 AI Lab 开源的4D动态场景生成框架!
DynamicCity 是上海AILab推出的大规模动态场景生成的4D生成框架。Dynamiccity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80x80x6.4 m)和长序列(最多 128 帧)的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示,用基于扩散模型(DiT)的生成器重建动态场景。DynamicCity 框架支持多种应用,如轨迹引导、指令驱动生成和动态场景修复。Dynamiccity在 Carlasc 和 0cc3D-Waymo 数据集上表现出色,显著优于现有方法,展现了在高质量动态场景生成中的强大能力,为自动驾驶和机器人技术提供了有力支持。
主要功能:
高质量 4D 场景生成:生成大规模、高质量的动态 LiDAR 场录,捕捉真实世界环境中动态变化的时空演变。支持长
达 128 帧的长序列生成,能模拟复杂的动态环境。
多样化下游应用:
轨迹引导生成:基于输入特定的轨迹,控制场景中对象的运动。
指令驱动生成:基于指令(如“左转"、“右转”、“前进”)控制自车或场景的运动。
动态场景修复(Inpainting):对部分缺失或损坏的场景进行修复,生成完整的动态场景。
布局条件生成:基于鸟瞰图布局控制车辆和其他对象的放置。
GitHub地址:https://github.com/3DTopia/DynamicCity
项目官网:https://dynamic-city.github.io/?utm\_source=ai-bot.cn
AI-GitHub免费共享知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh
Omnitool:开源的AI桌面项目,支持多种主流AI平台和服务!
Omnitool是开源的AI桌面环境,为用户提供统一的交互界面,能快速接入和使用多种A!模型。0mnitool支持本地运行,能在Mac、Windows或Linux设备上安装,数据存储在本地,保障隐私安全。基于集成OpenAl、Stable Diffusion、Hugging Face等主流AI平台,用户无需复杂配置或学习API文档,可快速生成图像、翻译文本、创建音频等。0mnitool具备高度扩展性,支持基于客户端和服务器脚本添加新功能或集成第三方工具,适合从初学者到资深开发者的广泛用户群体。
主要功能:
统一交互界面:提供单一界面,整合多种AI模型和服务。
本地运行与数据安全:作为本地自托管软件,运行在用户的设备上(如Mac、Windows、Linux),数据存储在本
地,确保隐私和安全。
快速接入AI:支持多种主流A1平台(如OpenAl、Stable Diffusion、Hugging Face、Google等),无需复杂的环境
配置或硬件适配,即可快速使用AI功能。
高扩展性:支持基于客户端和服务器脚本、自定义U扩展、集成第三方工具等方式扩展功能。
多模态AI支持:涵盖图像生成、文本处理、音频生成、翻译等多种AI能力。
GitHub地址:https://github.com/omnitool-ai/omnitool
4.8Kstar!StoryTelling Bot:一个开源的语音驱动互动故事机器人项目!
StoryTelling Bot是一个语音驱动的互动故事机器人项目,用户可以通过语音与系统互动,选择故事的走向,并且不仅能听到故事,还能看到相应的图像。
它的核心理念是类似于“选择你自己的冒险”游戏,让用户参与到故事的进展中。通过语音输入来选择故事情节的走向,并且每次输入后,系统会生成不同的故事内容和图像,增强互动性和娱乐性。
StoryTelling Bot通过结合Gemini 2.0 Flash生成内容和通过 Imagen 3生成图像,并用 语音识别 和 语音合成 技术让整个体验更加自然、身临其境。
主要功能
语音识别与互动:
Deepgram:这个工具负责将用户的语音转换成文字。用户通过语音与聊天机器人互动,系统能够准确识别并转化语音输入。
生成创意故事:
Google Gemini 2.0:这是用于生成故事内容的语言模型(LLM)。通过与用户的互动,系统可以根据用户的选择生成不同的故事情节。每次用户做出选择时,Gemini 2.0 会生成一段新的文本,推动故事的发展。
文本转语音:
ElevenLabs:将生成的文本内容转换为语音并播放给用户。这让用户可以通过听的方式了解故事情节,不仅限于阅读文字。
生成视觉元素:
Google Imagen 3:这个工具用来生成与故事内容相关的图像。每当故事更新时,系统会根据当前情节生成相应的图片,增强故事的视觉体验。例如,如果故事讲到某个角色或者场景,系统会生成与之相符的图片,并在用户界面上展示出来。
2月19日
SkyReels-V1:昆仑万维开源首个面向AI短剧创作的视频生成模型!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型。基于在千万级高质量影视数据上进行微调,实现影视级的人物微表情和肢体动作生成,支持33种细腻表情与400多种自然动作组合,高度还原真实情感表达。模型支持文生视频(Text-to-Video),图生视频(lmage-to-Video),在开源视频生成模型中达到SOTA水平。SkyReels-V1基于自研推理框架SkyReels-Infer大幅提升推理效率,支持多GPU并行和低显存优化,在消费级显卡上高效生成高质量视频。
主要功能:
高质量的影视级视频生成:支持生成具有电影级光影效果,细腻人物表情和自然肢体动作的视频内容。每一帧画面
在构图、演员站位和相机角度上都具备高质量的影视质感。
表情和动作的精细控制:支持33种细腻的人物表情和400多种自然动作组合,支持生成大笑、怒吼、惊讶、哭泣等
微表情。
文生视频与图生视频:支持Text-to-Video(文生视频)和lmage-to-Video(图生视频)两种生成方式。
多场景支持:支持处理单人镜头和多人构图,支持复杂的场景和情感表达
GitHub地址:https://github.com/SkyworkAI/SkyReels-V1
Step-Audio:阶跃星辰开源的语音交互模型,可与用户自然地进行对话!
Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。
Step-Audio基于130B参数的统模型,将语音理解与生成相结合,支持语音识别、对话、语音合成等功能。Step-Audio 的核心优势包括高效的语音数据生成引擎、支持多种情感和方言的精细语音控制能力,增强的工具调用和角色扮演功能有效处理复杂任务。在性能方面,Step-Audio 在多个基准测试中表现出色,在指令遵循和复杂语音交互场景中展现显著的领先优势。
功能特点:
语音理解与生成的统一:同时处理语音识别(ASR)、语义理解、对话生成和语音合成(TTS),实现端到端的语音交互。
多语言和方言支持:支持多种语言和方言(如粤语、四川话等),满足不同地区用户的需求。
情感和风格控制:支持生成带有特定情感(如愤怒、喜悦、悲伤)和风格(如说唱、演唱)的语音。
工具调用与角色扮演:支持实时工具调用(如查询天气、获取信息)和角色扮演,提升交互的灵活性和智能化水平。
高质量语音合成:基于开源的 Step-Audio-TTS-38 模型,提供自然流畅的语音输出,支持音色克隆和个性化语音生成。
GitHub地址:https://github.com/stepfun-ai/Step-Audio
InspireMusic:阿里通义实验室开源的AI音乐生成技术!
InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,通过人工智能为用户生成高质量的音乐作品。
基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的音乐。InspireMusic 的核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,能实现文本生成音乐、音乐续写等功能。
InspireMusic的文生音乐创作模式涵盖了多种曲风、情感表达和复杂的音乐结构控制,提供了极大的创作自由度和灵活性。
主要功能:
文本到音乐的生成:用户可以通过简单的文字描述生成符合需求的音乐作品。
音乐结构和风格控制:支持通过音乐类型、情感表达和复杂的音乐结构标签来控制生成的音乐。
高质量音频输出:支持多种采样率(如24kHz和48kHz),能够生成高音质的音频。
长音频生成:支持生成超过5分钟的长音频。
灵活的推理模式:提供fast模式(快速生成)和高音质模式,满足不同用户的需求。
模型训练和调优工具:为研究者和开发者提供丰富的音乐生成模型训练和调优工具
GitHub地址:https://github.com/FunAudioLLM/InspireMusic
在线体验:https://huggingface.co/spaces/FunAudioLLM/InspireMusic
2月18日
Light-A-Video:无需训练即可轻松调整视频与图像光照效果的AI开源项目!
图像重光照技术因大规模数据集和预训练扩散模型取得进展,可视频重光照却因训练成本高和缺乏优质数据集而滞后。单纯将图像重光照模型逐帧用于视频,会出现光源与重光照外观不一致,致使视频闪烁。
Light-A-Video 应运而生 !为解决上述问题,研究团队推出 Light-A-Video,这是一种无需训练就能实现时间上平滑视频重光照的方法。它借鉴图像重光照模型,引入两个关键模块强化光照一致性。
Light-A-Video从图像重光照模型中进行改进,提出了两项关键技术以增强光照一致性。首先,设计了一个一致性光照注意力(CLA)模块,它增强了自注意力层内的跨帧交互,从而稳定背景光照源的生成。其次,利用光传输独立性的物理原理,在源视频的外观与重光照外观之间应用线性融合,采用渐进式光照融合(PLF)策略,确保光照过渡的平滑性。
Light-A-Video功能特征:
无需训练:Light-A-Video采用无监督学习的方式,不需要大规模的数据集或复杂的训练过程。
CLA模块:通过双流注意力机制,结合原始帧的高频细节和跨帧平均后的稳定背景光照,确保光照源的稳定性,减少闪烁。
PLF策略:该策略逐步融合重光照效果,确保在视频去噪过程中保持光照的一致性和平滑过渡,从而避免了逐帧处理导致的不自然效果。
广泛兼容性:该方法与多种视频生成模型兼容,如UNet和DiT,显示了其在不同应用场景中的通用性。
光照一致性:通过引入两个核心模块来增强视频中的光照一致性:
Consistent Light Attention (CLA):通过增强自注意力机制中的跨帧交互,确保背景光源的一致性。
Progressive Light Fusion (PLF):利用光传输的独立性原理,通过线性混合来平滑光照过渡,确保视频帧间的光照一致性。
GitHub地址:https://github.com/bcmi/Light-A-Video/
技术论文:https://arxiv.org/abs/2502.08590
ImageRAG:基于动态检索增强文本生成图像能力!
ImageRAG是基于检索增强生成(Retrieval-Augmented Generation,RAG)的图像生成技术,通过动态检
索相关图像来提升文本到图像(T21)模型生成罕见或未见概念的能力。基于现有的图像条件模型,无需特
定的 RAG 训练,可改善生成图像的真实度和相关性。
主要功能:
动态图像检索:根据文本提示动态检索与之相关的图像,作为上下文提供给基础 T21模型,引导生成过程。
提升罕见概念生成:通过检索相关图像作为参考,解决传统模型在生成罕见概念时的困难。
多模态生成能力:结合文本和图像数据,生成更符合上下文的图像。
个性化生成支持:支持个性化生成,例如将用户提供的图像与检索到的参考图像结合,生成特定场景。
提升图像生成的真实度:基于海量图像资源,|maqeRAG 通过检索增强技术使 A 生成的图像更真实、细腻,避免了传统生成模型中的“幻觉"问题。
灵活性和可扩展性:lmageRAG 的框架设计具有高度的灵活性和可扩展性,根据需求对各个模块进行扩展或升级。
GitHub地址:https://github.com/rotem-shalev/ImageRAG
Meta AI开源预训练框架CoCoMix:创新自然语言处理训练方式!
随着大型语言模型(LLMs)的快速发展,自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景,展现了强大的能力。然而,传统的 “下一个 token 预测” 范式存在一定局限性,尤其是在处理复杂推理和长期任务时,模型需要经历大量训练才能掌握深层次的概念理解。
为了解决这一问题,Meta 等机构的研究者们提出了一种名为 “连续概念混合”的新颖预训练框架:CoCoMix!
CoCoMix 将 token 预测与从预训练模型的隐藏状态中得出的连续概念建模相结合。该方法采用**稀疏自动编码器 (SAE)**来提取高级语义表示,然后通过将它们与 token 嵌入交织在一起来将其纳入训练过程。这种设计使模型能够保留基于 token 的学习的优势,同时增强其识别和处理更广泛概念结构的能力。通过使用概念级信息丰富基于 token 的范式,CoCoMix 旨在提高推理效率和模型可解释性。
GitHub地址:https://github.com/facebookresearch/RAM/tree/main/projects/cocomix
Step-Video-T2V:阶跃星辰开源的文本到视频模型!
Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 204帧的高质量视频。模型基于深度压缩的变分自编码器(Video-VAE),显著提高了训练和推理效率。Step-Video-T2V 配备双语文本编码器,支持中英文提示输入,通过直接偏好优化(DPO)方法进一步提升视频质量。模型基于扩散的Transformer(DiT)架构和 3D 全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。
主要功能:
高质量视频生成:参tep-Video-T2V 拥有 300 亿参数,能生成长达 204 帧的高质量视频,支持 544x992 分辨率
双语文本支持:配备双语文本编码器,支持中英文提示词的直接输入,能理解并生成与文本描述相符的视频。
动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。
GitHub地址:https://github.com/stepfun-ai/Step-Video-T2V
HuggingFace模型库:https://huggingface.co/stepfun-ai/stepvideo-t2v
技术论文:https://arxiv.org/pdf/2502.10248
2月17日
Sa2VA:字节跳动等机构开源的AI多模态大语言模型!
Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。Sa2VA采用解耦设计,保留SAM2的感知能力和LLaVA的语言理解能力,引入Ref-SAV数据集,用在提升复杂视频场景下的指代分割性能。
主要功能:
图像和视频指代分割:根据自然语言描述精确分割图像或视频中的目标对象。
图像和视频对话:支持与用户进行基于图像或视频的对话,回答与视觉内容相关的问题
视觉提示理解:支持处理视觉提示(如图像中的框、点等),并结合语言描述生成对应的分割掩码或回答.。
基于指令的视频编辑:根据用户指令对视频内容进行编辑
密集的视觉理解:Sa2VA能理解图像和视频的整体内容,还能对像素级的视觉细节进行分析和操作,支持复杂场景
下的细粒度任务,如长文本描述的视频对象分割。
零样本推理:支持在未见过的视频上进行推理,根据语言描述直接生成分制掩码或回答问题,无需额外训练。
GitHub地址:https://github.com/magic-research/Sa2VA
快手开源DragAnything:实现可控视频生成中任意目标的运动控制!
DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体,克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。DragAnything 提供用户友好的交互方式,支持前景、背景及相机运动的灵活控制,在 FID、FVD 和用户研究等评估指标上达到新的最佳性能。
主要功能:
实体级运动控制:对视频中的任何实体(包括前景和背景)进行精确的运动控制,不仅是像素级别的操作。
多实体独立控制:支持同时对多个物体进行独立的运动控制,每个物体根据用户定义的轨迹进行不同的运动。
用户友好的交互方式:用户基于简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号(如
分割掩码或深度图)。
相机运动控制:除控制视频中的物体,DragAnything能实现相机的运动控制,如缩放和平移。
高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于多种应用场景
GitHub开源地址:https://github.com/showlab/DragAnything
微软开源OmniParser V2,可将DeepSeek转变为计算机智能代理!
微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行图形用户界面(GUI)自动化。
也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识别屏幕上的按钮、图标等可交互元素,从而实现自动化任务。
OmniParser V2 比之前的版本更加精准、快速,尤其在小图标和高分辨率屏幕的识别上表现更好。V2 在速度和功能上相较于 V1 提升了60%,并支持多种操作系统和应用程序图标识别。
OmniParser V2 的目标是将这些强大的语言模型与计算机操作结合起来。通过将 LLM 与 OmniParser 结合,系统可以自动化许多计算机使用任务,像是通过语言指令来控制计算机界面。这样,任何能够运行的 LLM 都能变成一个“计算机使用代理”,能够执行用户的指令,如:
点击、输入、拖拽等操作。
执行一些基于视觉信息的任务(比如读取图标、按钮等)。
简单来说,OmniParser V2 就是让 AI 不仅能理解语言,还能通过理解屏幕上的内容,像人一样去操作电脑,完成任务。
OmniParser V2 的主要改进:
提高精度:与其前身相比,OmniParser V2 在识别 小型可交互元素(如小图标)时的准确性更高。
加快速度:通过减少图标说明模型的图像大小,推理速度比之前快了60%。这意味着,OmniParser V2 在执行任务时能够更快速地响应。
增强数据集:OmniParser V2 使用了更大规模的训练数据,涵盖了更多交互元素的检测和图标功能描述数据,使其能够更好地理解和执行操作。
GitHub地址:https://github.com/microsoft/OmniParser/tree/master
2月14日
PDF to Podcast:英伟达推出的PDF转音频内容AI项目!
PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到语音(TTS)技术以及NVIDIA的微服务,将PDF中的内容提取转换为Markdown格式,再生成自然流畅的对话或独白形式的音频。工具支持用户上传目标PDF文件,可选择性添加上下文PDF作为参考,通过引导提示来聚焦生成内容。
主要功能:
PDF到Markdown转换:从PDF中提取内容并转换为Markdown格式,以便进一步处理
生成对话或独白:AI处理Markdown内容,生成自然流畅的音频脚本。
文本到语音(TTS):将处理后的文本内容转换为高质量的语音
应用场景:
企业培训与政策解读:将冗长的培训手册、政策文件等PDF文档转换为音频播客,员工可以在通勤或休息时收听提高学习效率。
技术与研发简报:将技术研究报告或研发文档转换为音频内容,方便研究人员和工程师在移动场景下获取信息。同时,结合虚拟角色扮演,可以模拟技术汇报场景,提升沟通能力。
客户服务与酒店管理:将客户服务指南或酒店管理手册转换为对话式播客,员工可以通过与虚拟客户角色的互动练习,提升服务技巧和冲突解决能力。
GitHub:https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
Meta开源的单图生成多视角高清人像视频AI项目:Pippo!
Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块,用于注入像素对齐的条件,以及注意力偏差技术,能在推理时生成比训练时多5倍以上的视角。Pippo引入了重投影误差,用于评估多视角生成的3D一致性。
主要功能:
多视角生成:Pippo可以从单张全身或面部照片生成多视角的高清视频,支持全身、面部或头部的生成。
高效内容生成:通过多视角扩散变换器,Pippo能生成多达5倍于训练视角的视频内容。
高分辨率支持:Pippo首次实现了1K分辨率下的一致多视角人像生成。
空间锚点与ControlMLP:通过ControlMLP模块注入像素对齐的条件,如Plücker射线和空间锚点,实现更好的3D
致性。
自动补全细节:在处理单目视频时,Pippo可以自动补全缺失的细节,如鞋子、面部或颈部等。
GitHub地址:https://github.com/facebookresearch/pippo
MoMask:开源的文本驱动生成高质量3D人体动作AI项目!
MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色,FID指标达到0.045(HumanML3D数据集),显著优于其他方法。MoMask可无缝应用于相关任务,如文本引导的时序修复,无需额外微调。
主要功能:
文本驱动的3D动作生成:用户可以通过输入简单的文本描述,生成对应的3D人体动作动画。例如,输入"一个人在
跑步机上跑步”,MoMask能生成相应的动作。
动作编辑与时序控制:MoMask支持对生成的动作进行复杂的时序编辑,如插入、删除或替换动作片段,可以改变动作的持续时间或细节。
高精度动作生成:采用多层量化和掩码建模技术,MoMask能生成高质量、高精度目连贯的3D动作序列。在HumanML3D数据集上,生成质量的FID值仅为0.045,显著优于其他方法。
多平台支持与易用性:MoMask支持本地运行,提供了Huggingface WebUl演示、Colab在线演示,可以作为Blender插件使用,方便用户快速上手。
动作评估与优化:MoMask提供了评估脚本,可以用于评估生成动作的质量和通真度,帮助用户优化动作生成效
里。
GitHub地址:https://github.com/EricGuo5513/momask-codes
2月13日
4090单卡即可运行满血版DeepSeek-R1!清华大学开源KTransformers项目!
KTransformers是一个基于Python的开源框架,专注于优化大模型的本地推理体验。它通过先进的内核优化和灵活的硬件配置策略,让开发者能够在有限的资源下实现高效的模型推理,并提供了与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 标准的 RESTful API。
它不仅仅是一个简单的模型运行工具,更是一套极致的性能优化引擎 和 灵活的接口赋能平台。 KTransformers 致力于从底层提升大模型推理效率,通过先进的内核优化、强大的并行策略 (多GPU、稀疏注意力) 等核心技术,显著加速模型推理速度,降低硬件门槛。
其核心特点是支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。
KTransformers的适用场景:
本地开发和测试 如果您希望在本地快速开发和测试大模型,KTransformers是一个理想的选择。
资源受限的环境 对于硬件资源有限的开发者,KTransformers可以通过优化和量化,让模型在有限的资源下运行得更好。
高性能推理需求 如果您需要在本地实现高性能的模型推理,KTransformers的多GPU和异构计算支持能够满足您的需求。
GitHub地址:https://github.com/kvcache-ai/ktransformers
VideoCaptioner:开源的AI视频字幕处理神器,支持多格式字幕导出!
VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语音识别、字幕断句、校正、翻译及视频合成的全流程处理,无需GPU即可运行,操作简单高效。
软件提供多种语音识别引擎,包括在线接口和本地Whisper模型支持多平台视频下载与处理,能优化字幕的专业性和流畅性。VideoCaptioner支持字幕样式调整和多种格式导出,适合各类视频创作者和字幕工作者使用。
应用场景:
视频创作者:创作者快速为自己的视频生成字幕,提升视频的可访问性和专业性。
教育内容制作者:教育视频的制作者快速生成准确的字幕,方便学生学习。
自媒体运营者:自媒体人快速处理视频字幕,提高内容发布的效率,基于字幕翻译功能,将视频内容推广到更多语
言的受众群体中,扩大影响力。
字幕翻译团队:字幕翻译团队减少人工翻译的工作量,提高翻译效率和质量
视频编辑爱好者:对于喜欢制作和编辑视频的爱好者,轻松为自己的作品添加字幕,提升视频的观赏性。
GitHub地址:https://github.com/WEIFENG2333/VideoCaptioner
2月12日
SVFR:开源的视频面部修复项目,可同时完成视频修复和着色任务!
SVFR(稳定视频面部修复)是一种专门用来修复视频中人脸的技术,可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节,还能让整个视频看起来连贯一致,不会有卡顿或奇怪的变化。
SVFR提供了一个统一框架,可以同时完成视频盲修复、面部修补和面部着色任务,无需为每个任务单独训练模型。
SVFR 包括以下三个子任务:
视频盲面部修复(BFR): 提升低质量视频中的面部清晰度和分辨率。
面部修补(Inpainting): 填补视频中丢失或被遮挡的面部区域。
面部着色(Colorization): 为灰度或退化的面部视频恢复自然颜色。
SVFR 解决了哪些问题?
模糊人脸变清晰:对低清晰度的视频,SVFR 可以让人脸细节更加清晰,比如让模糊的五官重新清楚可见。
填补缺失的地方:如果视频中人脸有遮挡(比如被手、眼镜挡住)或者有损坏,SVFR 可以把这些区域修复好,看起来像原来一样。
还原真实的颜色:对于黑白视频或者颜色不自然的人脸,SVFR 能够重新上色,让人脸颜色恢复真实感。
让修复更稳定:修复过程中,保证视频每一帧的变化自然,不会出现一会儿清楚、一会儿模糊的情况。
项目地址:https://wangzhiyaoo.github.io/SVFR/
GitHub:https://github.com/wangzhiyaoo/SVFR
论文:https://arxiv.org/pdf/2501.01235
腾讯开源的AI数字人Sonic项目,效果超过hallo2,EchoMimic!
Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具,核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号,仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动,生成流畅自然的视频。
Sonic 将其分解为片段内音频感知和片段间音频感知,并通过这两方面协作来增强整体感知能力。具体来说:
• 片段内音频感知:
• 上下文增强音频学习:提取长距离片段内的时间音频知识,以提供面部表情和嘴唇动作的先验信息,这些信息隐含地表达为语音的语调和速度。
• 运动解耦控制器:将头部运动和表情动作解耦,并通过片段内音频独立控制。
• 片段间音频感知:
- • 时间感知位置偏移融合:考虑全局片段间音频信息,并通过连续的时间感知偏移窗口进行融合,以实现长音频推理。
Sonic与最近的先进方法相比,能够产生更广泛的表情,与音频一致,并促进更自然的头部运动。
GitHub地址:https://github.com/jixiaozhong/Sonic
Zonos:一个高质量、实时的文本转语音 (TTS) 开源项目!
Zyphra 团队发布 Zonos v0.1 的 beta 。
这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。
这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B 参数的混合模型。这些模型以 Apache 2.0 许可证开源发布。
据 Zyphra 评估,Zonos 生成的语音质量可与领先的商业 TTS 提供商(如 ElevenLabs、Cartesia)媲美,甚至更胜一筹。
主要功能与特点:
高保真语音克隆:Zonos 能够根据5 至 30 秒的语音片段进行高保真语音克隆。
可调语音特性:支持语速、音调、情绪(如悲伤、愤怒、喜悦等)等多种语音特性的控制。
表达性与自然语音生成:Zonos 能够生成非常表达性和自然的语音,支持多种语言,虽然目前以英语为主,但也包含了中文、日语、法语、西班牙语和德语等。
训练与架构:
Zonos 的模型基于200,000 小时的语音数据进行训练,使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。
DAC 是一种高比特率自动编码器,旨在提高模型的质量,但也增加了预测任务的复杂性。
GitHub地址:https://github.com/zyphra/zonos
2月11日
黑科技来了**!开源AI项目Unsloth将GRPO内存暴降,7GB GPU训练DeepSeek-R1!**
我们知道 Deepseek R1 核心的贡献是揭示了一个“aha”时刻,在 R1-Zero 中通过使用 GRPO (Group Relative Policy Optimization)在没有人类反馈的情况下自主学会了分配更多的思考时间。
开源社区也在其他模型上复现了类似的表现,不过成本很高,比如为Qwen2.5(1.5B)实现推理也需要 160G 显存,根本不是个人可以承受的。
而就在前两天,DeepSeek-R1的推理成本彻底被打下来了!
开源项目Unsloth AI带来了好消息,不用云服务,本地也能体验「Aha」 时刻!
现在可以在本地设备上复现DeepSeek-R1的推理!
只需7GB VRAM,你就能体验到「Aha」时刻。
Unsloth把GRPO训练需要的内存减少了80%。
15GB VRAM就可以把Llama-3.1(8B)和Phi-4(14B)转变为推理模型。
DeepSeek的R1研究揭示了「Aha」时刻,通过群体相对策略优化(Group Relative Policy Optimization,GRPO),在没有人类反馈的情况下,R1-Zero自动学会了如何分配更多的思考时间。
Unsloth对整个GRPO过程进行了增强,相比Hugging Face+FA2,VRAM使用减少了80%。这意味着只需7GB VRAM,使用Qwen2.5(1.5B)就能重现R1-Zero的「Aha」时刻。
GitHub地址:https://github.com/unslothai/unsloth
Ola:清华联合腾讯等推出的全模态语言模型!
Ola是清华大学、腾讯, Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。0la的架构支持全模态输入,包括文本、图像、视频和音频,能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成,提升交互体验。
主要功能:
多模态理解:支持文本、图像、视频和音频四种模态的输入,能同时处理这些输入,在理解任务中表现出色.
实时流式解码:支持用户友好的实时流式解码,可用于文本和语音生成,提供流畅的交互体验。
渐进式模态对齐:通过逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模
态的理解。
高性能表现:在多模态基准测试中性能卓越,超越了现有的开源全模态 LMs,在某些任务上与专门的单模态模型
相当。
GitHub地址:https://github.com/Ola-Omni/Ola
Kiln Al-:开源的AI原型设计和数据集协作开发工具,微调专属模型!
Kiln Al是开源的 A1 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOs 和 Linux,用户基于零代码方式对多种模型(如Llama、GPT4o 和 Mixtral)进行微调,实现自动部署。Kiln Al提供交互式工具生成训练数据,支持基于 Git的版本控制,方便团队协作。Kiln AI支持自动提示生成、多种模型集成,注重隐私,确保用户数据安全。Kiln Al的 Python 库开源,方便开发者集成到现有工作流中。
Kiln Al的主要功能
直观的桌面应用程序:支持 Windows、MacOs 和 Linux 系统,提供一键式安装和使用,设计简洁直观。
委代码微调:支持多种语言模型,如 Lama、GPT4o 和 Mixtral,自动无服务器部署模型。
合成数据生成:提供交互式可视化工具,用于生成训练数据
团队协作:基于 Git 的版本控制,支持多人协作,适合 QA、PM 和领域专家共同参与数据集构建
自动提示生成:支持从数据中自动生成提示,包括链式思考、少样本和多样本提示等。
广泛支持模型和提供商:支持基于 0llama、OpenAl、OpenRouter、Fireworks、Grog、AWS 或任何兼容 OpenAI
API 的模型。
GitHub地址:https://github.com/Kiln-AI/Kiln?utm\_source=ai-bot.cn
字节开源文生视频基础模型 ,可直接生成数字人长视频!
Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。
它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画、艺术创作等多个领域。
支持文本到视频(T2V):可生成 20 秒以上 流畅、连贯的视频。
支持多种风格:写实、3D 动画、剪纸、赛博朋克等。
-广告优化版(Goku+):可直接生成真人广告、产品展示、人物交互的数字人视频。
真实人物 & 手部优化:面部表情自然,手势精准。
电影级动态镜头:支持慢动作、特写、追踪拍摄等。
高分辨率 & 智能光影:画质清晰,色彩自然,光影真实。
Goku 采用先进的 流模型架构(Flow-Based Model),与传统的视频生成模型相比,它能够生成更 稳定、流畅、长时序的视频,并能 精准控制 视频中的人物、物体、环境等细节。
GitHub:https://saiyan-world.github.io/goku/
论文:https://arxiv.org/pdf/2502.04896
2月10日
PramaLLC开源BEN2!实现高精度图像和视频背景去除功能!
BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。
基于创新的置信度引导抠图(CGM)管道,通过精细化网络处理复杂区域,如头发和边缘,实现高精度的前景分割。BEN2在大规模数据集上训练,擅长处理高分辨率图像(如4K),支持GPU加速,处理速度极快,1080p图像仅需6秒,4K图像约20秒。
功能作用:
背景移除与前景分割:BEN2能自动从图像和视频中移除背景,生成高质量的前景图像。通过创新的置信度引导抠图(CGM)管道,对复杂背景和细节丰富的图像(如头发、边缘等)进行高精度分割。
高分辨率处理:BEN2支持4K图像处理,确保高分辨率图像的分割效果,适用于需要高精度和高质量图像处理的应用场景。
边缘精细化:通过精细化网络处理边缘,提升分割精度,适用于需要精细边缘处理的图像,如产品照片、肖像等。
视频分割:BEN2可以对视频中的每一帧进行前景提取,适用于动态视频编辑。
简单API与易用性:提供简洁的API,方便集成到各种应用中。
批量图像处理:适合需要高效处理多个图像的场景。
GitHub地址:https://github.com/PramaLLC/BEN2/
在线体验:https://backgrounderase.net/home
FireRedASR:小红书开源的自动语音识别模型!
FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),在歌词识别方面表现出色。
模型家族包含两个主要版本:FireRedASR-LLM和FireRedASR-AED。
应用场景:
智能语音助手:FireRedASR 可以用于开发智能语音助手,如智能家居控制、智能客服等。高精度的语音识别能力能
准确理解用户的语音指令,提供流畅的交互体验。
视频和直播:在短视频和直播领域,FireRedASR能实时生成字幕,帮助观众更好地理解内容。
歌词识别:fireRedASR 在歌词识别场景中表现尤为突出,能广泛应用于音乐平台和卡拉OK等场景。
语音输入:FireRedASR 可以用于语音输入场景,如语音打字、语音笔记等。高效的推理能力和高精度的识别效果能
显善提升用户的输入效率。
GitHub地址:https://github.com/FireRedTeam/FireRedASR
MedRAX:一款开创性的医学推理代理,整合了多个专门医学影像 AI 模型!
MedRAX(Medical Reasoning Agent for Chest X-ray)是一个创新的医学推理代理系统,旨在提升胸部X光片(CXR)的自动化分析能力,特别是在临床环境中对复杂医学问题的解答。
MedRAX将最先进的CXR分析工具与多模态大语言模型无缝集成到一个统一的框架中,专门用于 解读胸部 X 光片(CXR),无需额外训练。
帮助医生 自动分析影像、回答医学问题,并辅助诊断。它整合了 大语言模型(LLM) 和 多个医学影像 AI 工具,可以像一名智能助手一样,帮助医生处理复杂的医学影像问题。
目前,医生需要 逐个检查 影像的不同部分,并 手动分析和记录,这既耗时又容易出错。而 MedRAX 可以像智能助手一样,帮医生回答这些问题,并提供 详细的医学推理过程,让医生能够快速得到准确答案。
项目地址:https://bowang-lab.github.io/MedRAX/
GitHub:https://github.com/bowang-lab/MedRAX
论文:https://arxiv.org/pdf/2502.02673
2月8日
匹敌GPT-4o !面壁智能推出MiniCPM-o 2.6:全能多模态端侧模型!
面壁智能推出 MiniCPM-o 2.6,一个8B大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行
领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等。
支持中英双语实时语音对话,并提供情感/速度/风格控制、端到端语音克隆、角色扮演等功能。
提供强大的 OCR 和视频理解能力
支持连续的视频和音频流输入,实现实时直播与多模态上下文理解。
多语言支持: 支持超过 30 种语言的输入和输出,涵盖文本和语音。
应用场景
实时多模态互动
- 适用于视频直播、教育平台、虚拟助手等需要实时处理多模态数据的场景。
高级语音应用
- 用于语音合成、翻译、语音助手等领域,可实现个性化语音定制。
视觉和文本分析
- 在文档识别(OCR)、图像分析和多语言内容理解中表现突出。
移动端部署
- 可高效运行于 iPad 和安卓手机,为便携式设备提供强大的 AI 支持。
GitHub:https://github.com/OpenBMB/MiniCPM-o
在线体验:https://minicpm-omni-webdemo-us.modelbest.cn/
模型下载:https://huggingface.co/openbmb/MiniCPM-o-2_6
TokenVerse :提取多张图像的元素 ,进行重新自由组合生成新的图像!
TokenVerse是一种创新的文本到图像生成框架,旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念(如对象、姿势、光照、材质等),并将这些概念灵活组合到新的图像中,生成具有特定语义特征的内容。
也就是它可以把图像中的内容(比如某个物品、姿势、光线效果等)分离出来,然后再重新自由组合,生成新的图像。
TokenVerse 的主要功能特点
1.从图像中提取多个概念
- 你可以从一张图片中提取多个内容,比如“一个戴帽子的狗”这张图片,TokenVerse可以分别提取“狗”、“帽子”和“项链”。
2.把不同图片的内容灵活组合:文okenVerse 可以把不同图片的元素无缝组合。
3.高度可控性:文okenVerse 提出了一个“每文本标记的调制空间 (M+)”,它允许对图像中的某个部分进行精准的修改,而不会影响其他部分。
4.支持复杂和抽象的内容:不仅限于物品,TokenVerse还能处理“姿势”“光照效果”等更复杂的概念。
项目地址:https://token-verse.github.io/
ASAP:将真实世界与物理学相结合,让机器人学习敏捷的人形全身技能!
ASAP(Aligning Simulation and Real-World Physics)是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架,旨在解决仿真和真实物理之间的动态不匹配问题。
该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策略应用到真实世界中,并通过进一步的调整实现更加灵活的全身运动。
仿真阶段:在仿真环境中,使用人类的运动数据进行预训练,帮助机器人学习如何模仿这些动作。
现实世界阶段:将预训练的策略部署到实际机器人中,通过收集现实环境中的数据,进一步优化机器人的运动控制,减少仿真与实际执行之间的误差。
简单来说,**它帮助机器人在模拟环境中学会动作后,能够准确地在真实世界中执行这些动作,**这使得以前难以实现的高度灵活的动作成为可能!
ASAP框架通过整合以下几个关键技术方法,有效地解决了仿真与现实世界之间的动态差异:
仿真中的运动追踪预训练:帮助机器人学习人类运动并适配到机器人控制系统中。
现实世界中的控制策略优化:通过实时数据优化控制策略,确保机器人能够在现实环境中顺利执行。
Delta动作学习:利用实时反馈调整动作策略,逐步提高机器人动作的精确度。
领域随机化:通过多样化的仿真环境训练机器人,提高其在不确定环境中的适应能力。
强化学习:通过奖励机制不断优化机器人的决策和控制策略,使其更加灵活和高效。
GitHub地址:https://github.com/LeCAR-Lab/ASAP
Hibiki :实时语音翻译系统,还能保留原说话人的音色!
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。
与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持语音传输(voice transfer)及文本翻译。
目前仅支持法语 → 英语,未来扩展到更多语言。
主要特点:
流式翻译:Hibiki 边听边翻译,不像传统翻译那样等到整个句子结束后再翻译。
语音保持:翻译后,Hibiki 还能保留你的声音音色,让听起来更像你自己在说。
实时文本翻译:除了语音翻译,还会生成同步的文本翻译,带有时间戳。
可在手机上运行:Hibiki 有一个轻量版 Hibiki-M,可以在手机上本地运行。
GitHub:https://github.com/kyutai-labs/hibiki
论文:https://arxiv.org/pdf/2502.03382
模型:https://huggingface.co/kyutai
2月7日
SyncD:Meta开源的文生图合成训练数据集!
SyncD是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象在不同光照、背景和姿态下的图像,基于共享注意力机制(Masked Shared Attention)和3D资产引导(如Objaverse)确保对象在不同图像中的一致性。SynCD用语言模型(LLM)生成详细的对象描述和背景场景,结合深度引导的文本到图像模型生成耦合图像。SynCD解决了现实世界中多视角、多背景对象图像难以大规模收集的问题,为无调优(tuningfree)的模型定制化提供丰富的训练资源,显著提升了模型在生成新场景中特定对象时的图像质量和身份保持能力。
主要功能:
提供多样化训练样本:基于生成多个视角和背景下的图像,增加模型对对象的视觉理解能力。
增强对象一致性:基于共享注意力机制和3D资产引导,确保对象在不同图像中保持一致,避免生成的图像中对象特
征的漂移。
提升生成质量:用高质量的合成数据,改善模型在定制化任务中的图像质量和身份保持能力。
支持无调优定制化:为无调优(tuning-free)方法提供数据支持,避免对每个新对象进行昂贵的优化步骤。
GitHub地址:https://github.com/nupurkmr9/syncd
2.1K星!s1:斯坦福推出低成本、高性能的AI推理模型!
s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的A!推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练,训练成本不到50美元,训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异,与OpenAl的o1和DeepSeek R1等顶尖推理模型相当。
主要功能:
高效推理能力:参1模型专注于复杂问题的推理,在数学和编程领域表现出色。能解决高难度的竞赛级数学问题,如
AIME(美国数学邀请赛)题目。S1模型在竞赛数学问题上的表现显著提升,最高超过OpenAl的o1-preview模型
27%。
低成本训练:参1模型仅使用1000个精心策划的问题及其推理轨迹进行训练,训练成本极低,仅需不到50美元的云计
算费用,训练时间不到30分钟。
测试时扩展(Test-time scaling):参1模型通过预算强制技术在测试时动态调整计算量。通过强制终止模型的思考过程或追加“Wait"指令延长思考时间,模型可以重新检査答案,修正错误的推理步骤,提升推理性能。
开源与可扩展性:参1模型的代码、数据和训练方法已在GitHub上开源,方便其他研究者和开发者使用和改进。
GitHub地址:https://github.com/simplescaling/s1
AstrBot :多平台 LLM聊天机器人及开发框架!
AstrBot 是一个开源的聊天机器人及开发框架,旨在提供易于使用且多平台兼容的聊天机器人解决方案。它支持多个消息平台的集成,如 QQ、QQ 频道、Telegram 和微信(包括 Gewechat 和企业微信)。此外,AstrBot 支持多种大型语言模型(LLM)的接入,包括 OpenAI、Google Gemini、Llama 和 DeepSeek 等。
该框架具备异步和松耦合的设计,易于扩展,具有插件支持功能,允许开发者轻松添加自定义功能。它还支持多模态能力,如图像理解和语音转文字(利用 Whisper)。更值得一提的是,AstrBot 提供了可视化管理面板,便于用户进行管理和配置。
AstrBot 的插件机制经过深度优化,允许开发者以最简便的方式扩展机器人的功能。它还支持与 Dify 平台集成,方便接入智能助手、知识库和自动化工作流。整体而言,AstrBot 提供了一个灵活且功能丰富的开发框架,适用于各种需要集成大语言模型的聊天机器人项目。
GitHub地址:https://github.com/Soulter/AstrBot
16.8Kstar!将PDF 文件转换为可搜索、可复制的文档AI工具!
OCRmvPDF 是开源的命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR文本层,将无法直接编辑的扫描 PDF 文件能被搜索和编辑。工具支持超过 100 种语言,基于 TesseractOCR 引擎实现高效的文字识别。OCRmyPDF 能优化图像质量,识别前对图像进行纠偏和清洁,提升识别准确率。支持多核处理,充分利用系统资源,快速处理大量文件。0CRmyPDF 支持批量处理,结合 GNU并行工具,可以处理多个 PDF 文件。
主要功能:
生成可搜索的 PDF/A 文件:从普通 PDF 文件生成可搜索的 PDF/A 文件,同时保持原始嵌入图像的分辨率。
多语言支持:支持超过 100 种语言,用户可以根据文档的语言选择合适的语言包,提高 OCR 的准确率.
图像优化:OCRmyPDF 可以优化 PDF 中的图像,包括调整分辨率、压缩图像大小等,生成更小的文件,保持图像
质量。
纠偏和清洁:在执行 OCR之前,OCRmyPDF 可以对图像进行纠偏(纠正倾斜)和清洁(去除污点、噪点等),提
高 OCR 的准确率。
旋转页面:自动检测页面的方向并旋转页面,确保所有页面的方向一致,便于阅读和处理。
多核处理:默认利用所有可用的 CPU 核心进行处理,提高了处理速度,适合处理大型文件或批量任务。
批量处理:可以结合 GNU 并行工具或其他脚本,批量处理多个 PDF 文件,提高工作效率。
数据安全性:OCRmyPDF 完全离线运行,数据存在用户的本地设备,确保数据安全和隐私。
GitHub地址:https://github.com/ocrmypdf/OCRmyPDF
2月5日
5.1Kstar!Oumi:开源的一站式AI开发平台,支持 1000万到4050亿参数模型训练!
Oumi是完全开源的 AI 平台,简化从数据准备、模型训练到评估和部署的整个生命周期。支持从 1000 万
到 4050 亿参数的模型训练,涵盖文本和多模态模型(如 Lama、Qwen 等),提供零样板代码(Zero
Boilerplate)的开发体验。
技术原理:
零样板代码(Zero Boilerplate):Oumi 通过高度抽象化的设计,简化了 A开发流程。开发者无需编写大量重复
的代码,只需通过简单的配置文件(如 YAML 格式)定义模型的训练参数、数据路径、训练策略等。
灵活的训练框架:Oumi支持多种训练技术,包括监督微调(SFT)、LORA(Low-Rank Adaptation)、QLoRA
Quantization + LoRA)和 DPO(Direct Preference Optimization)等。支持开发者根据具体需求选择合适的训练方法,优化模型的性能。
分布式训练:Oumi优化了分布式训练的流程,支持多 GPU 和多节点的训练任务。开发者可以在大规模数据集上高效训练大型模型,保持训练过程的稳定性和可扩展性。
GitHub地址:https://github.com/oumi-ai/oumi
南洋理工推出的无边界 4D 城市建模框架:CityDreamer4D!
CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态物体(如车辆)与静态场景(如建筑和道路)分离,通过三个模块--建筑实例生成器、车辆实例生成器和城市背景生成器,基于高效的鸟瞰图场景表示法来生成城市场景。模型构建了包括 OSM、GoogleEarth 和CityTopia 在内的多个数据集,涵盖多视角和多光照条件。CityDreamer4D 能生成逼真的 4D 城市,支持城市风格化、局部编辑和城市模拟等应用。
无边界 4D 城市生成:通过分离动态物体(如车辆)和静态场景(如建筑和道路),CityDreamer4D 能生成包含时间和空间维度的动态城市场景。支持生成无限扩展的城市布局,同时保持多视角一致性。
实例编辑与局部修改:CityDreamer4D 支持对建筑和车辆实例进行局部编辑,例如修改车辆的位置和风格,或调整建筑的高度和外观,不影响其他场景元素。
城市风格化:模型支持对生成的城市进行风格化处理,例如将城市风格转换为《我的世界》或赛博朋克风格,保持多视角一致性。
城市模拟:CityDreamer4D 可以作为强大的城市模拟工具,生成逼真的 4D 城市场景,支持街景和航拍视角,适用于自动驾驶、城市规划和虚拟现实等应用。
数据集支持:开发团队构建了多个数据集,包括 OSM(OpenStreetMap)、GoogleEarth 和 CityTopia,涵盖多视
角和多光照条件。
GitHub地址:https://github.com/hzxie/CityDreamer4D
Meta Al推出的零样本生成高质量多模态描述方法:MILS!
MILS是Meta Al提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通过多步推理,提示LLM生成候选输出,对每个输出进行评分和迭代反馈,最终生成任务解决方案。MILS的核心优势在于无需对LLM进行额外训练,可处理多种多模态任务,如零样本图像、视频和音频描述等。应用于媒体生成,通过提示重写改进文本到图像的生成效果,进行风格转换。
主要功能:
多模态理解任务
图像描述生成:为给走的图像生成准确的文本描述。
视频描述生成:为视频生成描述性文本,捕捉视频中的关键内容。
音频描述生成:为音频生成描述性文本,捕捉音频中的关键声音信息。
跨模态推理:通过将不同模态(如图像、音频)映射到文本空间,实现模态之间的推理和组合。
多模态生成任务
高质量图像生成:通过优化文本提示词,提升文本到图像(T21)生成模型的输出质量。
风格迁移:将一种图像的风格应用到另一张图像上,同时保持内容不变。
跨模态生成:例如通过音频生成图像,将音频和图像的语义概念结合生成新的图像。
github地址:https://github.com/facebookresearch/MILS
技术论文:https://arxiv.org/pdf/2501.18096
1月29日
阿里除夕发布Qwen2.5-Max反超DeepSeek V3
阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布。
Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。
基座模型对比中,Qwen2.5-Max同样超越DeepSeek V3、Llama-3.1-405B,在针对模型知识理解和推理能力的MMLU-Pro等基准上均表现不凡。
Github地址:https://qwenlm.github.io/blog/qwen2.5-max/
阿里开源了基于其MNN-LLM框架的Android手机应用:MnnLlmApp,支持各类LLM在手机上离线运行
支持多种多模态任务,文本生成文本、图像生成文本、音频转文本以及文本生成图像
在安卓平台上,MNN-LLM的CPU性能优秀,预填充速度较llama.cpp提高了8.6倍,较fastllm提升了20.5倍,解码速度分别快了2.3倍、8.9倍
支持多种模型,Qwen、Gemma、Llama(涵盖TinyLlama与MobileLLM)、Baichuan、Yi、DeepSeek、InternLM、Phi、ReaderLM、Smolm等
完全在设备本地运行
github地址:https://github.com/alibaba/MNN/tree/master
1月28日
DeepSeek深夜发布多模态大模型,图像性能跑分力压OpenAI竞品!
DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B模型。
这俩模型是对去年10月发布的Janus模型的升级。图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro。Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识进行介绍。
技术亮点
创新的自回归框架 Janus-Pro-7B采用了一种新颖的自回归框架,将多模态理解和生成能力统一在一个模型中。与传统方法不同,Janus-Pro通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。
高效的视觉编码器 在多模态理解任务中,Janus-Pro采用SigLIP-L作为视觉编码器,支持高达384x384像素的图像输入。而在图像生成任务中,Janus-Pro使用一个来自特定来源的分词器,降采样率为16。这种“分而治之”的设计不仅提高了生成的稳定性,还通过混合7200万合成图像和真实数据进行训练,进一步优化了模型性能。
大规模参数与优化训练 Janus-Pro-7B的参数规模达到70亿,是其前身Janus的7倍。这一大规模参数配置显著提升了模型在复杂任务中的表现。此外,Janus-Pro还整合了优化的训练策略和扩展的训练数据,进一步增强了模型的稳定性和准确性。
GitHub地址:https://github.com/deepseek-ai/Janus
模型地址:https://huggingface.co/deepseek-ai/Janus-Pro-7B
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
谈到大模型的“国货之光”,除了DeepSeek之外,阿里云Qwen这边也有新动作——
首次将开源Qwen模型的上下文扩展到1M长度。具体而言,这次的新模型有两个“杯型”:
Qwen2.5-7B-Instruct-1M
Qwen2.5-14B-Instruct-1M
它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini,并且在处理百万级别长文本输入时可实现近7倍的提速!
github地址:https://qwenlm.github.io/zh/blog/qwen2.5-1m/
HuggingFace体验地址:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
魔塔社区体验地址:https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
技术报告:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2\_5\_1M\_Technical\_Report.pdf
1月27日
JoyGen:京东开源的专注于音频驱动的AI数字人项目!
JoyGen 开源工具由京东和香港大学的团队联合开发,专注于音频驱动的3D深度感知说话人脸视频编辑。简单来说,JoyGen 可以通过音频输入生成逼真的 3D 说话人脸视频,甚至可以对人脸表情和细节进行深度调整。
JoyGen框架包含两个主要阶段:首先是基于音频的唇部运动生成,其次是视觉外观合成。通过整合音频特征和面部深度图,为精确的唇音同步提供全面的监督。该项目不仅支持中文和英文音频驱动,还提供了完整的训练和推理pipeline,是一个功能强大的开源工具。
主要功能:
音频驱动的3D面部表情生成和编辑
精确的唇形-音频同步技术
支持中文和英文音频输入
3D深度感知的视觉合成
面部身份特征保持功能
高质量视频生成和编辑能力
完整的训练和推理框架支持
预训练模型支持快速部署
支持自定义数据集训练
提供详细的数据预处理工具
它特别适合像虚拟主播生成、AI互动视频制作这样的场景。更厉害的是,这个项目不仅提供了完整的推理代码,还支持个性化训练,适应不同的应用需求。
GitHub地址:https://github.com/JOY-MM/JoyGen
FramePainter:哈工大联合华为推出的交互式图像编辑AI工具!
FramePainter 是基于的交互式图像编辑工具,通过结合视频扩散模型和直观的草图控制,让用户能通过简单的绘制、点击或拖动操作来指示编辑意图,实现对图像的精确修改。FramePainter 的核心优势在于其高效的训练机制和强大的泛化能力,即使在少量样本的情况下,也能生成高质量的编辑结果。
主要功能:
直观的草图控制:用户可以通过在图像上绘制草图、点击点或拖动区域来指示编辑意图,FramePainter 能够将这些
简单指令转化为精确的图像编辑。
强大的 AI技术:借助视频扩散模型(Video Diffusion Models),FramePainter 提供了前所未有的编辑能力,能够实现复杂且自然的图像变换。
高质量输出:支持实时预览和智能处理,确保编辑结果的专业性和高质量。
低训练成本与高效泛化:通过将图像编辑重新定义为图像到视频的生成问题,FramePainter 继承了视频扩散模型的强大先验,显著减少了训练数据需求,并在未见过的场景中表现出色。
匹配注意力机制:为解决视频扩散模型在处理大运动时的局限性,FramePainter 引入了匹配注意力机制,通过扩大
感受野并鼓励编辑图像与源图像之间的密集对应关系,进一步提升编辑的精确性和一致性。
GitHub地址:https://github.com/YBYBZhang/FramePainter
1月26日
Tarsier2:字节跳动推出的视觉理解大模型!
Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。
主要功能:
详细视频描述:文arsier2能生成高质量的视频描述,爱盖视频中的各种细节,包括动作、场景和情节。
视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。
视频定位:文arsier2可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
幻觉测试:通过优化训练策略,Tarsier2显著减少了模型生成虚假信息的可能性。
多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。
GitHub地址:https://github.com/bytedance/tarsier
技术论文:https://arxiv.org/pdf/2501.07888
FilmAgent:清华大学推出的AI电影自动化制作工具!
FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电影工作室的工作流程,用多智能体协作来自动化虚拟电影的制作。模拟了电影制作中的关键角色,包括导演、编剧、演员和摄影师,将整个制作过程分为三个阶段:规划、剧本创作和摄影。
自动化剧本创作
剧本生成:FilmAgent能根据用户输入的主题、风格和场景要求,自动生成完整的剧本。剧本包括角色的动作、对话、场景描述以及镜头设置。
自定义创作:用户可以通过修改输入参数(如主题、风格、角色数量等)生成符合特走需求的剧本。
镜头规划与拍摄
镜头设置:FilmAgent能根据剧本内容自动生成镜头设置,包括镜头角度、焦距、运动轨迹等。确保拍摄效果符合电影制作的专业要求。
3D场景执行:生成的剧本和镜头设置可以在Unity 3D环境中执行。用户可以通过运行特定的脚本,控制角色的动作和镜头的运动,实现虚拟拍摄。
多镜头协作:系统支持多镜头同时拍摄,能处理复杂的镜头切换和场景转换,模拟真实电影拍摄中的多机位拍摄方式。
语音合成
角色语音生成:filmAgent集成了语音合成技术(如ChatTTS),为剧本中的角色生成自然的语音对话。用户可以根据需要选择不同的语音风格和语调。
语音同步:生成的语音文件能够与角色的动作和对话内容同步,确保拍摄效果的自然性和连贯性。
GitHub地址:https://github.com/HITsz-TMG/FilmAgent
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT!
PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿,提取结构模式和内容模式基于代码动作草拟大纲并生成幻灯片,确保内容的一致性和对齐。
PPTAgent基于大型语言模型(LLM)的能力,将演示文稿生成过程分解为迭代的编辑工作流程,提高生成演示文稿的连贯性和适应性,还能更好地处理复杂的格式问题。 PPTAgent引|入PPT Eval评估框架,从内容、设计和连贯性三个维度全面评估生成的演示文稿质量,为未来的演示文稿生成研究提供宝贵的资源和见解。
主要功能:
分析参考演示文稿:理解其结构模式和内容模式。
草拟大纲:基于分析结果,创建详细的演示文稿大纲。
生成幻灯片:基于代码动作,将大纲转化为具体的幻灯片内容,确保内容的一致性和对齐。
编辑和修正:提供反馈机制,对生成的幻灯片进行编辑和自我修正,提高生成文稿的质量
综合评估:基于PPT PPT Eval框架,从内容、设计和连贯性三个维度评估生成的演示文稿质量
技术论文:https://arxiv.org/pdf/2501.03936
GitHub地址:https://github.com/icip-cas/PPTAgent
1月24日
2.3Kstar!英伟达开源的智能文档提取及结构化工具:NVIDIA-Ingest!
NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。它能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式,提供多种提取方法,便于在吞吐量和准确性之间进行权衡。NVIDIA-Ingest支持预处理和后处理操作,如文本分割、转换、过滤、嵌入生成和图像存储。NVIDIA-Ingest基于并行化文档处理,提高提取效率,支持将提取内容嵌入到Milvus等向量数据库中,适用于大规模文档处理和生成式应用。
功能作用:
多格式文档支持:支持解析 PDF、Word (Docx)、PowerPoint(Pptx)和图像等多种复杂的企业文档格式
多方法提取:支持多种提取方法,便于在吞吐量和准确性之间进行权衡。例如,PDF 文档支持 pdfium、
Unstructured.io 和Adobe Content Extraction Services 进行提职。
内容分类与提取:将文档内容分类为文本、表格、图表和图像,分别提取这些内容。用光学字符识别(OCR)技术将提取的内容进一步上下文化,并转换为定义良好的 JSON 模式。
并行处理:支持将文档拆分为页面,并行处理每个页面的内容提取,提高处理效率。
预处理和后处理:支持多种预处理和后处理操作,包括文本分割和分块、内容转换、过滤、嵌入生成和图像存储。
GitHub地址:https://github.com/NVIDIA/nv-ingest
k1.5:Kimi推出的多模态思考模型!
K1.5是月之暗面Kimi推出的最新多模态思考模型,具备强大的推理和多模态处理能力。模型在 short-CoT(短链思维)模式下,数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。在 long-CoT(长链思维)模式下,k1.5 的性能达到了OpenAlo1 正式版的水平,成为全球范围内首个达到这一水平的多模态模型。
k1.5 的设计和训练包含四大关键要素:长上下文扩展、改进的策略优化、简洁的框架和多模态能力。通过扩展上下文窗口至 128k 和部分展开技术,模型在推理深度和效率上显著提升。k1.5 通过 long2short 技术,将长链思维的优势迁移到短链思维模型中,进一步优化性能。
主要功能:
多模态推理能力:k1.5 能同时处理文本和视觉数据,具备联合推理能力,适用于数学、代码和视觉推理等领域。
短链和长链思维:在短链思维模式下,k1.5 的数学、代码、视觉多模态和通用能力大幅超越全球领先的模型(如GPT-4和 Claude 3.5),领先幅度荷达 550%。在长链思维模式下,其性能达到了 OpenAl o1 正式版的水平
出色的数学与代码能力:k1.5 在数学推理和编程任务中表现出色,尤其在 LaTeX 格式的数学公式输入上表现优异,
高效的训练和优化:通过长上下文扩展(上下文窗口扩展至 128k)和改进的策略优化,k1.5 实现了更高效的训练,展现出规划、反思和修正的推理特性。
深度推理能力:k1.5 擅长解决复杂的推理任务,如难解的数学问题、编程调试和工作难题,能帮助用户解锁更复杂的任务。
GitHub地址:https://github.com/MoonshotAI/kimi-k1.5
1月23日
H-Optimus-0:目前参数最大的开源病理学AI基础模型!
H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。型拥有11亿参数是在专有数据集上训练的,数据集包含从4000个临床实践的500000多张组织病理学切片中提取的数亿张图像。H-Optimus-0在多个关键诊断任务中实现了最先进的性能,能识别瘟细胞和检测肿瘤中的基因异常。
主要功能:
强大的特征提取:H-Optimus-0能从组织学图像中提取强大的特征,特征可以用于多种下游应用,例如突变预测
生存分析或组织分类。
高精度诊断:H-0ptimus-0在关键的诊断任务中实现了最先进的性能,包括识别组织类型、组织特征以及检测生物
标志物的存在或癌症类型的转移。
大规模数据集训练:模型在超过500,000张病理切片的庞大数据集上进行训练,数据集涵盖了来自不同身体区域的
人类组织,确保了模型的泛化能力。
开源可用性:H-Optimus-0是开源模型,研究人员可以用来加速新型数字病理模型的开发,促进研究人员、临床医
生和开发人员之间的合作。
Kokoro-TTS:一款轻量级文本转语音模型,支持多语言多语音风格生成!
Kokoro是一款轻量级、高性能的文本转语音(TTS)模型,由 hexgrad 团队开发并开源。其参数规模仅为 8200 万,却在语音合成领域表现出色,支持多种语言和音色,生成语音自然流畅,音质接近真人。
Kokoro-TTS 支持多种语音风格,包括耳语等特殊风格,能生成自然的语调和韵律,跨平台兼容,资源占用少。训练数据全部为许可/非版权音频数据和 IPA 音素标签,包括公共领域音频、Apache、MIT 等许可证下的音频,以及大型提供商的闭源 TTS 模型生成的合成音频。Kokoro-TTS目前支持中文、韩语、日语、法语、英语等多种语言,提供了 10 种不同的语音包,涵盖不同性别和语音特征。
主要功能:
自然语调与韵律:能生成自然流畅的语调和韵律,合成语音听起来更加接近真人发声,避免了传统 TTS 模型可能出
现的生硬、机械的语音效果。
多种语音风格:支持多种语音风格,包括耳语等特殊风格,用户可以根据不同的应用场景和需求选择合适的语音风
格,丰富语音表达的多样性。
语言支持:目前支持美国英语和英国英语,为英语使用者提供了便捷的文本转语音服务,满足不同地区用户对英语
语音合成的需求。
语音包选择:提供了 10 种不同的语音包,涵盖不同性别和语音特征,如 Adam、Michael(美式英语)、Bella、Sarah(英式英语)等,用户可以根据自己的偏好选择不同的语音包,实现个性化的语音合成。
实时处理:具备实时处理能力,能够快速将文本转换为语音,延迟极低,适合对实时性要求较高的应用场景,如在
线直播、实时翻译等。
GitHub地址:https://github.com/remsky/Kokoro-FastAPI
在线体验:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
1月22日
AI极速换脸!Roop-Unleashed:支持VR视频换脸、实时直播换脸!
Roop-Unleashed是一个无须训练模型的深度伪造工具,专为图像和视频的面部替换而设计。它通过简洁的浏览器界面提供用户友好且跨平台的使用体验,无论用户是业余爱好者还是专业人士,都能快速上手。它无需复杂的设置即可实现高效的处理和转换,使图像和视频的编辑变得更加轻松和便捷。
主要功能:
多面孔处理支持:用户可以一次性处理多个面部替换任务,极大提高工作效率。
批量处理选项:无需逐个处理文件,轻松应对大量图像或视频的批量处理。
智能面部检测:该工具能够自动识别目标面部,并允许按性别或其他自定义条件进行替换
AI增强与修复:内置的人工智能算法可以自动提升面部质量,或根据用户需求进行面部修复和放大。
实时预览和调整:替换效果在操作过程中随时可见,用户可以根据需要随时进行微调。
适用场景:
1.社交媒体内容创作:该工具为创作者提供了更高效的方式来制作有趣的短视频和个性化图像。
2.虚拟会议与直播:借助实时假摄像头功能,用户可以在虚拟环境中轻松加入互动元素,增加趣味性。
GitHub地址:https://github.com/C0untFloyd/roop-unleashed
在线体验:https://huggingface.co/spaces/basemnassar07/roop-unleashed
AI驱动的文本矢量图形生成技术,转化为有层次结构的矢量图形!
NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入,输出形状参数,再经可微染器生成像素输出。基于分数蒸馏采样优化网络权重,形成图形的隐式神经表示。还采用基于随机丢弃的正则化技术,使生成图形语义清晰、有序可编辑。NeuralSvG支持推理时控制,可动态调整图形属性,如背景色等。在生成结构化矢量图形方面表现优异,为图形生成带来新思路。
主要功能:
文本生成矢量图形:能根据文本提示生成具有有序和可编辑形状的矢量图形,解决了传统方法生成的矢量图形结构复杂、难以二次编辑的问题。
支持动态条件:支持用户在生成过程中根据需要动态调整生成的SVG,如背景颜色、宽高比等,实现多颜色方案的快速切换和适应不同设计布局需求。
生成草图:可以生成具有不同笔画数量的草图,且无需对框架进行任何修改。
层次结构生成:通过引入基于dropout的正则化技术,鼓励生成的SVG具有分层结构,使每个形状在整体场景中具有独立的意义,便于后期编辑。
GitHub地址:https://github.com/SagiPolaczek/NeuralSVG
项目官网:https://sagipolaczek.github.io/NeuralSVG/?utm\_source=ai-bot.cn
1月21日
SmartEraser:中科大开源的图像对象移除技术!
SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区域引导”(Masked-Region Guidance)范式,与传统的“掩码和修复"(mask-and-inpaint)方法不同,SmartEraser保留掩码区域作为移除过程的引导,能更准确地识别和移除目标对象,同时有效保留周围上下文。SmartEraser基于Syn4Removal大规模高质量数据集进行训练,引入掩码增强技术和基于CLIP的视觉引导,SmartEraser在对象移除任务中展现出卓越的性能。
功能作用:
目标对象识别与移除:准确识别用户基于掩码指定的目标对象,将其从图像中移除
上下文保留:在移除目标对象的同时,保留周围环境的细节和结构,确保图像的视觉连贯性,。
高质量图像生成:生成的图像在视觉上与原始图像保持一致,没有明显的失真或 artifacts。
鲁棒性:对用户提供的不同形状和大小的码具有较高的鲁棒性,适应各种输入条件。
适用于复杂场景:在复杂的场景中,如包含多个对象和复杂背景的图像中,有效地移除目标对象。
技术论文:https://arxiv.org/pdf/2501.08279
GitHub地址:https://github.com/longtaojiang/SmartEraser
PSHuman:开源的3D人像重建技术,仅需一张照片,即可生成3D人像模型!
PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态。核心优势在于能同时建模全局形状和局部细节的联合概率分布,避免几何失真,还能保持不同视图下身体形状的一致性。PSHuman通过显式人体雕刻技术,高效恢复逼真的纹理人体网格。在多个数据集上表现出色,具有出色的几何细节、纹理保真度和泛化能力。
主要功能:
单图像3D人像重建:用户只需提供一张人像照片,PSHuman能快速生成详细的3D模型,大大提高了3D人体建模的
效率。
多视图扩散技术:基于先进的多视角扩散模型,从单一视角的照片中生成多个角度的人体图像,确保每个角度都尽可能真实地反映原始对象,解决了单视角图像重建的难题。
高保真度面部细节:通过跨尺度扩散方法,同时兼顾整体身体形状和局部面部特征的细节,避免了几何变形的问题,最终生成的3D模型在面部特征上表现出色,具有高度的真实感和细腻度。
结合SMPL-X人体模型:结合了SMPL-X参数化人体模型,能表示不同姿态和体型的人体,生成更加自然和真实的人
体动作和形态,进一步提升了3D模型的逼真度。
背景移除:支持使用Clipdrop或rembg工具移除人像照片的背景,简化后续处理流程
GitHub地址:https://github.com/pengHTYX/PSHuman
媲美OpenAl-o1!DeepSeek R1:开源的推理模型,基于纯强化学习训练!
DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数学竞赛中,其 pass@1分数从 15.6% 提升至71.0%,接近 OpenAl-o1-0912 的水平。模型在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。
主要功能:
强大的推理能力:通过大规模强化学习,DeepSeek R1-Zero 在数学、代码和自然语言推理等任务中表现出色,在AIME 2024 数学竞賽中,Pass@1分数从最初的 15.6% 提升至 71.0%,接近 OpenAl-o1-0912 的水平。
纯强化学习驱动:模型是首个完全通过强化学习训练的推理模型,证明了无需监督微调数据也能实现高效的推理力。
自我进化能力:在训练过程中,模型展现出反思、重新评估推理步等复杂行为,是通过强化学习自然涌现的。
开源与社区支持:DeepSeek R1-Zero 的模型权重已开源,遭循 MIT License,支持用户通过蒸馏技术训练其他模
型。
蒸馏技术:基于 DeepSeek R1-Zero 蒸馏出的多个小模型(如 7B、32B、70B)在推理任务中表现出色,性能接近
甚至超过一些闭源模型。
多语言支持与优化:虽然模型在多语言任务中表现出色,但存在语言混杂问题。通过引入语言一致性奖励,可以有
效改善这一问题。
高效训练与应用:DeepSeek R1-Zero 的训练方法为未来推理模型的发展提供了新的思路,同时其开源策略也为研
究社区提供了强大的支持。
GitHub地址:https://github.com/deepseek-ai/DeepSeek-R1
1月20日
支持将真人视频生成实时动画的方法:RAIN!
RAIN(Real-time Animation Of Infinite Video Stream)是创新的实时动画解決方案,旨在基于消费级硬件,如单个RTX 4090 GPU,实现无限视频流的实时动画化。核心在于高效地计算不同噪声水平和长时间间隔的帧标记注意力,同时去噪大量帧标记,以极低的延迟生成视频帧,保持视频流的长期连续性和一致性。
RAIN通过引入少量额外的一维注意力块,对Stable Diffusion模型进行微调,能在几轮训练后,实时低延迟地生成高质量、一致性的无限长视频流。在实时动画领域具有重大意义,为在线互动、虚拟角色生成等应用场景提供了强大的技术支持。
主要功能:
实时动画生成:能在消费级GPU上,如单个RTX4090,以低延迟实时生成动画,突破了传统方法在生成速度和延迟上的限制,使动画内容能即时呈现,适用于需要实时互动的场景,如直播、在线会议等。
无限视频流处理:打破了视频长度的限制,可以持续生成无限长的视频流,满足长时间直播或连续动画展示的需求,为创造连续、流畅的视觉体验提供了可能。
高质量与一致性保障:通过在不同噪声水平和长时间间隔内高效计算帧标记注意力,同时去噪大量帧标记,确保成的视频在视觉质是上保持高标准,同时维持长期的连续性和一致性,避免了画面的突兀变化和质量下降。
模型微调与适配:对Stable Difusion模型进行针对性微调,快速适应实时动画生成任务,仅需少量训练周期就能达到理想的生成效果,降低了模型训练成本和时间投入。
GitHub地址:https://github.com/Pscgylotti/RAIN
项目官网:https://pscgylotti.github.io/pages/RAIN/?utm\_source=ai-bot.cn
3.3Kstar!AI实时语音转文本库,自动检测说话的开始与结束!
RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与结束,通过WebRTCVAD和SileroVAD进行精准检测。同时支持唤醒词激活,借助PorcupineOpenWakeWord检测特定唤醒词来启动。核心转录功能由Faster Whisper实现,可将语音实时转换为文本,适用于语音助手、实时字幕等场景,为开发者提供了一种高效、易用的语音转文本解决方案,助力打造流畅的语音交互体验。
技术原理:
初步检测:使用WebRTCVAD进行初步的语音活动检测,能快速识别音频流中的语音段和非语音段,确定何时开始和停止录音。
准确验证:使用SileroVAD进行更准确的验证。SileroVAD基于深度学习模型,能更精确地区分语音与非语音时段
提高语音活动检测的准确性。
转录模型:采用Faster_Whisper进行即时转录。Faster_Whisper是一个高效的语音转文本模型,支持GPU加速,能大
幅提升转录速度,确保语音内容能实时转换为文本。
唤醒词检测:支持使用Porcupine或OpenWakeWord进行唤醒词检测。能识别特定的唤醒词,激活系统,使设备能
在待机状态下被唤醒并开始工作。
GitHub地址:https://github.com/KoljaB/RealtimeSTT
1月16日
MangaNinja:支持基于参考图像给线稿上色的方法!
MangaNinja是基于参考图像的线稿上色方法,具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案,提升了上色的准确性与图像质量。能应对多样化的上色挑战,包括极端姿势和多参考图像的协调,实现高质量的互动上色体验。
主要功能:
基于参考的线条艺术上色:通过参考图像为线稿提供上色指导,实现精确的颜色匹配。
精确的角色细节转录:补丁重排模块促进参考彩色图像和目标线稿之间的对应学习,增强模型的自动匹配能力,。
细粒度的交互控制:点驱动控制方案使得用户可以对颜色进行精细匹配,尤其在处理复杂场景时表现出色。
处理复杂场景:能有效解决角色姿势变化大或细节缺失等问题,当涉及多个对象时,点引导能有效防止颜色混淆
多参考图像的和谐上色:用户可以通过选择多个参考图像的特定区域来进行多参考图像的上色,为线稿的各个元素提供指导,有效解决相似视觉元素之间的冲突。
GitHub地址:https://github.com/ali-vilab/MangaNinjia
媲美GPT-4o!面壁智能开源的多模态大模型:MiniCPM-o 2.6!
MiniCPM-o 2.6 是MiniCP-o 系列最新、性能最佳的多模态大模型,具有8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表现出色,达到与 GPT-40 相当的性能水平。模型支持实时双语语音识别,超越了 GPT-40 实时识别的表现,支持 30 多种语言。MiniCPM-o 2.6 基于先进的 token 密度技术,处理 180 万像素图像仅产生 640 个 tokens,显著提高推理速度和效率。MiniCPM-o 2.6支持在 iPad 等端侧设备上高效运行多模态直播。
主要功能:
领先的视觉能力:支持处理任意长宽比的图像,像素数可达 180万(如 1344x1344)
出色的语音能力:支持可配置声音的中英双语实时对话。支持情感/语速/风格控制、端到端声音克隆、角色扮演等
进阶能力。
强大的多模态流式交互能力:接受连续的视频和音频流,并与用户进行实时语音交互。
高效的推理能力:仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。支持在 iPad 等终端设备上
高效进行多模态实时流式交互。
易于使用:支持多种推理方式,包括 llama.cpp、ollama、vLLM 等。提供int4 和 GGUF 格式的量化模型,降低内
存使用和加速推理。
GitHub地址:https://github.com/OpenBMB/MiniCPM-o
1月15日
蚂蚁集团开源的多图像一致性编辑方法:Edicho!
Edicho 是香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学推出的,基于扩散模型的图像编辑方法能在多图像间实现一致性编辑。Edicho用免训练的方法,无需额外训练即可应用。Edicho核心在于用显式图像对应关系指导编辑过程,基于注意力操作模块(Corr-Atention)和分类器自由引导(CFG)去噪策略,确保编辑在不同图像中保持一致性。Corr-Attention 借助显式对应关系增强自注意力机制,将源图像的特征有效转移到目标图像,Corr-CFG 基于修改 CFG 计算,结合预计算的对应关系,引导生成过程更接近期望的编辑,同时保持高图像质量。
技术原理:
显式图像对应性引导:基于显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。用预训练的对应性提取器(如 DIFT和 Dust3R)从输入图像中提取稳健的对应性,然后将预计算的显式对应性注入到扩散模型的去噪过程中,确保编辑的一致性。
注意力操作模块(Corr-Attention):增强注意力机制,基于图像之间的对应性引导特征传递。在自注意力模块中,根据显式对应性对查询特征进行变换,从源图像借用相关特征,形成新的查询矩阵,在去噪过程中实现编辑一致性。
优化的分类器自由引导(CFG)去噪策略(Corr-CFG):结合预计算的对应性,在编辑过程中保持高质量和一致性。修改 CFG 的计算方式,在对应关系的引导下操控 CFG 框架中的无条件分支,融合无条件嵌入特征,进一步增强一致性效果,同时保留预训练模型强大的生成先验的完整性。
GitHub地址:https://github.com/ant-research/edicho
VideoRefer:阿里达摩学院推出的视频对象感知与推理技术!
VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,让模型能在视频中对任何对象进行细粒度的感知和推理。
VideoRefer基于三个核心组件实现:VideoRefer-700K数据集,提供大规模、高质量的对象级视频指令数据;VideoRefer模型,配备多功能空间-时间对象编码器,支持单帧和多帧输入,实现对视频中任意对象的精确感知、推理和检索;VideoRefer-Bench基准,用在全面评估模型在视频指代任务中的性能,推动细粒度视频理解技术的发展。
功能作用:
细粒度视频对象理解:对视频中的任意对象进行精确的感知和理解,捕捉对象的空间位置、外观特征、运动状态等
细节信息。
复杂关系分析:分析视频中多个对象之间的复杂关系,如交互、相对位置变化等,理解对象之间的相互作用和影响。
推理与预测:基于对视频内容的理解,进行推理和预测,例如推断对象的未来行为或状态,预测事件的发展趋势等。
视频对象检索:根据用户指定的对象或条件,从视频中检索出相关的对象或场景片段,实现精准的视频内容检索。
多模态交互:支持与用户的多模态交互,如基于文本指令、语音提示或图像标记等方式与用户进行互动,理解用户
的需求并提供相应的视频理解结果。
GitHub地址:https://github.com/DAMO-NLP-SG/VideoRefer
项目官网:https://damo-nlp-sg.github.io/VideoRefer/?utm\_source=ai-bot.cn
字节开源的视频超清分辨率框架:STAR!
STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强视频的空间细节和时间建模能力。
STAR引入局部信息增强模块(LEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。STAR推出动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,提高恢复保真度。
主要功能:
现实世界视频超分辨率:将现实世界中的低分辨率视频提升为高分辨率,同时恢复视频中的细节,如清晰的面部特
征和准确的文字结构等。
增强空间细节:基于文本到视频(T2V)扩散模型的强大生成能力,生成具有丰富空间细节的视频,让视频内容更
加逼真和清晰。
保持时间一致性:在提升视频分辨率的过程中,有效保持视频帧之间的时间一致性,避免出现运动模糊或不连贯的
现象,让视频播放更加流畅自然。
减轻退化伪影:针对现实世界视频中存在的复杂退化问题,如噪声、模糊和压缩等,STAR能有效减轻退化引入的伪
影,提高视频的视觉质量。
GitHub地址:https://github.com/NJU-PCALab/STAR
技术论文:https://arxiv.org/pdf/2501.02976
1月14日
Perception-as-Control:阿里通义实验室推出的图像动画框架!
Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于UNet架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画,Perception-as-Control推出三阶段训练策略,平衡相机和物体运动控制,促进细粒度运动控制,在多种应用场景中展现出优越的性能。
主要功能:
细粒度协同运动控制:实现相机和物体运动的协同控制,支持用户用细粒度的方式控制动画中的各个元素。让用户
精确地调整场景中物体的运动及相机的视角变化。
多种运动相关视频合成任务:支持多种与运动相关的视频合成任务,包括基于图像的运动生成、基于视频的运动克
隆、运动转移和运动编辑。
运动生成:根据用户输入的参考图像和2D轨迹生成动画。
运动克隆:模仿源视频中的相机和物体运动。
运动转移:将源视频中的局部运动转移到参考图像中的不同位置和尺度的对象上。
运动编辑:用户提供分割掩码,编辑分割掩码内的运动。
3D感知运动表示:基于构建3D感知运动表示,将复杂的3D场景简化为关键对象部分(用单位球表示)和世界包
络,实现直观且一致的视觉变化。
GitHub地址:https://github.com/chen-yingjie/Perception-as-Control
Fellou Al 推出的开源 AI 代理开发框架:Eko!
Eko是Fellou Al推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计算机桌面环境和浏览器环境,提供统一且便捷的操作界面。Eko将自然语言指令转化为复杂的工作流程,具备高度的可干预性,支持开发者在执行过程中随时调整。Eko API设计简洁明了,文档齐全,易于上手,适合不同水平的开发者。
主要功能:
平台支持:Eko支持所有平台,包括传统桌面系统、移动设备等,无需担心兼容性问题。
工作流转换:Eko将简单的自然语言指令转化为复杂的工作流程,例如“查询今日股市行情并生成分析报告”
可干预性:在工作流执行过程中,开发者随时干预和调整,确保流程按预期进行。
开发效率:Eko的API设计简洁明了,文档齐全,易于上手,提供了大量预制组件和模板,缩短开发周期。
任务复杂度处理:Eko能处理高复杂度任务,如大规模数据处理、复杂业务逻辑和多系统集成
项目官网:https://eko.fellou.ai//?utm\_source=ai-bot.cn
GitHub地址:https://github.com/FellouAI/eko
1月13日
清华联合 Meta 等机构推出多概念图像生成方法:MultiBooth!
MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。
在多概念整合阶段,用区域定制化模块(RCM)根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。
主要功能:
多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示具有高度的对
齐性,确保图像内容与用户意图一致。
高效推理:在多概念生成过程中,推理成本较低,不会随着概念数量的增加而显著增加推理时间,让多概念图像生
成更加高效。
插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练
模型,提高模型的灵活性和可扩展性。
Github地址:https://github.com/chenyangzhu1/MultiBooth
Hallo3:复旦联合百度开源的高动态与真实感肖像动画生成框架!
Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。
Hallo3基于新的视频骨干网络设计身份参考网络确保视频序列中面部身份的一致性,研究了语音音频条件和运动帧机制,实现由语音音频驱动的连续视频生成。实验表明,Hallo3在生成具有多种方向的逼真肖像方面表现出色,能适应复杂姿势和动态场景,产生逼真且平滑的动画效果。
主要功能:
多视角动画生成:从不同的视角(如正面、侧面、overhead 或低角度)生成动画肖像,突破传统方法主要依赖正面视角的限制。
动态对象渲染:处理肖像周围动态对象的动画,如人物手持智能手机、麦克风或佩戴紧密贴合的物品,生成对象在视频序列中的真实运动。
沉浸式背景生成:生成具有动态效果的背景,如前景中的篝火或背景中的拥挤街道场景,增强视频的真实感和沉浸
感。
身份一致性保持:在整个视频序列中保持肖像的身份一致性,在长时间的动画中也能准确地识别和保持人物的面部
特征。
语音驱动的动画:基于语音音频驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画,让动画更加自
然和逼真。
技术论文:https://arxiv.org/pdf/2412.00733
GitHub地址:https://github.com/fudan-generative-vision/hallo3
SPAR3D :Stability Al等机构推出的单视图重建3D 网络模型!
SPAR3D是Stability Al和伊利诺伊大学香槟分校推出的,先进的单图生成3D模型方法,能从单张图像中高效重建出高质量的3D对象。SPAR3D基于两阶段设计,第一阶段用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。SPAR3D结合回归模型和生成模型的优势,能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。SPAR3D在多个数据集上表现出色,推理速度快,支持用户对生成网格的交互式编辑,为单视图3D重建任务提供一种实用且高效的解决方案。
主要功能:
单视图3D重建:从单张2D图像中重建出高质量的3D网格模型,适用于增强现实、电影制作、制造业等需要3D建模
的场景。
快速推理:具有高效的推理速度,每个物体的重建时间仅需0.7秒,适合实时应用需求。
支持用户编辑:生成的3D网格支持交互式编辑,用户基于修改点云调整未见表面的细节,如添加物体部件或改善局
部细节,满足个性化需求。
泛化能力强:不仅在标准数据集上表现优异,多图像和A|生成图像上实现准确的几何结构重建和良好的纹理效果
具有强大的泛化性能。
GitHub地址:https://github.com/Stability-AI/stable-point-aware-3d
1月10日
手机网页端数字人!MiniMates:一款轻量级AI数字人项目!
MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制功能,支持用户根据需求定制AI伙伴MiniMates拥有卓越的性能和灵活性,为用户提供强大的数字人驱动解决方案,适用于多种应用场景。
它的主要功能包括:
语音驱动:支持数字人根据语音指令进行相应的动作和表情反应。
表情驱动:数字人根据输入的表情信息进行面部表情的模拟。
实时性能:在普通电脑上实现实时的数字人动作和表情驱动,
个性化定制:用户根据需求定制数字人的外观和行为。
跨平台兼容性:在多种终端上运行,包括独立显卡、集成显卡,乃至CPU。
MiniMates的技术原理
oarse-to-fine的wrap network架构:MiniMates基于从粗到细的网络架构,取代传统的dense motion方法,实现
在CPU上的性能提升。
显式的UV map技术:用显式的UV map技术,MiniMates提高人像的精度,让数字人的表情和动作更加逼真。
单图驱动(one-shot):MiniMates支持单图驱动,用户只需要提供一张图片,算法生成对应的数字人模型。
跨平台推理框架:MiniMates不依赖于Python和CUDA,在多种推理框架下运行,包括PyTorch和Tensorflow等
性能优化:MiniMates在不同的设备和推理框架下展现出优异的fps(帧率)表现,特别是在高性能GPU上。
GitHub地址:https://github.com/kleinlee/MiniMates
Comfyul开源地址:https://github.com/AIFSH/MiniMates-ComfyUI
南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复!
SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,采用大尺寸(64x64)窗口和边界处的可变大小窗口,有效处理任意长度和分辨率的视频,克服传统方法在不同分辨率下的性能限制。
SeedVR结合因果视频变分自编码器(CWVAE)基于时间和空间压缩降低计算成本,同时保持高重建质量。基于大规模图像和视频联合训练及多阶段渐进式训练策略,SeedVR在多个视频修复基准测试中表现出色,尤其在感知质量方面,能生成具有真实感细节的修复视频,且速度优于现有方法。
主要功能:
视频修复:参eedVR能对低质量、受损的视频进行修复,恢复其细节和质量,适用于各种视频退化场景,如模糊、噪声等。
处理任意长度和分辨率的视频:不受视频长度和分辨率的限制,能有效修复长时间、高分辨率的视频,满足不同场
最的需求。
生成真实感细节:在修复过程中,生成具有真实感的细节,使修复后的视频在视觉上更加逼真和自然,
高效性能:参eedVR的处理速度较快,是现有基于扩散的视频修复方法的2倍以上,具有较好的实用性和效率。
项目官网:https://iceclear.github.io/projects/seedvr/
GitHub地址:https://github.com/SeedVR-CVPR25/SeedVR-CVPR25.github.io
全球首个大规模高质量机器人学习数据集+自动驾驶开源框架!
1.智元机器人开源全球首个百万真机数据集:AgiBot World
AgiBot World是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。涵盖了多样化的应用场景,包括工业制造、物流运输、家庭服务等方面。这样的数据集不仅为AI研究提供了丰富的素材,也为开发更智能、更准确的机器人打下了坚实的基础。
智元机器人创始人表示,开源这一数据集的主要目的是希望能在更大的范围内鼓励开发者及科研人员共同参与到机器人技术的创新中来,让更多人享受到AI技术带来的便利。这种开源思维不仅推动技术的快速演进,还能提升整个行业的道德标准与创新能力。
技术突破与特点
智元机器人在AgiBot World的数据采集和处理过程中,运用了先进的机器学习和深度学习算法,尤其是在数据生成和处理上,系统地应用了生成对抗网络(GAN)与变分自编码器(VAE)。这种双重技术的交互,不仅提高了数据的多样性与真实性,还显著提升了其在实际场景中的适用性。
例如,AgiBot World具备出色的自然语言处理(NLP)能力,使得机器人可以在多种场景下与人类进行流畅、自然的交流——这一点尤其在家庭服务及客户服务中显得尤为重要。借助这些前沿的技术,AgiBot World所生成的数据集几乎覆盖了日常生活中的每一个角落,在复杂环境中表现出了非凡的灵活性与实用性。
机器人GitHub地址:https://github.com/OpenDriveLab/Agibot-World
2.自动驾驶黑科技!开源框架OpenEMMA上线!
OpenEMMA是一个基于 MLLMs 的开源端到端框架。通过引入“思维链”(Chain-of-Thought)推理过程,OpenEMMA 相较于基线模型表现出显著提升。OpenEMMA是**《**Waymo 的端到端自动驾驶多模态模型 (EMMA)》的开源实现 ,为自动驾驶汽车的运动规划提供了端到端框架。同时,它在各种复杂的驾驶场景中表现出了高效性、适应性和稳定性,为自动驾驶提供了一种更高效、更可靠的解决方案。
它由 Google 开发的多模态大语言模型 Gemini 提供支持,它采用统一的端到端训练模型,直接从传感器数据生成自动驾驶车辆的未来轨迹。为了适应自动驾驶的需求,EMMA 专门进行了训练和微调,并充分利用 Gemini 广博的世界知识,更好地理解道路上的复杂场景。
OpenEMMA在低光夜间条件下的性能。虽然OpenEMMA在这种具有挑战性的环境中偶尔可能会错过某些物体的检测,但它成功识别并检测到了对安全导航至关重要的关键物体。此外,它准确理解自车正在向左车道转换,并生成了精准的轨迹规划以有效适应这一操作。
GitHub地址:https://github.com/taco-group/openemma
技术论文:https://arxiv.org/pdf/2412.15208
1月9日
用于修复生成图像中畸形人体部分的后处理框架!
RealisHuman 是创新的后处理框架,旨在细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部位作为参考,生成逼真的人体部位,以确保与原图像的一致性。其次,通过重新绘制周围区域,将修正后的人体部位无缝地整合回原始位置,确保平滑和真实的融合。RealisHuman 提高了生成图像中人体部位的真实性。框架还具有强大的泛化能力,能处理不同风格的图像,包括卡通和素描等。
生成逼真的人体部位:RealisHuman 使用原始的畸形部位作为参考,生成逼真的人体部位,如手和脸,确保生成的
部位在细节上与原始图像保持一致。
无缝集成修正部位:在生成逼真的部位后,RealisHuman 通过重新绘制周围区域,将修正后的人体部位无缝地集成
回原始图像中,确保平滑和真实的融合。
处理多种图像风格:有强大的泛化能力,能有效处理不同风格的图像,包括卡通和素描等
提高生成图像的真实性:通过上述两阶段的方法,RealisHuman 提高了生成图像中人体部位的真实性。
技术论文:https://arxiv.org/pdf/2409.03644
GitHub地址:https://github.com/Wangbenzhi/RealisHuman
Cosmos:英伟达推出的生成式世界基础模型!
Cosmos是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能(AI)系统的发展,特别是在自动驾驶和机器人领域。Cosmos能接受文本、图像或视频的提示,生成高度仿真的虚拟世界状态,为自动驾驶和机器人应用提供独特的视频输出。平台集成了生成式世界基础模型、高级标记器和加速视频处理管道,帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖。Cosmos还提供了安全防护机制,确保数据的安全与合规。开发者可以通过微调Cosmos模型来创建定制化的AI模型,满足特定的应用需求。
主要功能:
生成虚拟世界状态:Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态,适用于自动驾驶和机
器人应用。
生成式模型:平台基于生成式模型快速生成与真实世界场景相似的数据,帮助开发者训练和评估现有的Al模型,
高级标记器和数据处理:Cosmos集成了高级标记器和加速视频处理管道,生成的数据在后续的模型训练中发挥更
大的作用。
安全与合规:平台还提供了安全防护机制,确保数据的安全与合规。
开放模型许可:Cosmos将以开放模型许可的形式在Hugging Face和NVIDIA NGC目录中提供,支持开发者进行定制
化应用。
技术原理:
生成式世界基础模型(WFM):Cosmos使用先进的生成式模型技术,模型包括扩散模型和自回归Transformer模型,能生成与真实世界场景高度相似的合成数据。
高级标记器(Cosmos Tokenizer):该标记器使用复杂的编码器-解码器结构,结合3D因果卷积和注意力机制,高效地处理时空信息。能将图像和视频分解成高压缩率的高质量标记,为AI模型提供更高效的视觉数据。
加速视频处理管道(NeMo Curator):Cosmos集成了一个加速视频处理管道,能在短时间内处理大量视频数据。
GitHub地址:https://github.com/NVIDIA/Cosmos
HuggingFace模型库:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
1月8日
Inf-DiT:清华联合智谱 AI 推出的超高分辨率图像生成模型!
Inf-DiT 是清华大学、智谱A| 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2)降低到 O(N),有效解决传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 用扩散变换器(DiT)结构,能处理各种形状和分辨率的图像上采样任务。Inf-DiT设计多种技术增强图像的局部和全局一致性,如用全局图像嵌入和邻近低分辨率块的交叉注意力机制,进一步提升生成图像的质量和一致性。实验结果表明,Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。
主要功能:
超高分辨率图像生成:生成超高分辨率的图像,突破传统扩散模型在高分辨率图像生成中的内存限制,适用于需要
精细细节和丰富纹理的复杂设计、广告、海报和壁纸等实际应用场景。
灵活的图像上采样:处理各种形状和分辨率的图像上采样任务,为不同需求的图像质量提升提供强大的技术支持。
局部和全局一致性增强:设计多种技术,如全局图像嵌入和邻近低分辨率块的交叉注意力机制,有效增强生成图像
的局部和全局一致性,确保生成的图像在细节和整体结构上均符合预期。
零样本文本控制能力:具备零样本文本控制能力,根据给定的文本提示对生成的图像进行引导和调整,增加生成图
像的多样性和可控性。
GitHub地址:https://github.com/THUDM/Inf-DiT
技术论文:https://arxiv.org/pdf/2405.04312
7.4Kstar!Al 网页解析工具,一键将网页内容转为适配LLM的文本格式!
Jina Reader 是 Jina A 推出的开源工具,能将互联网上的 HTML 网页内容转换为适合大型语言模型(LLMs)处理的纯文本格式。用户只需在网址前添加特定前缀,即可快速提取网页的主要内容,并用结构化文本形式输出,去除不必要的 HTML 标签和脚本。工具支持多种内容格式,包括 Markdown、HTML、Text 等,具备流模式、JSON 模式和自动为图片生成描述的 Alt 生成模式,增强 LLMs 对网页内容的理解。
技术原理:
网页抓取与解析:用网络爬虫技术抓取网页内容。基于 HTML 解析器(如BeautifulSoup或类似的库)解析网页的
DOM树结构,提取出网页的文本内容。
内容清洗与结构化:清洗HTML标签、JavaScript代码和CSS样式,只保留纯文本内容。识别和提取网页中的标题
段落、链接、图片等结构化元素。
自然语言处理(NLP):对提取的文本进行自然语言处理,提高文本的质量,例如去除停用词、词干提取等。生成
图像的替代文本(alt text),基于视觉语言模型(VLM)为图片生成描述。
动态内容处理:对于单页应用程序(SPA)和动态加载的内容,用如Puppeteer这样的头less浏览器模拟用户交互
等待JavaScript执行完成,捕获最终的页面内容。
GitHub地址:https://github.com/jina-ai/reader
1月6日
字节联合中科大推出增强模型生成美学质量的适配器!
VMix是创新的即插即用美学适配器,旨在提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述,将细粒度的美学标签(如色彩、光线、构图等)作为额外条件引入生成过程。VMix 的核心在于其交叉注意力混合控制模块,模块能在不直接改变注意力图的情况下,通过值混合的方式将美学条件有效注入到扩散模型的去噪网络中。这种设计增强了生成图像在多个美学维度上的表现,保持了图像与文本提示的高度对齐,避免了因美学条件注入而导致的图文匹配度下降。VMix 的灵活性使其能够与现有的扩散模型和社区模块(如 LoRA、ControlNet 和 IPAdapter)无缝集成,无需重新训练即可显著提升图像生成的美学性能,推动了文本到图像生成领域在美学表现方面的进步。
VMix支持如下功能:
多源输入支持:VMix 支持多种输入源,包括摄像机、视频文件、NDI源、音频文件、DVD、图片、网页浏览器等。
用户可以根据需要灵活地组合不同的视频和音频内容。
高质量视频处理:支持标清、高清和 4K视频制作,能处理高质量的视频信号。VMix提供了多种视频效果和过渡效果,如交叉淡入淡出、3D 放大、幻灯片效果等,帮助用户创造出更具视觉冲击力的画面。
实时直播与录制:VMix 可以将制作的视频内容实时流媒体直播到各大平台,如 Facebook Live、YouTube、Twitch
等。同时,支持以多种格式实时录制到本地硬盘,方便后期编辑和存档。
音频处理:内置完整的音频混音器,支持多个音频源的混合、静音、自动混音等功能。用户可以轻松管理音频信
号,确保音视频同步和音质清晰。
虚拟场景与特效:支持虚拟场景的创建和使用,用户可以通过色度键技术实现绿幕抠图。VMix 提供了丰富的特效
和标题模板,帮助用户提升视频的视觉效果和专业感。
多视图与多输出:可以将多个输入组合成多视图输出,支持同时输出到多个设备和平台。VMix 能满足复杂的现场
制作需求,如多机位拍摄、多平台直播等场景。
GitHub地址:https://github.com/fenfenfenfan/VMix
项目官网:https://vmix-diffusion.github.io/VMix/?utm\_source=ai-bot.cn
TryOffAnyone:将模特穿着服装的图像还原成平铺商品图的AI 工具!
TnyOffAnyone是能将穿着服装的人物照片转换成平铺的服装展示图的AI工具。基于先进的Latent DiffusionModels技术,自动识别并提取照片中的服装区域,然后将其转换为专业平铺效果。对于电商平台来说非常有用,可以降低制作商品图片的成本,同时提供标准化的服装展示效果。TyOfAnyone的特点包括在线图片处理、智能服装识别、自动背景去除和图像优化等。
主要功能:
在线图片URL直接处理:支持直接对在线图片URL进行处理,无需下载图片即可进行服装提取和转换。
智能识别提取服装区域:能智能识别并提取图像中的服装区域,为后续的平铺效果生成提供精确的服装信息,
自动平铺效果生成:自动将穿着状态的服装转换为平铺效果,提供专业的服装展示图,
背景去除和图像优化:内置专业的背景去除和图像优化处理功能,以提升生成图像的质量,
VITON-HD数据集批量测试:支持VITON-HD数据集的批量测试功能,确保模型的有效性和准确性。
模型评估指标计算:提供详细的模型评估指标计算,帮助用户了解模型性能。
多种图像质量评估方法:集成了多种图像质量评估方法,如SSIM,LPIPS,FID,KID,以确保生成图像的质量。
自定义图像尺寸和处理参数:支持用户自定义图像尺寸和处理参数,以满足不同的需求。
预训练模型快速部署:提供预训练模型快速部署能力,方便用户快速使用。
GitHub地址:https://github.com/ixarchakos/try-off-anyone
1月3日
厦大和网易伏羲联合推出的统一故事可视化AI模型!
StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系,用Customization via Character Graph(CCG)和知识增强空间引导(KE-SG)技术,精确地注入角色语义,生成与文本叙述相匹配的图像序列。系统在保持角色身份和文本语义对齐方面表现出色,有效提升了故事可视化的准确性和生动性。
功能作用:
角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象
语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。
知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。
多角色互动:参toryeaver能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。
跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题,
技术原理:
Character Graph(CG):构建一个知识图谱CG,用对象节点(角色)、属性节点(与角色相关的属性)和事件(角
色间的关系)组成,共同定义故事场景的核心要素。
Customization via Character Graph(CCG):基于CCG,将CG中的结构化知识转化为增强的场景描述,提高角色
身份保持和事件语义对齐的一致性。
知识增强空间引导(KE-SG):引入知识编码器提取不同角色的特征,根据角色特征调整初始位置先验,修改错误
的交叉注意力图,确保角色知识准确地关注故事场景中的相应区域。
注意力机制修改:基于修改注意力图增强与角色相关的区域,减少与角色无关区域的关注度,提高多角色故事的视
觉质量。
统一框架:StoryWeaver提供统一的框架,能同时处理单角色和多角色的故事可视化任务。
GitHub地址:https://github.com/Aria-Zhangjl/StoryWeaver
8.2Kstar!Eliza:开源多功能AI Agent框架,快速搭建智能、高效的AI系统!
Eliza 是ai16z开源的多代理模拟框架,旨在创建、部署和管理自主 A| 代理。 以 TypeScript 作为编程语言开发,为构建智能代理提供了一个灵活、可扩展的平台,代理能在多个平台上与人类互动,同时保持一致的个性和知识。 Eliza 的核心功能包括支持同时部署和管理多个独特 AI个性的多代理架构;使用角色文件框架创建多样化代理的角色系统,通过先进的检索增强生成系统(RAG)提供长期记忆和可感知上下文的记忆管理功能。 Eliza 框架提供流畅的平台集成,可与 Discord、X和其他社交媒体平台实现可靠连接。
技术原理:
角色文件框架:通过角色文件框架,Eliza允许创建多样化的代理角色,定义每个代理的个性和行为模式。
检索增强生成系统(RAG):Eliza使用RAG来提供长期记忆和可感知上下文的记忆管理功能,使得A!代理能够记住
过去的交互和文档内容,从而在对话中提供更连贯和个性化的响应。
平台集成:框架提供流畅的平台集成,允许A!代理与社交媒体平台和API进行交互,实现自动化任务和响应
模块化架构:Eliza采用模块化设计,拥有广泛的动作系统、自定义客户端支持和全面的API,确保了跨应用的可扩
展性和适应性。
应用场景:
聊天机器人:Eliza可以作为聊天机器人,为用户提供客户支持、社区管理、个人助理等服务。
自主代理:在业务流程处理、自动化交易等领域,Eliza可以作为自主代理,执行复杂的任务和决策
业务流程处理:Eliza可以自动化和优化业务流程,提高效率和效果
视频游戏NPC:在游戏开发中,Eliza可以创建具有自然语言交流能力的NPC,提升游戏体验。
GitHub地址:https://github.com/elizaOS/eliza
PanoDreamer:单张图像生成连贯360°3D场景的新方法!
PanoDreamer是能够从单张图像生成连贯的360°3D场景的新方法。这种方法不同于现有技术,它将问题构建为单图像全景和深度估计的两个优化任务,并引入交替最小化策略来有效解决目标。PanoDreamer能生成全景图像及其相应的深度信息,确保整个360°场景的一致性,解决了现有最先进方法在循环回输入图像时可能出现的可见接缝问题。通过修复小的遮挡区域并将其投影到3D空间,可以重建场景。PanoDreamer在一致性和整体质量方面优于单图像360°场景重建的现有技术。
主要功能:
全景图像生成:PanoDreamer能从单张2D图像中创造出完整的360度3D场景,意味着只需一张照片,就能呈现出一
个逼真且连贯的空间视图。
深度信息生成:与全景图像生成同时进行的是深度信息的生成,对于将2D图像转换为3D场景至关重要。
一致性和完整性:PanoDreamer采用一次性生成的方法,确保了全景图的一致性和完整性,与分步拼接的传统方法
不同。
自然衔接:生成的360度场景过渡平滑,没有明显的接缝或突兀感,给观众以真实感。
优化任务:PanoDreamer将单图全景和深度估计形式化为两个优化任务,引入交替最小化策略来有效解决它们的目
标。
3D场景重建:一旦获得了连贯的全景图像及其对应的深度,就可以通过修补小遮挡区域并将其投影到三维空间中来
重建场景。
性能优越:PanoDreamer在单图360度场景重建方面在一致性和整体质量方面优于现有技术,
GitHub地址https://github.com/avinashpaliwal/PanoDreamer
1月2日
StereoCrafter:腾讯开源将任意2D视频转为立体3D视频的框架!
StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。StereoCrafter用预训练的稳定视频扩散模型作为基础,针对立体频修复任务进行微调,适应不同长度和分辨率的视频输入。StereoCrafter的开发,提升视频内容的沉浸感,为数字媒体的未来发展提供新的可能性。
技术原理:
深度估计:基于先进的深度估计模型(如DepthCrafter)从输入的单目视频中提取深度图。
视频splatting:基于深度图,将左视图视频变形为右视图,生成遮挡掩码,处理视频中的遮挡情况。
立体视频修复:用生成的遮挡掩码,基于立体视频修复技术填补变形后视频中的空缺区域,生成最终的右视图视
频。
数据处理流水线:构建高质量的数据集支持模型训练,确保生成结果的高保真度和一致性。