AI开源项目图文

2024年更新

12月31日

面向开发者自动化应用程序的多语言翻译 AI 工具！

Languine是AI驱动的翻译工具，能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者友好的设计，让翻译管理变得高效目一致。Languine 支持超过100种语言与多种文件格式兼容，集成版本控制系统。Lanquine支持开发者直接从命令行组织、预览和管理翻译文件，提高开发效率。

主要功能：

智能检测：自动识别代码库中的新增、修改或删除的翻译键，支持多种文件格式的精确解析和更新,

AI驱动翻译：基于A|模型快速生成100+种语言的准确翻译，确保翻译与原文的语调和意图保持一致,

提取翻译键：从代码库中提取翻译键并保存到源语言文件，

钩子支持：支持使用Biome或Prettier等工具格式化翻译内容，。

版本控制集成：与Git等版本控制系统集成，自动同步代码变更与翻译文件。

项目官网：https://languine.ai/?utm\_source=ai-bot.cn

GitHub地址：https://github.com/midday-ai/languine

AigcPanel: 开源的一站式AI视频数字人系统！

AigcPanel是一款开源且面向所有用户的一站式AI数字人制作系统，采用electron+vue3+typescript技术栈开发，支持Windows系统一键部署。系统设计以用户友好为核心，即使是技术基础薄弱的用户也能轻松掌握。

主要功能：

视频数字人合成：支持视频画面与声音的智能换口型匹配
语音克隆功能：可复制特定声音特征，实现个性化声音定制
语音合成系统：提供多样化的声音参数调节选项
本地模型管理：支持多模型导入和一键启动功能
模型运行监控：实时查看模型运行日志和状态
国际化支持：内置简体中文和英语双语界面
一键启动包：集成MuseTalk、cosyvoice等主流模型
个性化设置：支持系统参数自定义配置

AigcPanel的核心功能在于其强大的视频合成、声音合成以及声音克隆能力。用户可以轻松生成带有数字人的视频，并确保人物嘴型与声音完美同步。无论是为视频配音，还是为内容创作增加个性化元素，AigcPanel都能轻松胜任。特别值得一提的是，其声音克隆功能，能够复制和还原独特的声线，为用户带来前所未有的创作体验。

Github：https://github.com/modstart-lib/aigcpanel

官网：https://aigcpanel.com/

DeepSeek-V3首个版本上线并同步开源！超越Claude 3.5紧追o1！

DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版Al模型，为自研 MoE 模型，671B 参数，激活 37B，在 14.8T token 上进行了预训练。在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3.5 Sonnet V2等竞争对手。

DeepSeek V3采用了高达6850亿参数的混合专家(MoE)架构,包含256个专家，使用sigmoid路由方式，每次选取前8个专家参与计算，模型能更高效地处理复杂任务。

V3模型提升了响应速度和处理效率DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了3倍的提升，在处理多模态数据和长文本时表现突出。DeepSeek V3已经开源，可以在Hugging Face上查看。

通过算法和工程上的创新，DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS，相比 V2.5 模型实现了 3 倍的提升，为用户带来更加迅速流畅的使用体验。

DeepSeek V3的主要功能

自然语言查询处理：DeepSeek V3能理解和处理用户的自然语言查询，提供快速准确的回答。

代码生成能力：产品具备代码生成功能，可以帮助开发者快速生成代码片段，提高开发效率。

训练效率：支持 FP8 混合精度训练,提高训练速度,减少 GPU 内存使用。设计 DualPipe 算法，实现高效的流水线并行处理。优化跨节点 AIIl-to-AI 通信，充分利用 InfiniBand 和 NVLink 带宽。

性能评估：在多个标准和开放式基准测试中，DeepSeek-V3 的基础模型表现出色,尤其在代码和数学领域。聊天版本的 DeepSeek-V3 也超越了其他开源模型，并与领先的闭源模型性能相当。

成本效益：训练成本仅为 2.788M H800 GPU 小时，总成本为 5.576M 美元。

API和Web服务：DeepSeek提供API和Web服务，方便用户在不同场景下集成和使用

多语言处理能力：DeepSeek V3在多语言编程能力上取得了重大突破，在aider多语言编程测评中的表现超越了Claude3.5 Sonnet V2等竞争对手。

还有人感叹道，开源模型继续以惊人的速度追赶 SOTA，没有放缓的迹象。2025 年将成为 AI 最重要的一年。

GitHub地址：https://github.com/deepseek-ai/DeepSeek-V3

HuggingFace模型库:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

12月30日

阿里云通义开源迄今为止首个视觉推理模型：QVQ-72B！更睿智地看世界！

昨天，阿里云通义千问发布迄今为止首个开源多模态推理模型QVQ-72B-Preview。

**QVQ是一个会基于视觉进行深度思考推理的大模型，**不但能感知更准确的视觉内容，并据此作出更细致的分析推理，还会质疑自身假设，仔细审视其推理过程的每一步，经过深思熟虑后给出最后结论。

QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

将其在MMMU、MathVista、MathVision 、OlympiadBench 4 个数据集上评估 QVQ-72B-Preview，

QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三个专注于数学和科学问题的基准测试中，该模型表现出色，超越了此前的视觉理解模型「开源王者」Qwen2-VL，整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。

面对数学、物理、化学等各科学领域难题，QVQ能像人甚至科学家一样，给出思考过程和准确答案。

不仅如此，当给出真实照片时，QVQ也能合理推断出物体个数及高度等信息。

局限性：

QVQ-72B-Preview 是由 Qwen 团队开发的实验性研究模型，专注于增强视觉推理能力。尽管它的表现超出了预期，但仍有几个限制需要注意：

语言混合与切换：模型可能会意外地混合语言或在语言之间切换，从而影响响应的清晰度。
递归推理：模型可能会陷入循环逻辑模式，产生冗长的响应而无法得出结论。
安全和伦理考虑：模型需要增强安全措施，以确保可靠和安全的性能，用户在部署时应保持谨慎。
性能和基准限制：尽管模型在视觉推理方面有所改善，但它无法完全替代 Qwen2-VL-72B 的能力。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致幻觉。

目前，QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源，开发者可上手体验。

截至目前，通义千问Qwen的衍生模型数突破7.8万个，已成为全球规模最大的AI模型群。

项目Demo：https://qwenlm.github.io/zh/blog/qvq-72b-preview/

GitHub地址：https://github.com/QwenLM/Qwen2-VL

HuggingFace：https://huggingface.co/spaces/Qwen/QVQ-72B-preview

4.6Kstar！阿里通义开源的 Agent 应用开发框架:Qwen-Agent！

Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架，支持开发者用Qwen模型的指令遵循工具使用、规划和记忆能力构建智能代理应用。Qwen-Agent支持函数调用、代码解释器和RAG(检索增强生成)等功能，能处理从8K到100万tokens的文档,超越传统长上下文模型。Qwen-Agent提供大模型和工具的原子组件，及智能体的高级抽象组件，让开发者能快速开发和部署复杂的AI代理应用。

技术原理：

大语言模型(LLM)：基于大型预训练语言模型，如Qwen，处理复杂的语言任务

工具集成：集成各种工具，包括AP1、脚本或外部程序，智能体。

智能代理架构：用智能代理架构，智能体能继承自 Agent 类，实现具体的应用逻辑。

RAG算法：用RAG算法处理长文档，将文档分割成小块，保留最相关的部分，提升上下文处理能力。

分层复杂性：增强型信息检索生成(RAG):用RAG算法将上下文分成小块，仅保留最相关的内容。

逐块阅读：检查每个块的相关性，保留最相关的内容生成答案。

逐步推理：用多跳推理回答复杂问题，采用工具调用代理解决复杂查询。

GitHub地址：https://github.com/QwenLM/Qwen-Agent

项目官网：https://pypi.org/project/qwen-agent/?utm\_source=ai-bot.cn

NotebookLM平替！开源的AI笔记工具，自动将多格式笔记转换成博客！

Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记，并与内容互动。0pen Notebook支持多笔记本、多模型,包括Open Al、Anthropic等,能处理多种文件格式，提供播客生成器、集成搜索引擎和细粒度上下文管理等功能。Open Notebook鼓励社区反馈和贡献，共同构建一个强大的研究和笔记工具。

多笔记本支持：支持用户在多个笔记本中组织和管理研究资料。

多模型支持：集成多种AI模型，如Open Al、Anthropic、Gemini等，适应不同的需求。

播客生成器：将笔记自动转换成播客格式，支持多种语言。

内容集成：支持链接、PDF、EPUB、Office文件、TXT、Markdown文件、视频和音频等多种格式

AI驱动笔记：用户自行撰写笔记，或用AI辅助生成笔记和洞见。

集成搜索：内置全文和向量搜索引擎，提高信息检索效率。

应用场景：

学术研究：学者和研究人员管理文献、生成研究笔记和撰写学术论文。

教育：教师和学生整理课堂笔记、学习资料和进行项目研究。

企业知识管理：企业可以用来收集和分析行业报告，生成内部知识库和市场分析

个人知识管理：个人用户于整理个人阅读笔记、生活记录和学习资料。

内容创作：作家和内容创作者激发创意，写文章和博客。

GitHub地址：https://github.com/lfnovo/open-notebook

12月27日

Al浏览器助手!Browser Use:自动执行网页中的交互任务!

Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。Browser Use支持开发者自定义动作,如保存文件、推送到数据库等。Browser Use支持多种主流的大型语言模型(LLM)，包括GPT-4和Claude,且能并行运行多个A!代理，具备自我修正功能，提高任务执行的准确性和效率。

功能作用：

网页浏览与操作：AI代理能像人类用户一样浏览网页和执行操作

多标签页管理：支持同时管理多个浏览器标签页，提高任务处理效率。

视觉识别与内容提取：识别网页视觉元素并提取HTML内容。

操作记录与重复执行：记录AI在浏览器中执行的操作，并能重复这些操作

自定义动作支持：支持开发者定义和执行自定义动作，例如保存数据到文件或推送到数据库。

主流LLM模型支持：兼容多种大型语言模型(LLM)，如GPT-4、Claude、Llama等。

GitHub开源地址：https://github.com/browser-use/browser-use

微软开源最强3D生成模型！TRELLIS：一键图像转3D！

TRELLIS模型采用了专为SLAT设计的矫正流变换器（Rectified Flow Transformers），仅需输入一张图片，它就能自动帮你生成3D模型。这与之前分享的TripoSR项目类似，但是精度和贴图细节比TripoSR要高很多。并在一个包含50万个多样化3D对象的大型数据集上进行了训练，参数量高达20亿。最终生成的结果可以通过文本或图片作为条件进行引导，在质量上远超现有方法，包括同规模的最新模型。此外，TRELLIS方法支持灵活选择输出格式，还提供了局部3D编辑能力，这是之前的模型无法实现的。

核心亮点是用一个统一的结构化潜变量（SLAT）表示法，可以支持将3D数据解码为多种输出格式，比如光场（Radiance Fields）、3D高斯分布以及网格（meshes）。这一切得益于将稀疏的3D网格与来自强大视觉基础模型的密集多视角视觉特征结合在一起。这种方法能够同时捕捉3D对象的几何结构（形状）和纹理细节（外观），而且在解码阶段非常灵活。

主要功能：

文本生成 3D 资源：所有文本提示均由 GPT-4 生成。

图像生成3D 资源：图像提示由 DALL-E 3 生成或从 SA-1B 中提取。

资产素材编辑：文RELLIS 可以生成与给定文本提示一致的给定 3D 资源的变体。

局部编辑：文RELLIS 可以根据给定的文本或图像提示操作给定 3D 资产的目标局部区域。

GitHub地址：https://github.com/Microsoft/TRELLIS

技术论文：https://arxiv.org/abs/2412.01506

在线体验：https://huggingface.co/spaces/JeffreyXiang/TRELLIS

开源 AI 办公工具！Univer：支持Word、Excel等文档处理全栈解决方案！

Univer是开源的全栈框架，支持创建和编辑电子表格、文档及幻灯片,为用户提供统一旦强大的办公解决方案。Univer能在浏览器和Node,js环境中运行，易于集成到各种应用中。Univer跨平台兼容性、强大的功能(包括公式计算、条件格式、数据验证等)、高度可扩展和可定制化的特点Univer-开源的办公工具及优异的性能表现，为用户提供现代化的办公工具。Univer支持多语言，适合个人和企业用户，提高工作效率。

多种类文档支持：支持电子表格和富文本文档。

多端同构：支持在浏览器和Nodejs环境中运行，实现跨平台操作。

易于集成：能无缝集成到各种应用程序中。

功能强大：包括公式计算、条件格式、数据验证、筛选、协同编辑、打印和导入导出等功能。

高度可扩展：采用插件化架构，方便用户根据业务需求扩展功能。

应用场景：

企业办公自动化：企业创建、编辑和共享电子表格、文档和幻灯片，提高工作效率和团队协作。

数据分析与报告：数据分析人员进行复杂的数据计算、分析和报告生成，特别是在金融、销售和市场研究领域。

教育与学术：教师和学生创建教学材料、课程作业和研究论文,同时支持协同编辑，便于团队合作。

项目管理：项目经理和团队成员规划项目进度、跟踪任务和共享项目文档。

客户关系管理(CRM)：企业可以将Univer集成到CRM系统中，用于客户数据的管理和分析。

GitHub地址：https://github.com/dream-num/univer

12月26日

新加坡国立大学推出的线性注意力机制，生成8K图像时提速6.3倍！

CLEAR是新加坡国立大学推出新型线性注意力机制，能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内，CLEAR实现了对图像分辨率的线性复杂度，降低了计算成本。实验表明，CLEAR在10K次迭代微调后，能在保持与原始模型相似性能的同时，减少99.5%的注意力计算，并在生成8K图像时提速6.3倍。CLEAR支持跨模型和插件的零样本泛化,及多GPU并行推理，增强模型的适用性和扩展性。

主要功能：

线性复杂度：通过局部注意力机制将预训练DiTs的复杂度从二次降低到线性，适用于高分辨率图像生成。

效率提升：在生成高分辨率图像时，显著减少计算量和时间延迟，加速图像生成过程。

知识转移：通过少量的微调，能有效地从预训练模型转移知识到学生模型，保持生成质量

跨分辨率泛化：CLEAR展现出良好的跨分辨率泛化能力，能处理不同尺寸的图像生成任务

跨模型/插件泛化：CLEAR训练得到的注意力层能零样本泛化到其他模型和插件，无需额外适配

多GPU并行推理：CLEAR支持多GPU并行推理，优化大规模图像生成的效率和扩展性。

GitHub地址：https://github.com/Huage001/CLEAR

技术论文：https://arxiv.org/pdf/2412.16112

DisPose:北大等多所高校推出的增强人物图像控制动画质量的技术!

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的，提高人物图像动画质量的控制技术，基于从骨骼姿态和参考图像中提取有效的控制信号,无需额外的密集输入。DisPose将姿态控制分解为运动场引导和关键点对应，生成密集运动场以提供区域级引导，同时保持对不同体型的泛化能力。DisPose包括一个即插即用的混合ControlNet,能改善现有模型生成视频的质量和一致性。

主要功能：

运动场引导：从骨骼姿态生成密集运动场，提供区域级的密集引导，增强视频生成中的动作一致性。

关键点对应：提取与参考图像中姿态关键点对应的扩散特征,将扩散特征转移到目标姿态，保持身份信息的一致

性。

即插即用模块：作为插件模块，支持无缝集成到现有的人物图像动画模型中，无需修改现有模型参数,

质量与一致性提升：混合ControlNet改善生成视频的质量和外观一致性。

无需额外密集输入：在不依赖于额外密集输入(如深度图)的情况下工作，减少对参考角色和驱动视频之间身体形

状差异的敏感性。

GitHub地址：https://github.com/lihxxx/DisPose

项目官网：https://lihxxx.github.io/DisPose/?utm\_source=ai-bot.cn

基于 Gemini 2.0的英语口语练习助手实时发音纠正和建议！

Gemini Teacher 是一个基于 Gemini 2.0 Flash 的英语口语练习助手，用于实时语音识别和发音纠正

通过 Google Gemini AI 提供的语音识别能力，捕捉用户的语音输入并将其转化为文本。
使用 AI 技术分析用户的语音输入，比较用户的发音与标准发音之间的差异。
提供详细的语音反馈，包括音节、语调、语速等方面的评估。
提出发音改进建议，帮助用户逐步提升口语准确性。
精确识别多种英语口音，适合不同语言背景的学习者。

谁适合用？

刚学英语的小白：教你发准每个单词的音。
想流利说英语的人：通过模拟各种场景对话提升表达能力。
准备考试的学生：比如托福、雅思的口语专项训练。
想模仿母语者的人：学他们的语调、连读和表达方式。

GitHub：https://github.com/nishuzumi/gemini-teacher

12月25日

微软开源的金融市场预测工具：MarS ！能够实现逼真的市场模拟！

MarS（Market Simulation）是微软研究院开发的一款金融市场模拟引擎，基于一种生成式模型——大型市场模型（Large Market Model, LMM）。

它通过基于真实订单级别的历史金融市场数据训练，可以生成逼真、可控且具有交互性的市场订单序列，帮助研究人员和从业者在虚拟环境中模拟和测试金融市场行为。

MarS可用于多种下游应用，包括**市场趋势预测、异常检测系统、市场影响分析以及强化学习环境等。**例如，在市场趋势预测中，MarS的模拟显著优于传统的直接预测模型，体现了其对市场动态的深刻理解。

MarS 的主要功能

逼真的市场模拟：MarS能够生成与真实市场相似的订单序列，帮助用户进行市场趋势预测和异常检测。
可控的订单生成：用户可以通过注入特定的订单或描述目标场景，控制模拟过程，以分析特定条件下的市场行为。
交互式平台：提供一个交互式环境，用户可以在其中测试不同的交易策略，观察其市场影响，并训练强化学习代理。

项目地址：https://mars-lmm.github.io/

GitHub：https://github.com/microsoft/MarS

论文：https://arxiv.org/pdf/2409.07486

Al图像标注工具，支持图像和视频多样化标注样式！

X-AnyLabeling是集成多种深度学习算法的图像标注软件，专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式，适配多种A|训练场景，提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出，具备跨平台兼容性，支持CPU和GPU推理。新版本X-AnyLabeling v2.5.0特别强化小目标筛查功能，引入基于视觉-文本提示的交互式检测与分割标注算法，适用于学术界和工业界的多种视觉任务，是图像标注领域的强大工具。

主要功能：

多样化标注样式：支持矩形框、多边形、旋转框、点、线段、折线段和圆形等多种标注样式,适于目标检测、图像

分割等不同场景。

图像级与对象级标签分类：适于图像分类、图像描述和图像标签等子任务。

多格式数据转换：支持YOLO、OpenMMLab、PaddlePaddle等深度学习框架的数据格式导入导出。

跨平台与多硬件支持：在Windows、Linux、MacOS操作系统上运行，支持CPU和GPU推理

目标筛查功能：提供循环遍历子图的筛查功能，提高小目标标注的质量和效率。

基于视觉-文本提示的交互式检测和分割标注：新算法Open Vision,融合Visual-Text Grounding和Segment

Anything的优势。

GitHub地址：https://github.com/CVHub520/X-AnyLabeling

Genesis Project 震撼发布!颠覆性的生成式物理引擎！

一款颠覆性的生成式物理引擎——Genesis Project，已正式揭开神秘面纱！这款引擎以真实物理为驱动，能够生成栩栩如生的4D动态世界，专为通用机器人与物理AI应用量身打造！

经过长达24个月的精心打磨，汇聚了20多个研究实验室的顶尖智慧，Genesis Project 终于横空出世。这是一场科技与创新的盛宴，是无数科研人员心血的结晶。

其物理引擎采用纯Python开发，模拟速度比现有GPU加速引擎（如Isaac Gym、MJX）快10-80倍，使用单张RTX 4090显卡模拟 Frana 机械臂时，仅需26秒就能完成可以转移到真实世界的机器人运动策略训练。甚至比实时快约43万倍。这一突破性的成果，将极大地缩短研发周期，降低研发成本，为机器人领域的发展注入强劲动力。

该项目可以自动生成各种环境、机器人任务、奖励函数和交互式3D场景，从而推动机器人和物理AI领域的全面发展。未来，Genesis Project有望在游戏开发、虚拟现实、工业自动化等领域发挥重要作用。

Genesis Project 秉持着开放、共享的精神，将所有代码完全开源，供全球科研人员自由使用、修改和扩展。

GitHub开源地址：https://github.com/Genesis-Embodied-AI/Genesis

12月24日

开源的漫画图片文字翻译工具，多语言翻译无缝嵌入原图！

Manga lmage Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。MangaImage Translator基于OCR技术识别文本,结合机器翻译将文字转换成目标语言。工具支持多种语言，能将翻译后的文本无缝嵌入原图,保持漫画风格。Manga lmage Translator提供批量处理和在线/离线翻译功能，适用于漫画爱好者和需要翻译图像中文字的用户。

文本识别与翻译:自动识别漫画图片中的文字，翻译成用户选择的目标语言。

多语言支持:主要设计用于翻译日文，同时支持中文、英文和韩文。

图像合成:将翻译后的文本无缝合成回原图，保持漫画的原始风格和布局

批量处理:支持多张图片的批量处理，提高翻译效率。

在线与离线翻译:提供在线和离线翻译选项，增加使用的灵活性。

高级配置:用户根据需要调整翻译、染、颜色化等设置。

在线体验：https://cotrans.touhou.ai//

GitHub地址：https://github.com/zyddnys/manga-image-translator

21.9Kstar！微软开源的多功能、多格式文档转Markdown工具！

MarkltDown是微软开源的多功能文档转换工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取，适用于内容索引数据挖掘、文档处理等场景,极大地简化文件处理流程，提升工作效率。MarkltDown以开源免费、功能全面和开发者友好的特点，成为文档智能转换的利器。

主要功能：

多格式文档转换：支持将PDF、0ffice文档(Word、Excel、PowerPoint)、图片、音频等多种文件格式自动转换为

Markdown格式。

元数据提取：从图片中提取EXIF信息、从音频文件中提取元数据。

OCR文字识别：对图片和PDF文件进行光学字符识别(OCR)，将图像中的文本内容转换为可编辑的文本格式。

语音转文字：支持从音频文件中提取语音内容并转换成文字，便于内容存档和分析。

简易API：提供简单的API接口,开发者轻松地在Python项目中集成和使用MarkltDown，进行文档转换。

GitHub地址：https://github.com/microsoft/markitdown

李飞飞团队「空间智能」模型开源平替！智源研究院推出3D生成模型See3D！

See3D是一个视觉条件多视角扩散模型，旨在通过大规模互联网视频进行开放世界3D创建。该模型通过观察视频数据中的视觉内容来获取3D知识，利用自动化数据筛选管道过滤多视角不一致和观察不足的视频，构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D。See3D无需显式3D几何或相机姿态注释，通过引入创新的视觉条件和基于变形的3D生成框架，实现了高保真度的3D生成。

不同于传统依赖相机参数（pose-condition）的3D生成模型，See3D采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。

这一方法不依赖于昂贵的3D或相机标注，能够高效地从多样化、易获取的互联网视频中学习3D先验。

See3D不仅支持零样本和开放世界的3D生成，还无需微调即可执行3D编辑、表面重建等任务，展现出在多种3D创作应用中的广泛适用性。

See3D 学到的3D“先验知识”可以用在很多3D创作场景，比如从单张图片生成3D模型、用少量视角重建3D结构，以及在开放世界中对3D内容进行编辑。它还能在物体和场景层面上，支持沿着复杂相机轨迹生成长时间的连续视角，让画面动起来更自然、更灵活！

经过实验和对比，See3D 在单视角和稀疏视角重建任务中表现出色，不仅能在零样本（zero-shot）和开放世界生成方面脱颖而出，还大幅超越了依赖昂贵3D数据集训练的模型。

项目官网：https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

开源地址：https://github.com/baaivision/See3D

12月23日

SmartMore联合多所高校推出的高效多模态大型语言模型！

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM)，专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器减少训练成本和数据需求。lyra构建大规模的多模态数据集,包括长语音样本，处理复杂的长语音输入实现强大的全模态认知能力。在多种模态理解和推理任务中，Lyra达到最先进的性能，同时在计算资源和训练数据的使用上更为高效。

主要功能：

多模态理解与推理:Lyra能理解和处理图像、视频、音频和文本等多种模态的数据，执行复杂的理解和推理任务

语音中心能力:模型特别强化对语音的理解，包括长语音的识别和处理，在语音交互方面表现出色。

高效处理:Lyra在训练和推理时更加高效，用更少的数据和计算资源，适合实时和长上下文的多模态应用。

流式生成:支持同时生成文本和语音输出，在对话和交互中实时响应，

跨模态交互:基于潜在的多模态正则化器和提取器,加强不同模态之间的信息交豆，提升模型性能。

GitHub地址：https://github.com/dvlab-research/Lyra

项目官网：https://lyra-omni.github.io/?utm\_source=ai-bot.cn

Leffa ： Meta AI开源的图像生成框架，精确控制人物的外观和姿势！

Leffa( Learming Flow Fields in Attention)是 Meta Al推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基于正则化损失函数，指导模型在训练时让目标查询聚焦于参考图像中的正确区域，减少细节失真，提升图像质量。Leffa不增加额外参数和推理成本，且适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

外观控制(虚拟试穿)：根据参考图像(如服装图片)生成穿着该服装的人物图像，保持人物原有特征不变。

姿势控制(姿势转移)：将一个人物的姿势从一个图像转移到另一个图像，保持人物的外观细节。

细节保留：减少生成图像中的细节失真，如纹理、文字和标志等。

质量维持：在控制细节的同时，保持生成图像的整体高质量。

GitHub地址：https://github.com/franciszzj/Leffa

在线体验：https://huggingface.co/spaces/franciszzj/Leffa

图森未来开源的图生视频大模型：Ruyi！

Ruyi是图森未来推出的图生视频大模型，专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构，由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。Ruyi能降低动漫和游戏内容的开发周期和成本，是ACG爱好者和创作者的理想工具。目前图森未来将Ruvi-Mini-7B版本正式开源。

功能特点：

多分辨率、多时长生成：Ruyi支持从最小384x384到最大1024x1024分辨率的视频生成，能处理任意长宽比，最长

生成120帧/5秒的视频。

首帧、首尾帧控制生成：基于最多5个起始帧和最多5个结束帧生成视频,用循环叠加生成任意长度的视频。

运动幅度控制：提供4档运动幅度控制，方便用户对整体画面的变化程度进行控制。

镜头控制：提供了上、下、左、右、静止共5种镜头控制，增加视频生成的灵活性,

GitHub地址：https://github.com/IamCreateAI/Ruyi-Models

HuggingFace模型库：https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

12月20日

6.9Kstar！CosyVoice 2.0：阿里开源的语音生成大模型！

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。Cosyoice2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53,支持流式推理，大幅降低首包合成延迟至150ms，适合实时语音合成场景。

主要功能：

超低延迟的流式语音合成：支持双向流式语音合成，首包合成延迟可达150ms，适合实时应用场景。

高准确度的发音：相比前版本,发音错误率显著下降,尤其在处理绕口令、多音字、生僻字上表现突出。

音色一致性：在零样本和跨语言语音合成中保持音色高度一致性，提升合成自然度。

自然体验：合成音频的韵律、音质、情感匹配得到提升,MOS评测分提高，接近商业化语音合成大模型

多语言支持：在大规模多语言数据集上训练，实现跨语言的语音合成能力。

项目官网：https://funaudiollm.github.io/cosyvoice2/

GitHub地址：https://github.com/FunAudioLLM/CosyVoice

Runway Act one 平替！HelloMeme:生成局部表情动作一致的图像或视频！

HelloMeme 是由 HelloVision 开发的一个开源项目，旨在通过集成空间编织注意力机制（Spatial Knitting Attentions）在扩散模型中嵌入高层次和高保真条件，从而生成高质量的图像和视频。该项目的代码和模型实现均托管在 GitHub 上，用户可以自由下载和使用。HelloMeme 提供了多种功能模块，包括图像生成、视频生成以及与 Gradio 和Comfy UI的集成，方便用户进行各种实验和应用。

主要功能：

图像生成：通过参考图像和驱动图像生成高质量的图像。
视频生成：基于参考视频和驱动视频生成高保真视频。
Gradio 集成：提供 Gradio 界面，方便用户进行交互操作。
ComfyUI 集成：支持 ComfyUI 界面，简化用户操作流程。
实验模块：包含多种实验代码，方便用户进行不同的实验和测试。
高效算法：优化算法以减少 VRAM 使用，提高生成效率。

项目官网：https://songkey.github.io/hellomeme/

GitHub地址：https://github.com/HelloVision/HelloMeme

AI漫画生成框架，能生成可控的黑白漫画面板!

DifSensei是北京大学、上海A|实验室及南洋理工大学的研究人员共同推出的漫画生成框架，能生成可控的黑白漫画面板。DifSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM)，实现对漫画中多角色外观和互动的精确控制。框架用掩码交叉注意力机制和MLLM适配器，根据文本提示动态调整角色特征，包括表情、姿势和动作，生成具有连贯性和视觉吸引力的漫画面板。DiffSensei引入MangaZero数据集，支持多角色、多状态的漫画生成任务。

主要功能：

定制化漫画生成：根据用户提供的角色图像和文本提示生成漫画,支持用户对角色的外观、表情、动作进行定制。

多角色控制：框架支持多角色场景的漫画生成，处理角色间的互动和布局。

文本兼容的身份适配：基于MLLM，根据文本提示动态调整角色特征，让角色的表现与文本描述相匹配。

精确布局控制：用掩码交叉注意力机制，精确控制角色和对话的布局，无需直接像素传输,

数据集支持：引入MangaZero数据集，一个大规模的、为多角色、多状态漫画生成任务设计的标注数据集。

GitHub地址：https://github.com/jianzongwu/DiffSensei

项目官网：https://jianzongwu.github.io/projects/diffsensei/?utm\_source=ai-bot.cn

12月19日

快手联合浙大、清华等机构推出的多视角视频生成模型！

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型，能结合6自由度相机姿势，从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型，确保不同视点的内容一致性，支持多摄像机视频生成。基于插件式模块和多视图同步模块，实现视点间的动态同步，保持4D一致性。SnCamMaster能扩展到新视角视频合成，重新渲染输入视频从新视角观看。

主要功能：

多视角视频生成:SynCamMaster能从同一动态场景的不同视角生成多个视频

视点间动态同步:在多个视角间保持动态的同步，确保不同摄像机生成的视频内容在时间和空间上的一致性。

开放世界视频生成:SynCamMaster支持从任意视角生成开放世界的视频。

自由度相机姿势:结合6自由度(6DoF)相机姿势，用户能从任意视角捕捉场景

预训练模型增强:用即插即用的模块增强预训练的文本到视频模型，用在多相机视频生成。

新视角视频合成:SynCamMaster能扩展到新视角视频合成,引入参考视频到多相机视频生成模型中，实现从新视

角重新渲染输入视频。

GitHub地址：https://github.com/KwaiVGI/SynCamMaster

TEN Agent：开源的实时多模态 AI 代理框架！

TEN Agent是集成OpenAl Realtime AP!和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音文本、图像的多模态交互，具备天气查询、网络搜索、视觉识别、RAG能力，支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作，支持开发者基于模块化设计轻松扩展功能，如集成视觉识别和RAG能力。TEN Agent提供实时代理状态管理，让AI代理动态响应用户交互，适用于智能客服、实时语音助手等多种场景。

主要功能：

多模态交互：文EN Agent支持语音、文本和图像的多模态交互，让A代理用更自然的方式与用户沟通。

实时通信：内置RTC(实时通信)能力，支持TEN Agent进行实时的语音和视频交互，无需额外配置。

模块化设计：文EN Agent用模块化设计，让开发者能像插件一样轻松添加新功能。

调试简便：提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务，简化调试过程。

技术集成：集成OpenAl的实时API，增强AI代理的能力。

多语言和多平台支持：文EN Agent支持多种编程语言(如C++、G0、Python)和多个操作系统平台(包括

Windows、Mac、Linux和移动设备)。

边缘云集成：支持边缘计算和云计算的集成，平衡隐私、成本和性能。

在线体验：https://agent.theten.ai/

GitHub地址：https://github.com/TEN-framework/TEN-Agent

EXAONE 3.5 ：开源AI模型，擅长长文本处理降低模型幻觉问题！

EXAONE 3.5是LG AI研究院推出的开源A!模型，包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理，在基准测试中表现优异,特别是在实际应用、长文本处理和数学方面。模型采用检索增强生成技术和多步推理能力，有效降低错误信息，提高准确性。LG计划进一步扩展其AI能力，并推出企业级AI智能体服务ChatEXAONE，具备复杂的查询分析和用户自定义搜索功能，配备加密和隐私保护技术，确保在公司内部安全使用。

多版本模型支持：提供三种不同参数规模的模型，适应不同的应用场景和计算资源限制

指令遵循能力：在实际场景中具有卓越的指令遵循能力，在多个基准测试中取得最高分

长上下文理解：在长文本处理方面表现出色，有效理解和处理长达32Ktokens的上下文

双语能力：优秀的韩语和英语双语能力，特别是在韩国和英语的基准测试中表现突出。

检索增强生成技术：用检索增强生成技术，基于参考文档或网络搜索结果生成答案

多步推理能力：具备多步推理能力，有效降低“幻觉”现象，提高答案的准确性。

GitHub：https://github.com/LG-AI-EXAONE/EXAONE-3.5?tab=readme-ov-file

项目官网：https://www.lgresearch.ai/blog/view?seq=507%3Futm\_source%3Dai-bot.cn

12月18日

开源AI内容检测工具，支持识别图像、PDF、视频文件！

NSFW Detector( Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的 vit-base-patch16-224-in21k 模型，支持仅CPU推理，无需GPU,可在多数服务器上运行。NSFW Detector基于API提供服务,易于集成到其他应用，支持Docker部署,适合分布式部署。NSFW Detector自动用多CPU加速推理，完全本地运行保护数据安全，支持多种文件类型检测。

主要功能：

内容检测：检测图像、PDF文件、视频和压缩包中的文件是否包含不适宜工作场合(NSFW)的内容

CPU推理：支持用CPU进行推理，无需GPU支持，降低硬件要求

多CPU加速：自动用多个CPU核心加速推理过程，提高处理速度。

简单分类：将内容分为“nsfw"和“normal"两个类别，简化分类流程

API服务：提供API接口，方便与其他应用程序集成，实现自动化的内容检测。

GitHub地址：https://github.com/tmplink/nsfw\_detector

AI文本到图像生成框架，提升单步扩散模型的效率和性能！

SNOOPI是创新的文本到图像生成框架，基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导-SwiftBrush)和NASA(负向远离转向注意力)两种技术。PG-SB用随机尺度的无分类器引导方法，增强训练稳定性;NASA用交叉注意力机制整合负面提示，有效抑制生成图像中的不期望元素。实验结果显示，SNOOPI在多个评估指标上显著超越基线模型，尤其在HPSv2得分达到31.08，树立了单步扩散模型的新标杆。

主要功能：

提高单步文本到图像扩散模型的效率:将多步骤的文本到图像扩散模型简化为单步模型，提高生成效率，减少计算

资源的需求。

增强模型的稳定性和控制性:基于PG-SB和NASA技术，SNOOPI在训练和推理过程中提供更稳定的性能，支持对生

成的图像进行更精细的控制。

支持负面提示引导:SNOOPI用NASA技术，实现对负面提示的支持，使在图像生成过程中排除不想要的元素，提升

图像生成的实际应用价值。

提升图像质量:SNOOPI能生成高质量、高分辨率的图像，其HPSv2得分达到31.08,显示了在图像质量上的优势。

跨模型背板兼容性:SNOOPI能在不同的模型背板上有效工作，包括PixArt-a、SDv1.5和SDv2.1等，显示了广泛的适

用性。

技术原理：

随机尺度分类器自由引导:PG-SB(Proper Guidance-SwiftBrush)在训练过程中变化教师模型的指导比例，扩大输出分布，让模型适应不同的扩散模型背板，同时保持竟争力的性能。

负向提示整合:NASA(Negative-Away Steer Attention)基于交叉注意力机制将负面提示融入单步扩散模型中,调整中间特征空间的注意力权重，减少不希望的特征在生成图像中的出现。

模型输出对齐:VSD框架用预训练的扩散模型增强基于文本的生成，确保生成的图像与教师模型的概率密度对齐。

特征过滤:基于NASA机制，SNOOPI在特征空间中过滤掉不想要的特征,能在生成图像之前排除不需要的元素，减

少混合伪影的出现。

GitHub地址：https://github.com/VinAlResearch/SNOOPl

项目官网：https://snoopi-onestep.github.io/?utm\_source=ai-bot.cn

MEMO：音频驱动的生成肖像说话视频框架，保持身份一致性和表现力！

MEMO(Memory-Guided EMOtionaware difusion)是Skywork A1、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通存储更长期的运动信息增强身份一致性和运动平滑性，情感感知模块用多模态注意力机制提升音频与视频的交互，根据音频中的情感来细化面部表情。MEMO在多种图像和音频类型的说话视频中，展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

音频驱动的肖像动画：MEMO根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频

多样化内容生成：支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频

生成。

多语言支持：能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。

表情丰富的视频生成：根据音频的情感内容生成具有相应表情的说话视频。

长视频生成能力：能生成长时间、少误差累积的说话视频。

GitHub地址：https://github.com/memoavatar/memo

项目官网：https://memoavatar.github.io/?utm\_source=ai-bot.cn

12月17日

开源的AI虚拟试衣工具！智能适配性别和体型自动调整衣物！

OOTDiffusion是开源的AI虚拟试衣工具，能智能适配不同性别和体型，自动调整衣物尺寸和形状，生成自然贴合的试穿效果。OOTDiffusion支持半身和全身试穿模式，用户上传自己的模特和服装图片，实现高度自定义的试穿体验。工具操作流程简单，易于上手，适合服装电商、时尚行业从业者及A!试穿技术爱好者使用。

主要功能：

智能适配：根据模特的性别和体型自动调整衣物的尺寸和形状，生成贴合的试穿效果。

多种试穿模式：支持半身和全身试穿,用户根据需求选择专注上身或下身的搭配效果，或预览完整的造型。

自定义体验：用户上传模特图片和服装图片，根据个人喜好指定上半身、下半身或全身换装

快速生成：操作简单，上传图片后即可快速生成试穿效果，用户体验友好，适合非技术人员使用。

GitHub地址：https://github.com/levihsu/OOTDiffusion

在线体验：https://huggingface.co/spaces/levihsu/OOTDiffusion

See3D-智源研究院开源的3D生成模型，实现从视频中生成3D内容！

See3D(See Video,Get 3D)是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容，与传统依赖相机参数的3D生成模型不同，See3D采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控目几何一致的多视角图像。避免了昂贵的3D或相机标注的需求，能高效地从互联网视频中学习3D先验。See3D支持从文本、单视图和稀疏视图到3D的生成，能进行3D编辑与高斯渲染。

主要功能：

从文本、单视图和稀疏视图到3D的生成:See3D能根据文本描述、单个视角的图片或少量图片生成3D内容

3D编辑与高斯渲染:模型支持对生成的3D内容进行编辑，使用高斯染技术来提高染效果

解锁3D互动世界:输入图片后，可以生成沉浸式可交互的3D场景，支持用户实时探索真实空间结构。

基于稀疏图片的3D重建:输入少量图片(3-6张)，模型能生成精细化的3D场景。

开放世界3D生成:根据文本提示，模型可以生成艺术化的图片，基于此图片生成虚拟化的3D场景,。

基于单视图的3D生成:输入一张真实场景的图片，型能生成逼真的3D场景。

GitHub地址：https://github.com/baaivision/See3D

项目官网：https://vision.baai.ac.cn/see3d?utm\_source=ai-bot.cn

AI会议助手！Amurex：提供实时建议、智能摘要、快速回顾关键信息！

Amurex是AI会议助手，基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能帮助用户提升会议效率。作为开源工具，Amurex强调透明度、安全性和隐私保护，让用户对数据的处理更放心。Amurex支持Google Meet。Amurex让用户专注于会议的核心内容,能处理繁琐的会议记录和后续工作，是提升工作效率的得力助手。

技术原理：

自然语言处理(NLP)：理解和分析会议中的自然语言对话，提供实时建议和生成会议摘要

机器学习：识别会议中的模式和重要性，提取关键点和行动项。

语音识别：将会议中的语音实时转换为文本，为转录和分析提供基础。

上下文感知：根据会议的上下文提供相关的建议和摘要。

GitHub地址：https://github.com/thepersonalaicompany/amurex

12月16日

一款强大的自动生成文章工具：Claude-Journalist！

Claude-Journalist 利用 Claude 3 AI 模型的强大功能，能够针对任何给定主题进行研究、撰写和编辑高质量的文章。它通过调用网络搜索 API 收集相关信息，分析内容，生成结构良好、信息丰富且引人入胜的文章，其质量足以媲美主流媒体的出版物。

只需提供一个主题，它就会：在网络上搜索文章/实时详细信息选择最佳来源并通读撰写精彩的文章！

Claude-Journalist 是一款旨在辅助文章写作过程的实验性工具。尽管其目标是生成高质量内容，但在发布前，输出内容应由人工编辑仔细审阅和事实核查。生成的文章可能需要进一步编辑和完善，以符合特定的编辑标准和指南。

GitHub地址:https://github.com/mshumer/ai-journalist

35.7Kstar！基于A1的照片管理项目，AI驱动的照片分类和搜索功能！

PhotoPrism是一款基于 AI 的智能照片管理工具，支持自动对照片进行分类、标记，并通过直观的界面展示。它可以轻松处理各种图片格式，包括 RAW 文件，同时还能帮你按日期、地点、甚至内容进行搜索，让你的照片不再“失联”。这个项目是由前Google工程师Michael Mayer发起的，目的是打造一个功能强大又保护隐私的照片管理解决方案。

主要功能：

智能照片组织与搜索：PhotoPrism利用AI技术，能自动识别照片中的人物、物体、场景等内容，让你轻松找到想要的照片。比如，你想找一张去海边度假的照片，只需输入“海滩”，瞬间就能筛选出所有相关照片！
全面的文件格式支持：无论是JPG、PNG这些常见格式，还是RAW、Live Photos，甚至是视频文件，PhotoPrism都能一网打尽，满足你的所有需求。
面部识别：PhotoPrism内置了强大的面部识别功能，不仅能自动识别照片中的人脸，还能让你手动标记人名，方便按人物浏览照片。这下，再也不怕照片里的人认不出了！
地理信息展示：如果你喜欢旅行，PhotoPrism的地理信息功能绝对会让你爱不释手。它能自动提取照片中的GPS信息，并在高清世界地图上展示出来，带你重温每一次旅行的美好记忆。
WebDAV同步：PhotoPrism还提供了WebDAV同步功能，让你能与其他设备双向同步照片，轻松实现多设备间的照片管理。
移动端支持：虽然PhotoPrism主要设计用于自托管服务器，但它对移动设备的支持也非常友好。你可以通过Progressive Web App（PWA）将其安装到手机主屏幕上，随时随地管理你的照片库。

GitHub地址**：https://github.com/photoprism/photoprism**

项目官网：https://www.photoprism.app/?utm\_source=ai-bot.cn

FlipSketch:将静态绘图转换为文本引导的草图动画，简化动画制作过程。

FlipSketch 是一个开源项目，旨在将静态绘图转换为文本引导的动画。该项目托管在 GitHub 上，提供了一个创新的工具，允许用户通过文本描述来生成动画效果。FlipSketch 结合了图像处理和自然语言处理技术，使得动画制作变得更加简单和直观。

功能特点：

静态绘图转换：将静态绘图转换为动画。
文本引导：通过文本描述来生成动画效果。
开源项目：代码公开，用户可以自由访问和修改。
GitHub 托管：项目托管在 GitHub 上，便于协作和版本控制。
用户社区：支持用户交流和反馈，促进项目改进。

GitHub地址：https://github.com/hmrishavbandy/FlipSketch

12月13日

谷歌DeepMind 发布新一代天气预测 AI 模型！可精准预测15天内的天气情况！

GenCast 是 DeepMind 推出的高分辨率 AI 天气预测模型，使用生成式 AI 技术对天气进行概率性预测。

传统模型如 ECMWF 的 ENS 系统，基于物理学原理运行，需要强大的计算资源才能生成概率性预测。然而，这些模型计算时间较长，对于极端天气事件的预测能力仍有限。此外，面对气候变化引发的极端天气增多，现有模型在精度和效率上难以满足决策者的需求。

GenCast 在预测精度上全面超越传统系统。在测试中，它在 97.2% 的预测目标上表现优于 ECMWF 的 ENS 模型，尤其在超过 36 小时的预测范围内，其准确率达到 99.8%。对于极端天气事件，如热浪、寒潮和台风路径，GenCast 的预测更为可靠，为防灾减灾提供了宝贵数据。

主要功能：

中长期天气预报：提供长达15天的全球天气预报，每12小时更新一次。

高分辨率预测：模型用0.25°纬度-经度分辨率运行，提供高分辨率的预测

集合预测：与传统单一预测不同，GenCast生成50个或更多的预测集合,每个代表可能的天气轨迹，表达不确定

性。

极端天气预测：/enCast擅长预测极端天气事件，如热浪、强风、热带气旋等。

快速预测：在Google Cloud TPU v5上，GenCast只需8分钟即可生成15天的天气预报集合。

官方介绍：https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/

论文：https://www.nature.com/articles/s41586-024-08252-9

GitHub：https://github.com/google-deepmind/graphcast

开源的本地AI搜索助手，智能搜索信息来源追溯！

Perplexideez是本地AI助手,支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础，支持0llama或OpenAl兼容的端点，用SearXNG实例进行网络搜索。Perplexideez具备多用户支持、单点登录(SSO)功能，并提供美观的搜索结果嵌入展示。Perplexideez旨在提供更好的自托管服务集成和用户体验。

主要功能：

网络搜索：用AI技术帮助用户筛选网络搜索结果，提高搜索效率。

结论来源追踪：用户能查看LLM(大型语言模型)使用的源注释，并直接访问源码。

深入学习：LLM为用户生成后续问题，方便用户进一步探索感兴趣的内容。

搜索跟踪：用户将感兴趣的搜索结果收藏，方便后续查找。

体验定制：支持用户根据不同任务选择合适的模型，并提供环境变量和U配置以优化资源使用

搜索共享：用户轻松地与他人共享搜索结果链接，并进行访问控制。

GitHub地址：https://github.com/brunostjohn/perplexideez

复旦联合微软等机构推出的端到端身份一致性视频扩散框架！

StableAnimator是复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。StableAnimator能根据一张参考图像和一系列姿态，无需任何后处理工具，直接合成高保真度且保持人物身份一致性的视频。StableAnimator框架基于计算图像和面部嵌入、用全局内容感知面部编码器优化面部信息、引入分布感知ID适配器减少时间层干扰，在推理阶段采用基于Hamilton-Jacobi-Bellman方程的优化方法提升面部质量。

功能特点：

身份保持的视频合成：参tableAnimator能根据提供的参考图像和姿态序列，合成保持人物身份一致性的视频内容

无需后处理：与传统的动画模型不同，StableAnimator无需依赖任何后处理工具，如面部交换工具或面部恢复模

型，即可生成高质量动画。

高保真度：框架直接生成的视频具有高保真度，细节丰富，接近真实世界的人物动态和外观。

端到端框架：作为一个端到端的视频扩散框架，StableAnimator集成训练和推理模块，确保在整个动画生成过程中

保持身份一致性。

GitHub地址：https://github.com/Francis-Rings/StableAnimator

项目官网：https://francis-rings.github.io/StableAnimator/?utm\_source=ai-bot.cn

12月12日

12.2Kstar！开源AI检索生成框架，自动生成精确的SQL查询！

Vanna是开源的Python RAG( Retrieval-Augmented Generation)框架，能帮助用户基于大型语言模型(LLMs)为其数据库生成精确的SQL查询。Vanna用两步简单流程操作:首先在用户数据上训练RAG模型，然后基于提问生成可在数据库上执行的SQL查询。Vanna支持多种LLMs、向量数据库和SQL数据库，提供高准确性查询，同时确保数据库内容安全私密，不外泄。Vanna支持自定义前端界面，支持用户用反馈自我学习，提高查询准确性。

主要功能：

SQL查询生成：基于大型语言模型(LLMs)根据用户的问题自动生成SQL查询。

检索增强：基于检索增强技术(RAG)结合生成模型，提高查询的准确性。

多数据库支持：支持连接多种SQL数据库，如PostgreSQL、MySQL等。

多LLMs支持：兼容多个LLMs，包括OpenAl、Anthropic等。

向量存储集成：与多种向量数据库集成，如AzureSearch、PgVector等

用户界面：提供多种用户界面选项，包括Jupyter Notebook、Streamlit、Flask和Slack。

GitHub地址：https://github.com/vanna-ai/vanna

项目官网：https://vanna.ai/docs/?utm\_source=ai-bot.cn

实现AI数字人交互！Lobe Vidol：可与虚拟人和 3D 模型聊天互动！

Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角色编辑、MMD舞蹈支持、PMX舞台加载、触摸响应功能及角色和舞蹈市场。Lobe Vidol支持文本到语音和语音到文本技术，支持用户与虚拟角色进行自然的语音交流。

流畅的对话体验：基于流式响应和对话上下文设置，提供沉浸式的交流体验。

背景上下文设置：支持用户为对话设置背景图像，增强对话的情境感。

丰富的动作与姿势库：内置Mixamo动作和姿势库，让角色能在对话中展现多样动作。

优雅的UI设计：界面设计简洁优雅，支持亮暗主题，并适配移动端。

角色编辑体验：用户能创建自己的虚拟偶像，设置触摸响应，并上传VRM模型。

MMD舞蹈支持：支持MMD舞蹈文件，让用户与虚拟偶像共舞。

TTS & STT语音对话：支持文本到语音和语音到文本技术，提供多种声音选项。

GitHub地址：https://github.com/lobehub/lobe-vidol

IC-Light 升级为IC-Light V2-Vary 可更灵活地调整光源位置和强度！

IC-Light V2更新升级，升级为IC-Light V2-Vary

主要改进

光照变化能力增强
- 模型在光影处理方面有显著提升，可以更灵活地调整光源位置和强度，生成不同光照效果的图像。
- 针对需要复杂光影变化的用户，提供了更丰富的操作空间。
细节保留能力提高
- 相较于之前版本，V2-Vary 对输入图像细节的保留能力更强，减少了调整光影时图像内容的丢失或扭曲。
- 适合对细节要求较高的图像处理任务，例如人像摄影后期处理。
多样性输出优化
- 输出图像的多样性得到加强，可以生成不同风格和特征的光影效果。
- 特别适用于艺术创作和专业光影效果模拟。

这些改进使得 IC-Light V2-Vary 更加适合需要强光影效果和细节处理的用户，如摄影师、设计师及3D建模专业人士，同时为艺术创作者提供了更多可能性。

GitHub：https://github.com/lllyasviel/IC-Light/discussions/109

技术报告：https://openreview.net/pdf?id=u1cQYxRI1H

在线演示：https://huggingface.co/spaces/lllyasviel/iclight-v2-vary

12月11日

腾讯开源混元版Sora！腾讯混元文生视频大模型全面开源！

腾讯混元文生视频是基于腾讯AI视频生成模型推出的AI视频创作工具，能根据文本提示生成相应的视频内容。模型在画质、物体运动、镜头切换等方面表现出色，能理解和遵循复杂的提示词，生成具有大片质感的视频。在输入框界面，提供了风格、景别、光线、镜头运动以及多种模式(流畅运镜、丰富动作、导演模式)，小白也能快速上手。腾讯混元文生视频模型能生成多镜头视频,实现白然转场，同时支持生成连贯的多动作视频。

主要功能：

文本到视频生成：根据用户提供的文本提示词生成相应的视频内容。

多语言支持：支持中文和英文输入，能理解和生成对应语言的视频，

高清画质：生成的视频具有高清的画质，提供良好的视觉体验，

镜头切换：能实现流畅的镜头切换，增强视频的动态感和连贯性，

物体运动和场景模拟：模拟物体运动和场景变化，生成自然和符合物理规律的视频

多镜头生成：能根据文本提示生成多个镜头，并实现镜头之间的自然切换。

多动作生成：支持生成同一个主体的多个连贯动作，提供更丰富的视频内容。

氛围感营造：能根据提示词营造特定的氛围和风格，增强视频的情感表达

遵循复杂提示词：对复杂的提示词有较好的遵循能力，能够生成用户预期的画面。

GitHub地址：https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file

Make-lt-Animatable:中科大联合腾讯推出的自动生成即时动画AI模型！

Make-lt-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架，能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态，无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换，支持多种3D表示，包括网格和3D高斯斑点。基于从粗到细的表示和结构感知建模策略，确保准确性和鲁棒性，甚至适于具有非标准骨架结构的角色。与现有方法相比，Make-lt-Animatable在质量和速度上都有显著提升。

主要功能：

即时动画准备：快速将任何3D人形模型转变为可用于动画的状态，无论其形状和姿势

自动生成动画资产：自动生成高质量的骨骼、混合权重和姿势变换，为动画制作提供必要的数据。

支持多种3D数据格式：支持包括3D网格和3D高斯斑点在内的多种3D数据表示。

精细到粗糙的多级表示：采用从精细到粗糙的多级表示方法，提高模型关键区域的细节捕捉能力,

结构感知建模：识别并适应非标准骨架结构，提高模型的适应性和准确性。

GitHub地址：https://github.com/jasongzy/Make-It-Animatable

项目官网：https://jasongzy.github.io/Make-It-Animatable/?utm\_source=ai-bot.cn

开源的AI抠图工具！在浏览器中自动识别图像进行抠图！

Magic Copy是开源的Al抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术从图像中自动识别并提取前景对象，将对象复制到用户的剪贴板中。Magic Copy简化了从图片中提取特定元素的过程，无需手动编辑图片，提高工作效率。用户只需选择图片，Magic Copy智能分析分离出所需对象，方便用户直接粘贴使用。

技术原理：

深度学习模型：用深度学习模型，特别是Meta开发的Segment Anything Model(SAM),一个先进的图像分割模

型，能识别和分割图像中的不同对象。

图像分割：模型基于训练学习如何将图像分割成多个区域,每个区域代表一个不同的对象或背景部分。这种分割是

在像素级别上进行的，确保精确识别前景和背景。

特征提取：深度学习模型分析图像中的特征,如颜色、纹理、形状和边缘，识别前景对象。帮助模型区分前景和背

景，及不同的前景对象。

用户交互：用户用简单的用户界面与模型交互，例如点击或框选图像中的特定区域，指示模型关注和提取的特定对

家。

GitHub地址：https://github.com/kevmo314/magic-copy

12月10日

基于AutoGen代理框架构建的AI浏览器自动化系统！

Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互，能执行填写表单、搜索排序电商产品、定位网页内容、管理网络媒体播放、进行深度网络搜索、自动化项目管理任务及提供个人购物协助等多种复杂任务。Agent-E能提高在线效率，减少重复劳动，让用户更专注于重要事务。

主要功能：

表单填写：自动填写网络表单，包括个人信息输入。

电商搜索与排序：在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。

内容定位：在网站上查找特定内容，如体育比分或大学联系信息。

媒体交互：与基于网络的媒体互动，包括播放YouTube视频和管理播放设置

网络搜索：执行全面的网络搜索，收集各种主题的信息。

项目管理自动化：在项目管理平台如JRA上过滤问题和自动化工作流程。

GitHub地址：https://github.com/EmergenceAI/Agent-E

AnchorCrafter:能自动生成具有主播风格的产品宣传视频 !

AnchorCrafter 是一个基于扩散模型的视频生成系统,专注于自动生成具有主播风格的产品宣传视频。该系统通过引入"人-物交互(HOI)“技术，在现有的人体姿态视频生成技术基础上,解决了生成过程中物体外观细节捕捉和人-物交互控制的挑战。

它可以用来制作那种“电商主播带货”风格的视频，比如你在淘宝、抖音或者YouTube上看到的那些主播介绍

产品的短视频。

人和物体的互动视频生成：比如一个人拿着某个商品(手机、化妆品等)做动作，AnchorCrafter 可以自动生成这样的互动视频。

高清还原商品细节：无论商品是从什么角度拍摄的，它都能精准捕捉商品的外观、纹理和细节，

控制商品的运动轨迹：可以让商品“飞”起来或者与人物互动，比如抛接、摆放等动作,

核心功能：

1.让普通人的照片变成主播视频:比如你有一张自己的照片，它可以自动生成一个视频，让你“亲自"介绍

产品，做出带货动作。

2.支持人和产品的互动:不像其他工具只能让人站着或摆姿势,这个系统会让“你"自然地拿起产品、展

示、互动，比如拿着一部手机转一圈、或者把杯子递给“镜头”。

3.保持画面真实感:生成的视频不但人像逼真，产品的外观、细节和动作也非常真实,不会模糊或变

形。

项目地址：https://cangcz.github.io/Anchor-Crafter/

技术报告：https://arxiv.org/pdf/2411.17383

GitHub：https://github.com/cangcz/AnchorCrafter

ShowUl：一款面向GUI视觉代理的视觉-语言-动作开源模型！

ShowUl是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型，能提升图形用户界面(GUI)助手的工作效率。模型基于U引导的视觉令牌选择减少计算成本，用交错视觉-语言-行动流统一GUI任务中的多样化需求，并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集，用256K数据实现75.1%的零样本截图定位准确率，训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。

主要功能：

UI引导的视觉令牌选择：将屏幕截图构建为U连接图，自适应地识别兄余关系，在自注意力模块中作为选择令牌的

标准，减少计算成本。

交错视觉-语言-行动流：灵活地统一GU任务中的多样化需求，有效管理视觉-行动历史，提高训练效率,

小规模高质量GU指令跟随数据集：基于精心策划数据和采用重采样策略解决数据类型不平衡的问题，提高模型的

准确性和效率。

零样本截图定位：在没有额外训练的情况下，直接对屏幕截图进行理解和操作的能力,。

GUI自动化：自动化执行GUI任务，如点击、输入等，提高人机交互效率。

GitHub：https://github.com/showlab/ShowUI

在线体验：https://huggingface.co/spaces/showlab/ShowUI

12月9日

狂澜26.8K星！打造属于你的互联网操作系统开源项目！

一站式个人云平台

Puter 为你提供了一个集中管理文件、应用、游戏的云平台。无论是办公文件、应用程序，还是大型游戏，Puter 都能够轻松保存、快速访问，真正做到“一站式管理”。

网盘升级替代方案

作为 Google Drive、Dropbox、OneDrive 的强大替代品，Puter 打破了传统网盘的局限性，允许用户对文件进行更深入的管理，支持个性化定制和功能扩展。它的高度灵活性使得它在文件管理上更具自由度。

支持构建、发布 Web 应用和游戏

对于开发者而言，Puter 的云端操作系统能够作为代码测试、应用发布的理想环境。用户不仅可以通过它进行应用构建，还能够发布和测试网站、Web 应用程序，甚至是游戏，极大提升开发效率。

完整的远程桌面环境

Puter 提供了一个完整的远程桌面环境，可以作为个人服务器和工作站，甚至完全取代传统本地电脑。即便是对图形要求较高的工作，如视频编辑、图像处理等，Puter 也能提供流畅的体验。

自行托管，数据完全自主

数据隐私一直是大家关注的重点，而 Puter 支持完全的本地化和数据自主托管。用户的数据不需上传到第三方服务器，确保隐私得到充分保护。此外，Puter 支持多种部署方式，其中包括 Docker 一键部署，方便快捷，极易上手。

界面简洁美观、操作流畅

Puter 的界面设计十分简洁大方，流畅的操作体验让用户能够快速上手。它不仅实用，而且视觉效果也相当出色，符合现代用户对于交互界面的审美需求。

GitHub地址:https://github.com/HeyPuter/puter

阿里开源基于通义千问的agent项目： Qwen-Agent ！

Qwen-Agent 是一个利用开源语言模型Qwen的工具使用、规划和记忆功能的框架。在 Qwen-Agent 的基础上，支持 BrowserQwen 的Chrome 浏览器扩展。

它有指令遵循、工具使用、做规划和记忆能力。

你可以用它来构建各种能执行复杂任务的AI代理，调用工具，计算器、搜索引擎，可以处理长文档等，还可以构建比如，浏览器助手、代码解释器、自定义助手等。

它具有以下主要功能：

与 Qwen 讨论当前网页或 PDF 文档。
快速理解多个页面的内容，总结浏览内容，消除繁琐的写作任务。
支持插件集成，包括用于数学问题解决和数据可视化的代码解释器。
支持的文件包括（pdf和csv文件），基于csv文件可以做智能图表的问答

GitHub地址:https://github.com/QwenLM/Qwen-Agent

18.5K星！开源的AI编程工具，理解和执行复杂的人类指令！

Devika是开源的AI编程工具，能理解并拆分复杂指令，基于集成AI搜索和网页浏览能力搜集信息，编写代码实现目标。Devika支持多种A!模型，具备高级规划推理能力，能进行上下文关键词提取、多语言代码编写，并提供动态状态追踪与可视化。Devika基于自然语言交互界面管理项目,具有可扩展架构，能减少人工干预，提高软件开发效率。

主要功能：

理解高级指令：能理解复杂的人类指令，并将其转化为可执行的步。

任务分解：将高级目标拆解成具体的、可操作的任务。

信息搜集与研究：基于互联网搜集相关信息，进行研究以支持任务执行，

代码生成：编写代码实现特定的目标和功能，支持多种编程语言。

AI规划与推理：用先进的AI规划和推理算法来指导任务的执行。

模型支持：支持多种大型语言模型，如Claude、GPT-3.5/4和Ollama的本地LLMS。

GitHub地址：https://github.com/stitionai/devika

12月6日

Meta 开源先进的视觉分割模型：SAM 2.1！

SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型用于图像和视频。基于简单的Transformer架构和流式记忆设计，实现实时视频处理。SAM 2.1在前代基础上引入数据增强技术，改善对视觉相似物体和小物体的识别，提升遮挡处理能力。此外Meta开源了SAM 2的开发者套件，包括训练代码和网络演示的前后端代码，方便用户使用和微调模型。

主要功能：

图像和视频分割：对图像和视频进行视觉分割，识别和分离出不同的对象和元素。

实时视频处理：基于流式记忆和Transformer架构，实时处理视频流。

用户交互式分割：基于用户点击或框选，交互式地分割图像和视频中的对象。

多对象跟踪：支持在视频序列中跟踪多个对象，并为每个对象生成分割掩码。

数据增强：引入数据增强技术，提高模型对视觉相似物体和小物体的识别能力。

遮挡处理：改进模型的位置编码和训练策略，增强对遮挡情况的处理能力。

GitHub地址：https://github.com/facebookresearch/sam2

HART：麻省理工学院推出的自回归视觉AI图像生成模型！

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024x1024像素的高分辨率图像，质量媲美扩散模型。HART基于混合Tokenizer技术，将自动编码器的连续潜在表示分解为离散token和连续token，其中离散token负责捕捉图像的主要结构，连续token专注于细节。HART的轻量级残差扩散模块仅用3700万参数，大幅提升计算效率。在MJHQ-30K数据集上HART将重构FID从2.11降至0.30，生成FID从7.85降至5.38,提升了31%,在吞吐量上比现有扩散模型提高4.5-7.7倍，MAC降低6.9-13.4倍。

主要功能：

高分辨率图像生成：直接生成1024x1024像素的高分辨率图像，满足高质量视觉内容的需求

图像质量提升：基于混合Tokenizer技术，HART在图像重建和生成质量上超越传统的自回归模型,与扩散模型相媲

美。

计算效率优化：在保持高图像质量的同时，显著提高计算效率，降低训练成本和推理延迟。

自回归建模：基于自回归方法，逐步生成图像，支持对生成过程进行更精细的控制。

在线体验：https://hart.mit.edu/

GitHub：https://github.com/mit-han-lab/hart

项目官网：https://hanlab.mit.edu/projects/hart?utm\_source=ai-bot.cn

16.5K星！Perplexica:开源AI搜索引擎，支持多种搜索模式、实时信息更新！

Perplexica是开源的AI驱动搜索引擎，是Perplexity AI的开源替代品。基于机器学习算法和自然语言处理技术理解用户查询，提供精确答案。Perplexica支持多种搜索模式,包括全网搜索、写作助手、学术搜索、YouTube搜索、Wolfram Alpha搜索和Reddit搜索。Perplexica支持本地大型语言模型，用API将搜索功能集成到其他应用中，集成 SearxNG 搜索技术确保获得最新的信息。

技术原理：

用户交互：用户基于WebSocket发送消息到后端服务器，触发处理链。

查询处理：消息被传递到一个链，该链根据聊天历史和问题预测是否需要搜索网络。如果需要,将生成一个查询。

网络搜索：查询基于SearXNG进行网络搜索，获取信息

相似性搜索：搜索到的信息基于转换成嵌入、进行相似性搜索找到最相关的资源。

响应生成：资源被传递到响应生成器，结合聊天历史、查询和资源生成回应

用户界面显示：最终的回应基于用户界面显示给用户，完成整个搜索和响应过程

GitHub：https://github.com/ItzCrazyKns/Perplexica

12月5日

Fugatto：英伟达推出的多功能AI音频生成模型！

Fugatto是英伟达(NVIDIA)推出的音频合成和转换模型，全称为"Foundational Generative Audio

Transformer Opus 1”。模型能根据文本提示生成音频或视频，接收并修改现有的音频文件。fugatto模型具有强大的能力，例如将钢琴旋律转换成人声演唱版本，或者改变口语录音中的口音和情绪表达。在音频编辑和制作领域具有极高的应用价值。Fugatto模型的架构基于增强型的Transformer模型，采用了自适应层归一化等特定修改，支持复杂的组合指令。

功能特点：

音频生成与转换：Fugatto能根据文本描述生成音效和音乐，例如将钢琴演奏转换为人声歌唱，或改变录音的口音

和情绪。

多任务学习：模型支持多种音频生成和转换任务，包括音乐创作、声音效果设计和语音合成等。

精细的艺术控制：通过引入ComposableART技术，用户可以组合多个指令,实现对声音属性的精细控制,调整音乐

的节奏、音色，或改变语音的情感和口音，

动态音频生成：fugatto能生成随时间变化的声音景观，用户可以控制声音的变化轨迹，音频内容更加丰富和生

动。

多语言和口音支持：Fugatto具备强大的多语言和口音能力,能生成各种语言的语音内容，支持多种口音和方言

音频创作更加贴近现实。

音景创作：Fugatto可以为电影和音频制作创建身临其境的音景,能模拟自然现象的声音，例如雷雨声与鸟鸣声的

结合，为用户提供丰富的听觉体验。

语音样本生成：模型能生成新的语音样本，可以改变交付的语气和风格,为每次播放赋予独特的触感。

GitHub地址：https://github.com/fugatto/fugatto.github.io/blob/main/index.md

基于FLUX.1的通用控制框架，通过参考图像来控制图像生成的结果！

OminiControl 是一个为 FLUX.1 模型 设计的简单而通用的控制框架，由新加坡国立大学的学习与视觉实验室开发，目的是在保持模型结构最小化的同时，提供强大的控制能力。

它能在生成图片时，允许你更轻松地控制生成的结果，比如你可以通过提供一些图片信息（边缘线稿、深度图或者某个物体的图片）来指导模型，生成更符合要求的图像。

它解决了以下几个问题：

现有工具的局限性：目前很多图像生成工具（比如 Stable Diffusion）虽然强大，但只能通过文字指令生成图片，而且有时候对细节控制得不够好，比如画出来的东西可能跟要求的姿势、结构对不上。
使用麻烦：很多方法（如ControlNet、IP-Adapter）需要增加很多复杂的模型和代码，既占用大量计算资源，也不够灵活。
无法统一处理多种任务：大部分模型只能处理特定的控制场景，用户需要为不同任务部署不同的方法，增加了系统的复杂性。
数据不足：生成特定主体（比如一只玩具熊或者某个物品）的时候，往往需要专门的数据集，但现有的数据不够多，也不够好。

GitHub：https://github.com/Yuanshi9815/OminiControl

技术报告：https://arxiv.org/abs/2411.15098

在线演示：https://huggingface.co/spaces/Yuanshi/OminiControl

4.4Kstar！能够在实时动态、复杂的视频场景中跟踪目标的模型！

SAMURAI：基于Segment Anything Model 2 (SAM 2) 改进的视觉对象跟踪模型，专为处理动态、复杂场景中的对象跟踪任务设计。

通过引入“运动感知内存选择机制”，SAMURAI 有效预测目标运动轨迹并优化掩码选择，实现了无需重新训练的高精度跟踪。

普通的 AI 跟踪工具需要提前“训练”，比如给它大量样本数据告诉它“这是一个足球”。而 SAMURAI 不需要，它可以直接在视频中跟踪任何你指定的目标，无需重新学习。

SAMURAI 基于 Segment Anything Model 2 (SAM 2) 的强大分割模型，这个模型已经学会了如何识别任何目标的边界，可以直接用在新的视频任务中。

它可以在不用额外训练的情况下即可使用，快速找到并跟踪目标，比如追踪视频中的一辆车或者一个人。

它特别擅长以下情况：

拥挤场景：能在很多相似物体中准确找到目标。
运动场景：即使物体快速移动也能准确跟踪。
遮挡问题：目标被挡住一会儿后，能继续跟踪。

项目地址：https://yangchris11.github.io/samurai/

技术报告：https://arxiv.org/pdf/2411.11922

GitHub：https://github.com/yangchris11/samurai

12月4日

开源的文本到图像生成框架，适应多种图像生成任务！

Kandinsky-3是基于潜在扩散模型的文本到图像(T21)生成框架,支持高质量和逼真度在图像合成。

Kandinsky-3能适应多种图像生成任务,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等。研究者们推出一个简化版本的T2!模型版本，该版本在保持图像质量的同时，将推理速度提高3倍，仅需4步逆向过程即可完成。Kandinsky-3的显著特点在于架构的简洁性和高效性，能适应多种图像生成任务。

主要功能：

文本到图像生成：根据用户提供的文本提示生成相应的图像。

图像修复(Inpainting/0utpainting)：智能填补图像中缺失或指定区域的内容,与周围视觉内容无缝融合。

图像融合：将多个图像或图像与文本提示融合，创造出新的视觉效果。

文本-图像融合：结合文本描述和图像内容生成新的图像，

图像变化生成：基于原始图像生成风格或内容上的变化:

视频生成：包括图像到视频(I2V)和文本到视频(T2V)的生成。

模型蒸馏：提供简化版本的模型，提高推理速度，同时保持图像质量。

GitHub地址：https://github.com/ai-forever/Kandinsky-3

项目官网：https://ai-forever.github.io/Kandinsky-3/?utm\_source=ai-bot.cn

支付宝发布EchoMimicV2 ：可以通过图片+音频生成半身动画视频！

支付宝发布 EchoMimicV2 ，从仅支持头部驱动的动画扩展到 半身动画（包括头部、手势和上身动作）。

支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列，它可以生成包头部、手势和上半身动作 的动态视频。系统结合音频和动作的特征，生成自然、流畅且高度同步的半身动画。

适用于虚拟主播、视频制作、动画生成等场景，能够让角色的动作与语音高度匹配，表现生动自然。

相较现有方法的优势：

输入要求更简化：相比传统的基于动作驱动或音频驱动的方法，输入条件更简单，使用更灵活。只需要一张参考图、一段音频和一些手势，就能生成高质量的动画，不用复杂的额外输入。
更高的动画质量：在定量和定性评估中均表现优异。
适用场景广泛：支持中英文音频驱动，适应多语言、多场景需求。

相比之前的版本，EchoMimicV2 在以下几个方面做了重要升级：

从“只动头”到“半身动画”
动作与声音匹配更精准
解决数据不够的问题
动画生成更细腻
输入更简单

项目地址及演示：https://antgroup.github.io/ai/echomimic_v2/

技术报告：https://arxiv.org/pdf/2411.10061

GitHub：https://github.com/antgroup/echomimic_v2

模型：https://huggingface.co/BadToBest/EchoMimicV2

OOTDiffusion：支持半身、全身的开源的高分辨率虚拟试穿模型！

OOTDiffusion 是一个基于扩散模型（Latent Diffusion）的虚拟试穿系统。它使用先进的服饰融合技术，将衣物图像与人物图像无缝结合，为虚拟试穿提供高度可控的解决方案。

它可以将一件衣服“穿”到任何人物身上，让你看到穿上去后的样子。比如，想看看某件T恤穿在自己身上的效果，它可以自动帮你生成逼真的试穿图片。

该系统适用于各种场景，包括时尚设计、电商平台以及个性化虚拟试穿需求。

使用场景

时尚与电商
- 为在线购物平台提供虚拟试穿功能，增强用户体验。
- 帮助时尚品牌展示新款服饰。
个性化体验
- 提供个性化虚拟试穿服务，让用户尝试不同服装搭配。
研究与开发
- 作为服饰试穿领域的研究工具，探索扩散模型的应用。

GitHub：https://github.com/levihsu/OOTDiffusion

技术报告：https://arxiv.org/pdf/2403.01779

在线体验：https://huggingface.co/spaces/levihsu/OOTDiffusion

12月3日

AI 驱动的图像编辑系统只需在图像上画几笔即可轻松编辑图像！

MagicQuill 是由支付宝和香港大学联合开发的一个功能强大的智能互动图像编辑系统，通过直观的界面和 AI 驱动的功能，实现快速而精准的图像修改。

该系统集成了多模态大语言模型 (MLLM)，实现实时意图预测，从而免去复杂的文字输入。

基于用户的操作，系统会智能生成相关提示，支持连续的编辑流程。

只需简单的笔触操作，即可轻松完成如添加新元素、移除对象、调整颜色等复杂的图像编辑任务。

简单来说就是，你可以用画笔随便在你需要修改的图像上画几笔，然后这个工具会通过 AI 自动帮你把图片变成你想要的样子。

功能细节：

实时意图预测 (Draw&Guess)：
- 分析用户的笔触和上下文图像内容，预测用户的编辑意图。
- 自动生成符合语义的提示，例如“画出头饰后，系统提示‘花冠’”。
多模态大模型 (MLLM)：
- 基于 LLaVA 模型进行微调，专注于用户笔触的语义解读。
- 支持连续编辑，减少用户在每一步都需输入文本提示的负担。
自动化提示生成：
- 系统通过“画与猜”模式，将用户的涂画意图自动转换为编辑命令。
- 例如，用户画一个圆圈，系统预测“这是一个盘子”并执行相关编辑。
数据增强与语义优化：
- 构建专用数据集，模拟用户绘画场景，使模型更擅长处理人类手绘输入。
误差处理：
- 针对模糊或多义的用户输入（例如一个简单的圆形），模型能给出上下文相关的多种猜测。

项目地址：https://magicquill.art/demo/

GitHub：https://github.com/magic-quill/magicquill

论文：https://arxiv.org/abs/2411.09703

在线体验：https://huggingface.co/spaces/AI4Editing/MagicQuill

阿里通义推出的多模态AI检索增强生成框架!

OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架，具备自适应规划能力。OmniSearch能动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。OmniSearch引入动态检索规划框架，基于递归检索与推理流程，逐步接近问题解答，显著提高多模态检索的灵活性和效果。

主要功能：

自适应检索规划：根据问题解决的阶段和当前检索内容实时规划每个检索动作，模拟人类在解决复杂问题时的行为

方式。

动态问题拆解：将复杂问题分解为多个子问题，为每个子问题制定相应的检索步骤和策略。

多模态信息处理：支持图像检索、文本检索和跨模态检索,处理包括文本、图像在内的多模态信息。

迭代推理与检索：基干递归式的检索与推理流程，根据当前的解答状态判断是否需要继续检索或提出新的子问题,

多模态特征交互：对检索得到的多模态特征进行有效交互，根据不同模态信息灵活调整检索策略。

GitHub地址：https://github.com/Alibaba-NLP/OmniSearch

在线体验：https://modelscope.cn/studios/iic/OmniSearch/summary

RAG-Diffusion：南京大学推出的区域感知文本到图像生成方法！

RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段，实现对图像中各个区域的精确控制和细节优化。RAG-Difusion文持图像重绘功能，用户在保持其他区域不变的情况下修改特定区域，无需额外的内绘模型。RAG-Diffusion在属性绑定和对象关系方面展现出优于其他免微调方法的性能。

功能特点：

区域硬绑定(Regional Hard Binding)：确保区域提示被准确执行，基于独立处理每个区域,将局部区域潜在表

示绑定到全局潜在空间。

区域软细化(Regional soft Refinement)：增强相邻区域之间的和谐性,在交叉注意力层中实现区域局部条件与

全局图像潜在的交互。

图像重绘(lmage Repainting)：用户在保持其他区域不变的情况下,重新初始化特定区域的噪声,实现区域的重

绘，无需依赖额外的内绘模型。

免微调(Tuning-free)：适用于其他框架，作为对提示跟随特性的增强，无需额外训练或微调。

GitHub地址：https://github.com/NJU-PCALab/RAG-Diffusion

12月2日

AI换衣！一致性换衣模型和工作流, 让模特一键穿上实物衣服！

Comfyui_Object_Migration是通过 Stable Diffusion 和相关工具实现一致性穿衣模型与工作流的创新方法，可以将实物服装精确地迁移到目标图像中。实现高一致性对象和角色渲染的方法，提供服装、角色风格迁移以及3D模型生成等功能。

这个工具能干啥？

一键换衣：你可以把一件真实的衣服“穿”到模特照片上，效果看起来非常自然，像是真的穿上了一样。
风格转换：它还能把卡通风格的衣服变成写实效果，或者反过来，让真实的衣服变得像卡通里的那样。
设计自由：想要衣服的风格更像参考图，或者稍微加点自己的创意，都可以通过调整工具的“权重”实现。
模型架构：基于 Stable Diffusion 的自注意力模块，结合 ControlNet 和 DIT 模型，提高了图像生成的稳定性与一致性。

核心功能：

2D到3D转换：将二维角色设计转换为三维可打印模型，支持不同的3D打印设备。
动态姿势与表情定制：用户可以根据需求，自定义角色的动作和表情，适配不同的设计场景。
高级材质与纹理增强：提供高保真度的材质和纹理渲染，生成专业级别的3D输出。

GitHub：https://github.com/TTPlanetPig/Comfyui_Object_Migration

模型下载： https://civitai.com/models/950736/cloth-migration-and-dressing-style-transfer

AI会议助手！MeetingMind：能够自动捕捉、分析和处理会议见解！

MeetingMind是AI驱动的会议助手,基于录音和文件上传功能自动转录会议音频,从中提取关键信息，如任务、决策和问题，帮助用户轻松捕获和分析会议内容，采取行动。工具用Langflow、Next.js和基于Grog的快速转录服务构建，提高会议效率和执行力。

MeetingMind的技术原理

音频处理：MeetingMind首先接收会议的音频文件，是基于录音功能或用户上传获得的。

AI转录服务：基于Groq的快速转录服务，将音频文件转换成文本数据。过程涉及到语音识别技术,将语音信号转换

为可读的文本。

自然语言处理(NLP)：转录后的文本基于NLP技术进行分析，能识别和提取会议中的关键信息和行动点。

信息提取与分类：AI模型被训练识别不同类型的信息，如任务、决策等，将其分类。

数据展示：提取的信息通过用户界面展示,一般是一个仪表板，用户在这里査看、筛选和执行会议中的关键点。

Langflow集成：MeetingMind集成Langflow,用于构建和运行数据处理流程的工具，帮助管理和自动化AI转录和信息提取的过程。

GitHub地址：https://github.com/misbahsy/meetingmind

AdaCache：Meta推出加速AI视频实时高质量生成的开源项目！

AdaCache(Adaptive Caching)是Meta推出的开源技术,能加速AI视频生成过程。AdaCache自适应缓存机制优化计算资源分配，根据不同视频内容的复杂度动态调整计算量，减少不必要的计算开销。AdaCache引入运动正则化策略，用视频内的运动信息进一步优化缓存决策。实验表明，AdaCache在保持视频质量的同时，显著提升生成速度，在多GPU环境下效果显著，对视频生成领域具有重要的应用价值和发展前景。

功能特点：

自适应缓存机制：AdaCache的核心功能之一是自适应缓存机制,根据视频内容的变化动态决定是否需要重新计算残差连接(如注意力或MLP输出)。基于计算当前残差与前一步骤残差之间的变化率实现，避免不必要的重复计算。

运动正则化(MoReg)：AdaCache引l入运动正则化策略，用视频中的运动信息调整缓存计划。有助于在处理高动态视频时合理分配计算资源，确保在提高速度的同时保持生成质量。

质量-延迟权衡：AdaCache能最大化视频生成的质量-延迟权衡,基于定制化的缓存策略为每个视频生成任务提供最

优的计算资源分配方案。

即插即用组件：作为一个无需训练的即插即用组件，AdaCache轻松集成到现有的视频DiT模型中，无需重新训练

即可提升推理速度。

GitHub地址：https://github.com/AdaCache-DiT/AdaCache

项目官网：https://adacache-dit.github.io/?utm\_source=ai-bot.cn

11月29日

iAgents：清华大学开源的多AI智能体协作框架！

iAgents是清华大学推出的多A!智能体协作框架，基于为每个用户配备个人A!智能体促进协作和完成日常任务。智能体能理解用户的文件、命令，从协作中学习，实现自动的信息交换和任务解决。iAgents用infoNav推理机制指导智能体在信息不对称的情况下进行有效沟通，提高团队协作效率并推动AI技术的前沿发展。系统完全开源，支持与现有工具和平台的无缝集成。

主要功能：

信息交换与协作：iAgents系统使智能体能模拟人类社交网络中的信息交换,解决多智能体之间的信息不对称问题

任务解决能力：系统能处理复杂的协同任务，如在大型社交网络中寻找特定信息(Needle-Oriented任务)和基于分布式信息进行算法推理(Reasoning-Oriented任务)。

自主沟通：智能体能代表多个人类用户自主沟通，完成多轮对话和任务解决。

信息检索与记忆：系统设计混合记忆机制,包括清晰记忆(Clear Memory)和模糊记忆(Fuzzy Memory)，存储

和检索人类信息。

GitHub地址：https://github.com/thinkwee/iagents

项目官网：https://thinkwee.top/iagents/?utm\_source=ai-bot.cn

5.6Kstar！OmniParse：Al数据解析平台，提取和解析任何非结构化数据！

OmniParse是数据解析平台,将非结构化数据转换为结构化、可操作的数据，优化适用于GenAl(大型语言模型)应用。OmniParse支持约20种文件类型，包括文档、表格、图像、视频、音频和网页，提供表格提取、图像字幕、音视频转录等功能，基于Docker和Skypilot轻松部署,用Gradio支持的交互式UI。

功能特点：

本地化处理：OmniParse完全在本地运行，不需要依赖外部API，确保数据处理的隐私性和安全性。

多文件类型支持：支持约20种文件类型，包括文档(如.doc; .docx,.pdf等)、图片、视频、音频和网页内容。

数据转换：将非结构化数据转换为高质量的结构化Markdown格式，便于后续处理和分析。

表格提取：能从文档中提取表格数据，并转换为结构化格式。

图像提取/字幕：从图像中提取文本信息，为图像生成字幕。

音视频转录：将音频和视频文件转录成文本。

网页抓取：从网页中抓取内容，将其结构化。

GitHub地址:https://github.com/adithya-s-k/omniparse

清华联合英伟达推出的自然语言生成复杂的3D模型项目！

LLaMA-Mesh是清华大学和NVIDIA共同推出的项目，基于将3D网格生成与大型语言模型(LLMS)结合，实现用文本提示直接生成3D模型的功能。项目用OB)文件格式将3D网格的顶点坐标和面定义转换为文本，基于顶点量化技术优化处理，让模型能理解和生成3D网格。LLaMA-Mesh能生成高质量的3D网格，保持强大的语言理解和生成能力，为3D内容创作提供一种更直观、高效的新方法。

主要功能：

3D网格生成：根据文本提示生成相应的3D网格模型。

网格理解：理解和解释3D网格的结构和特征。

文本-网格交错输出：在对话中生成文本和3D网格的交错输出，实现交互式设计。

保持语言能力：在扩展到3D网格生成的同时，保持模型的文本理解和生成能力。

LLaMA-Mesh技术原理：

3D表示：

OBJ文件格式:用OBJ文件格式将3D网格的顶点坐标和面定义表示为纯文本，能被语言模型处理

顶点量化:将顶点坐标量化到固定数量的区间，减少标记数量，让模型能处理更长的序列，保持几何细节

预训练模型:LLaMA3.1-8B-Instruct选用经过指令调整的预训练模型，具备理解文本提示、生成3D网格的能力。

3D任务微调：

监督微调(SFT)数据集:构建包含文本-3D对和交错文本-3D对话的数据集，基于微调让模型掌握3D网格生成技能。

规则和LLM增强:结合规则方法和基于语言模型的增强手段构建训练数据，提高模型的3D理解和生成能力。

统一模型：

文本和3D网格统一:在统-的模型中生成文本和3D网格，实现多模态内容生成。

GitHub地址：https://github.com/nv-tlabs/LLaMa-Mesh

项目官网：https://research.nvidia.com/labs/toronto-ai/LLaMA-Mesh/?utm\_source=ai-bot.cn

11月28日

LogoCreator：开源 AI Logo生成器，几秒内创建专业级定制化商标！

LogoCreator是开源的logo生成器,基于Together Al提供的Flux Pro 1.1技术快速创建专业风格的logo。项目用Next.js和TypeScript构建应用框架,Shadcn和Tailwind Css用于UI组件和样式设计，Plausible和Helicone用在分析和监控。用户克隆GitHub上的仓库、配置环境变量和安装依赖本地运行和使用LogoCreator.

功能特点：

快速生成Logo：用户在几秒钟内生成专业的l0go设计

风格定制：提供多种可定制的风格选项，适应不同的品牌和个人需求。

开源免费：作为开源项目，LogoCreator支持用户免费使用和修改源代码

在线体验：https://www.logo-creator.io/

GitHub地址：https://github.com/Nutlope/logocreator

MagicQui：蚂蚁集团联合多所高校共同开源的AI互动式图像编辑工具！

MagicQuil是香港科技大学、蚂蚁集团、浙江大学和香港大学共同推出的开源A1互动式图像编辑工具。基于用户友好的界面和AI支持的智能建议，实现精确的局部图像编辑。用户用简单的笔触和提示词，轻松添加元素、擦除物体或改变颜色，让图像编辑变得简单、智能且高效。

技术原理：

多模态大语言模型(MLLM)：MagicQuiI用MLLM实时监测和预测用户的编辑意图，减少或消除手动输入提示的

需求。

扩散模型(Diffusion Model)：基于扩散模型的强大先验,从数据分布中学习并生成新的数据实例,

双分支插件模块：基于精心学习的双分支插件模块来增强扩散模型，实现对编辑请求的精确控制。

实时意图预测：系统通过分析用户的笔触和输入的提示词，实时预测用户的编辑意图，并自动生成编辑指令。

精确控制编辑：结合MLLM和扩散模型，MagicQuil能够精确处理用户的编辑请求,实现精确的图像编辑效果,

项目官网https://magicquill.art/demo/

GitHub地址：https://github.com/magic-quill/magicquill

ai-chatbot：开源AI聊天机器人模板，快速构建高性能聊天应用！

ai-chatbot是Vercel推出的开源项目,基于Next,js框架和Vercel AISDK构建。ai-chatbot提供一个功能完备、易于定制的A!聊天机器人模板，帮助开发者快速构建高性能和良好用户体验的聊天应用。项目集成前沿技术，支持多种大语言模型，具备灵活的模型切换能力，提供出色的Ul设计和数据管理功能。ai-chatbot适用于在线客服、社交互动等多种场景，提升客户服务效率，增强用户互动体验。

高性能聊天应用：基于Nextjs App Router实现高效页面加载和流畅切换。

服务器端渲染：基于React Server Components(RSCs)和Server Actions提升性能。

统一API：深度整合AISDK，提供与多种大语言模型(LLMs)交互的API。

模型支持：用OpenAl的gpt-4o模型，支持切换到Anthropic、Cohere等其他模型

UI设计与交互：用shadcn/ui组件库和Tailwind CSs定制样式，提供美观、现代的聊天界面。

GitHub：https://github.com/vercel/ai-chatbot

11月27日

英伟达开源ConsiStory生图，能保持人物一致性生图！可用于ai写真或连环画！

英伟达提出了一种全新的方法—ConsiStory，摆脱了繁琐的训练过程，直接利用预训练模型的内部激活来实现一致的主题生成，不需要任何优化步骤。ConsiStory还能够轻松适应多个主题的情况，甚至可以实现对普通物体的个性化生成。

体验地址：https://build.nvidia.com/nvidia/consistory

开源github：https://github.com/NVlabs/consistory

Bria推出免费抠图工具RMBG 2.0啦！

RMBG-2.0 是 BRIA AI 推出的最新图像背景移除模型，基于深度学习技术实现高精度的前景与背景分离。

该模型在超过 15,000 张高分辨率图像上训练，确保准确性和适用性，适用于电子商务、广告、游戏开发等多个领域。

RMBG-2.0 提供高精度背景移除、商业用途支持、云服务器无关架构、多模态归因引擎和数据训练平台等主要功能。

项目官网：https://blog.bria.ai/introducing-the-rmbg-v2.0-model-the-next-generation-in-background-removal-from-images

HuggingFace 模型库：https://huggingface.co/briaai/RMBG-2.0

在线体验 Demo：https://huggingface.co/spaces/briaai/BRIA-RMBG-2.0

11.6K星！SWE-Kit：构建自定义AI代理的开源框架！

SWE-Kit 是Composio 推出的开源框架，简化软件工程AI代理的开发过程。SWE-Kit提供无头 IDE 环境和AI原生工具，用于构建自定义编码代理，文持与多种代理框架和大型语言模型集成，降低构建复杂 AI代理的门槛。SWE-Kit 集成文件操作、代码分析、shel 命令执行等功能，提高开发效率、提供高度的可定制性，是现代 AI 辅助软件开发的领先工具。

SWE-Kit的技术原理

集成开发环境(IDE)：参WE-Kit 提供无头 IDE 环境,支持开发者在没有图形用户界面的情况下进行开发工作。

代理框架兼容性：参WE-Kit 设计为与多种代理框架兼容,如 CrewAl、LangChain 和 Llamalndex，能轻松集成到现

有的开发流程中。

大型语言模型(LLM)集成：参WE-Kit 支持与各种大型语言模型提供商的集成，开发者用模型增强工具

文件系统和命令行交互：参WE-Kit 提供与文件系统和命令行的直接交互能力,让自动化脚本和命令执行变得简单。

项目官网：https://composio.dev/swe-kit/?utm\_source=ai-bot.cn

GitHub地址：https://github.com/ComposioHQ/composio/tree/master/python/swe

11月26日

Text Behind Image：开源在线图像处理工具，在图中角色背后添加文字！

Text Behind lmage是开源的在线工具，支持用户在图片中的角色背后添加文字，创建具有视觉冲击力的海报和社交媒体图像。用户在图像中的主体背后添加自定义文本,并提供文字、字体、颜色、位置、粗细、不透明度、旋转和重复等多种自定义选项。工具是16岁的开发者Rexan Wong推出的,代码完全公开在GitHub 上。

Text Behind Image主要功能：

文字添加：用户在图片中的角色背后添加自定义文字。

样式定制：提供文字、字体、颜色、位置、粗细、不透明度等多种自定义选项。

社交媒体分享：支持将设计好的图片直接分享到各种社交媒体平台。

自动优化字体：用next/font自动优化和加载字体，提高加载速度和用户体验。

GitHub：https://github.com/RexanWONG/text-behind-image

项目官网：https://textbehindimage.rexanwong.xyz/?utm\_source=ai-bot.cn

HiCo：360 AI研究院推出的布局可控AI绘画模型！

HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型，Hico基于多分支结构设计实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦，有效地处理复杂布局，减少对象缺失和视角冲突等问题。HiCo在自然场景的多目标可控布局生成中表现出色，引入HiCo-7K基准测试集。Hico模型展示了与快速生成插件(如LORA、LCM)的兼容性，能生成高分辨率图像，在处理多概念组合布局时仍有改进空间。

Hico的技术原理：

层次化建模：HiCo用层次化结构对输入的布局信息进行建模，捕捉从粗糙到精细的空间布局细节。

对象可分离的条件分支：每个分支独立处理和生成特定区域的内容,根据对象的文本描述和空间位置条件生成图

像。

扩散模型：基于扩散模型，迭代去噪过程从噪声数据中恢复出清晰的图像,用条件引导生成过程。

融合模块(Fuse Net)：掩码技术分离不同前景和背景区域的内容,在合并过程中保持各自的独立性。

低秩适应(LORA)：兼容LORA技术，快速适应新任务或风格，无需从头开始训练整个模型

快速推断能力：设计快速推断机制，如HiCo-LCM(Lightning)和HiCo-Lightning，用并行处理和优化的网络结构加速图像生成。

GitHub地址：https://github.com/360CVGroup/HiCo\_T2I

项目官网：https://360cvgroup.github.io/HiCo\_T2I/?utm\_source=ai-bot.cn

南洋理工大学推出的拖拽式多视图3D编辑技术框架：MVDrag3D!

MVDrag3D是创新的3D编辑框架，结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成先验，确保在多个渲染视图间进行一致的拖拽编辑，基于重建模型重建编辑对象的3D高斯表示，用视图特定的变形网络调整高斯位置实现视图间的对齐，最终用多视图分数函数增强视图一致性和视觉质量。MVDrag3D能处理重大拓扑变化和跨多个对象类别生成新纹理，支持多种3D表示，如3D高斯和网格，展现出精确、生成性和灵活性。

主要功能：

多视图一致性编辑：MVDrag3D在多个正交视图中进行一致的拖拽编辑，确保3D编辑操作在不同视角下保持一致

性。

3D高斯重建：框架用重建模型将编辑后的2D视图转换为3D高斯表示，捕捉3D对象的结构。

视图对齐：基于视图特定的变形网络调整3D高斯的位置，解决不同视图间的对齐问题。

视觉质量增强：用多视图分数函数从多个视图中提取生成先验，增强最终输出的视觉质量和视图一致性。

支持多样化编辑：适于多种对象类别和3D表示，如3D高斯和网格，提供更广泛的编辑效果。

处理拓扑变化：处理重大的拓扑变化，如在编辑过程中生成新的纹理和结构。

多视图扩散模型：作为生成先验，多视图扩散模型用在在多个渲染视图间执行一致的拖拽编辑，保证编辑操作的致性。

3D高斯表示：编辑后的视图重建3D对象的3D高斯表示，一种描述3D形状的概率分布方法。

GitHub：https://github.com/chenhonghua/MvDrag3D

项目官网：https://chenhonghua.github.io/MyProjects/MvDrag3D/?utm\_source=ai-bot.cn

11月25日

MotionCLR：AI动作编辑模型，根据文本提示生成相应的动作序列！

MotionCLR是基于注意力机制的人体动作生成和编辑模型，能根据文本提示生成动作，支持用户进行交互式编辑，如动作强调、减弱、替换、擦除和风格转移。MotionCLR基于自注意力和交叉注意力机制理解和编辑动作，支持多样化的动作编辑任务，如动作强调/减弱、原地动作替换、基于示例的动作生成等。模型在HumanML3D数据集上表现良好，生成的动作质量高，与文本描述的对齐精确,在多样性、可解释性和编辑能力方面均达到先进水平。

应用场景：

游戏开发：生成游戏角色动画，提供自然和多样化的角色动作。

动画制作：辅助动画师快速生成或修改角色动作，提高动画制作效率，

虚拟现实(VR)和增强现实(AR)：生成逼真的用户动作，用在VR/AR互动体验

电影和电视制作：用在预可视化动作场景或为后期制作提供动作参考。

人机交互：在需要人体动作作为输入的交互系统中，如动作捕捉和游戏控制。

GitHub地址：https://github.com/IDEA-Research/MotionCLR

项目官网：https://lhchen.top/MotionCLR/?utm\_source=ai-bot.cn

HiCo：360 AI研究院推出的布局可控AI绘画模型！

Hico的技术原理：

层次化建模：HiCo用层次化结构对输入的布局信息进行建模，捕捉从粗糙到精细的空间布局细节。

对象可分离的条件分支：每个分支独立处理和生成特定区域的内容,根据对象的文本描述和空间位置条件生成图

像。

扩散模型：基于扩散模型，迭代去噪过程从噪声数据中恢复出清晰的图像,用条件引导生成过程。

融合模块(Fuse Net)：掩码技术分离不同前景和背景区域的内容,在合并过程中保持各自的独立性。

低秩适应(LORA)：兼容LORA技术，快速适应新任务或风格，无需从头开始训练整个模型

快速推断能力：设计快速推断机制，如HiCo-LCM(Lightning)和HiCo-Lightning，用并行处理和优化的网络结构加速图像生成。

GitHub地址：https://github.com/360CVGroup/HiCo\_T2I

项目官网：https://360cvgroup.github.io/HiCo\_T2I/?utm\_source=ai-bot.cn

MoneyPrinterTurbo:利用AI大模型，一键生成高清短视频!

MoneyPrinterTurbo是开源的A!短视频生成工具，能自动化地根据用户提供的视频主题或关键词生成视频文案、素材、字幕和背景音乐,合成高清短视频。工具支持API和Web界面操作,具备自定义文案、多种视频尺寸、批量视频生成、多语言支持、多种语音合成技术、字幕定制和背景音乐选择等功能。

MoneyPrinterTurbo兼容多种AI模型,确保视频素材高清无版权问题，适合内容创作者和营销人员使用。录

咖网站基于该项目，提供免费的AI视频生成器服务，可以不用部署，直接在线使用。

MoneyPrinterTurbo的主要功能

完整的MVC架构：基于模型-视图-控制器架构,代码结构清晰，便于维护和二次开发,支持AP!和Web界面操作。

自动生成和自定义视频文案：用AI模型自动生成视频文案，支持用户根据需求自定义文案。

支持多种高清视频尺寸：提供竖屏9:16(1080x1920)和横屏16:9(1920x1080)等多种视频尺寸选项。

批量视频生成：用户能一次性生成多个视频，方便从中选择最满意的版本。

自定义视频分段时长：用户设置视频各段的时长，控制素材切换频率和视频节奏，

多语言视频文案支持：支持中文和英文视频文案，满足不同语言用户的需求。

Github:https://github.com/harry0703/MoneyPrinterTurbo

11月22日

PDFMathTranslate:开源的PDF文档翻译和双语对照工具！

PDFMathTranslate是开源的PDF文档翻译工具，设计用于翻译科技论文等PDF文件，能保留原文的排版，包括公式和图表。PDFMathTranslate支持双语对照,保持原有目录结构,兼容多种翻译服务，如Google.DeepL、Ollama和OpenAl等。用户基于命令行工具操作，实现文档的快速翻译和双语对照查看。

技术原理：

文档解析：用Pdfminer.six等库解析PDF文档，提取文本、公式和图表

布局分析：基于DocLayout-YOL0等技术进行布局分析，识别文档中的不同元素(如文本块、公式、图表)及其位

置。

翻译服务接口：集成多种翻译服务APl,如Google Cloud Translation、Deepl等，实现文本的自动翻译

多线程翻译：用MathTranslate等工具进行多线程翻译，提高翻译效率。

GitHub：https://github.com/Byaidu/PDFMathTranslate/blob/main/README\_zh-CN.md

CMU联合Meta AI推出的文本到视觉图像生成评估方法！

VOAScore是CMU和Meta联合推出的评估方法，基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VOAScore用计算模型对"Does this figure show {text}?"这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VOAScore的核心优势在于无需额外人类标注，直接用现有的VOA模型，用概率值的形式提供更精确的评估结果，超越传统评估指标如CLPScore。VOAScore已被应用于多个项目中如lmagen3，用于自动评估和优化最新的生成式模型。

主要功能：

评估图像与文本提示的对齐程度：VOAScore基于计算一个“是”答案的概率衡量生成的图像是否符合给定的文本提示。

自动化评估：提供自动化的方法评估图像生成模型，无需人工评分，有助于大规模和快速评估

提高评估的准确性：解决现有评估方法在处理复杂文本提示时的不足，提供更准确的评估结果。

支持多种生成任务：VQAScore能评估视频和3D模型的文本到视觉生成任务

基准测试与模型改进：基于GenAl-Bench基准测试集，VOAScore帮助研究人员识别模型的局限性，指导模型的改进。

GitHub：https://github.com/linzhiqiu/t2v\_metrics

在线体验：https://huggingface.co/spaces/zhiqiulin/VQAScore

项目官网：https://linzhiqiu.github.io/papers/vqascore/?utm\_source=ai-bot.cn

DimensionX：港科大、清华和生数科技共同推出的单图像生成复杂3D、4D场景框架!

DimensionX是香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的3D和4D场景，基于视频扩散技术实现对空间和时间维度的精确控制。框架基于ST-Director技术解耦空间和时间因素，支持独立或组合控制，生成具有动态变化的复杂场景。DimensionX包含轨迹感知机制和身份保持去噪策略，增强场景的一致性和真实感。

3D场景生成：从单张图片生成新的视角渲染图，构建3D场景。

4D场景生成：从单张图片生成包含时间和空间变化的动态场景。

视频扩散控制：基于ST-Director技术，实现对视频扩散过程中空间和时间因素的解耦和精确控制。

轨迹感知机制：为3D生成设计，处理复杂的现实世界场景和相机运动。

身份保持去噪策略：为4D生成设计，增强场景的一致性，特别是在动态对象和背景之间。

GitHub：https://github.com/wenqsun/DimensionX

项目官网：https://chenshuo20.github.io/DimensionX/?utm\_source=ai-bot.cn

11月21日

Videochat:开源的实时数字人对话系统，延迟低至3秒 !

VideoChat是开源的实时数字人对话系统，支持语音输入和实时对话功能。用户自定义数字人的形象和音色，无需训练即可进行音色克隆,首包延迟可低至3秒，适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice，提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用，支持流式视频输出，方便快速部署和构建。

VideoChat的主要功能

实时语音交互：支持用户用语音与数字人进行实时对话。

形象和音色自定义：用户根据需要选择或设计数字人的外观和声音，实现个性化交互。

语音输入和文本输出：将用户的语音输入转换为文本，再基于大语言模型生成回复文本。

唇形同步：数字人在说话时，嘴唇动作与发出的声音同步，提高真实感

流式视频输出：基于Gradio框架，支持流式视频输出，让交互更加流畅。

GitHub：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video\_chat

CogVideoX v1.5:智谱最新开源的AI视频生成模型！

CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoXv1.5-5B和CogVideoX v1.5-5B

I2V两个版本,5B系列模型支持生成5至10秒、768P分辨率、16帧的视频，12V模型能处理任意尺寸比例的图像到视频的转换，结合即将开放内测的CogSound音效模型能自动生成匹配的AI音效。模型在图生视频质量、美学表现、运动合理性及复杂语义理解方面有显著提升。智谱AI已将CogVideoX v1.5开源，可通过GitHub访问其代码。

CogVideoX v1.5的主要功能：

高清视频生成：支持生成10秒、4K分辨率、60帧的超高清视频，提供高质量的视觉体验。

任意尺寸比例：12V(lmage-to-Video)模型支持任意尺寸比例的视频生成，适应不同的播放场景。

视频生成能力：CogVideoXv1.5-5B专注于文本描述生成视频(Text-to-Video)，能根据用户提供的文本提示生成

相应的视频内容。

多通道输出：同一指令或图片可以一次性生成多个视频，增加了创作的灵活性。

带声效的AI视频：结合CogSound音效模型，能生成与画面匹配的音效，提升视频的整体感观效果。

图生视频质量提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。

GitHub：https://github.com/THUDM/CogVideo/blob/main/README\_zh.md

HuggingFace模型库：https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

在线体验：https://chatglm.cn/video?lang=zh

Agentsquare：清华推出模块化智能体系统设计和搜索新框架！

Agentsquare是清华大学团队推出自动在模块化设计空间中搜索大型语言模型代理。基于标准化的模块接口抽象，实现AI智能体的高速自我演化和自适应演进。框架包含任务规划、常识推理、工具使用和记忆学习四个核心模块，支持智能体针对不同任务场景的优化设计。Agentsquare基于模块重组、模块进化和代理评测模型，解决智能体设计的搜索问题，显著提升智能体的性能，有效控制推理成本。

Agentsquare的主要功能：

模块化设计空间：AgentSquare提出一个包含规划、推理、工具使用和记忆四个基本模块的模块化设计空间,支持

研究人员轻松构建和优化LLM代理，

模块重组：基于智能体顶层架构的优化，AgentSquare能重组现有的高性能模块，探索更优的智能体设计。

模块进化：AgentSquare在代码层面探索和生成新的模块设计，引入创新性设计并扩展设计空间。

性能预测：引入代理评测模型(Surrogate Model)预测智能体性能,减少昂贵的实时评估成本,加速搜索过程。

自动化搜索：AgentSquare自动发现和优化LLM代理设计，无需人工干预，实现自动化的智能体设计搜索。

GitHub地址：https://github.com/tsinghua-fib-lab/AgentSquare

项目官网：https://tsinghua-fib-lab.github.io/AgentSquare\_website/?utm\_source=ai-bot.cn

11月20日

Cerebellum：浏览器AI助手，完成网页自动化任务和行动规划！

erebellum是基于Claude 3.5 Sonnet和Selenium WebDriver构建的浏览器AI智能助手,能理解任务意图、执行网页自动化任务，如数据抓取和网站自动化测试。Cerebellum将网页浏览简化为有向图导航，用LLM分析页面内容和交互元素，智能规划行动路径，根据网页状态和历史操作动态调整策略。Cerebellum支持多浏览器，能精确模拟用户行为，适用于复杂的自动化场景。

Cerebellum主要功能：

图形导航：将网页浏览简化为有向图导航，每个网页被视为一个节点,用户操作(如点击或输入)作为节点间的边。

节点发现：基于LLM(大型语言模型)分析页面内容，发现、识别新的网页节点。

行动决策：基于当前网页状态和历史用户操作，智能决策下一步行动，

多浏览器支持：兼容Chrome、Firefox、Safari和Edge等多种浏览器,

用户行为模拟：精确模拟用户行为，如点击、输入等，适用于复杂的自动化场景

动态策略调整：接受运行时指令，根据实时反馈动态调整浏览策略和操作。

表单填写：用用户提供的JSON数据自动填写网页表单。

GitHub地址：https://github.com/theredsix/cerebellum

OuteTTS：基于纯语言建模方法生成语音的开源TTS语音模型！

OuteTTS是开源的文本到语音(TTS)项目，基于纯语言建模的方法生成语音。0uteTTS项目基于LLaMa架构，用Oute3-350M-DEV基础模型，拥有3.5亿参数。0uteTTS具备音频标记化、CTC强制对齐技术和结构化提示创建等创新音频处理方法，支持语音克隆功能，及用户创建自定义说话人的声音。Oute TTS与llama.cpp和GGUF格式兼容，适用于有声读物、智能客服、语音导航等多种应用场景。

Oute TTs的主要功能：

文本到语音合成：将文本转换为自然听起来的语音输出。

语音克隆：用户提供参考音频文件和相应的文本，创建自定义的语音，用于个性化语音应用。

音频标记化：用WavTokenizer将音频信号转化为可供模型处理的格式

CTC强制对齐：创建字与音频令牌之间的精确映射，确保文本与音频之间的准确对应。

结构化提示创建：用特定的格式提供明确的指导，提高语音合成的准确性和自然度与现有技术兼容:与llama.cpp和GGUF格式兼容，方便集成到不同的应用环境中。

GitHub地址：https://github.com/edwko/OuteTTS

Ichigo：开源的多模态AI语音助手，实时处理语音和文本的交织序列！

Ichigo是开源的多模态A|语音助手,采用混合模态模型，能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌，用统一的变换器架构同时处理语音和文本，实现跨模态的联合推理和生成。基于此方法提高了处理速度，降低算力消耗，让首令牌生成的延迟仅为111毫秒，远低于现有模型，让lchigo能提供接近实时的语音交互体验。

Ichigod主要功能：

实时语音处理：lchigo实时处理语音输入，将其转换为离散令牌，实现快速响应。

跨模态交互：支持语音和文本的交织序列处理，实现真正的跨模态交互。

多轮对话管理：在多轮对话中保持上下文理解，提供准确和个性化的回答。

模糊输入处理：面对不清晰的语音输入或背景噪音，请求用户重复，保证交互的准确性。

多语言支持：得益于多语言语音识别数据集的预训练，lchigo支持多种语言的处理

GitHub：https://github.com/homebrewltd/ichigo

HuggingFace模型库：https://huggingface.co/collections/homebrewltd/ichigo-66ffc7484ef31ec5596ef6d0

11月19日

32.8Kstar！Magentic-One：微软开源引领多AI智能体协作系统！

Magentic-One系统的核心在于其强大的协调器代理（Orchestrator），它不仅负责调度各项任务，更是整个任务高效完成的蓝图规划者。该协调器通过精心构建的“任务账本”来启动各项操作，并在项目推进过程中维护着“进度账本”，从而确保项目各阶段的任务能够如期完成。

为了实现任务的无缝执行，Magentic-One系统通过协调器指挥着四个主要代理，它们各司其职，共同协作。其中，WebSurfer智能体专注于网络搜索、链接点击和在线元素互动，能够跨多个网站快速收集并提炼所需信息；FileSurfer智能体则致力于本地目录的探索和文件内容的分析，为文档管理和数据检索提供有力支持；编码智能体则拥有出色的编程和代码评估能力，能够轻松编写新脚本、调试现有代码，并与其他代理紧密合作；而计算机终端智能体则负责直接执行由编码代理生成的代码，特别适用于需要即时测试或部署的项目场景。

Magentic-One 的主要功能

任务协调与执行：基于名为orchestrator的主导智能体协调和指导其他智能体完成任务。

网络信息处理：Websurfer智能体,在网络上进行搜索、点击链接、与在线元素互动,跨网站收集信息,提供所需

的摘要。

文件管理：FileSurfer智能体探索本地目录、分析文件内容，支持文档管理和数据检索。

自适应项目管理：监控项目的每个阶段，及时调整计划以应对各种障碍，确保任务的顺利完成。

复杂任务处理：处理跨领域的复杂、多步任务，具有类似人类的适应能力。

项目官网：https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/?utm\_source=ai-bot.cn

GitHub：https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

腾讯开源混元-3D大模型： 10秒即可生成高分辨率细3D模型！

腾讯推出的一体化 3D 生成框架**：混元3D-1.0** ，支持从文本和图像生成 3D 内容，仅需 10 秒便可生成3D模型。

文本到 3D：用户可以通过简单的文本描述生成 3D 对象。例如，描述一片绿叶或一把棕色吉他，模型将生成对应的 3D 物体。

图像到 3D：支持多种尺度的物体重建，从大型建筑到小型工具和植物都能准确生成。

多视角生成：生成物体的多角度2D视图，确保3D模型的细节和一致性，让模型看起来更真实。
快速3D重建：利用多个视角的图像在短时间内重建出完整的3D模型，约10秒即可完成，适合需要快速生成3D内容的应用。
高分辨率细节增强：具备提升细节清晰度的超分辨率模块，让生成的3D模型更加精细。
显式3D网格输出：支持直接输出可编辑的3D网格，方便在其他3D软件中进一步编辑和使用。
10 秒内生成：包括网格和纹理提取在内，整个过程在 10 秒内完成。

官网：https://3d.hunyuan.tencent.com/

GitHub：https://github.com/Tencent/Hunyuan3D-1

论文：https://3d.hunyuan.tencent.com/hunyuan3d.pdf

模型：https://huggingface.co/tencent/Hunyuan3D-1

15岁少年开源AI项目被百万收购！ChatNio：一站式AI大模型聚合网站开源！

最近，他的开源项目 Chat Nio 被百万收购。从 0 开始到拿到七位数的第一桶金，他仅用了不到两年的时间，期间还经历了中考，现在刚上高一。

他首页第一句话便是：一切皆有可能！

在GitHub上一键收获4k+星星！他开源的ChatNio 是一个综合了各种流行的模型和服务的一站式平台。接入了 OpenAI、Midjourney、Claude、讯飞星火、Stable Diffusion、DALL・E、ChatGLM、通义千问、腾讯混元、360 智脑、百川 AI、火山方舟、新必应、Gemini 和 Moonshot 等等模型。

你还可以在这里享受到分布式流式传输、图像生成、对话跨设备自动同步和分享、 Token 弹性计费、Key 中转、多模型聚合、联网搜索、AI 卡片，AI 项目生成、AI 批量文章生成...... 一系列应接不暇的服务。

据悉，之后还将上新 RAG、数字人、Payment、TTS & STT、API 网关、监控模型健康，Agent Workflow、Realtime、团队协作更多功能，可谓是百宝箱项目啊！

项目官网：https://www.chatnio.com/

GitHub地址：https://github.com/zmh-program/chatnio

11月18日

首个会话音频开源模型！Hertz-dev：8.5亿参数，120毫秒超低延迟！

Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hertz-dev 是一个全双工、仅支持音频的 Transformer 基础模型。

它的主要功能是用于生成对话音频，也就是模拟人类对话的语音生成。支持全双工音频，它可以同时接收和生成音频，就像电话或实时对话一样，不需要等待说完一句话才能回复。

hertz-dev 拥有85亿参数，基于2千万小时的高质量音频数据训练，支持单声道和全双工生成选项。模型因使用了真实世界会话音频的超大数据集，能表现人类语音特征，如停顿和情感语调。

“Hertz-dev” 具有高精度和低延迟的特点，可以快速响应，并且生成的音频质量高，听起来更自然。这种特性让它特别适合用在实时的语音互动中，比如虚拟客服、语音助手等需要即时反应的场景。

主要特点：

实时对话：支持双向语音交流，不需要等对方讲完，可以实现流畅的对话，适合虚拟助手和语音客服。
高效音频压缩：用一种特别的编码方式把语音压缩得很小，但依然保持高音质，占用带宽少，音质好。
长对话生成**：可以理解并生成长时间的对话内容**，适合需要长时间互动的场景，比如虚拟主持人。
低延迟：生成语音速度很快，只有 120 毫秒延迟，比现有的公开模型低 2 倍，更接近实时的人类互动，几乎可以实现实时互动。
易于扩展和自定义：作为开源模型，开发者可以下载并根据需求微调，用于各种语音生成任务。

GitHub：https://github.com/Standard-Intelligence/hertz-dev

官方介绍：https://si.inc/hertz-dev/

腾讯开源目前最大MoE模型：腾讯混元大模型，具有 3890 亿参数！

腾讯发布开源 Mixture of Experts（MoE）模型**：腾讯混元大模型（Hunyuan-Large）**，这是目前在业界是规模最大的开源 Transformer 专家模型，具有 3890 亿参数，其中活跃的参数为 520 亿。

它专为提升自然语言处理、计算机视觉和科学任务而设计，在长文本处理、常识推理、数学能力等方面表现出色。

**腾讯混元大模型（Hunyuan-Large）**训练过程中使用了大量合成数据，使其可以学习到更丰富的语言表达方式。这种数据增强技术帮助 Hunyuan-Large 更好地泛化未见过的内容，提升对长文本的理解能力。

多项任务表现优异
- 常识和逻辑推理：在 CommonsenseQA 和 PIQA 等任务中，Hunyuan-Large 取得了显著的优势，证明了其在常识推理和逻辑推理任务中的高效性能。
- 阅读理解和问答任务：在 TriviaQA、NaturalQuestions 等阅读理解任务上，模型表现优异，尤其在复杂问答任务中展现了卓越的理解和回答能力。
- 数学推理能力：在 GSM8K 和 MATH 数据集上，Hunyuan-Large 的表现超过了所有其他基线模型，特别是在 CMATH（中文数学）数据集中也获得了最佳成绩，突显了其在数学和逻辑推理方面的实力。
中文任务的卓越表现

C-Eval 和 CMMLU：在中国语言测试（如 C-Eval 和 CMMLU）中，Hunyuan-Large 展现出一流的性能，是同类开源模型中的佼佼者。尤其是在中文语境下的多项选择、阅读理解等任务中，该模型的准确性显著提升。

与其他模型的性能对比

与 Dense 模型和其他 MoE 模型的对比：Hunyuan-Large 在 MMLU、BBH 和 WinoGrande 等多个基准测试上均超过了 LLama3.1、Mixtral 和 DeepSeek 等同类模型。特别是在 MMLU 数据集上，Hunyuan-Large 的表现优于 LLama3.1-405B 模型，提升幅度达到 2.6%，充分展示了其在大规模任务上的理解和推理能力。

GitHub地址：https://github.com/Tencent/Tencent-Hunyuan-Large

官网：https://llm.hunyuan.tencent.com/

模型下载：https://huggingface.co/tencent/Tencent-Hunyuan-Large

技术报告：https://arxiv.org/pdf/2411.02265

上海AI Lab复刻OpenAI奥数神器，开源LLaMA版o1！

近期，开源社区传来好消息:上海AI Lab团队发布了LLaMA版o1项目，旨在复刻OpenAI的奥数解题神器o1。该项目采用了多种先进技术，包括蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式，引起了开发者社区的广泛关注。

目前，LLaMA版o1已开源的内容包括:预训练数据集、预训练模型、强化学习训练代码。其中，“OpenLongCoT-Pretrain”数据集包含超过10万条长思维链数据，每条数据都包含一个完整的数学问题推理过程，包括思考内容、评分结果、问题描述、图形坐标、计算过程、结论推导等完整的推理链路，以及对各个推理步骤的批评和验证内容，为推理过程提供评价和指导。经过在此数据集上的继续预训练，模型可以像o1一样读取和输出长思维链过程。

GitHub地址：https://github.com/SimpleBerry/LLaMA-O1

11月15日

阿里开源！In-Context LoRA：通过提示词生成连贯影像！

In-Context LoRA是一种新方法，用于对文本到图像的生成模型（如扩散变换器，DiTs）进行微调，使其能够生成具有自定义关系的图像集，适用于多种任务。

也就是用于提升文本到图像生成模型的上下文生成能力。它通过小规模数据集的调优，实现图像生成中一致性和连贯性的提升。

它能让 AI 生成图像时，能够保持不同图像之间的关联性和一致性，尤其是在需要生成连贯情节的场景时（比如一组连续的故事图像或影视分镜）。简单来说，它让 AI 在生成多张图片时，可以理解它们之间的关系，让结果看起来更连贯、更符合预期。

主要功能

生成连贯的图像序列

场景连贯性：在生成多张相关图像时，保持角色和场景的一致性。例如，在生成一系列讲述冒险故事的图像时，每张图片中的主角会保持相同的外貌和服饰，情节也会连贯发展。
多角色一致性：适用于需要多角色互动的图像生成，确保每个角色的身份和外观在整个图像序列中保持一致。

2. 自定义内在关系的图像生成

可以生成一组具有内在关系的图像。例如，生成一组家庭生活的照片集，每张图像展示家庭成员在不同场景下的互动，但彼此之间保持情感和场景的一致性。
适合品牌设计、故事讲述、广告制作等需要保持视觉一致性的场景，让每张图片看起来都是同一个主题的一部分。

支持多种图像生成应用

可以应用于影视分镜设计、产品宣传、广告展示等需要多个关联图像的应用场景。例如，用于电影中的不同场景设计，或者用于电商产品展示的不同角度和情境。

项目地址：https://ali-vilab.github.io/In-Context-LoRA-Page/

GitHub：https://github.com/ali-vilab/In-Context-LoRA

论文：https://arxiv.org/abs/2410.23775

Fast GraphRAG：微软推出高效的知识图谱检索框架！

Fast GraphRAG 是微软推出的高效的知识图谱检索框架,旨在提供可解释性和高精度的代理驱动检索工作

流。它结合了检索增强生成(RAG)技术和知识图谱，提升大型语言模型(LLMs)在处理私有数据和复杂

数据集时的性能。Fast GraphRAG 无缝融入检索管道，提供高级 RAG 的强大功能，无需构建和设计Agent

工作流程的开销。具备可解释和可调试的知识、快速、低成本、高效的特性，支持动态数据和增量更新。

Fast GraphRAG的主要功能

知识图谱可视化查询：Fast GraphRAG支持用户在知识图谱上进行可视化查询，使教据检索和更新过程更加直观和

易于管理。

动态数据生成：支持动态数据生成，自动优化和生成图表，适应不同领域和本体的需求。

实时数据更新：Fast GraphRAG支持数据变化时的实时更新，确保信息的时效性和准确性

智能探索：基于PageRank的图形探索技术，提高检索的准确性和可靠性。

异步和类型化操作：Fast GraphRAG完全异步,具有完整的类型支持，使工作流程更加强大和可预测。

可扩展性：框架设计考虑大规模运行的需求，无需大量的资源或成本。

GitHub：https://github.com/circlemind-ai/fast-graphrag?tab=readme-ov-file

项目官网：https://circlemind.co/?utm\_source=ai-bot.cn

DreamClear:中科院联合字节推出的高性能图像修复技术！

DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术，专注于隐私安全

的数据集管理，能将低质量(LQ)图像恢复为高质量(HQ)图像。提升了图像的细节和质量，确保数据

隐私，符合现代社会对隐私保护的需求。

主要功能：

图像恢复：DreamClear 能将低质量图像恢复为高质量图像，提升图像的细节和质量。

隐私保护：在进行图像恢复的同时，DreamClear 考虑到了数据隐私的保护，确保在使用过程中用户的隐私安全,。

深度学习模型：基于深度学习技术，DreamClear 能智能识别和修复图像中的问题，提高恢复效果。

GitHub：https://github.com/shallowdream204/DreamClear

HuggingFace模型库:https://huggingface.co/shallowdream204/DreamClear/tree/main

11月14日

OpenAl开源SimpleQA：用于评估前沿模型的事实准确性的AI模型！

AI 大模型经常“一本正经地胡说八道”，这个问题 OpenAI 也头疼！现在，他们祭出了新武器—— SimpleQA，并已正式开源，这是一个全新的事实性基准测试，专门用来检测大模型回答事实性问题的准确性！OpenAI 的研究科学家 Jason Wei 表示，由于此前一直缺乏一个好的事实性基准测试，所以他们团队决定自己动手，创建一个简单、可靠、易用的评估工具，供所有 AI 研究人员使用！

评估事实性回答能力：参impleQA主要用在测试语言模型回答简短、事实性问题的能力，问题设计为只有一个正确

答案。

挑战性问题设计：问题对抗性地收集，针对GPT-4等前沿模型，确保测试具有挑战性。

易于评分：问题设计让答案易于评定，答案被分类为正确、错误或未尝试。

**模型自我认知评估 **：基于评估模型是否“知道自己知道什么”,衡量模型的自我认知能力。

校准测量：测量模型对回答准确性的自信程度，即模型是否能准确评估自己的回答。

GitHub：https://github.com/openai/simple-evals/

项目官网:https://openai.com/index/introducing-simpleqa/?utm\_source=ai-bot.cn

D-Edit:基于图像、文本、掩码的多功能图像编辑框架!

D-Edit是基于图像和文本的多功能图像编辑框架，基于预训练的扩散模型和独特的提示(prompts)实现对

图像中特定项目的精确控制和编辑。框架能处理包括基于图像的编辑、基于文本的编辑、基于掩码的编辑

及项目移除等多种编辑任务。D-Edit将图像分割成多个项目，为每个项目关联一个独特的提示，实现对项

目的解耦控制。用户基于修改提示、掩码或项目与提示之间的关联来实现多样化的编辑效果。D-Edit是首

个能基于掩码编辑实现项目编辑，能结合图像和文本编辑的框架

主要功能：

基于文本的编辑：用户改变与特定项目关联的文本提示替换或编辑图像中的项目。

基于图像的编辑：支持用户用参考图像中的项目替换目标图像中的项目。

基于掩码的编辑：用户能编辑图像中特定项目的掩码,包括移动、调整大小、改变形状等，改变项目的外观,

项目移除：基于删除与项目相关的掩码和提示对，从图像中移除特定项目，让周围区域自然填补空白。

多功能图像编辑：在统一的框架内实现上述编辑功能，提供灵活且多样化的图像编辑能力。

GitHub：https://github.com/collovlabs/d-edit

在线体验：https://huggingface.co/spaces/Collov-Labs/d-edit

微软开源！PromptFix：高度细节保留和指令遵循的图像处理模型！

PromptFix是新型的指令引导扩散模型，结合语言模型和大规模视觉指令数据集，根据人类指令执行多样化的图像处理任务。Promptfix基于构建大规模的指令遵循数据集，提出高频引导采样方法和辅助提示适配器，增强对图像高频细节的保留和处理严重退化图像的能力。实验结果表明，PromptFix在多种图像处理任务中优于现有方法，展现出优越的零样本能力，在盲恢复和组合任务中表现出色。Promptfix有效地解决了空间信息丢失和图像退化适应问题，提高模型在遵循指令进行图像处理时的性能和准确性。

主要功能：

图像处理任务执行：Promptfix根据用户自定义的指令执行包括低级任务、图像编辑和对象创建在内的广泛图像处

理任务。

高频细节保护：基于高频引导采样方法，PromptFix在图像生成或编辑过程中保护高频细节，确保图像细节的精确

保留。

任务泛化能力提升：基于视觉语言模型(VLMs)辅助提示适配器，增强文本提示，提升模型在不同图像处理任务

间的泛化能力。

零样本学习能力：PromptFix展现出优越的零样本能力，尤其在盲恢复和组合任务中，无需额外训练即可处理未见

过的任务。

GitHub：https://github.com/yeates/PromptFix

项目官网：https://www.yongshengyu.com/PromptFix-Page/?utm\_source=ai-bot.cn

11月13日

MimicTalk：单图图像生成逼真数字人，15 分钟训练完毕!

MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率，基于高效的微调策略和具有上下文学习能力的人脸动作生成模型，显著提升生成视频的质量。MimicTalk的代码是基于之前的Real3D-Portrait项目，进一步优化而来，支持用音频驱动来生成特定人物的说话头像,让数字人视频在感官上与真人具有极高的相似性。

主要功能：

快速个性化训练：MimicTalk能在15分钟内完成对一个新身份的适应和训练，相比传统方法大幅提高训练效率。

高质量视频生成：基于精细调整和优化，MimicTalk生成的视频在视觉质量上超越以往的技术

表现力增强：MimicTalk能捕捉和模仿目标人物的动态说话风格，让生成的视频更加生动和富有表现力。

上下文学习：模型能从上下文中学习目标人的说话风格，提高面部动作的自然度和真实感。

音频驱动：支持用音频输入驱动特定人物的3D说话头像，实现音频到面部动作的同步。

GitHub：https://github.com/yerfor/MimicTalk

项目官网：https://mimictalk.github.io/?utm\_source=ai-bot.cn

Meta Al开源！ LongVU：一款开源的长视频理解模型！

LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性，LongVU能在减少视频标记数量的同时，保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧，用文本引导的跨模态查询进行选择性帧特征减少，在必要时基于时间依赖性进行空间标记压缩。LongV能有效处理大量帧在给定的上下文长度内损失很少的视觉信息。

LongVu的主要功能

时空自适应压缩：LongVU基于减少视频标记的数量来处理长视频，保留视频中的关键视觉细节，能在有限的上下

文长度内处理非常长的的视频内容。

跨模态查询：基于文本引导的跨模态査询来选择性地减少视频帧的特征,能保留与文本査询最相关的帧的详细信

息，将其他帧减少到低分辨率的标记表示。

帧间依赖性利用：基于分析视频帧之间的时间依赖性，LonqVU能基于依赖性执行空间标记的压缩，减少模型的上

下文长度需求。

长视频理解：LongVU能有效处理1fps采样的视频输入，且能适应性地将每小时长视频的平均每个帧的标记数量减

少到2个，适应8k上下文长度的多模态大型语言模型(MLLM)。

GitHub:https://github.com/Vision-CAIR/LongVU?tab=readme-ov-file

在线体验:https://huggingface.co/spaces/Vision-CAIR/LongVU

Moondream：一款开源的轻量级AI视觉语言模型！

Moondream开源项目是一个拥有 16 亿参数的视觉AI模型，它采用了 SigLIP、Phi-1.5 技术和 LLaVa 训练数据集，能够在任何平台运行。它致力于通过深度学习和计算机视觉技术实现“看图说话”的神奇功能。它不仅能精准捕捉并解析图像中的关键细节与场景信息，还能将这些视觉元素转化成连贯且富有情感色彩的语言描述，为用户带来全新的交互体验。该模型突破了传统图文转换工具的局限性，开启了图像内容自动转述的新篇章。

功能特色：

1.大规模参数模型：Moondream是一个拥有16亿参数的视觉AI模型，这样的规模使得它能够处理复杂的图像信息并提供详细的描述。

2.开源项目：它是一个开源项目,这意味着开发者和研究人员可以自由地访问、修改和使用这个模型，促进了技术的共享和创新。

3.深度学习和计算机视觉技术：Moondream利用深度学习技术,特别是SigLIP、Phi-1.5技术和LLaVa训练数据集，来实现图像内容的自动转述功能。

4.跨平台运行能力：该模型能够在任何平台上运行，提供了广泛的应用场景和灵活性

5.图像转文字解读：Moondream能够深入理解图像中的物体、动作和情境关系等复杂视觉元素，并将它们转化为自然语言描述。

6.上下文情境理解：它具备上下文理解能力,能够结合文化背景和常识推理，生成符合逻辑且富有趣味性的文字说明，提升图像叙述的真实性和生动性。

7.多功能性：Moondream不仅可以作为开发人员集成到应用程序中的工具，也适用于学生学习和A!爱好者探索，能够将各种类型的信息转换为文本输出。

8.丰富的API接口和文档支持：为开发人员提供了便利，使得他们可以轻松地实现与Moondream的对接和集成。

GitHub地址：https://github.com/vikhyat/moondream

11月12日

9.2Kstar！基于LLMs和视觉的浏览器AI自动化工具！

Skyvern 是通过使用大型语言模型（LLMs）和计算机视觉自动化基于浏览器的工作流程。传统的浏览器自动化需要编写针对特定网站的脚本，而 Skyvern 则通过实时识别网页元素，创建交互计划，无需依赖预设的选择器或 DOM 解析。

它可以处理动态变化的网站布局，并通过智能推理完成复杂任务，如数据提取、表单填写、多因素认证等，适用于多网站的批量工作流程自动化。

主要特点

1.无需定制代码：参kyvern 能够映射视觉元素到完成工作流所需的动作，无需任何定制代码。

2.抵抗网站布局变化：由于没有预定义的XPath或其他选择器，Skyver 不会受到网站布局变化的影响

3.跨网站工作流应用：参kyvern 能够将单一工作流应用于大量网站，因为它能够理解完成工作流所需的交互。

4.复杂情况处理：参kyvern 利用 LLMs 推理交互，以确保能够覆盖复杂情况。

GitHub：https://github.com/skyvern-ai/skyvern

GLM-4-Voice:智谱AI推出的端到端情感语音模型!

GLM-4-Voice是智谱A!推出的端到端情感语音模型，能直接理解和生成中英文语音，支持实时语音对话

能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice

Tokenizer负责将连续语音转换为离散token，GLM-4-Voice-Decoder将token转换回连续语音输出，GLM-4

Voice-9B基于GLM-4-9B模型进行预训练和对齐，理解和生成语音。GLM-4-Voice的设计用端到端建模减少

信息损失，提高语音交互的自然度和流畅性，且支持低延迟的实时对话，为用户提供更加丰富和自然的语

音交互体验。

理解和生成语音:直接理解和生成中英文语音，实现流畅的人机交互。

情感表达:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等,让语音回复更加自然。

调节语速:根据用户的指令调整语音的语速，适于不同的对话场景。

实时打断和指令输入:支持用户随时打断语音输出，输入新的指令调整对话内容

多语言和方言支持:支持中英文及多种中国方言，如粤语、重庆话、北京话等。

低延迟交互:设计流式思考架构，低延迟实现高质量的语音对话。

Github ：https://github.com/THUDM/GLM-4-Voice

项目官网：https://zhipuai.cn/news/141?tab=1?utm\_source=ai-bot.cn

EveryoneNobel:一键生成专属于你的诺贝尔奖风格图像！

EveryoneNobel 旨在为每个人生成诺贝尔奖图像。我们使用 ComfyUI 生成图像，并使用 HTML 模板在图像上显示文本。该项目不仅作为生成诺贝尔图像的过程，而且还是一个潜在的通用框架。该框架将 ComfyUI 生成的视觉效果转换为最终产品，为进一步的应用程序和定制提供了一种结构化的方法。

EveryoneNobel 的主要功能

生成个性化诺贝尔奖风格图像:用户上传个人肖像照片,输入姓名和获奖主题,系统自动生成带有这些信息的诺贝尔奖风格图像

基于 Comfyul 框架的图像生成:利用 ComfyUl框架的高度灵活性,确保生成的图像风格独特且细节丰富。

HTML 模板展示文本:通过 HTML模板在图像上展示用户输入的文本信息,如获奖者姓名和奖项主题,

个性化定制选项:支持用户根据个人喜好调整图像内容和样式，进一步个性化定制。

EveryoneNobel 的技术原理

图像生成:利用 ComfyUl框架生成具有独特风格和丰富细节的图像。

文本处理:基于 HTML 模板技术将用户输入的文本信息(如姓名和获奖主题)添加到生成的图像上。

用户交互:提供一个用户友好的界面，让用户能轻松上传图片和输入所需文本

自定义选项:支持用户调整图像的各种参数，如颜色、字体和布局，满足个性化需求。

GitHub:https://github.com/16131zzzzzzzz/EveryoneNobel/blob/main/README.md

11月11日

Ultralight-Digital-Human ：支持在移动设备实时运行的轻量级数字人模型！

Ultralight-Digital-Human 是一个创新的开源项目，使得数字人在移动设备上的实时应用成为可能，旨在实现超轻量级的数字人模型，其能够在移动设备上实时运行。

支持在移动设备上实时运行的超轻量级数字人模型
提供了详细的训练和推理步骤,用户可以轻松训练出自己的数字人
支持使用 wenet 和 hubert 两种不同的音频特征提取方式,满足不同场景需求
训练过程中可以使用同步网络(syncnet)获得更好的效果

应用场景：

用户可以在移动设备上实时生成数字人形象，用于社交应用、游戏和虚拟现实等场景。

技术细节：

该模型优化了算法，使其在低功耗设备上也能流畅运行。使用深度学习技术，结合图像和音频输入，实时合成数字人形象。
在训练和部署过程中，模型会进行压缩和剪枝，去掉冗余的参数，以减少模型的大小和计算需求。这有助于在移动设备上更流畅地运行。
支持多种音频特征提取方法，如 Wenet 和 Hubert，能够快速从音频中提取关键特征。这种高效的特征提取有助于减少处理时间和资源消耗。
通过优化的数据流和推理过程，该模型能够实时处理输入数据（如视频和音频），实现即时的数字人反应。

创新性：

与传统数字人模型需要高性能硬件不同，Ultralight-Digital-Human 可以在普通智能手机上实现复杂的数字人效果，极大地扩展了其应用的普及性。
支持多种操作系统和平台，能够在不同类型的智能手机上运行，增加了其普遍适用性。

GitHub：https://github.com/anliyuan/Ultralight-Digital-Human

阿里达摩院开源科研AI助手！CoI-Agent：可一键生成研究问题和方法！

近日，阿里巴巴达摩院宣布开源一款新型AI工具——CoI-Agent，这款AI工具的核心功能是帮助科研人员快速生成科研想法。这一功能极大地简化了科研初期的构思过程，使科研工作更加高效。

CoI-Agent的应用范围十分广泛，不仅适用于自然科学领域，还能覆盖社会科学、工程技术等多个学科领域，为各领域科研人员提供有力支持。使用CoI-Agent非常简单，用户只需输入感兴趣的论文主题，系统便会自动生成与之相关的关键词、研究问题和研究方法，节省了科研人员在资料搜集和整理上的时间。

通过使用CoI-Agent，科研人员可以更迅速地锁定研究方向，从而提高整体工作效率，有助于推动科研项目的进展，广大科研人员可以免费使用和进一步开发这款工具。

GitHub开源地址：https://github.com/DAMO-NLP-SG/CoI-Agent

遥遥领先！智谱 AI 开源首个产品化的AI智能体：AutoGLM！

Claude 才发布 Computer Use，让AI可以像人一样操控你的电脑来干活，已经很炸裂了。

这都还没热乎。

没想到国内的智谱 AI 就搞出了个“Phone Use ”，布了他们首个产品化的智能体——AutoGLM。

简单来说，它是一个能代替你在手机和网页上完成各种操作的AI助手，不需要手动搞那些复杂的流程，只需要说出你的需求，AutoGLM就可以可以模拟像人类操作手机打开APP一路火花带闪电全自动搞定。

它可以帮你：

在微信上「给老板的朋友圈点赞并写评论」……

在淘宝上「购买某一款历史订单产品」……

在携程上预订酒店……

在 12306 上购买火车票……

在美团上点个外卖……

给微信好友发信息打语音电话，总结公众号文章……

小红书自动评论点赞关注……

AutoGLM的主要功能：

模拟人类操作手机:接收文字或语音指令，执行如微信点赞评论、淘宝购物、携程预订酒店、12306购票、美团点

外卖等任务。

实时操作:能实时响应指令，在手机上执行复杂的任务序列。

无需API调用:不依赖于特定的API接口，直接与图形用户界面(GUI)交互.

自动化任务执行:在真实环境中执行自动化任务，简化用户操作流程。

内测申请：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

GitHub地址：https://github.com/THUDM/GLM-4-Voice

11月8日

零样本文本到语音模型！MaskGCT：支持跨语言配音、语音转换、情感控制！

MaskGCT（Masked Generative Codec Transformer）是一种零样本文本到语音（TTS）转换模型。它是一种无自回归的深度学习模型，专注于生成自然、相似度高且可控的语音，同时不需要文本与语音之间的显式对齐信息。

MaskGCT 的优势：

更高的自然度和相似性：与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。
灵活性和可控性：MaskGCT 支持对语音生成的多样性和情感控制，使其在多种应用场景中具有更广泛的适用性。
快速推理：模型通过并行解码机制，大幅降低了推理时间，适合实时应用。

MaskGCT 解决了哪些问题？

无需文本与语音对齐信息：
- 传统的 TTS 系统需要明确的文本与语音对齐信息来指导生成过程，例如需要逐音素的时长预测。这增加了模型的复杂性，也可能限制生成结果的自然性。
- MaskGCT 通过掩码生成变换器的机制，不再依赖这种对齐信息，使模型训练和推理过程更为简洁。
不需要音素级别的时长预测：
- 很多非自回归 TTS 系统需要预测音素级别的时长，这导致了复杂的生成流程以及较为标准化的语音输出。
- MaskGCT 摆脱了时长预测的需求，直接生成语义和声学标记，从而提高了生成语音的自然度和多样性。
提高了生成速度与鲁棒性：
- 自回归 TTS 系统在生成每个语音标记时需要逐个推理，速度较慢，且易受到噪声的影响，导致生成质量下降。
- MaskGCT 采用非自回归架构，支持并行推理，显著加快了生成速度，并通过掩码机制提高了生成的鲁棒性。
多任务适用性：
- MaskGCT 不仅可以实现零样本的文本到语音转换，还可以扩展到其他任务，如跨语言配音、语音转换、情感控制等，展现了作为语音生成基础模型的潜力。

项目及更多演示：https://maskgct.github.io/

GitHub：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

论文：https://arxiv.org/pdf/2409.00750

在线体验：https://huggingface.co/spaces/amphion/maskgct

官方网站：https://voice.funnycp.com/

字节开源！PersonaTalk：出可精准给视频进行AI配音的模型！

PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架，也就是专门用来给视频人物进行AI配音。它不仅能够让人物的嘴巴动作和声音完全同步，还能保持人物的个性特征，比如独特的说话风格和面部细节。

它通过一个基于注意力机制的两阶段系统，在生成与音频同步的嘴部动作的同时，保持说话者独特的个性特征（如说话风格和面部细节）。其目标是解决传统配音技术难以同时确保口型同步和个性保留的挑战。

它能做到：

声音同步嘴型：当你给一个视频加上新的声音时，PersonaTalk可以让人物的嘴巴动作和声音完全匹配，和新的语音说话口型嘴唇一样。
保留人物特点：在生成新视频时，它会尽量保留人物原本的说话方式、脸型、表情等细节，让视频看起来更加真实和自然。
适用于不同人物：它不需要大量的数据来单独训练特定的人物，可以适应不同的人物和场景。

PersonaTalk 主要功能：

音频驱动的个性化视觉配音：能够根据输入的音频和参考视频生成同步的视觉配音，不仅让嘴唇动作与音频完美匹配，还能保留说话者的个性特点，比如说话的速度、语调和表情。这让生成的视频更加真实和个性化。
风格感知的唇形同步：PersonaTalk 会在生成唇部动作时将说话者的独特说话风格加入音频特征中，从而让唇形动作不仅仅是机械的同步，而是带有说话者的风格，比如轻松、严肃或激动的语气，让配音更生动。
双重注意力面部渲染：通过“双重注意力”机制，PersonaTalk 能够分别处理唇部和面部的纹理，确保每个细节都能真实呈现，比如牙齿的清晰度、面部轮廓的准确性、肤色和妆容的保留。这样，生成的人脸视频看起来更加自然和细腻。
多样化和一致性生成：在生成视频时，会根据不同的参考帧动态选择合适的画面，这样既能保证视频中的说话者动作一致性，又能在不同场景下展现多样性，比如不同角度、光线和背景的变化。
无需个性化微调的通用框架：可以在不同说话者之间直接应用，不需要额外的个性化调整。它能够适应多种说话者，适合广泛的应用场景，比如新闻播报、虚拟主持人或多语言配音。
多维度评价与优化：PersonaTalk 不仅关注唇形同步的准确性，还从视觉质量和个性保持等多个维度对生成效果进行评估和优化，确保每个生成结果都达到最佳状态。这让它在各种测试中都表现出色，得到用户的好评。

项目地址：https://grisoon.github.io/PersonaTalk/

论文：https://arxiv.org/pdf/2409.05379

31.3Kstar！ToolJet：开源低代码框架，轻松构建复杂可响应界面！

ToolJet 是一个开源低代码框架，用于以最少的工程工作量构建和部署内部工具。ToolJet 的拖放式前端构建器允许您在几分钟内创建复杂、响应迅速的前端。此外，您还可以集成各种数据源，包括 PostgreSQL、MongoDB 和 Elasticsearch 等数据库;具有 OpenAPI 规范和 OAuth2 支持的 API 端点;Stripe、Slack、Google Sheets、Airtable 和 Notion 等 SaaS 工具;以及 S3、GCS 和 Minio 等对象存储服务，用于获取和写入数据。

主要功能：

Visual App Builder："5+ 内置响应式组件，包括表格、图表、列表、表单和进度条。
ToolJet 数据库：内置无代码数据库。
多页：构建具有多个页面的应用程序。
多人游戏编辑：允许多个开发人员同时构建应用程序。
50+ 数据源：与外部数据库、云存储和 API 集成。
桌面和移动：自定义布局宽度以适应各种屏幕尺寸。
自托管：支持 Docker、Kubernetes、AWS EC2、Google Cloud Run 等。

GitHub开源地址：https://github.com/ToolJet/ToolJet

11月7日

中文版NotebookLM 最好用的平替！将任何内容转化为AI播客！

项目 “URL-to-播客-to-小宇宙” 是一个将任意网页 URL 转换为播客并推送至 “小宇宙” 平台的工具。堪称中文版 NotebookLM 最好用的平替。

主要功能通过后端服务处理合成任务，并支持自动发布到 “小宇宙”。项目包含多种服务文件和 UI 页面，支持大语言模型和 TTS 服务配置。用户可根据需求自行替换 API 和 TTS 服务信息来运行项目。

使用 Python 实现，支持本地运行并通过网页访问管理合成记录。

体验地址：https://podlm.ai/zh-CN GitHub开源地址：https://github.com/lihuithe/podlm-public

Mochi1:Genmo开源的最新高质量AI视频生成模型！

Genmo 推出最新开源视频生成模型 Mochi 1。

Mochi 1 采用了Asymmetric Diffusion Transformer（AsymmDiT）架构，是迄今为止最大的开源视频生成模型，具备100亿参数。
该模型可同时处理文本和视频信号，拥有更强的视觉推理能力，同时优化了内存需求。

功能特点：

1. 高保真动作生成：生成的视频帧率达到30帧/秒，持续时间最长可达5.4秒，具备高时间一致性，确保动作连贯且自然。

2.逼真的物理效果：模型在生成流体动态、毛发模拟和人类行为时，遵循物理法则，生成结果更加自然逼真。

3.突破“恐怖谷”问题：人类角色的动作和表情流畅连贯，细节丰富，显著提升了视频的真实感和自然度。

4.强大的文本提示响应：Mochi 1 能根据用户的文本指令，生成与描述高度一致的场景、角色和动作。

5.实时生成与高效推理

实时视频生成：在推理阶段，Mochi 1 通过高效的内存管理和并行计算策略，实现了快速的视频生成和低延迟响应。
适用于多种应用场景：可用于视频创作、娱乐、虚拟环境训练、机器人合成数据等领域

模型下载：https://huggingface.co/genmo/mochi-1-preview

在线体验：https://www.genmo.ai/play

GitHub：https://github.com/genmoai/models

官网：https://www.genmo.ai/

基于 Next.js 14 开发一款的强大图像处理工具！

图像魔方是一个基于 Next.js 14 开发的强大图像处理工具，提供包括 AI 文生图、图片压缩、格式转换、SVG 编辑等功能。它支持生成 AI 图片、调整图像尺寸、设计简洁 logo，并且能够通过 remove.bg API 智能去除背景。

该项目适合社交媒体、营销等多种场景，支持 SVG 转 PPT 等多功能创意设计，采用 React、TypeScript 等技术栈构建，旨在为用户提供多样的图像编辑解决方案。项目部署在 Vercel 上。

主要功能：

AI 文生图:通过文字描述生成独特的AI图像,适用于各种创作场景，激发创意灵感。
文字卡片生成:创建精美的文字卡片，自定义字体、颜色和背景。
图片压缩:高效压缩图片文件大小,保持画质的同时优化加载速度。
图片格式转换:支持 JPG、PNG、WEBP、GIF 等格式之间的转换。
SVG 编辑器:在线创建和编辑 SVG 图形,设计可缩放的矢量图像,适用于各种设计需求。

GitHub开源地址:https://github.com/alchaincyf/img2046

11月6日

edge-tts :微软推出的，免费、开源、支持多种中文语音语色的AI工具!

edge-tts 是一个 Python 模块，允许用户通过 Python 代码使用 Microsoft Edge 的在线文字转语音服务，而不需要 Microsoft Edge、Windows 或 API 密钥。

用户可以通过命令行或代码生成并播放语音文件，并且支持更改语音、语速、音量和音调。该模块非常适合文本转语音（TTS）的应用场景，特别是在不依赖特定操作系统的情况下使用 Microsoft 的语音合成功能。

开源地址：https://github.com/rany2/edge-tts

6.5Kstar！DiffSynth Studio：一款开源的强力图像视频生成引擎！

DifSynth-studio 是一个创新的扩散引擎,专门设计用于实现图片和视频的风格转换。它通过先进的机器学习技术,为用户提供了一种全新的创作方式，使得风格转换变得更加高效和直观。该工具的目标用户群体广泛,包括但不限于艺术家、设计师、视频编辑者和AI爱好者。无论是专业人士还是业余爱好者，都能在DifSynth-Studio中找到实现创意的工具和方法。

Difutoon渲染技术是DifSynth-Studio的核心创新之一,它通过结合深度学习四和计算机图形学，实现了高质量的图像和视频渲染。主要利用了生成对抗网络(GANS)和扩散模型(Difusion Modes),通过这些模型的协同工作，能够生成具有高度真实感和艺术效果的图像和视频。

技术原理

Difutoon渲染技术的核心在于其独特的扩散过程。该过程通过逐步添加噪声并逐渐去噪，最终生成目标图像。具体步骤如下:

1.初始化:从一个随机噪声向量开始。

2.扩散过程:通过一系列的扩散步骤，逐渐将噪声转换为图像。

3.去噪过程:在每个扩散步骤后,应用去噪网络(通常是一个U-Net结构的神经网络)来减少噪声,增加图像的细节,

4.生成目标图像:经过多次扩散和去噪步骤后，最终生成目标图像。

GitHub地址：https://github.com/modelscope/DiffSynth-Studio

Stable Diffusion 3.5重磅开源！最强全家桶，包含三个版本！

Stability AI 公司昨日（10 月 22 日）发布博文，Stable Diffusion 3.5闪亮登场，这标志着开源 AI 文生图模型的重大进步！

本次开源一共发布Large、Large Turbo和Medium三个版本，可根据不同的商业环境提供高度定制功能，同时对这些模型进行了大幅度优化可在消费级GPU就能轻松推理运行。

Stable Diffusion 3.5 Large：该基础模型拥有 80 亿参数，性能优于竞品模型并且响应迅速，是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 百万像素分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo：该模型是 Stable Diffusion 3.5 Large 的蒸馏版本，只需四步即可生成高质量图像，速度远快于Stable Diffusion 3.5 Large。

Stable Diffusion 3.5 Medium：该模型拥有 25亿参数，采用改进的MMDiT-X架构和训练方法，可在消费级硬件上「开箱即用」，在质量和定制易用性之间实现了平衡。该模型能够生成分辨率在0.25到2百万像素之间的图像。

StableDiffusion 3.5 Large模型拥有80亿参数，提供了卓越的图片质量和高度文本语义还原，是Stable Diffusion家族中最强大的模型，非常适合专业使用，尤其是在100万像素分辨率的图片。

据介绍，Stable Diffusion 3.5各版本模型在以下多个方面表现出色：

可定制性：轻松微调模型以满足特定创作需求，或根据定制的工作流程构建应用程序。

高效性能：经过优化，均可在标准消费级硬件上运行，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。 多样化输出：无需大量提示，即可创建代表全世界的图像，而不仅仅是一种肤色和特征的人。

风格多样：能够生成各种风格和美感的图片，如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。

Stable Diffusion 3.5凭借其出色的表现能力，成为市场上最可定制和最易访问的文生图像模型之一，同时在提示遵循性和图像质量方面保持了顶级性能。

Hugging Face：https://huggingface.co/stabilityai

GitHub：https://github.com/Stability-AI/sd3.5

11月5日

AI金融分析师！由 Claude 支持的可视化金融数据分析工具！

Claude Financial Data Analyst 是一个结合了AI模型Claude和数据可视化技术的金融数据分析工具，旨在帮助用户通过交互的方式对财务数据进行智能分析与可视化展示。

上传文档，根据您的数据立即生成漂亮的动态图表。

使用场景：

数据提取与分析：上传财务文件，提取关键指标，分析趋势和模式。
可视化创建：生成基于数据的图表，定制化可视化，比较多个指标。
交互式分析：提出关于数据的问题，生成特定的可视化，获得详细解释。

主要功能：

智能数据分析：
- 使用Claude 3 Haiku和Claude 3.5 Sonnet模型进行高级数据分析。
- 通过AI模型，用户可以上传各种格式的金融数据文件，提取关键指标，分析趋势和模式。
交互式数据可视化：
- 根据所分析的数据生成各种可视化图表，帮助用户理解数据中的趋势和模式。可生成的图表包括：
  - 折线图（适合时间序列数据和趋势分析）
  - 柱状图（比较单一或多个指标）
  - 面积图（随时间变化的量或体积）
  - 堆叠面积图（组件分布）
  - 饼图（进行分布分析）
实时交互分析：
- 用户可以通过聊天形式与AI模型交互，提出有关财务数据的问题。
- 可以根据数据请求生成特定的可视化，并提供详细的解释与分析。

GitHub地址：https://github.com/anthropics/anthropic-quickstarts/tree/main/financial-data-analyst

Zerox：可将 PDF、DOCX 等文件转换为 Markdown 格式的GPT OCR 工具！

Zerox 是一个简单易用的 OCR 工具，可将 PDF、DOCX 等文件转换为 Markdown 格式。

它使用 GPT 模型对每个页面进行 OCR 处理，并将结果聚合为最终的 Markdown 输出。该工具支持 Node.js 和 Python 两种语言，并提供了丰富的配置选项。

Zerox 主要功能：

零-shot OCR 处理：利用 gpt-4o-mini 模型进行零-shot 学习，直接处理各种文档而无需特定任务的训练数据。
支持多种文件类型：能够处理 PDF、DOCX、图片等多种文档格式，适用于多种场景。
图像处理能力：在处理过程中，将文档转换为图像，再对每个图像进行 OCR 处理，以提取文本信息。
Markdown 输出：处理后的文本以 Markdown 格式返回，便于后续编辑和使用，保留文档的基本格式。
并发处理：支持并发处理多个页面，用户可设置同时处理的页面数量，以加快整体处理速度。
自定义选项：用户可设置多种选项，例如选择处理特定页面、是否保持格式、以及选择使用的模型等。
易于集成：提供 Node.js 和 Python 的 SDK，便于开发者轻松集成到现有应用中。
清理选项：支持在处理完成后自动清理临时生成的图像文件，简化用户的文件管理。

GitHub地址：https://github.com/getomni-ai/zerox

演示：https://getomni.ai/ocr-demo

Meta AI发布 Meta Spirit LM ：实现语音和文本无缝转换的多模态模型！

Meta Spirit LM 是Meta推出的一个开源的多模态语言模型，其设计目的是能够在语音和文本之间进行无缝转换。它通过结合语音和文本数据，支持跨模态的生成任务。

也就是它能够听懂语音，把它变成文字；也可以根据文字生成语音，并且能保持语音中的情感和语气，使生成的语音更加自然生动。可以在文本和语音之间来回转换。

语音和文字互相转换：
- 它可以同时处理语音和文字数据。例如，它能够把说话的内容转成文字（就像字幕一样），也可以把文字变成带有情感的语音（像机器人讲话一样）。
两种模式：
- Base版本：可以处理语音的基本转换，适合一般的语音识别和生成任务。
- Expressive版本：使用音调和风格标记（pitch and style tokens）来捕捉语音中的情感，如兴奋、愤怒、惊讶等，并生成带有这种情感的语音，使得生成的语音更加自然、真实。可以根据语音中的情感（如开心、愤怒、惊讶等）生成带有情感的语音，使机器说话更加自然。

主要功能：

语音与文本生成： SPIRIT-LM 能够生成文本或语音序列，输入可以是文本、语音或二者的组合。模型能够根据输入模式切换生成模式。例如，它能够从文本生成语音，也能够根据语音输入生成相应的文本。
跨模态任务：模型可以执行多种跨模态任务，包括：
- 自动语音识别（ASR）：将语音输入转换为文本输出。
- 文本转语音（TTS）：将文本输入转换为语音输出。
- 语音与文本的混合生成：根据输入的模式自由生成文本或语音，并能够在生成过程中切换模态。
情感保持： SPIRIT-LM 能够在文本或语音输入中保留情感特征，并在生成的文本或语音中保留这种情感表达。这使得模型在情感丰富的对话、情感识别等任务中表现优异。

论文：https://arxiv.org/abs/2402.05755

GitHub：https://github.com/facebookresearch/spiritlm

11月4日

遥遥领先！Hallo 2：可生成长达一小时的4K分辨率人像视频！

根据单张图像和音频输入生成唱歌和说话视频，并能控制人物表情和姿态的模型 Hallo 发布了更新版本Hallo 2.

Hallo2 解决了长时、高分辨率的视频生成问题。它在现有的短时视频生成模型（如 Hallo）基础上进行了多项重要改进，能够生成长达一小时的4K分辨率人像视频，适用于各种人像表情和风格控制。

生成视频时长：最多支持生成 1小时 的连续人像视频，且保持视觉一致性。
分辨率支持：最高支持 4K分辨率 视频输出，生成的人像动画在细节和清晰度方面表现出色。
表情和风格控制：通过语音和文本标签的结合，生成的内容表现出高水平的可控性，能够根据不同输入生成情感丰富的多样化内容。
视觉一致性与时间连贯性：实验表明，Hallo2 通过补丁丢弃和噪声增强技术，在生成长时视频时极大程度上减少了表情抖动和外观漂移等问题。

Hallo2 是目前首个实现长达一小时、4K分辨率的音频驱动人像动画生成模型。通过创新的补丁丢弃、噪声增强和时间对齐等技术，它解决了长时视频生成中的外观漂移和视觉不一致问题，支持灵活的语音与文本控制，生成质量达到业内领先水平。

主要技术改进与功能

1.长时视频生成：传统的视频生成方法通常只适用于短时视频（几秒到几分钟），而长时生成会面临外观漂移（即生成的视频中的人物形象与开始不一致）和时间一致性丧失（如表情不连贯或抖动等）的问题。

2.高分辨率视频生成：生成高清画面也是一个重大挑战，尤其是在4K分辨率下，细节和清晰度要求很高。为了解决这个问题，Hallo2 对潜在空间中的编码进行了矢量量化（vector quantization），同时使用时间对齐技术，确保视频在时间维度上保持一致。

3.多样化的风格控制与表情生成：在传统的音频驱动之外，Hallo2 增加了语义文本标签作为条件输入。这意味着用户不仅可以通过音频控制视频中的人物表情，还可以通过文本输入控制人物的风格和情感表现。

项目地址及更多演示：https://fudan-generative-vision.github.io/hallo2

上传一段音乐秒变钢琴曲！AMT-APC算法一键生成大师级钢琴演奏！

钢琴伴奏制作通常需要丰富的音乐知识和很强的技术水平。例如，要为一首流行歌曲创作钢琴伴奏，首先需要听出歌曲中的旋律和和弦进程，再将其转录为钢琴演奏可以使用的乐谱。这是一个复杂且耗时的过程，尤其对没有专业音乐背景的人来说。因此，自动钢琴伴奏生成技术应运而生。

AMT-APC 是一种用于 自动生成钢琴伴奏 的模型，该模型的主要功能是通过从音频文件（例如一首歌或音乐片段）中提取信息，并根据音频中的旋律、和弦和节奏等特征，生成与原曲匹配的钢琴伴奏。这个伴奏不仅要准确地再现原始音乐中的旋律、和弦、节奏等，还要与原始音乐的风格相匹配。

AMT-APC 主要功能特点：

自动生成钢琴伴奏：AMT-APC 的核心功能是自动生成与音频或音乐视频匹配的钢琴伴奏。用户可以输入任何音乐音频或视频，系统会根据该音频生成高质量的钢琴演奏。无需手动编写乐谱或进行复杂的音乐转录。
高保真度伴奏：能够准确捕捉音频中的旋律、和弦、节奏和音符信息，生成的伴奏与原曲非常接近。其高保真度确保伴奏在节奏、旋律和音符上高度还原原曲的细节。
多样化风格生成：引入了风格向量（Style Vector），可以根据不同风格生成多种风格的钢琴伴奏。用户可以选择生成欢快、平静、激烈等不同情感风格的伴奏。这使得同一首音乐可以拥有多样化的钢琴演奏表现。
支持复杂乐曲：AMT-APC 可以处理多种不同复杂程度的音乐，无论是简单的旋律还是复杂的多乐器编曲，模型都能生成相应的钢琴伴奏。尤其在流行音乐、古典音乐等方面有良好表现。
风格控制功能：用户可以通过控制风格向量来影响生成的伴奏风格，从而使系统生成的伴奏不仅在技术上精确，还能在情感上符合用户的需求。

项目地址：https://misya11p.github.io/amt-apc/

论文：https://arxiv.org/abs/2409.14086

GitHub：https://github.com/misya11p/amt-apc

FSNotes ：现代化跨平台笔记应用，支持Markdown与多设备同步！

FSNotes 是一款基于macOS和iOS的现代笔记管理工具，为 Markdown 爱好者量身定制，主打的就是“简洁”、“高效”这两个关键词。基于文件系统，你的笔记完全是纯文本文件，随时可以通过 Finder 或者任何文本编辑器访问。不仅如此，它还支持多种语法高亮，不管是写笔记、记录代码还是写待办事项，都能轻松搞定。

功能特点：

Markdown 支持：作为一个现代的笔记应用，FSNotes 支持Markdown，让你可以用简洁的语法编写格式化文本。文件系统为基础：你的笔记以本地文件形式存在，这意味着你可以随时通过Finder或其他文件管理器访问、编辑和备份笔记。

同步支持：支持iCloud同步，让你在Mac和iOS设备之间无缝同步笔记。

键盘快捷键：丰富的快捷键支持，让你几乎可以在不触摸鼠标的情况下完成所有操作。

多种语法高亮：支持多种编程语言的语法高亮，直接在笔记里写代码，不需要打开 IDE，随时记录想法。

项目地址：https://github.com/glushchenko/fsnotes

11月1日

3.5Kstar！阿里开源的一键自动剪辑视频工具，超好用！

FunClip 是阿里巴巴通义实验室推出的开源视频剪辑工具，目标是通过大语言模型（LLM）和自动化技术，简化视频剪辑过程。FunClip，听名字就知道，它是个“乐趣满满”的剪辑小能手。这是一个开源的、基于AI的视频剪辑工具，集成了阿里巴巴通义实验室的FunASR技术，目标是通过大语言模型（LLM）和自动化技术，简化视频剪辑过程。这款工具能够精准地进行语音识别，并根据你的需求快速裁剪出视频片段。支持本地部署和在线体验，无论是技术大牛还是剪辑小白，都能轻松上手。

功能特点：

集成大语言模型：支持通过 Prompt 进行视频剪辑，选择剪辑段落可以像聊天一样简单。

精准语音识别：基于阿里巴巴的Paraformer-Large模型，FunClip的语音识别准确率极高，几乎可以秒级识别出视频中的文字内容。

热词定制化：如果你对某些特定的词汇特别关注，比如人名、地名等，FunClip还提供了热词定制化功能，让你在语音识别时能够优先识别这些词汇，提升识别效果。

说话人识别：支持识别出视频中的不同说话人，并将他们的对话片段分别裁剪出来。这下，你再也不用为了找某个人的发言而头疼了。

自动字幕生成：除了裁剪视频片段外，FunClip还能自动生成SRT字幕文件，让你在分享视频时更加方便。

GitHub地址：https://github.com/modelscope/FunClip

AgentStack：开发者快速构建AI代理的开源项目！

AgentStack是一个开源工具，旨在帮助开发者快速构建A!代理项目。基于提供一个预配置的模板和集成流行的代理框架及大型语言模型(LLM)提供商，简化从零开始创建AI代理的过程。Agentstack支持macOs、windows和Linux系统,无需额外配置,让开发者专注于编写代码。AgentStack提供交互式测试运行器、实时开发服务器、生产构建脚本和与Agentops的集成，实现AI代理的可观察性。

主要功能：

快速项目初始化：基于简单的命令快速创建AI代理项目的基本结构，

集成流行框架：支持流行的A|代理框架，如CrewAl、Autogen和LiteLLM，方便开发者使用。

工具集成：支持轻松集成各种工具，如浏览、RAG等，增强代理的功能。

交互式测试运行器：提供快速的测试环境，支持覆盖率报告，帮助开发者高效地进行测试和调试。

实时开发服务器：在开发过程中实时反馈常见错误，提高开发效率。

项目地址：https://github.com/AgentOps-AI/AgentStack

AsrTools：开源的AI语音转文字工具，内置多家大厂接口！

AsrTools是一款智能语音转文字工具，内置剪映、快手、必剪等大厂接口，无需GPU或繁琐配置，支持高效的多线程批处理。它基于PyQt5开发，界面美观且用户友好，能够输出SRT和TXT格式字幕文件。该工具通过调用大厂接口来云端处理音频文件，提供稳定快速的文字转换服务，适合需要高效处理音频转文字的用户。

主要功能：

调用大厂接口：支持剪映、快手、必剪等大厂接口，提供高质量服务
无需复杂配置：无需GPU和繁琐的本地配置，用户可以轻松上手
高颜值界面：基于PyQt5和qfluentwidgets，界面美观且用户友好
高效批处理：支持多线程并发和批量处理，文字转换速度快
多格式支持：支持生成SRT和TXT字幕文件，满足不同需求

GitHub地址：https://github.com/WEIFENG2333/AsrTools

10月31日

Pyramid-Flow：北大、快手、北邮联合开源的AI视频生成模型！

Pyramid-Flow是一种先进的视频生成模型，由北京大学、快手科技和北京邮电大学的研究人员联合推出。

模型根据文本提示生成长达10秒、分辨率高达1280x768、帧率24帧每秒的高清视频。Pyramid-Flow的核心为创新的金字塔流匹配算法，算法将视频生成过程分解为多个不同分辨率的金字塔阶段，在最终阶段全分辨率进行处理，有效降低计算复杂度。模型基于时间金字塔设计，压缩全分辨率的历史信息提高训练效率。Pyramid-Flow支持端到端优化，用单一的统一扩散变换器(DiT)进行训练，简化模型的实现。

Pyramid-Flow的主要功能：

文本到视频生成：用户输入文本提示，Pyramid-Flow生成与文本描述相匹配的视频内容。

高分辨率视频输出：模型生成高达768p分辨率的视频，提供清晰的视觉效果。

自回归视频生成：支持生成连续帧，视频内容在时间上连贯，动作流畅。

端到端优化：整个模型在一个统一的框架内进行优化，简化训练和部署过程。

核心特点：

高效生成：Pyramid flow 采用新技术，通过统一AI模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。

快速推理：在推理过程中,该模型可以在 56 秒内生成一个5秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。

开源和商业使用：Pyramid-fFlow 在 MIT 许可证下发布，允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。

GitHub地址：https://github.com/jy0205/Pyramid-Flow

项目官网：https://pyramid-flow.github.io/?utm\_source=ai-bot.cn

在线体验：https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

HuggingFace模型库：https://huggingface.co/rain1011/pyramid-flow-sd3

OpenAI 开源！Youtube-Whisper: 一款AI字幕神器！

whisper是OpenAI公司出品的AI字幕神器，是目前最好的语音生成字幕工具之一，开源且支持本地部署，支持多种语言识别（英语识别准确率非常惊艳）。这篇文章应该是网上目前关于Windows系统部署whisper最全面的中文攻略。

主要特点：

快速转录：使用基础模型，转录3分钟的视频大约需要30秒。
多语言支持：英语、西班牙语、法语等可供选择！
简单的工作流程：
粘贴 YouTube 链接。
选择模型尺寸和语言。
单击“转录”即可从视频中获取文本。

GitHub地址：https://github.com/danilotpnta/Youtube-Whisper

Notion的开源平替！狂澜56.9Kstar！用 AI 将项目、Wiki 和团队整合在一起。

AppFlowy是一个开源项目，旨在克 Notion在安全和隐私方面的一些限制。它可以帮助你管理任务、添加待办事项列表、截止日期、跟踪事件、添加页面，以及为你的笔记/任务设置文本格式。

不仅仅是安全性。用户体验也很重要。而 AppFlowy 在这方面做得很好，甚至比 Notion 更好。

主要功能包括：

原生的跨平台支持。
能够自行托管或将其安装在你的本地计算机上。
可定制。
数据隐私（重中之重）。
单一代码库，便于更好地维护。
社区驱动的可扩展性。
简约的用户界面。
可以添加待办事项、管理任务。
文本高亮和基本的格式化。
用于编辑单元格/网格的键盘快捷键。
支持深色模式。

GitHub地址：https://github.com/AppFlowy-IO/AppFlowy

10月30日

27.2Kstar！开源的AI视频编辑工具，无损精准剪辑与合并音视频文件!

LosslessCut是一款专注于无损视频剪辑的开源软件。它不仅仅支持视频，还涵盖了音频、字幕等多种媒体格式的编辑。这款软件最大的亮点在于其无损处理能力，无论是裁剪、合并还是分割，都能保证文件质量不变，同时操作起来又异常简便。

功能特点：

无损剪辑：支持大多数视频和音频格式的无损剪切。

智能剪辑：提供实验性的智能剪辑选项。

轨道管理：允许用户添加、移除或替换音轨与字幕轨，实现多轨编辑的自由。

合并与分割：可无损合并多个文件或将单个文件分割成多个片段。

元数据编辑：包括修改旋转方向、地理位置信息等。

导出多样化：支持多种输出格式及自定义设置，如章节标记编辑。

快速导出：导出速度极快，无论你是导出整个视频还是单独片段，都能迅速完成。

GitHub地址：https://github.com/mifi/lossless-cut

F5-TTS:上海交大推出开源的文本到语音(TTS)合成系统!

F5-TTS 是一种完全非自回归的文本转语音（Text-to-Speech, TTS）系统，该系统基于流匹配技术和扩散变换器（DiT），旨在实现高效、自然且准确的语音生成。

它不像传统的系统那样一步一步生成语音，而是能够同时处理多个步骤，这让它的速度更快。

通过简化模型设计、提升推理效率和生成质量，解决了现有TTS系统在对齐复杂性、推理延迟和生成自然度等方面的不足。这使得F5-TTS能够在多语言、多场景下提供自然、流畅、准确的语音生成服务。

该模型的设计解决了当前TTS系统中存在的一些关键问题，具体如下：

速度快：传统系统需要逐步生成语音，而 F5-TTS 可以同时处理多个步骤，加快生成速度。
简化的模型设计：其他系统需要复杂的音素对齐和预测，而 F5-TTS 简化了流程，不需要这些复杂步骤。
高效的推理：推理速度显著提升，适合大规模应用场景，特别是在实时语音生成和多语言支持方面表现优异。
生成质量：即使在零样本条件下，F5-TTS依然能够生成自然、准确的语音，并支持不同语言之间的无缝切换。

项目及演示：https://swivid.github.io/F5-TTS/

论文：https://arxiv.org/abs/2410.06885

模型下载：https://huggingface.co/SWivid/F5-TTS

GitHub：https://github.com/SWivid/F5-TTS

Demo：https://huggingface.co/spaces/mrfakename/E2-F5-TTS

7Kstar!OpenAI 开源多智能体设计和管理工具:OpenAI Swarm!

OpenAI Swarm 是一个由 OpenAI Solutions 团队开发的实验性框架，专门用于构建、编排和部署 多智能体系统（multi-agent systems）。它旨在为开发人员提供一个轻量、可控且易于测试的工具集，帮助他们设计和管理多个相互协作的AI代理（Agent），并让多个智能体协同工作，以便处理复杂的任务和工作流。

这个框架使用 Python 编写，依赖 OpenAI 的 Chat Completions API 进行对话管理和执行。

主要功能：

智能体之间的交接：
- 每个智能体都可以根据任务需求，将当前任务交给更合适的智能体处理。这种任务的“接力”机制让复杂任务可以拆分成多个步骤，由不同智能体完成。
自定义智能体行为：
- 开发人员可以为每个智能体定义不同的功能和指令。例如，智能体A可以有“问候”和“转交任务”这两个功能，而智能体B则专注于处理特定问题。智能体可以通过预设的函数处理任务。
无状态设计：
- Swarm是无状态的，这意味着每次调用都是独立的，不需要保存任务历史。这样可以保证任务执行的灵活性，尤其适合分布式系统和大规模任务。
函数调用和执行：
- 每个智能体不仅能处理文本对话，还可以调用自定义的函数，执行特定任务。比如，一个智能体可以调用一个函数来检查产品库存，然后根据结果做出相应的决策。

GitHub：https://github.com/openai/swarm

案例：https://github.com/openai/swarm/tree/main/examples

教程：https://cookbook.openai.com/examples/orchestrating_agents

10月29日

Podcastfy：将任何网页、PDF和文本内容自动生成播客音频内容！

Podcastfy-Demo 是一个开源的 Python 项目，可以将各种文本内容（例如网页、PDF 文档）转化为多语言的音频对话。

与主要专注于笔记或研究整合的工具（如 NotebookLM ）不同，Podcastfy 为用户提供一种简单、高效的方式，将各种来源的文本自动生成类似播客的音频内容，从而实现内容创作的自动化和多语言扩展。

多文本源支持：支持从不同来源（网页、PDF、现有文本）生成语音内容。
多语言支持：支持多种语言的文本转换为自然流畅的音频。
高级文本转语音模型：集成了多个先进的文本转语音模型（如 OpenAI 和 ElevenLabs），确保自然听感的语音生成。
多样的应用场景：可以用于内容摘要、语言本地化、网站内容营销、研究论文摘要、长篇播客摘要等。
命令行界面（CLI）：通过简单的命令行工具，可快速将内容生成音频。

主要功能：

多来源文本转换为音频：
- 支持将网页内容、PDF 文件和普通文本内容转换为音频对话。
多语言支持：
- 支持多种语言的内容生成，例如将英文的网页或文件翻译并转换为其他语言（如法语、葡萄牙语等）的音频。
高级文本转语音模型：
- 支持多种先进的文本转语音模型，包括 OpenAI 和 ElevenLabs 提供的自然语言处理模型。这些模型的结合确保了生成的音频具有自然流畅的语音输出，接近人类真实的语音效果。
高质量的音频内容生成：
- Podcastfy 通过自动生成高质量的音频内容，帮助用户轻松创建多语言播客、音频摘要等，不需要额外的编辑步骤。
集成命令行工具（CLI）：
- 除了用户界面，Podcastfy 还提供命令行工具，用户可以通过简单的命令从文本源生成音频文件，支持自动化工作流程的集成。
灵活的内容生成：
- Podcastfy 不仅能生成音频，还支持从预先存在的转录文件（transcript）中生成动态的播客音频。无论是网站内容、研究论文，还是个人简历，Podcastfy 都能生成符合需求的音频输出。

GitHub：https://github.com/souzatharsis/podcastfy-demo

在线体验：https://huggingface.co/spaces/thatupiso/Podcastfy.ai_demo

4.5Kstar！Bolt․new ：自动编写代码、运行、编辑和部署应用程序！

Bolt.new 是一个AI全栈 Web 编程工具，自动编写代码、运行、编辑和部署应用程序。Bolt.new依托于

WebContainers 技术,支持在浏览器中直接运行完整的 Node.js 环境，无需任何本地安装或配置。用户只需通过简单的提示命令，快速生成代码，并且立即在浏览器中运行和测试代码。

它提供一键部署功能，支持将应用部署到云服务提供商如 Netlify，同时集成自动错误检测和修复机制，简化开发和调试过程。Bolt.new 的出现降低了编程的门槛，即使是没有技术背景的用户也能轻松开发产品。

Bolt.new 的主要功能：

对话式开发：用户可以通过自然语言提示与 Bolt 交互,描述需要的功能或修改，Bolt 会根据这些提示自动生成相应的代码。

无需本地设置：Bolt 允许用户直接在浏览器中进行开发，无需安装任何本地开发环境或软件。

支持多种前端框架：Bolt 支持流行的前端框架，如 Vue、React、Svelte 等,以及像 Astro、Vite、Next.js、Nuxtjs

这样的现代前端工具。

代码生成与编辑：Bolt 能够根据用户的描述生成代码，并允许用户在生成的代码基础上进行进一步的编辑和修改项目代码的详细过程介绍:Bolt 在生成代码的过程中，会提供详细的步骤说明，帮助用户理解代码是如何构建的。

一键部署：用户可以轻松地将项目部署到线上，Bolt 提供了一键部署的功能，从开发到上线的过程变得非常简单

GitHub 项目导入：Bolt 支持从 GitHub 导入现有项目,方便用户在 Bolt 中继续开发。

GitHub地址：https://github.com/stackblitz/bolt.new

PMRF：高质量修复图像，降低图像失真还原跟自然逼真度！

PMRF（Posterior-Mean Rectified Flow，后验均值修正流）是一种新提出的图像恢复算法，旨在解决图像恢复任务中的失真-感知质量权衡问题。

在去噪、超分辨率、修复等不同图像恢复任务中，PMRF能够在多个图像质量评估指标（如PSNR、SSIM、FID等）上表现出色，且没有明显的弱点，展示了其在多任务环境下的稳健性。

主要功能

图像恢复：处理去噪、超分辨率、盲图像恢复和图像修复等任务，生成自然逼真的图像。例如：
- 去噪：去除图像中的噪声，使其更加清晰。
- 超分辨率：提高低分辨率图像的细节，使其更接近高分辨率图像。
- 修复：填补图像中的缺失部分，例如修复受损的区域或在图像中添加缺失的细节。
- 颜色恢复：恢复或增强图像的颜色，使其更加自然或符合真实场景。
降低图像失真（MSE）：PMRF通过后验均值预测实现图像恢复，最小化图像的均方误差（MSE），确保生成的图像与真实图像在数值上尽可能接近，失真尽可能小。也就是它不仅关注图片的清晰度，还会确保图片看起来像真实世界中的图像
提高感知质量：PMRF不仅仅追求数值精度，还能够通过校正流模型（Rectified Flow）确保复原图像的感知质量与真实图像保持一致。这意味着，PMRF能够生成视觉上更加逼真的图像，使其在人眼看来与原始图像几乎无异。
处理复杂的图像退化问题：PMRF能够应对各种复杂的图像退化情况，包括噪声、模糊、分辨率降低、颜色丢失等问题，生成视觉质量高且符合真实图像分布的恢复图像。不论图片内容有多复杂，比如细节丰富的面部图像，还是受到多重损坏的图片，PMRF都能很好地处理，并提供优质的修复结果。
优化的图像生成流程：PMRF结合后验均值预测和修正流模型，通过求解常微分方程（ODE）对图像进行“运输”，使得生成的图像既低失真又高质量。它通过在图像分布之间实现最佳映射，达到感知和失真之间的平衡。

项目地址：https://pmrf-ml.github.io/

论文：https://arxiv.org/abs/2410.00418

GitHub：https://github.com/ohayonguy/PMRF

在线体验：https://huggingface.co/spaces/ohayonguy/PMRF

10月28日

2K+ Star！gptme：你的终端个人AI助手！

gptme是一个运行在终端的个人A!助手,它配备了本地工具,可以编写代码、使用终端、浏览网页以及进行视觉识别。它旨在协助各种知识型工作，尤其是编程工作，通过一个简单但功能强大的命令行界面。

主要特点：

1.代码执行:在本地环境中执行代码。

2.文件操作:读取、写入和修改文件。

3.网页浏览:通过Playwright使用浏览器,

4.视觉识别:识别图像、屏幕截图和网页。

5.自我修正:将输出反馈给助手，允许其响应和自我修正。

6.支持多个LLM提供商:使用OpenAl、Anthropic、OpenRouter或本地使用llama.cpp。

7.易于扩展:大多数功能实现为工具，方便添加新功能。

Github:https://github.com/ErikBjare/gptme

文档:https://gptme.org/docs/index.html

Outspeed：支持构建实时语音和视频AI应用的平台！

Outspeed是一个构建实时语音和视频AI应用的平台，为开发者提供网络和推理基础设施，构建快速的实时AI应用程序。支持低延迟推理、强大的流媒体基础设施、即时部署，符合企业级合规性标准如SOC2GDPR和HIPAA 。开发者可以用0utspeed的SDK组件来构建应用程序，可以用来快速存储和可观察性功能来监控和记录应用程序，确保没有错误遗漏。

Outspeed 是一个受 PyTorch 启发的 SDK，用于在语音和视频输入上构建实时 AI 应用程序。它提供：

流式音频和视频的低延迟处理
PyTorch 用户熟悉的直观 API
灵活集成自定义 AI 模型
用于数据预处理和模型部署的工具

非常适合开发语音助手、视频分析和其他处理视听数据的实时 AI 应用程序。

主要功能：

强大的流式传输基础设施：轻松处理高容量、双向的语音和视频数据流。

低延迟推理：实时处理数据流，实现响应灵敏的AI驱动交互，延迟最小。

即时部署：使用单个命令在全球部署您的A应用程序，包括自动扩展和内置冗余。

企业就绪：符合SOC2、GDPR和HIPAA(即将推出)，可与企业系统无缝集成。

自定义模型：使用您自己的模型或使用Outspeed优化的模型库来提高性能和降低延迟。

SDK支持：使用Outspeed的SDK组件来构建应用程序，为开发者提供广泛的支持工具和基础设施。

Github：https://github.com/outspeed-ai/outspeed

官网：https://app.outspeed.com/

Virtualwife:Al虚拟数字人项目，可在B站进行直播!

Virtualwife是一个创新的虚拟数字人项目，专注于开发具有AI的虚拟角色。角色设计用于在B站等直播平台上进行互动，提供娱乐和信息。通过集成先进的AI技术，如自然语言处理和机器学习，Virtualwife的角色能理解和响应用户输入，提供更加自然和智能的交流体验。Virtualwife基于OpenAI等AI研究机构的技术增强虚拟角色的能力。Virtualwife代表虚拟角色与AI技术结合的新趋势，展示未来人机交互的潜力。

Virtualwife主要功能：

一键部署:基于Docker技术，支持快速部署，简化安装流程。

跨平台支持:能在Linux、Windows和MacOS系统上运行。

个性化定制:支持用户自定义角色设定，从VRM模型市场下载不同的角色模型。

记忆与学习:具备长短期记忆功能，根据与用户的互动不断学习和进步

多模型支持:支持多种大型语言模型(LLM)的切换，并允许接入私有化模型。

互动直播:基于B站直播功能，虚拟数字人进行直播互动。

GitHub地址：https://github.com/yakami129/VirtualWife

10月25日

苹果开源！Depth Pro:0.3秒超快速生成3D深度图的AI模型！

最近，苹果公司的 AI 研究团队发布了一款名为 Depth Pro 的新模型，这个模型能从单张2D 图像中，快速生成高分辨率的3D 深度图，而且惊人的是，它不需要任何相机元数据，这在以往的技术中是很少见的。

Depth Pro 的工作速度非常快，能在短短0.3秒内生成深度图。该模型可以创建具有出色清晰度的2.25MP 地图，甚至可以捕捉其他方法经常忽略的微小细节，如头发和植被。这意味着你可以在现实世界中获取详细的3D 场景，这对很多行业来说都是个福音。

比如说，在增强现实（AR）应用中，虚拟物体可以更精确地与现实环境融合，提升用户体验。而在自动驾驶技术中，车辆也能够更加准确地感知周围环境，提高行车安全性。

这项技术的背后，是一套高效的多尺度视觉变换器架构。研究人员表示，这种架构能够同时处理图像的整体信息和细节，使得 Depth Pro 在准确性和速度上都大幅提升。与其他模型相比，Depth Pro 在捕捉细微细节方面表现得尤为出色，能够清晰地呈现动物的毛发和植物的纹理，带来极佳的视觉效果。

更值得一提的是，Depth Pro 能够提供 “绝对深度” 估计，也就是它不仅能告诉你物体之间的相对位置，还能给出实际的距离。

这对许多应用场景来说都非常重要，尤其是在需要高精度的虚拟现实体验中。此外，Depth Pro 采用了 “零 - shot 学习” 的方式，这意味着它在没有特定数据集的情况下也能进行准确的深度预测，这样的适应性极强，让它可以广泛应用于各种图像。

GitHub地址：https://github.com/apple/ml-depth-pro

PyVideoTrans：开源的视频翻译和配音工具，支持多种语言！

PVideoTrans 是开源的视频翻译配音工具,将视频内容从一种语言自动翻译成另一种语言，并添加相应的字幕和配音。PyVideoTrans支持多语言，具备高效的语音识别和准确的文字翻译功能，同时使用高质量的语音合成技术来生成配音。PVideoTrans 易于使用,适合影视后期、自媒体创作、教育和企业宣传等多种应用场景，帮助内容创作者轻松跨越语言障碍，扩大观众群体。

PyVideoTrans的主要功能：

多语言支持:处理多种语言的视频内容，翻译成用户所需的任何支持的语言。

语音识别:基于先进的语音识别技术，如 OpenAl Whisper 或 Faster Whisper，将视频中的语音转换成文字

自动翻译:集成多种翻译引擎，如 Google 翻译，将识别出的文本翻译成目标语言。

高质量配音:使用文本到语音(TTS)技术，如 Microsoft Edge TTS,为翻译后的文本提供自然流畅的配音。

字幕生成:自动生成与视频内容同步的字幕文件，增强观看体验

视频合井:将翻译后的配音和字幕合并回视频中，创建完整的多语言版本视频。

GitHub地址：https://github.com/jianchang512/pyvideotrans

1.5Kstar！Repopack:让AI优化你的代码库！

Repopack是一款功能强大的开源工具，由开发者Kazuki Yamada创建，旨在解决将整个代码库输入到AI模型中的问题。它可以将整个代码仓库打包成一个单一的、AI友好的文件，非常适合向Claude、ChatGPT、Gemini等大型语言模型(LLM)或其他AI工具提供代码分析的输入。

Repopack的主要特点包括：

AI优化：以易于AI理解和处理的方式格式化代码库
令牌计数：为每个文件和整个仓库提供令牌计数，有助于控制LLM的上下文限制
简单易用：只需一个命令即可打包整个仓库
可定制：轻松配置需要包含或排除的内容
与Git集成：自动尊重.gitignore文件
注重安全：集成Secretlint进行安全检查，检测和防止敏感信息的包含

GitHub地址：https://github.com/yamadashy/repopack

10月24日

Voice-Pro：一款集字幕、翻译和TTS于一体的多语言音频处理工具!

Voice-Pro 是一个基于Gradio Web-UI的集成解决方案，专注于语音转录、翻译和文本转语音（TTS）的AI工具。

该工具通过一个简单易用的 Web 用户界面（UI）提供强大的多语言支持，能够轻松处理音视频文件，并自动生成字幕、翻译内容，甚至合成多语言语音。

结合了 OpenAI 的 Whisper 模型和多个开源的翻译与 TTS 引擎。它支持多种音频和视频格式，用户可以通过它轻松完成从语音转录、翻译到生成音频字幕的整个流程。

它支持超过 100 种语言，你可以用它把音频或视频中的语音内容转成文字、自动生成字幕，还可以把这些文字翻译成多种语言，再生成不同语言的配音。

Voice-Pro 提供了一键安装和完全便携的特点，适合各种规模的用户，无论是个人还是企业，都可以通过这个工具创建高质量的多语言视频和音频内容。

主要功能：

语音转录与字幕生成
多语言翻译
文本转语音（TTS）
实时语音识别与翻译
视频与音频处理
批量处理
用户界面与可用性

GitHub：https://github.com/abus-aikorea/voice-pro

Ebook2Audiobook：将电子书自动转换为有声书 ,支持多种语言!

ebook2audiobookXTTS 是一个开源项目，旨在将电子书自动转换为有声书，并支持多种语言、语音克隆和章节信息的生成。该项目结合了 Calibre（电子书转换工具）和 Coqui XTTS（文本转语音引擎），通过简单的命令或Web界面完成转换，方便用户将他们的电子书转换为音频文件，适合日常听书需求或个性化有声书制作。

主要功能与特点：

电子书转换为有声书:Calibre 负责处理电子书的格式转换，支持多种电子书格式（例如 .epub、.pdf、.mobi 等），并将其转换为文本格式，便于后续的音频生成。
章节和元数据生成：自动从电子书中提取章节信息，生成包含完整章节划分的有声书，用户可以方便地根据章节跳转。
语音克隆功能：用户可以提供自己的语音文件，项目通过语音克隆技术将有声书朗读成用户提供的声音。这一功能适合那些想要个性化朗读的用户，例如将书籍用自己或亲人的声音朗读。

4.多语言支持：默认支持多种语言，包括英语、西班牙语、法语、德语、中文等。用户可以指定电子书的语言，程序会自动选择合适的语音模型进行转换。

GitHub：https://github.com/DrewThomasson/ebook2audiobookXTTS

在线体验：https://huggingface.co/spaces/drewThomasson/ebook2audiobookpiper-tts

ChatMLX：高性能的Macos聊天应用，基于MLX框架实现与数据实时交互！

ChatMLX是一个基于大型语言模型(LLM)的高性能MacOs聊天应用，基于MLX框架实现与数据的交互。

应用通过自然语言处理技术，让用户与数据进行对话，支持文本文档、PDF文件和YouTube视频。ChatMLX支持多种语言,包括中文、英语、法语、德语、印地语、意大利语、日语、韩语、西班牙语、土耳其语和越南语，使全球用户方便使用。用Pthon的包管理器pip安装，安装完成后，启动应用程序，加载模型，开始与数据进行交互。ChatMLX为开发者和数据分析师提供一个强大的工具，更自然、更直观地与数据进行对话，提高工作效率和数据分析的深度。

ChatMLX的主要功能：

实时对话：支持与用户进行实时互动，提供即时的反馈和响应。

多语言支持：处理和回应多种语言，包括但不限于中文、英语、法语、德语等

模型集成：集成多种预训练的大型语言模型(LM)，如Qwen、Lama等，支持不同类型的对话和处理任务。

本地运行：在用户的本地设备上运行LLM，更好地保护用户隐私和数据安全。

GitHub开源地址：https://github.com/maiqingqiang/ChatMLX

10月23日

Screenpipe：全天候的屏幕和音频数据捕捉，支持个性化AI开发！

Screenpipe 是一个可以读取你屏幕和麦克风的AI工具，它会持续24小时记录你的屏幕和音频数据，并将这些数据与AI结合，为你提供自动化、智能化的解决方案。

Screenpipe 能够全天候运行，持续捕获屏幕和音频数据，并在后台不间断地处理这些信息。为构建上下文感知的AI应用程序提供完整的数据流。它是Rewind.ai的开源替代方案，确保用户完全拥有自己的数据。该项目使用Rust构建，提供多种安装方式，包括桌面应用程序和Rust库，功能丰富，支持插件、视频嵌入和语音识别等。

核心功能介绍：

全上下文AI支持：
- Screenpipe 旨在为AI提供最完整的数据上下文，可以不间断地记录你电脑上的屏幕和麦克风活动。比如你开会时，它可以捕捉所有对话、屏幕内容，无需担心错过任何细节。涵盖视频会议、聊天应用等所有活动场景。
提升生产力：
- 它不仅是个录音录屏工具，还可以帮助你自动化很多工作。比如，你可以让它自动更新Notion笔记、生成Slack工作报告，或者自动填充客户关系管理（CRM）系统的数据，让你从繁琐的任务中解放出来。
快速知识提取：
- 即时的内容概览：有时候，打开一堆邮件、文档或者聊天记录太费时间。通过Screenpipe，你可以快速提取这些内容的要点，几秒内获得关键信息，不用逐字阅读。
数据隐私保护：
- 所有的数据都保存在你自己的电脑上，不会上传到云端。这意味着你不用担心隐私泄露，所有数据完全由你掌控。同时，敏感信息在网络层面上已经被去除。

Screenpipe 是一个100%开源的工具，用户可以根据自己的需要定制和使用。所有数据都存储在本地，确保用户对数据的完全控制，提升了安全性和隐私保护。

GitHub：https://github.com/mediar-ai/screenpipe

下载：https://screenpi.pe/

OpenAI推出Whisper large-v3-turbo语音转录模型 ,速度提高了8倍!

OpenAI 宣布推出了一个名为 large-v3-turbo（简称 turbo）的新 Whisper 模型。这是 Whisper large-v3 的优化版本，将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发，后者表明使用较小的解码器可以显著提升转录速度，同时对准确性的影响较小。

速度比 large-v3 快 8 倍，但质量几乎没有下降！

Whisper large-v3-turbo 主要功能和特点：

更少的解码器层数：与 Whisper large-v3 相比，large-v3-turbo 只使用了 4 个解码器层，而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时，显著提高了处理速度。
优化的速度表现：Turbo 模型的语音转录速度比 tiny 模型更快，是 Whisper 系列模型中速度与准确性兼顾的“最佳选择”。通过使用更小的解码器层数，该模型提升了实时转录的能力。
通过减少解码层数和启用 torch.compile，推理速度可提升高达 4.5 倍，进一步提高了模型的效率，非常适合需要低延迟的应用场景。
多语言支持：支持 99 种语言的语音转录，表现出色，并且与大型数据集兼容，包括 FLEURS 和 Common Voice 数据集，尤其在高质量录音上效果更佳。

GitHub：https://github.com/openai/whisper/discussions/2363

模型下载：https://huggingface.co/openai/whisper-large-v3-turbo

在线体验：https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

Open NotebookLM ：支持中文的PDF 文件转化为播客的开源工具！

Open NotebookLM 是一个将 PDF文件转化为播客的工具，依靠 Llama 3.1和meloTTS 等开源技术构建，可以实现 NotebookLM的部分体验。用户可以上传文件或通过 URL 提供内容，并能对播客的语气和长度进行定制化。

由于采用了meloTTS理论上是支持中文的。

PDF 转播客：可以将任何 PDF 文档或者链接转换为播客形式。通过分析 PDF 内容，生成自然的对话，适合音频播客格式。
对话生成：工具生成的对话设计为既信息丰富又具有娱乐性，使内容易于聆听和理解。
用户友好界面：使用基于 Gradio 的简单交互界面，用户可以轻松上传 PDF 并生成播客内容，无需复杂的设置。
文本转语音：利用开源的 LLM（大语言模型） 和 文本转语音模型，将文本转换为自然的语音对话**，支持多种语言**，并以 MP3 格式导出。
使用了 Llama 3.1、meloTTS 和 Gradio 等开源 AI 工具构建。

GitHub：https://github.com/gabrielchua/open-notebooklm

在线演示：https://huggingface.co/spaces/gabrielchua/open-notebooklm

10月22日

VideoLingo:支持一键生成中英文字幕的开源工具！

VideoLingo 是一站式视频翻译本地化配音工具，旨在生成 Netflix 级别的高质量字幕，告别生硬机翻，告别多行字幕，还能加上高质量的配音，让全世界的知识能够跨越语言的障碍共享。通过直观的 Streamlit 网页界面，只需点击两下就能完成从视频链接到内嵌高质量双语字幕甚至带上配音的整个流程，轻松创建 Netflix 品质的本地化视频。

主要特点和功能：

使用 yt-dlp 从 Youtube 链接下载视频
使用 WhisperX 进行单词级时间轴字幕识别
使用 NLP 和 GPT 根据句意进行字幕分割
GPT 总结提取术语知识库，上下文连贯翻译
三步直译、反思、意译，媲美字幕组精翻效果
按照 Netflix 标准检查单行长度，绝无双行字幕
使用 GPT-SoVITS 等方法对齐配音
整合包一键启动，在 streamlit 中一键出片
详细记录每步操作日志，支持随时中断和恢复进度
全面的多语言支持，轻松实现跨语言视频本地化

GitHub开源地址：https://github.com/Huanshere/VideoLingo?tab=readme-ov-file

MemFree-开源的混合AI搜索引擎，支持多模态搜索和提问！

MemFree是一款开源的混合A!搜索引擎，通过整合多种A!模型和搜索引擎，提供高效、多样化的搜索体验。可以用文本、图像、文件和网页等多种方式进行搜索和提问，获取文本、思维导图、图片和视频等多格式的搜索结果。MemFree擅长图像比较、总结，网页和PDF内容提取、学术问题解答。具有代码解释与生成能力，支持多语言，能同步Chrome书签,适合学术研究、工作办公和日常生活场景。MemFree优化知识管理，提高生产力，降低用户订阅成本，同时提供个性化的搜索解决方案。

MemFree的主要功能：

多模态搜索：支持文本、图像、文件和网页等多种方式的搜索和提问。

一键多格式结果：用户可以获取文本、思维导图、图片和视频等多种形式的搜索结果。

图像处理：能比较、总结和搜索多张图像，适用于图像管理和分析。

文档总结与提问：对网页和PDF文档进行内容总结，支持用户基于总结内容提出问题。

广泛的问答领域：覆盖学术问题解答和日常社交问题。

代码解释与生成：为开发者提供代码解释和生成服务，提高编程效率。

知识管理优化：简化知识整理流程，释放用户的记忆负担，提高工作效率。

时间高效利用：减少用户在搜索信息时的等待和浏览时间。

经济的解决方案：提供高级AI工具的功能，无需高额订阅费用。

GitHub开源地址：https://github.com/memfreeme/memfree

在线体验地址：https://www.memfree.me/zh

So-VITS-SVC：一款AI 合成翻唱歌曲的工具，轻松克隆歌手音色！

So-VITS-SVC 是一个开源的语音转换项目，其全称为 SoftVC VITS Singing Voice Conversion，专注于通过深度学习模型实现语音转换，尤其适用于歌声转换。该项目的目标是利用训练好的深度学习模型将一种歌声转换为另一种目标歌手的声音，广泛应用于音乐创作、虚拟歌手的声音生成等领域。

应用场景：

① 虚拟歌手：许多虚拟偶像和歌手项目可以通过 So-VITS-SVC 实现声音的定制化，帮助创作者打造独特的音色。

② 音乐创作：音乐人可以使用该工具将不同歌手的声音融合到新的创作中，从而扩展音乐作品的多样性。

③ 配音与语音合成：除了歌声转换，So-VITS-SVC 还可以应用于配音领域，将某个角色的声音合成另一种音色。

GitHub开源地址：https://github.com/svc-develop-team/so-vits-svc?tab=readme-ov-file

10月21日

32.2Kstar！OpenHands:AI驱动的智能开发助手！

该项目是由 AI 驱动的软件开发智能代理，其前身名为 OpenDevin 旨在成为 Devin 的开源替代方案。它拥有直观、简洁的交互界面，用户可以通过自然语言执行各种软件开发任务。

OpenHands 代理可以做任何人类开发人员可以做的事情：修改代码、运行命令、浏览 Web、调用 API，是的，甚至可以从 StackOverflow 复制代码片段。同时支持 Docker 运行并兼容多种 AI 模型接口。

GitHub开源地址：https://github.com/All-Hands-AI/OpenHands?tab=readme-ov-file

FLUX-Controlnet-Inpainting：基于FLUX.1-dev 模型的图像修复工具

FLUX-Controlnet-Inpainting是Alimama-Creative 团队开发的的基于FLUX.1-dev 模型的图像修复工具，是ControlNet和FLUX.1-dev 的结合，利用ControlNet 的控制能力引导FLUX.1-dev 从输入图像中生成修复内容，并能够应用于不同的场景中。其主要应用包括对损坏或缺失的图像部分进行智能填补，同时保持视觉一致性和逼真效果。

图像修复和生成：继承了FLUX.1-dev模型的高质量图像生成能力，可以生成自然、逼真的修复结果，用户可以通过此工具在图像损坏或缺失的部分进行修复，特别适合需要高精度的图像处理任务。
风格转换与优化：对于需要生成新图像内容或修改现有内容的项目，FLUX-Controlnet 提供了良好的支持。
利用ControlNet能力，可以根据图像的边缘、线稿、深度图等信息进行修复

功能特点：

图像修复（Inpainting）：通过使用 ControlNet 模型对图像进行修复和补全。可以在图像中指定区域进行修补，生成与周围环境一致且自然的图像内容。
多步推理：支持28步推理，确保修复过程的质量和效果。用户可以根据需求调整推理步骤和参数来提高性能和效果。
参数调整：用户可以控制多个参数，如控制强度、控制结束百分比（control-strength 和 control-end-percent），以达到更理想的修复效果。
模型加速：利用 Hyper-FLUX-lora 来加速推理过程，降低推理时间和资源消耗。
图像与提示生成：通过给定的文本提示或图像输入，模型能够生成高质量的修复结果，并保持内容的连贯性。
ComfyUI 兼容性：与 ComfyUI 集成，允许用户在 UI 中执行推理，并进行流畅的工作流处理。
分辨率支持：该模型在 768×768 分辨率的图像上表现最佳，支持高质量的图像修复和生成。

GitHub：https://github.com/alimama-creative/FLUX-Controlnet-Inpainting

模型下载：https://huggingface.co/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Alpha

5.8Kstar！开源版的GPT-4o语音模型Moshi发布！

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型，拥有听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。作为平替GPT-4o的开源模型，Moshi在普通笔记本上即可运行，具有低延迟特性，支持本地设备使用，保护用户隐私。Moshi的开发和训练流程简单高效，由8人团队在6个月内完成！

Moshi的功能特色：

多模态交互：Moshi作为一个多模态A!模型，不仅能够处理和生成文本信息，还能够理解和生成语音，使得Moshi可以与用户进行更加自然和直观的交流，就像与真人对话一样。

情绪和风格表达：Moshi可以模拟70种不同的情绪和风格进行对话，让A对话更加生动和真实。无论是表达喜悦、悲伤还是严肃，Moshi都能够通过语音的变化来传达相应的情感，增强交流的体验。

实时响应低延迟：Moshi的响应具备低延迟特性，能够快速地处理用户的输入，并几乎0延迟地给出回应。对于需要即时反馈的应用场景非常有帮助，比如客户服务或实时翻译。

语音理解与生成：Moshi能够同时处理听和说的任务，可以在听用户说话的同时生成回答，提高了交互的效率和流畅性，提供了一个自然无缝的对话体验。

技术报告：https://kyutai.org/Moshi.pdf

GitHub：https://github.com/kyutai-labs/moshi

模型下载：https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

在线体验：https://moshi.chat/

10月18日

Omni-Zero-Couples ：无需图像训练，自动生成风格化情侣肖像！

Omni-Zero-Couples 是一个用于生成风格化情侣肖像的扩散模型，支持零样本输入。用户可以通过上传照片并应用不同的风格，快速生成自定义的情侣肖像。支持多种身份和风格组合，用户可以自定义这些设置来生成不同的风格化图像。

生成情侣肖像图片，不需要事先准备图片或数据：
- 能够在没有提供任何训练数据的情况下，自动生成风格化的情侣肖像。你不需要拍照、上传图片或者做任何预处理，它就能直接根据你选择的风格生成图像。
支持多种风格和外观组合：
- 你可以根据喜好生成不同艺术风格的情侣画像。无论是卡通、写实风格，还是其他特殊的艺术形式，它都能处理。你还可以自由组合不同的身份或风格，生成独特的情侣画像。

功能特点：

高质量的图片输出：
- 项目经过优化，生成的图片质量非常高。得益于一些最新的技术改进，生成的情侣肖像看起来风格鲜明、细节丰富，无论是艺术效果还是视觉质量都很出色。
- 模型生成的图像注重细节，默认为电影感风格，且能够生成高质量的4K图像。
自定义输入：
- 用户可以上传基础图像（情侣照片），并指定强度（base image strength）来控制模型对原图的依赖程度。
- 可以上传风格图像来影响最终生成的肖像风格。
- 支持最多两张身份图片作为输入，用于个性化生成情侣肖像。
自定义生成设置：
- 通过调整种子（seed）来控制随机性。
- 用户可以输入自定义的描述性提示（prompt）来影响生成的图像风格。

GitHub开源地址：https://github.com/okaris/omni-zero-couples

18.7K star！一款平替Notion的笔记项目，高效构建个人知识库！

SiYuan由一群对笔记管理有着深度执念的开发者们设计，专注于帮助你搭建一个灵活、可自定义、易管理的个人知识库。它不仅仅是一个笔记软件，更是一套全面的知识管理系统。开发团队的初心是：让每个人都可以拥有属于自己的知识储备地，并且它还能离线工作，不受网络限制！不论你是工作达人、学习狂魔，还是编程爱好者，SiYuan都能成为你随时随地的智慧伴侣。

它不仅仅是一个笔记软件，更是一套全面的知识管理系统，就像是笔记工具界的全能选手，无论你是喜欢结构化的树形图，还是喜欢自由自在的思维导图，它都能满足你的需求。而且，最重要的是：安全！所有的笔记都保存在本地，不用担心隐私泄露。

应用场景：

个人知识管理：通过双链笔记构建自己的知识网络，整理学习笔记、读书笔记等。

项目管理与文档记录：用SiYuan管理项目进展、任务列表、会议记录，确保信息井然有序。

技术文档写作：开发者可使用SiYuan撰写Markdown格式的技术文档，支持代码块展示和离线编辑。

创意记录：写日记或灵感笔记，轻松关联过往内容，帮助积累和复盘。

离线工作：无需依赖云服务，随时随地离线编辑，确保数据安全。

GitHub开源地址：https://github.com/siyuan-note/siyuan?tab=readme-ov-file

PDF2Audio：将 PDF 文件转换为播客、讲座、摘要等音频内容

PDF2Audio 是一个开源项目，旨在将 PDF 文件转换为音频格式，如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音（TTS）转换。用户可以上传多个 PDF 文件，并根据不同的模板（例如播客、讲座、摘要）生成音频内容。

功能亮点

支持多个 PDF 文件上传：用户可以同时上传多个 PDF 文件，批量处理文档。
多种模板选择：根据用户需求，支持生成不同类型的音频内容，模板包括播客、讲座、摘要等不同场景。
自定义生成模型：用户可以自定义选择 GPT 模型和文本转语音（TTS）模型，以生成符合特定需求的音频内容。
不同语音选择：支持选择多种语音风格和音色，为生成的音频提供不同的听觉体验。

GitHub开源地址：https://github.com/lamm-mit/PDF2Audio

在线体验：https://huggingface.co/spaces/lamm-mit/PDF2Audio

10月17日

MIMO：给定参考图像或视频即可生成可控制动作和场景的动画人物！

MIMO是一个生成虚拟角色动画的工具。它能够让用户通过一张图片和简单的动作信息（如图片、动作序列或视频），生成一个可以控制动作和场景的动画人物，而且这个人物可以与场景中的物体进行互动。

即给定一个参考图像，MIMO能够通过几分钟的推理生成可动画的虚拟形象。

该项目由阿里巴巴集团智能计算研究院开发。MIMO项目的核心目的是通过用户提供的简单输入（如图片、动作序列或视频）来生成具有控制性的角色视频。这意味着，用户可以通过一个参考图像（比如某个人物的照片），结合动作序列或场景描述，生成一个能够进行动画的虚拟角色，并且这个角色可以表现出用户定义的动作和场景互动。

该模型突破了传统3D角色视频生成方法的局限，不需要多视角拍摄或针对每个角色单独训练。通过结合2D视频信息和3D空间建模，MIMO 可以高效地生成角色动画，并支持在真实世界的复杂场景中与物体进行交互。

项目及演示：https://menyifang.github.io/projects/MIMO/index.html

论文：https://arxiv.org/pdf/2409.16160

GitHub开源地址：https://github.com/menyifang/MIMO

LongWriter：能生成10000+字且连贯高质量的长文本语言模型！

LongWriter 是一个由清华大学数据挖掘研究小组（THUDM）开发的开源项目，旨在利用长上下文大语言模型（LLMs）生成超长文本（超过10,000字）。

该项目旨在突破当前大语言模型在生成超长文本时的局限性，确保生成的内容在长篇幅中依然保持连贯性和相关性。

长文本生成的连贯性问题：当前的大语言模型在生成长篇文本时，容易出现上下文不连贯或信息重复的情况。LongWriter 通过专门的训练和优化，确保了即使在生成超过10,000字的情况下，文本仍然保持逻辑连贯和内容相关。
模型生成能力的限制：传统的模型在处理超长输入时往往表现不佳，生成的文本长度有限，无法满足一些需要长篇输出的应用需求。LongWriter 的模型经过特殊设计，能够在长上下文下生成极长的文本，打破了这一限制。
快速生成超长文本：一些应用场景需要快速生成大量文字内容，而传统模型在生成长文本时速度较慢。LongWriter 提供的vllm部署方式能够在一分钟内生成超过10,000字的文本，大幅提升了生成效率。

GitHub：https://github.com/THUDM/LongWriter

论文：https://arxiv.org/abs/2408.07055

在线演示：https://huggingface.co/spaces/THUDM/LongWriter

12.3K星！Kotaemon：开源可定制的RAG UI ，可以与你的文档聊天！

Kotaemon 是一个基于检索增强生成（RAG）的开源工具，旨在实现与文档对话的功能。该工具为最终用户和开发者提供了一个干净且可定制的UI，使用户能够在自己的文档上进行问答，并允许开发者构建自己的RAG管道。

用于文档 QA 的开源 RAG UI
支持本地LLMs和 API 提供商
具有全文和矢量检索功能的混合 RAG 管道
具有图形和表格支持的多模式 QA
带有浏览器内 PDF 预览的高级引文
问题分解的复杂推理
可配置的设置用户界面
基于Gradio的可扩展架构

GitHub开源地址：https://github.com/Cinnamon/kotaemon

在线演示：https://huggingface.co/spaces/cin-model/kotaemon-demo

10月16日

ChatTTS-Forge: 一个强大的文本转语音生成工具!

ChatTTS-Forge 是一个围绕 TTS（文本转语音）生成模型开发的项目。为用户提供灵活的 TTS 生成能力，支持多种音色、风格控制、长文本推理等多种功能。

ChatTTS-Forge 提供了各种 API（应用程序接口），开发者可以通过这些 API 直接进行使用，轻松地把文字转换成语音。此外，它还提供了一个易于使用的网页界面（WebUI），用户无需编程就能直接在网页上输入文字并生成语音。

主要功能

TTS 生成：支持多种 TTS 模型推理，包括 ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS 等，用户可以自由选择和切换音色。
音色管理：内置多个音色，并支持自定义音色上传，用户可以通过上传音频或文本来创建和使用自定义音色。
风格控制：提供丰富的风格控制选项，包括调节语速、音调、音量，以及添加语音增强（Enhancer）以提高输出质量。
长文本处理：支持超长文本的自动分割和推理，能够处理和生成长文本音频内容。
SSML 支持：使用类似 XML 的 SSML 语法进行高级 TTS 合成控制，适用于更细致的语音生成场景。
ASR（自动语音识别）：集成了 Whisper 模型，支持语音转文字功能。

GitHub：https://github.com/lenML/ChatTTS-Forge

在线体验：https://huggingface.co/spaces/lenML/ChatTTS-Forge

Mini-Omni：开源的端到端实时语音对话大模型！

Mini-Omni是一种多模态大型语言模型，具备端到端的实时语音输入和输出能力。与传统依赖于文本转语音（TTS）系统的模型不同，Mini-Omni能够同时处理语音输入和生成语音输出，完全消除了文本生成和语音合成之间的延迟问题。

Mini-Omni备实时语音输入和输出的能力，专为语音对话而设计。其关键特性在于支持“边思考边说话”，即在模型生成语音输出的同时进行思考和推理，提供流式音频输出，减少了语音生成的延迟。

它是第一个开源的、具备实时对话能力的多模态模型，能够理解语音、生成语音并在交互中保持实时响应。Mini-Omni实现了模型的“边说边思考” 能力，是指模型在生成文本或音频时，同时进行思考和处理信息的能力。具体来说，在对话或生成内容时，传统模型通常是先完成全部计算或推理过程后，再一次性输出完整的结果（文本或语音）。然而，“边说边思考” 的模型能够在生成输出的同时，继续进行思考或计算，逐步输出内容，而不是等到思考完成后再给出结果。

Mini-Omni解决了什么问题？

实时语音互动延迟问题：传统模型在生成语音时通常依赖于先生成文本再转为语音的两步过程，导致显著的延迟，影响用户体验。Mini-Omni通过并行生成技术，能够同时生成文本和语音，极大减少了响应时间，实现了真正的实时语音交互。
语音与文本推理能力的整合：现有的大语言模型大多在文本推理上表现出色，但在语音推理方面较为薄弱。Mini-Omni通过创新的训练方法和模型架构，保留了语言模型在文本推理方面的强大能力，并将这些能力扩展到语音处理和生成中。
降低模型的复杂性和资源需求：Mini-Omni通过“Any Model Can Talk”方法，简化了将语音能力集成到大型语言模型中的过程。这一方法需要的额外训练数据和模型调整较少，使得其他模型可以快速具备语音交互能力，减少了资源和时间消耗。

GitHub开源地址：https://github.com/gpt-omni/mini-omni

4.3Kstar！GOT-OCR-2.0正式开源！可处理各种复杂的光学字符任务！

OT-OCR2.0 是一种用于光学字符识别（OCR）任务的通用模型，旨在解决传统OCR系统（OCR-1.0）和现有大视觉语言模型（LVLMs）在OCR任务中的局限性。

传统OCR系统（OCR-1.0）通常采用多模块流水线模式（例如：元素检测、区域裁剪、字符识别等），容易陷入局部最优问题，且维护成本高。该模型通过端到端架构，提供高效的字符识别能力，适用于广泛的OCR任务。

该模型可以处理各种复杂的光学字符任务，不仅包括普通文本，还可以识别公式、表格、乐谱等复杂内容。相比于老式的OCR系统，GOT模型更加智能化、灵活，并且易于使用。实验表明，该模型在中文和英文识别方面都有很好的表现，尤其擅长处理高分辨率和多页文档。

主要功能特点：

1. 统一的端到端架构：简化了传统OCR系统中复杂的多模块流程（如文本检测、区域裁剪、字符识别等），极大降低了系统的维护成本。

2. 支持多种OCR任务

场景文本识别：能够处理自然场景中的文本识别任务，如街道标志、广告牌上的文字等。

3. 动态分辨率：/OT 支持对超高分辨率图像（如大幅海报、拼接PDF页面）进行OCR处理，使用动态分辨率技术确保在图像过大时保持识别准确性。

GitHub：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

论文：https://arxiv.org/pdf/2409.01704

模型下载：https://huggingface.co/ucaslcl/GOT-OCR2_0

10月15日

通义千问Qwen2.5登全球开源王座！性能超越羊驼Llama3.1！

2024年AI时代来临，各个AI大模型百花争鸣，争相斗艳！

在AI开源领域，国外meta羊驼Llama3举起国外AI大模型开源的大旗，正当国内没有一个能与之对标的开源大模型时，阿里通义千问扛起了国内开源的大旗，Qwen2.5大模型的问世，让全世界看见了中国AI开源大模型发展的迅速性和先进性！从此国内也有我们自己可用的高性能开源大模型！

Qwen2.5 的所有模型都在最新的大规模数据集上进行了预训练，包含多达 18 万亿个令牌。与 Qwen2 相比，Qwen2.5版本获得了更多的知识（MMLU：85+），并且大大提高了编码（HumanEval 85+）和数学（MATH 80+）的能力。此外，新模型在指令跟踪、生成长文本（超过 8K 令牌）、理解结构化数据（例如表格）以及生成结构化输出（尤其是 JSON）方面取得了显著改进。

Qwen2.5在理解能力、逻辑推理、指令遵循、代码能力上相较于2.1版本，分别提升9%、16%、19%、10%。在上海AI实验室推出的权威基准OpenCompass上，通义千问2.5得分超越Claude 3 Opus，追平GPT-4 Turbo，成为国产大模型首位。

GitHub开源地址：https://github.com/QwenLM/Qwen2.5

TurboEdit：Adobe推出的AI即时图像编辑模型，支持实时修改特定区域！

TurboEdit是一个由Adobe Research团队开发的工具，允许用户通过简单的文本描述快速实时编辑图像。

你只需输入几句话，就能改变图像中的某个特定部分，比如把短发变成长发，把白色物体变成黑色，或者让年轻人看起来更年老。这个工具能够在保持图像整体不变的情况下，只对指定部分进行修改，并且操作非常迅速，比以往的编辑技术更快。

主要功能特点：

1. 用文字修改图片：

TurboEdit 允许用户通过输入文本提示实时编辑图像。用户可以描述希望更改的图像属性，例如颜色、物体形状或背景等，TurboEdit 将根据这些文本提示生成修改后的图像。

也就是你可以直接输入一句话或一段描述来告诉TurboEdit你想怎么改图片。比如，你可以说“把猫的颜色变成灰色”或“给人戴上一副墨镜”，TurboEdit 就会根据你的描述立即修改图片。

特点：编辑过程非常快速，通常只需不到0.5秒即可完成一次编辑，支持即时反馈和交互式编辑。

2. 精确还原图片：

TurboEdit 提供了一种基于编码器的迭代反演技术，可以精确地将输入图像映射回扩散模型的噪声空间。使得TurboEdit 能够非常精确地还原你输入的图片。无论你输入的是照片还是其它图像，TurboEdit 都可以先把它变回到可以修改的状态，然后再进行编辑。这个过程非常快，而且保留了图片的细节。

特点：该反演过程效率很高，仅需4步即可完成，而传统方法通常需要50步以上。

3. 只改你想改的部分：

urboEdit 支持解耦的图像编辑，用户可以在不改变图像其他属性的情况下，只修改目标属性。例如，可以通过修改文本提示中的某个词语来改变图像中的单一元素（如颜色或对象），而不影响图像的其他部分。

特点：TurboEdit 能够保持编辑的局部性和精确性，避免不必要的全局变化。如果你只想改图片中的某个部分，比如改变头发的颜色但不动其他部分，TurboEdit 可以做到这一点。它可以只根据你的描述修改图像中的某一部分，而不会改变其他部分。

顶目官网:https://turboedit-paper.github.io/

Hugging Face模型库:https://huggingface.co/spaces/turboedit/turbo\_editc

StoryMaker：小红书开源的文本到图像实现角色一致的生成模型！

StoryMaker 是小红书开源的一款文本到图像生成工具，专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LORA 技术,确保生成的图像在面部特征、服装、发型和身体特征上的高度连贯性。StoryMaker 特别适合漫画创作、游戏场景设计、故事插画和广告创意等领域,简化了多角色叙事创作的过程。用户可以通过 GitHub 和 Huggingface 平台获取 StoryMaker 的代码和预训练模型开始自己的创意项目。

StoryMaker 的主要功能包括：

多角色一致性生成：StoryMaker 能够生成多角色的图像，并在面部、服装、发型和身体等方面保持一致性。这对于生成具有连贯性和叙事性的图像序列非常重要。
背景与角色分离：通过对不同角色和背景的交叉注意力进行约束，StoryMaker 能有效避免角色与背景或不同角色之间的混淆，从而保持图像中各部分的清晰分离。
姿势多样性：StoryMaker 支持姿势解耦，通过结合 ControlNet，能够在保持角色一致性的同时生成不同姿势的角色图像。这使得角色能够在不同的场景中表现出多样化的动作和姿态。
高保真图像生成：通过 LoRA 技术，StoryMaker 能够增强图像的保真度和视觉质量，在生成图像时不仅保持一致性，还确保图像的细节和逼真度。
灵活的文本控制：StoryMaker 可以通过文本提示控制生成图像的背景、姿势和风格，使得用户可以根据不同的场景需求生成符合叙事需求的图像序列。
多种应用支持：该模型支持包括服装交换、角色插值等功能，并能与其他生成插件（如 LoRA、ControlNet）集成，提供多样化的生成应用场景。

GitHub：https://github.com/RedAIGC/StoryMaker

模型下载：https://huggingface.co/RED-AIGC/StoryMaker

技术报告：https://arxiv.org/pdf/2409.12576

10月14日

18.9Kstar！Aider：最全功能的开源AI编程助手！

aider是一个命令行工具，它允许你与 GPT-3.5/GPT-4 进行配对编程，编辑存储在你本地 Git 仓库中的代码。

aider可以直接编辑你本地源文件中的代码，并通过 git 提交更改,附带合理的提交信息。你可以开始一个新项

目或使用现有的 git 仓库。

aider 可以直接在终端通过与GPT聊天的方式，编写或修改任何目录中的代码。

项目特点：

1.通过命令行启动 aider 并与 GPT 讨论和编辑代码。

2.支持多种流行的编程语言，如 Python、JavaScript园、TypeScript、PHP、HTML、CSS 等.

3.可以请求新功能、更改、改进或修复代码中的错误,并要求新增测试用例、更新文档或代码重构。

· aider 会将 GPT 建议的编辑直接应用到你的源文件中。

· aider 会自动将每个更改集提交到你的本地 git 仓库,并附带描述性的提交信息，提供安全保障。

4.可以使用 aider 同时处理多个源文件,以便 GPT 可以在单个更改集!提交中跨所有文件进行协调的代码更改。

你还可以在与 aider 聊天的同时使用编辑器手动编辑文件。aider 会注意到这些外部编辑,并保持 GPT 更

新到你的文件的最新版本。这样，你可以在 aider 聊天和你的编辑器之间来回切换,与 GPT 协作编码。

GitHub开源地址：https://github.com/paul-gauthier/aider

imFile：一款顺畅、高速、强大而便捷的下载工具，支持多种协议！

imfile 是一款 fork 自Motrix 的新全平台下载工具，支持下载 HTTP、FTP、BT、磁力链等资源，支持 Windows、macOS、Android。无论是电影爱好者、设计师、学生还是企业用户，imFile都能提升您的下载效率，节省宝贵时间。

作为一款开源免费的软件,imFile支持Windows、Mac、安卓多平台使用,延续了Motrix简洁大方的UI风格。它不仅支持下载HTTP、FTP、BT、磁力链接等各种资源,还新增了多项实用功能。

例如支持使用DNS over HTTPS解决部分Tracker被劫持问题、直接下载Hash值、自动保存任务等,有效提升了使用体验。

imFile默认使用16个服务器连接,可根据需求调整,搭配上UA模拟功能,能最大限度发挥带宽,达到极快的下载速度。对于一些限速的资源,imFile也能有效规避。

GitHub开源地址：https://github.com/imfile-io/imfile-desktop

2Kstar！将微信读书划线和笔记同步到Notion！

weread2notion-pro 是一个自动化工具，它能够帮助用户将微信读书中的笔记和书籍信息同步到 Notion。通过这个项目，你可以轻松地将阅读过程中的思考和笔记整理到一个更加系统化的知识管理平台。

功能特点：

① 自动化同步：项目通过 GitHub Actions 实现自动化同步，无需手动操作，即可将微信读书中的笔记和书籍信息实时更新到 Notion。

② 定制化配置：用户可以根据自己的需求，定制同步的内容和格式，使得信息更加符合个人的知识管理习惯。

③ 支持按照年、月、周、日的阅读时长、笔记数阅读数的时间统计，支持数据可视化和阅读热力图。

GitHub开源地址：https://github.com/malinkang/weread2notion-pro

10月12日

DrawingSpinUp:Al驱动的2D绘画转化为3D效果的动画生成技术!

DrawingSpinUp 是一种先进的3D动画生成技术，由香港城市大学的研究团队推出。模型将平面的角色绘画

转化为具有3D效果的动态动画，同时保留原始艺术作品的风格和特征。通过深度学习方法识别和处理绘画

中的轮廓线和纤细结构，解决传统2D到3D转换中的挑战。DrawingSpinUp 通过去除视角依赖的轮廓线

骨架基础的变形算法和风格恢复策略，使静态绘画自由旋转、跳跃甚至表演复杂的动作。

DrawingspinUp的主要功能

3D动画生成：将二维的角色绘画转换成三维动画，使角色在虚拟空间中进行各种动作。

风格保持：在转换过程中，保持原绘画的风格和特征，确保动画与原始艺术作品的视觉一致性

轮廓线处理：识别并去除绘画中的轮廓线，线条在3D建模中会引起混淆，通过算法重新添加，保持原画的风格。

几何细化：基于骨架的变形算法，用于精细化由单线轮廓表示的细长结构，如角色的四肢。

纹理合成：在去除轮廓线后，用纹理合成技术填充内部纹理，增强3D模型的细节和真实感

GitHub开源项目地址：https://github.com/LordLiang/DrawingSpinUp

PuLID：使用文本描述快速更改图像中人物的外貌和身份特征！

PuLID（Pure and Lightning ID Customization via Contrastive Alignment）是一种专为文本生成图像模型（Text-to-Image, T2I）设计的无调优身份（ID）自定义方法。其主要目标是在生成个性化图像时，保持高ID相似度的同时，尽量减少对模型原有行为的干扰。

也就是通过提供一张参考照片，并结合文本描述，能够快速更改图像中人物的外貌和身份特征，同时保持图像的风格和质量不变。

简单来说就是，你可以通过提供参考照片来输入人物的外貌特征（如脸型、发型等），同时结合文本描述快速生成带有这些特征的图像。

PuLID还允许你通过输入文本提示，灵活更改图像中人物的外貌和身份特征（如性别、年龄、发型、配饰等），并且保持图像的整体风格一致。这些提示可以是关于人物的表情、姿势、装饰品等。例如，你可以输入以下提示：

“微笑的脸”：让图像中的人物微笑。

“戴着眼镜”：为人物添加眼镜。

“卷发”：改变人物的发型。

“穿着帽子和西装”：修改人物的穿着和配饰。

PuLID会根据这些文本提示，快速调整图像中的人物身份特征，同时保持其整体风格和背景不变。

与传统方法不同，PuLID不需要每次为不同的人物单独训练模型，这使得它更加快捷和高效。

GitHub开源地址:https://github.com/ToTheBeginning/PuLID

Clapper：免费开源的可视化AI视频编辑工具！

Clapper 是一款免费开源的可视化AI视频编辑工具，由 Huggingface 的AI前端工程师 Julian Bilcke 开发。

集成多种生成式AI技术，用户通过交互式、迭代和直观的过程使用 AI创建视频，无需专业的电影制作或AI 工程技能。在 Clapper 中通过调整高级抽象概念，如角色、地点、天气等，来迭代优化故事。Clapper的导演模式，使用者可以向 A1发出指令来制作电影。Clapper 为视频创作领域提供了一种全新的工作流程和创作思路。

功能特点：

AI驱动的故事可视化：Clapper可将剧本内容转化为视觉元素，如分镜手绘图、三维场景和角色动画。

集成多种AI技术：与传统视频剪辑软件不同，Clapper集成了AI技术，能一键生成图像、视频、语音和音乐等视频制作所需的素材，简化了视频制作的流程。

开放式架构：采用模块化设计，易于扩展和定制，开发者可根据需求添加新功能或替换现有组件。

导演模式：Clapper正在开发导演模式，目标是让使用者可以全屏播放视频,坐在导演椅(或沙发)上，语音向 AI

发出指令来制作电影。

无限画布与传统界面：提供两种模式，无限画布模式适合创意发散思维,而传统界面便于预览和精细编辑，满足不

同创作阶段的需求。

交互式体验：用户可通过使用高级抽象概念，如角色、地点、天气、时间段和风格等，来迭代和完善自己的故事

A助手提供帮助，使得故事构建更加高效和精准。

GitHub开源地址：https://github.com/jbilcke-hf/clapper

19.4Kstar！程序员必备，全网最强自托管项目！

awesome-selfhosted 是一个 GitHub 上的开源项目，它收集和整理了各种适合自我托管的软件列表。这个列表很长很长，涵盖了各种各样的应用：从内容管理系统、文件共享工具，到邮件服务器、云存储服务等等，简直是应有尽有。

主要功能：

提供各种类型 (如分析、备份、博客平台等) 的开源软件和应用程序。

可以帮助用户选择适合他们需求并满足隐私保护要求的解决方案。

通过提供丰富多样化选项，使用户能够完全控制其数据，并避免依赖 SaaS 提供商。

该项目具有以下关键特性和核心优势：

多样性：包含大量不同领域中可自行托管部署使用或定制化配置所需工具与系统；

高度灵活：根据个人偏好及实际情况进行选择，确保最佳匹配；

数据安全：用户拥有对所有数据完全控制权，并能够更好地维护隐私；

社区支持：拥有庞大而积极参与贡献者社群，在问题解答及新功能改进方面提供强力支持；

GitHub开源地址：https://github.com/awesome-selfhosted/awesome-selfhosted

10月11日

41.7Kstar！Stirling-PDF：开源免费的本地PDF处理神器！

Stirling-PDF是一个基于Web的开源PDF处理工具，里面有各种各样的工具，可以帮助我们对PDF文件进行各种各样的操作，比如合并、拆分、加密、解密、旋转、压缩等等，功能超全，而且开源免费，简直是神器！

功能特点：

多功能集成：Stirling-PDF可以合并、拆分、加密、解密、旋转、压缩PDF文件，功能一应俱全。

高效处理：使用高效的算法，处理速度快，还支持批量操作，省时省力。

跨平台支持：无论你是Windows、Mac还是Linux用户，都能轻松使用。

用户友好：操作界面简洁明了，使用起来非常顺手。

多语言支持：目前支持38种国家和地区的语言

GitHub开源地址：https://github.com/Stirling-Tools/Stirling-PDF

Cursor平替来了！Melty：开源的AI编程工具！

这款开源的 AI 代码编辑器，由 Charlie Holtz 和 Jackson de Campos 两位天才创办。简单的说，Melty 可以从你的终端到 GitHub，全面理解开发者在干什么，还能实时协作，帮助你写出生产级的高质量代码。这就好比有一个虚拟的编程助手，随时随地陪伴在你身边，帮你解决各种技术难题。

Melty 的目标不仅仅是写代码，它更希望能够帮助开发者理解代码的每一个变化，就像有一个搭档在旁边指导你。它会随着你编写代码的过程而不断学习，逐渐适应你的风格。这样，你不仅能提升编码速度，还能提高代码质量，减少出错的概率。此外，Melty 还能够与编译器、终端和调试器等工具无缝集成，并支持 Linear 和 GitHub 等项目管理工具。Melty的功能强大，支持重构代码、从头创建 Web 应用、浏览大型代码库，甚至可以编写自己的提交信息。

GitHub开源地址：https://github.com/meltylabs/melty

狂澜35.9K星！Quivr：用 AI 构建你的第二大脑!

Quivr 是一个利用 Generative AI 技术，为用户提供个性化服务的智能助理平台。它像一个超级助手，能够理解您的指令，处理您的文档，甚至与您进行智能对话。

核心特性：

快速高效：Quivr 的设计以速度和效率为核心，确保您能够迅速访问所需数据。

安全性：Quivr 重视用户数据的安全，提供完全由用户控制的数据保护。

操作系统兼容性：支持 Ubuntu 22 或更新版本，确保在主流操作系统上都能流畅运行。

文件兼容性：支持多种文件格式，包括文本、Markdown、PDF、Powerpoint、Excel、CSV、Word、音频和视频。

开源：Quivr 是完全开源的，您可以自由使用和修改。

公开/私有模式：您可以根据需要选择将您的智能助理公开或保持私有。

市场：Quivr 拥有一个活跃的市场，您可以分享您的智能助理，或使用其他人的助理来提升效率。

离线模式：即使没有网络连接，Quivr 也能正常工作，确保您随时随地都能访问数据。

**功能亮点 **：

智能检索：Quivr 能够快速检索文档中的关键信息，帮助您迅速找到所需内容。

多格式支持：无论是文本、PDF 还是音视频文件，Quivr 都能轻松处理。

个性化定制：您可以根据自己的需求定制 Quivr 的功能和界面。

社区支持：Quivr 拥有一个活跃的社区，您可以在这里找到帮助和灵感

GitHub：https://github.com/QuivrHQ/quivr

10月10日

facefusion：开源的 AI 换脸和增强工具！

这是一款功能强大的人脸交换和增强工具，支持将图片/视频中的人脸替换成另一个人的脸、改善人脸和背景清晰度等功能，还提供了友好的 Web 界面（WebUI）和低门槛的 CPU 处理选项。

这款工具新版本相对旧版增加了很多模型和高清算法，大大提高了图片和视频的换脸效果。同时还增加了三种遮罩功能，解决了脸部有物体遮挡时融合效果差和跳闪的问题。

GitHub：https://github.com/facefusion/facefusion

video2x：一款视频和图像AI无损放大工具！

video2x 用的是 Waifu2x、Anime4K 这些厉害的机器学习模型，处理速度快，效果还贼好。我之前试过放大一个老动画片，本来人物边缘都模糊了，放大之后居然清晰了不少，连头发丝儿都能看清楚！

该项目集成了多种超分辨率算法（如 Waifu2x、Anime4K、Real-ESRGAN），能够有效提高视频和图像的分辨率，并提供了图形界面（GUI）、Docker 和命令行界面（CLI）的使用方式。支持自己调节参数！你可以根据自己的需求调整放大倍数、抗锯齿、去噪等等。

GitHub：https://github.com/k4yt3x/video2x

29.5Kstar！GPT Pilot：开源的AI程序员，第一个真正的AI开发者！

GPT Pilot 已经在 GitHub 上收获了超过 29.5k 的标星，成为了开发者社区中的一大热门项目。

GPT Pilot 旨在提供第一个真正的 AI 开发伙伴。不仅仅是一个自动完成功能或PR消息的助手，而是一个真正的 AI 开发人员，可以编写完整的功能、调试它们、与您讨论问题等。

本项目的核心目的是，在开发人员的监督下，探究有多少LLM可以用于生成完全可工作的、生产就绪的应用程序。项目作者的观点是，在人工智能取得全面性的进展之前，人工智能可以为应用程序编写绝大部分代码（可能达到95%），但对于剩余的5%，开发人员仍然是不可或缺的。GPT Pilot 是 Pythagora 的核心技术，而 Pythagora 是一款VS COde插件！

Github 开源地址：https://github.com/Pythagora-io/gpt-pilot

10月9日

VideoLingo: 一款自动下载、翻译、配音的视频工具！

VideoLingo可以自动将视频进行字幕切割、翻译、对齐、配音，最终生成Netflix级别的字幕和配音，一键全自动视频搬运。

VideoLingo特点：

全自动视频搬运：VideoLingo 能够自动处理视频的字幕切割、翻译、对齐和配音，无需手动操作，实现一键全自动视频搬运。

高质量字幕翻译：使用NLP和 LLM 技术进行字幕分割，提供智能术语知识库，实现上下文感知翻译。

精确对齐：单词级别的字幕对齐，字幕与视频内容同步，保证观看体验。

个性化配音：使用 GPT-SoVITS，克隆声音并进行配音，提供个性化的配音选项。

VideoLingo应用：

跨语言视频制作：VideoLingo 适用于需要将视频内容翻译成多种语言的场景，如国际会议、在线课程、多语言广告等。

视频教学：教师和教育机构可以使用 VideoLingo 将教学视频翻译成不同语言，扩大受众范围。

企业宣传：企业可以利用 VideoLingo 将宣传片翻译成目标市场的语言，提高品牌影响力。

GitHub开源地址：https://github.com/Huanshere/VideoLingo

Comic Translate：一款开源的多语言漫画翻译项目！

Comic Translate是由开发者 ogkalu2 精心打造的开源漫画翻译应用，这不仅仅是个应用，它是你跨语言的数字伙伴，帮你翻译世界各地的漫画。无论是英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语还是意大利语，Comic Translate 都能完美适配，让你的漫画随时随地触手可及。Comic Translate 的核心是利用 GPT-4 的能力，实现自动化翻译流程。它结合了 OpenCV 和 PIL 这两个强大的图像处理库，能够精准识别并提取出漫画中的文字。之后，通过调用 Google Translate API 或自定义的翻译服务进行翻译。

主要功能：

①多语言支持：英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语、意大利语，一个不落，Comic Translate 让你的漫画阅读无国界。

②图像处理：Comic Translate 结合了 OpenCV 和 PIL 这两个强大的图像处理库，能够精准识别并提取出漫画中的文字。

③自动化翻译：Comic Translate 利用 GPT-4 的能力，通过调用 Google Translate API 或自定义的翻译服务进行翻译，实现自动化翻译流程。

GitHub开源地址：https://github.com/ogkalu2/comic-translate

狂澜66.7Kstar!GPT4All：你的本地大语言模型聊天伙伴！

GPT4All 是由 nomic-ai 团队精心打造的开源项目，已经在 GitHub 上赢得了超过 66.7k 颗星星，人气爆棚！

GPT4All 不仅仅是一个应用，帮你在日常的桌面和笔记本电脑上私下运行大语言模型（LLM）。无需 API 调用或 GPU，你只需下载应用程序即可开始使用。GPT4All 提供了 Python 客户端，让你可以方便地访问 LLM。Nomic 团队为了让 LLM 对所有人都易于访问和高效，贡献了开源软件，如 llama.cpp。

功能特点：

① 跨平台兼容：无论是 Windows、macOS、Ubuntu，GPT4All 都能完美适配，让你的聊天随时随地触手可及。

② 数据安全：GPT4All 使用 Python 客户端，让你的聊天数据安全又自由。

GitHub开源地址：https://github.com/nomic-ai/gpt4all

10月8日

微软开源！GraphRAG：让大模型问答、摘要、推理更上一层楼！

GraphRAG由微软精心打造的开源项目，是一种结构化、分层的检索增强生成（RAG）方法，与使用纯文本片段的朴素语义搜索方法相比，它更具优势。它能帮你从无结构文本中提取有意义的、结构化的数据，增强你的大模型（LLMs）的推理能力。GraphRAG 的过程包括从原始文本中提取知识图谱，构建社区层次结构，为这些社区生成摘要，然后在执行基于 RAG 的任务时利用这些结构。而且，GraphRAG 对于私有数据集的推理表现出色，这些数据集是大模型未经过训练、从未见过的，比如企业的专有研究、商业文档。

功能特点：

① 结构化、分层的 RAG：GraphRAG 提供了一种新的方法，通过知识图谱来增强大模型的输出。

② 数据处理与转换：GraphRAG 是一个数据管道和转换套件，设计用于使用大模型的能力从无结构文本中提取有意义的、结构化的数据。

③ 提升推理能力：GraphRAG 可以用于增强你的大模型对你的私有数据的推理能力。

GitHub开源地址：https://github.com/microsoft/graphrag

3.9Kstar！1Remote：一款远程会话管理工具！

1Remote是一个能够实现“一键远程”的现代远程会话管理和启动器，不仅支持微软远程桌面(RDP)、VNC、SSH、Telnet、SFTP、FTP、RemoteApp等多种协议，还集颜值与才华于一身，让我们轻松管理各种远程会话。最关键的是，它完全免费，真就是白嫖党的福音。

性能特色：

易于部署：解压即用，不需要复杂的安装过程。

多语言、可自定义主题：支持多种语言，还能自定义颜色主题，让1Remote看起来更酷。

一键启动：使用快捷键（Alt + M），快速打开你的远程连接。

安全性：基于RSA的敏感数据保护，让你的远程连接更加安心。

绿色免安装：下载解压就能用，告别繁琐的安装过程。

GitHub：https://github.com/1Remote/1Remote/

Kolors Virtual Try-On:快手可图推出的AI虚拟换衣项目！

近期快手可图也上线了其一键换衣Kolors Virtual Try-On功能，不知道大家是否体验了，个人觉得从目前来看效果可以称得上是很不错的。

使用起来非常简单。**上传一张照片，不需要像模特那样摆出专业pose，只要提供一张普通的站姿/坐姿照片就行。再上传想要试穿的衣服，AI就分析你的照片，包括身材比例、肤色、发型等细节。**然后，它会将选择的服装“穿”到你的身上，同时考虑光线、阴影等因素，让生成的图片看起来逼真自然。和之前的那些虚拟试衣流程差不多。速度也还可以，半分钟左右就能跑出来，肯定比你实际去试衣间换衣服要快的多。

比如，让坤坤穿上鸡你太美的周边服装。

让马斯克穿上周老板的红衣。

不仅是真人，各种二次元，其实也融合的很好。

不过瑕疵还是老生常谈的那些问题，肢体和服装提取上，可图已经做的很好了，但是细节的处理上，还是没有那么精准，比如上面这张二次元的图，超长马尾重绘成了短马尾，一些头发没了，左侧衣服的走线有点奇怪。

GitHub开源地址：https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-On

9月30日

ComfyUI-AdvancedLivePortrait：从照片提取面部表情让图像动起来！

ComfyUI-AdvancedLivePortrait 可以利用面部跟踪和表情编辑技术制作动画视频。它可以从一张静态照片中提取出人物的面部表情，并对这些表情进行编辑和调整。然后，用户可以将编辑过的面部表情插入到现有的视频中，使视频中的人物表现出新的表情变化。甚至在没有原始视频的情况下，用户也可以通过这些面部表情创建出全新的动画视频。

主要功能包括：

面部表情编辑：从静态照片中提取面部表情，允许用户对这些表情进行细致的编辑和调整。

表情动画生成：通过编辑后的面部表情，可以生成多种动画效果，使照片中的人物看起来像是在做出不同的表情。

视频表情插入：支持将编辑好的面部表情插入到现有的视频中，从而在视频中展现出新的表情变化。

实时预览功能：在进行面部表情编辑和动画制作时，用户可以实时预览效果，以便更好地控制和调整动画内容。

自动化安装与管理：该项目已经注册到ComfyUI-Manager，用户可以通过该管理器自动安装、更新和管理项目，简化了使用过程中的技术操作。

GitHub：https://github.com/PowerHouseMan/ComfyUI-AdvancedLivePortrait

24.9Kstar！MindsDB：你的开源AI模型构建助手！

MindsDB 由 MindsDB Inc 精心打造的开源AI模型构建平台，已经在 GitHub 上赢得了超过 24.9k 颗星星，人气爆棚！

它帮你从数据库、向量存储和应用数据中实时创建、服务、微调 AI 模型。无论你是数据科学家还是开发者，MindsDB 都能让你轻松使用机器学习。MindsDB 还有一些其他的开源项目，比如 LightWood，一个以声明方式构建机器学习流水线的 AutoML 框架，以及 MindsDB Type Infer ，一个 Python 包，可以自动推断表格数据中的数据类型。

开源地址：https://github.com/mindsdb/mindsdb

腾讯开源！SEED-Story:可生成叙事连贯及风格一致图文故事的大模型！

SEED-Story是由腾讯 ARC 实验室推出的一个多模态长篇故事生成项目。它基于大型语言模型（MLLM），能够从用户提供的图像和文本开始，生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。

功能特点：

1. 用户自定义故事起点：用户可以提供起始图像和文本，SEED-Story 据此生成故事。

2.多模态序列生成：故事可以包含多达 25 个多模态序列，尽管在训练中只使用了最多 10 个序列。

3.视觉与文本的一致性：生成的图像与叙事文本在风格和角色上保持高度一致。

4.多模态故事生成:SEED-Story 能根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事。

5.多模态注意力汇聚机制:SEED-Story 提出了一种多模态注意力汇聚机制，以高效自回归的方式生成故事，可以生成长达25序列的故事。

6.大规模数据集:SEED-Story 发布了一个名为 StoryStream 的大规模、高分辨率数据集,用于训练模型并从不同方面定量评估多模态故事生成任务。故事指令调整:在故事生成的过程中，SEED-Story通过指令调整过程，对模型进行微调，可以预测故事的下一个图像和下一句文本。

GitHub：https://github.com/TencentARC/SEED-Story

9月29日

AudioNotes：音视频内容的智能整理助手！

AudioNotes 能高效地从音视频资料中提取关键信息，并整理成易于阅读的笔记，基于 FunASR 和 Qwen2 构建的音视频转结构化笔记系统，能够快速提取音视频内容，并整理成一份结构化的 Markdown 笔记。

AudioNotes 不仅能够识别和整理音视频内容，还能与用户进行对话，展示其强大的交互能力：

音视频识别和整理：系统能够自动识别音视频中的语音，并将其整理成结构化的笔记。

与音视频内容对话：用户可以通过对话的方式与系统交互，获取音视频中的信息。

GitHub：https://github.com/harry0703/AudioNotes

EasyPhoto：一款高保真的AI写真照片生成器！

EasyPhoto是一款Webu Ul插件，用于生成A!肖像画，该代码可用于训练与用户相关的数字分身。建议使用5到 20张肖像图片进行训练，最好是半身照片且不要佩戴眼镜(少量可以接受)。训练完成后，EasyPhoto可以在推理部分生成图像。EasyPhoto支持使用预设模板图片与上传自己的图片进行推理。

从生成结果来看，插件的生成效果还是非常不错的：

EasyPhoto的执行流程非常简单：

1、上传用户图片，训练一个与用户相关的Lora模型;

2、选择模板进行预测，获得预测结果。

GitHub：https://github.com/aigc-apps/sd-webui-EasyPhoto

CogVideo：清华大学开源文本生成视频的模型！

CogVideo是一个大型的文本-视频生成模型，有94亿个参数，在540万对文本和视频上进行了训练，然而它是一个开源模型，任何人都可以使用。

CogVideo 的核心在于其先进的文本到视频生成技术。它能够理解文本描述，并将其转化为连贯的视频内容。这一技术在视频制作、游戏开发、虚拟现实等领域具有广泛的应用潜力。

CogVideo 项目不仅展示了文本到视频生成技术的可能性，也为未来的多媒体内容创作提供了新的思路。随着技术的不断进步，我们可以期待更多令人兴奋的应用场景。

GitHub：https://github.com/THUDM/CogVideo

9月27日

模糊图片变清晰！Upscayl:一款开源免费的 AI 图像放大神器！

Upscayl是一款免费开源的基于 AI 神经网络与深度学习的「图片画质提升 / 超分辨率软件」，可以做到“无损放大图片”，让你轻松将任意分辨率的图片、照片、壁纸放大到高清、超清甚至 4K 水平，大幅提升图片细节表现与清晰度！

Upscayl 支持 Linux、MacOS 和 Windows 系统，它利用 Real-ESRGAN 和 Vulkan 架构，通过 AI 模型增强图像细节，实现高质量的图像放大，修补原图的不足，让放大后的图像更加清晰，同时细节也更丰富。即便原图很小或很模糊，进行放大 超分辨率处理 后的图片大多都能变得非常的清晰，观感很棒，效果让人惊叹。

项目完全开源，而且不需要你自己部署 AI 模型，他提供了软件下载链接，Upscayl 的安装过程非常简单，你只需要下载对应的文件，赋予权限后运行即可。

GitHub：https://github.com/upscayl/upscayl

AI 开发工程师！GPTEngineer：几秒钟内创建一个网站并可一键部署！

GPTEngineer.app 是一个允许用户与 AI 进行交互，从而快速构建网页应用的工具。用户可以通过简单的提示生成原型，并在实时迭代过程中开发实际应用。该应用支持与 GitHub 双向同步，让用户拥有代码的所有权，并且可以一键部署到生产环境。它还可以集成开发人员喜欢的工作流工具，支持快速发布。

主要功能包括：

从提示到原型：

用户只需输入简单的文本提示，应用程序便能在几秒钟内生成网页应用的原型。这一过程非常快速且高效，适合各种开发需求。

快速构建前端应用：平台支持使用React、Tailwind和Vite等前端技术栈来构建网页应用，极大地提高了开发速度。

实时迭代与错误修正：

用户可以在开发过程中即时修改和调整代码。AI 会自动检测并修正开发中的错误，使用户能够保持工作流的流畅性。

GitHub 双向同步：

该应用支持与 GitHub 的双向同步，用户可以在源代码层面进行协作，同时保留代码的所有权。这为团队开发和版本控制提供了极大的便利。

一键部署到生产环境：

用户可以通过一键操作将开发完成的应用程序部署到生产环境中，显著简化了发布流程。

全栈开发支持：

通过与 Supabase 的集成，gptengineer.app 支持从前端到后端的全栈应用开发，提供了全面的开发解决方案。

网站：https://gptengineer.app/

GitHub：https://github.com/gpt-engineer-org/gptengineer.app

Cursor Directory：各种编程语言的配置文件和Cursor提示词库！

Cursor Directory 是一个专为 Cursor ai 编辑器设计的开源资源库，提供和收集了Cursor的各种配置文件和一系列提示词。这些提示词可以帮助 Cursor编辑器更好地理解开发者的意图，从而提供更准确的代码补全、错误修复和其他智能化的编辑功能。

智能补全：利用AI技术提供代码的智能补全，帮助开发者更快地编写代码。

代码调试：自动检测代码中的错误并提供修复建议。

代码生成：根据简单的指令生成复杂的代码段，减少开发者的工作量。

语言支持：支持多种编程语言，适用于不同的开发需求。

该项目涵盖了多种流行的编程语言和框架，包括Python、React、TypeScript、Next.js、FastAPI等，并且允许社区成员通过提交自己的规则来贡献内容。

这些提示词可以根据开发者使用的编程语言、框架和项目需求进行定制，从而优化 Cursor 编辑器的表现。例如，针对不同的编程语言（如Python、TypeScript、React等），可以设定特定的提示词，让编辑器更准确地预测代码的下一步操作，或者提供更符合项目要求的建议。

GitHub：https://github.com/pontusab/cursor.directory

AI文档翻译助手！EZ-Work：支持多种文档格式的翻译！

EZ-Work 是一个开源的AI文档翻译助手，设计目的是帮助用户快速、低成本地利用OpenAI等大语言模型API进行文档翻译。支持多种文档格式的翻译，包括txt、word、csv、excel、pdf和ppt，适用于各种需要文档翻译的场景。

主要功能特点：

多格式文档翻译：

支持多种常见文档格式的翻译，包括txt、word、csv、excel、pdf和ppt等，甚至支持扫描的pdf文件的翻译，能够满足用户在不同格式文档中的翻译需求。

兼容OpenAI API：

项目兼容OpenAI格式的任何端点API，支持中转API，用户可以灵活选择翻译服务提供商，充分利用大语言模型的翻译能力。

批量操作与多线程支持：

支持批量处理多个文档的翻译任务，并且支持多线程操作，大幅提高翻译效率，适合处理大规模文档的翻译需求。

Docker部署：

提供Docker部署方式，使得用户可以在不同的操作系统和环境下轻松部署和运行翻译服务，简化了安装和配置过程。

GitHub：https://github.com/EHEWON/ezwork-ai-doc-translation

9月26日

6.9Kstar！Kotaemon：一款可实现与文档对话的开源工具！

用于文档 QA 的开源 RAG UI

支持本地LLMs和 API 提供商

具有全文和矢量检索功能的混合 RAG 管道

具有图形和表格支持的多模式 QA

带有浏览器内 PDF 预览的高级引文

问题分解的复杂推理

可配置的设置用户界面

基于Gradio的可扩展架构

GitHub：https://github.com/Cinnamon/kotaemon

GenWarp：只需一张图像即可生成该图像不同角度的新视图！

GenWarp 是一种能够从一张图像生成该图像不同视角的新图像的方法。通常情况下，生成一个场景的不同视角需要多个角度的拍摄图像作为参考，但GenWarp只需要一张图像就可以完成这个任务。

在生成过程中，GenWarp 不仅能够生成视觉效果很好的新图像，还能保留原始图像中的重要信息和细节。例如，如果原图像中有一个特定的物体或场景细节，无论视角如何变化，生成的图像仍然会正确地显示这些细节，而不会因为视角的改变而出现信息丢失或错误。

简而言之，GenWarp 的独特之处在于，它可以在生成不同视角图像的同时，保持图像中原有的语义信息，即图像的意义和细节不会因为视角的改变而消失或被扭曲。

GitHub：https://github.com/sony/genwarp

阿里云发布Qwen2-VL：能理解20分钟以上的视频内容的视觉语言模型

阿里云发布Qwen2-VL 最新视觉语言模型版本，较其前代Qwen-VL有显著提升。

Qwen2-VL具备多分辨率和比例图像的先进理解能力，并在多个视觉理解基准上表现出色，包括MathVista、DocVQA、RealWorldQA和MTVQA等。

此外，Qwen2-VL能够理解长达20分钟以上的视频内容，支持复杂推理和决策，使其能够与移动设备、机器人等进行自动化操作。

该模型还增加了多语言支持，能理解包括大部分欧洲语言、日语、韩语、阿拉伯语等在内的图像文本。

主要功能与亮点：

增强的识别能力：

对象识别： Qwen2-VL 提升了对复杂场景中多个对象的识别能力，不仅限于植物和地标，还能理解多个对象之间的复杂关系。

文本识别：显著增强了对手写文本和多语言的识别能力，使其能够识别图像中的多种语言文本，包括大部分欧洲语言、日语、韩语、阿拉伯语等。

视觉推理：

问题解决能力： Qwen2-VL 在数学和编码能力上有了显著提升，能够通过图表分析解决复杂的数学问题，即使是极端比例失真的图像也能正确解释。

信息提取：模型可以从真实世界的图像和图表中提取信息，并具备更好的指令遵循能力，能够解决实际问题，将抽象概念与具体解决方案结合起来。

视频理解与实时对话：

视频分析： Qwen2-VL 扩展了对视频内容的分析能力，可以总结视频内容，回答与视频相关的问题，并在实时对话中持续提供信息和支持。

官方介绍：https://qwenlm.github.io/blog/qwen2-vl/

GitHub：https://github.com/QwenLM/Qwen2-VL

模型下载：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

在线演示：https://huggingface.co/spaces/Qwen/Qwen2-VL

9月25日

HivisionIDPhotos：一款智能证件照片处理利器！

HivisionIDPhotos的核心在于其先进的抠图技术和灵活的证件照生成机制。项目采用了MTCNN进行高精度的人脸检测，结合MODNet以实现轻量级目精准的人物抠图。这背后的关键是模型训练优化和巧妙的工作流设

计，确保了在不同光照条件和背景复杂度下的稳定性。

此外，项目支持动态调整的证件照尺寸，不仅限于常规尺寸，还允许用户定制特殊需求。这种灵活性得益于高

效的图像处理算法和智能布局规划，保证了输出的照片既符合标准又美观自然。

应用场景

个人信息管理：需要频繁上传身份证照片的用户，可以通过该工具快速整理和优化自己的身份证照片。

企业服务：HR部门在处理员工信息时，可以批量处理身份证照片，节省大量手动操作时间。

在线申报系统：对于需要身份证照片的线上服务平台，可以集成此项目作为预处理工具，提高用户提交资

料的准确性。

GitHub开源地址：https://github.com/Zeyi-Lin/HivisionIDPhotos?tab=readme-ov-file

在线体验:https://swanhub.co/ZeYiLin/HivisionIDPhotos/demo

懒人福音！NarratoAI：一站式AI影视解说+自动化剪辑工具！

NarratoAI 是一个自动化影视解说工具，基于LLM实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程，助力高效内容创作。

NarratoAI使用方法

基础配置，选择模型，填入APIKey，选择模型
选择需要解说的视频，点击生成视频脚本
保存脚本，开始剪辑
检查视频，若视频存在不符合规则的片段，可以点击重新生成或者手动编辑
配置视频基本参数
视频生成完成

GitHub：https://github.com/linyqh/NarratoAI

灵活逼真！Lumina-mGPT:任意分辨率丝滑逼真图像生成！

Lumina-mGPT,一个多模态自回归模型家族，能够执行各种视觉和语言任务，特别是在从文本描述生成灵活的逼真图像方面表现优异。与现有的自回归图像生成方法不同，Lumina-mGPT采用了预训练的decoder-onlv Transformer作为建模多模态token序列的统一框架。该模型家族由Alpha-VLLM团队研发，适用于多种多模态生成和理解任务。

功能特点：

图像生成(lmage Generation)：从文本描述生成对应的高质量图像。例如，输入一段描述“狗在玩水,背景有瀑布”的文本，Lumina-mGPT可以生成符合描述的图像。

图像理解(lmage Understanding)：对图像进行详细描述。例如，输入一张图像，模型可以生成该图像的详细文字描述。

多功能任务(omni-sFT)：支持多种任务，如图像深度估计、图像到图像的转换、图像编辑等。用户可以在单个界面中切换不同任务。

GitHub：https://github.com/Alpha-VLLM/Lumina-mGPT

28.5Kstar！YesPlayMusic：高颜值的第三方网易云播放器！

YesPlayMusic是一款优秀的个人音乐播放器，可以通过Docker方式快速部署在本地服务器。它拥有美观的界面设计，可以绑定网易云音乐账号，实现歌曲收藏的同步。界面简洁清爽，操作简单，搜索歌曲快速准确。同时，它支持自定义歌单和歌词显示，提供了良好的播放体验。对于喜欢使用网易云音乐的用户来说，YesPlayMusic是一个很好的选择。

性能特色

颜值爆表：简洁清新的 UI 设计，深色与浅色主题自动切换。

登录多样化：扫码、手机、邮箱登录，应有尽有。

MV 播放：边听边看，MV 高清播放。歌词同步：不仅是听，还能跟着唱。

个性化推荐：私人 FM，每日推荐，发现新大陆。

海外友好：无需翻墙，音乐无国界。

音源智能替换：自动替换无法播放的音乐链接，流畅体验。

自动签到：每天自动签到，积分轻松拿。

GitHub：https://github.com/qier222/YesPlayMusic

9月24日

Rnote：一款跨平台的开源手绘笔记工具！

Rnote 是一款基于矢量的开源绘图应用程序，用于素描、手写笔记以及注释文档和图片。它针对学生、教师和拥有绘图板的人，并提供 Pdf 和图片导入导出等功能，一个无限的画布和一个适用于大屏幕和小屏幕的自适应 UI。

性能特色

自适应UI：专为手写笔输入设计，无论是用触控笔还是鼠标，都能得到极佳的操作体验。

压感支持：支持多种笔画风格的压感输入，可以根据需要调整笔触的粗细、透明度，让笔记看起来更加生动自然。

多样形状工具：内置丰富的形状工具，无论是直线、圆形还是矩形，都能轻松绘制，还能进行旋转、缩放等操作。

多文档支持：可以同时打开多个文档，用标签页的形式管理，工作学习更高效。

导入导出灵活：支持PDF、位图和SVG等多种格式的导入导出，无论是查看还是分享都非常方便。

触控优化：特别为触控设备进行了优化，手写和绘图的体验非常流畅，像是在屏幕上涂鸦一样，特别适合用平板或者触控笔来操作。

GitHub：https://github.com/flxzt/rnote

狂澜30.4Kstar！Spacedrive：功能强大的跨平台文件管理器！

Spacedrive是一个开源的跨平台文件管理器，底层使用由Rust编写的虚拟分布式文件系统（VDFS）提供支持，核心的亮点就是可以在一个地方跨多个设备组织文件，无论是从云服务还是离线硬盘，Spacedrive能够将设备的存储容量和处理能力整合到一个个人分布式云中，既安全又直观。这个特性对于独立创意人员、"仓鼠收藏家"和那些想要拥有自己的数字足迹的人来说，绝对是一种与众不同的免费文件管理体验。

功能介绍：

跨平台：支持Windows、Linux、macOS和Docker，iOS、Android即将推出。

库管理：支持管理多个库，自动多设备间同步库数据，未来将推出公有云盘集成。

资源管理器：多视图布局，对图像、视频、音频、PDF、文本、代码等进行应用内文件预览

主题和图标：内置深色和浅色模式，为不同文件类型定制的 48 个不同图标。

Spacedrop：类似Airdrop，在本地或通过互联网用于在设备之间传输文件。

GitHub：https://github.com/spacedriveapp/spacedrive

3.5Kstar！ eSearch：一款高效、灵活的全文搜索引擎！

基于 Lucene 的强大引擎

Lucene 是 Apache 软件基金会的一个顶级项目,是Java 开发的全文检索库。eSearch 使用 Lucene 作为核心搜索引擎,确保了其在索引构建、查询处理和结果匹配方面的优秀性能。同时,通过封装Lucene,eSearch 提供了一个更简洁的 AP!，使得开发人员不需要深入理解 Lucene 内部细节就能开始使用。

eSearch 支持多种数据源,包括 MySQL 和 MongoD8 等常见数据库，能够方便地将数据导入搜索引擎进行索引。其索引机制可以实时更新，保证数据的新鲜度。此外，它还提供了分布式索引和查询的能力，以适应大数据场景。

特点总结

1.易用性：简化了 Lucene 的使用，提供直观的 API 和配置文件,

2.灵活性：支持多种数据源，可自定义配置，易于扩展。

3.高性能：基于 Lucene，提供强大的全文检索能力。

4.跨平台：通过 HTTP AP!,不受开发语言限制。

5.实时性：支持数据实时索引，保持搜索结果的最新状态

GitHub：https://github.com/xushengfeng/eSearch

9月23日

可实时AI换脸直播！Deep-Live-Cam开启AI换脸技术的新篇章！

Deep-Live-Cam 是一款极具创新性的 AI 应用，它犹如一把神奇的魔法钥匙,为我们打开了一个充满无限可能的世界。这款工具利用先进的深度学习算法，仅需一张照片，就能在视频中实现令人惊叹的人脸实时替换效果。其应用范围之广泛,犹如一片广阔的海洋,涵盖了娱乐、教育、艺术创作、商业广告等多个领域，展现出了巨大的潜力。

Deep-Live-Cam实时换脸的效果优秀。无论是做鬼脸、挑眉毛、左右摇头，还是切换各种刁钻角度，脸部表现都相当自然，没有时间延迟和崩坏的情况。不仅如此，该工具还功能齐全、操作简单，对比其他类似软件其UI设计更加友好，它不仅允许用户对替换后的面部特征进行自定义调整（包括肤色、光线、表情等参数支持修改）还内置多种风格的滤镜和特效，满足了用户个性化需求。

核心特性

实时性：Deep-Live-Cam 能够实现毫秒级的换脸效果，满足直播和实时视频会议的需求。

易用性：用户界面简洁直观，即便是初学者也能快速上手。

多平台兼容性：支持主流操作系统和硬件平台,包括 CPU、NVIDIACUDA、Apple Silicon、Core ML 等。

防滥用机制：内置内容审核机制，防止技术被用于不当场景。

Deep-Live-Cam在GitHub上项目完全开源，迅速走红，用户可以在GitHub下载其源代码，从而对工具进行自定义修改和二次开发。不仅技术先进，而且易于使用。对于直播和视频制作领域来说，它为用户提供了更多隐私保护，也提供了一个全新的创作思路。

GitHub：https://github.com/hacksider/Deep-Live-Cam

Open-LLM-VTuber：实现跟虚拟主播自然流畅的对话体验！

Open-LLM-VTuber：一个开源的数字人对话项目。通过语音交互、面部表情捕捉和长期记忆功能，实现自然流畅的对话体验。

它适用于 macOS

现有的很多解决方案都是通过 VTube Studi0 展示 Live2D 模型，并通过将桌面内置音频导入 VTube Studi0 并控制嘴唇来实现嘴唇同步。然而，在 macOS 上，没有简单的方法让 VTuber Studio 在桌面上收听内置音频。

很多现有的解决方案缺乏对 macOS 上 GPU 加速的支持,这导致它们在 mac 上的运行速度很慢。

该项目支持MemGPT实现永久聊天。聊天机器人会记住您说过的话。

基本目标

与 LLM 语音聊天

选择您自己的 LLM 后端

选择您自己的语音识别和文本转语音提供商

长期记忆

Live2D 前端

GitHub：https://github.com/t41372/Open-LLM-VTuber

2.4Kstar！InternLM-XComposer:一个开源的大型视觉语言模型！

浦语·灵笔2.5是基于书生·浦语2大语言模型研发的突破性的图文多模态大模型，仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力。浦语·灵笔2.5使用24K交错的图像-文本上下文进行训练，通过RoPE外推可以无缝扩展到96K长的上下文。这种长上下文能力使浦语·灵笔2.5在需要广泛输入和输出上下文的任务中表现出色。

超高分辨率理解：浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案，支持具有任意纵横比的高分辨率图像。

细粒度视频理解：浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像，从而通过密集采样和每帧更高的分辨率捕捉细节。

多轮多图像对话：浦语·灵笔2.5支持自由形式的多轮多图像对话，使其能够在多轮对话中与人类自然互动。

网页制作：浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页，包括源代码（HTML、CSS和JavaScript）的组合。

高质量文本-图像文章创作：浦语·灵笔2.5利用特别设计的“思维链”（CoT）和“直接偏好优化”（DPO）技术，显著提高了其创作内容的质量。

出色的性能：浦语·灵笔2.5在28个基准测试中进行了评估，在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro表现相近。

GitHub:https://github.com/InternLM/InternLM-XComposer

9月20日

BiRefNet：一款高分辨率图像分割的利器！

阿里联合南开等高校及科研机构发布一种名为 BiReiNet 的高分辨率图像分割Q框架,引入了一种新颖的双边参考框架(BiReiNet),用于高分辨率二分图像分割(DIS)。该框架由两个基本组件组成:定位模块(LM)和提出的双边参考(BiRef)重建模块(RM)。LM 利用全局语义信息辅助目标定位。在 RM 中,利用 BiRef 进行重建过程,其中图像的层次化块作为源参考,梯度图作为目标参考。这些组件协同工作生成最终的预测图。

关键特性：

1.定位模块(LM):利用全局语义信息辅助目标定位。

2.重建模块(RM):在重建过程中，使用BiRef技术，结合源图像和梯度图进行细节重建。

3.双边参考模块(BiRef:包括具有源图像引导的内部参考和具有梯度监督的外部参考。该模块在重建预测的高分辨率结果方面表现出显著的效果。

GitHub：https://github.com/ZhengPeng7/BiRefNet

18.3Kstar！OpenUI：仅通过和AI聊天就可定制UI界面！

OpenUI 旨在使这一过程变得有趣、快速和灵活。它也是我们在 W&B 使用的工具，用于测试和原型设计我们的下一代工具，以在LLM之上构建强大的应用程序。

OpenUI 让您可以使用您的想象力来描述 UI，然后实时看到它被渲染。您可以请求更改并将 HTML 转换为 React、Svelte、Web Components 等。它支持三种终端的UI设计，pc端，平板端以及手机端，具体你可以在聊天框中上方选择显示。你也可以直接打开代码编辑页面，直接进行手动修改。

GitHub：https://github.com/wandb/openui

VideoLingo：一款自动化的下载、翻译、配乐的视频工具！

VideoLingo是全自动视频搬运工，生成 Netflix 品质的字幕并克隆自己的声音进行配音!

VideoLingo特点：

使用 NLP 和 LLM 进行字幕分割

智能术语知识库，实现上下文感知翻译

三步翻译过程：直接翻译 - 反思 - 改进

精确的单词级字幕对齐

极低成本：仅需 0.1 元即可创作 5 分钟的跨语言字幕

GPT-SoVits 高质量的个性化配音

开发者友好：逐步结构化文件，便于自定义

GitHub：https://github.com/Huanshere/VideoLingo

MM-Wiki 是一个轻量级的企业知识分享与团队协同软件，可用于快速构建企业 Wiki 和团队知识分享平台。部署方便，使用简单，帮助团队构建一个信息共享、文档管理的协作环境。

特点

部署方便，基于 golang 编写，只需要下载对于平台下二进制文件执行即可。
快速安装程序，提供方便的安装界面程序，无需任何手动操作。
独立的空间，空间是一组文档的集合，一般为公司部门或者团队，空间下的文档相互独立。空间可根据需求设置空间访问级别。
完善的系统权限管理，系统可以自定义角色，并为不同角色授予不同的权限。
集成统一登录，本系统支持通过外部系统认证用户，比如与公司的 LDAP 登录融合。具体请看登录认证功能。
邮件通知功能，当开启邮件通知，文档更改会通知所有关注该文档的用户。
文档具有分享和下载功能，目前只支持下载 MarkDown 源文件。

Github:https://github.com/phachon/mm-wiki

9月19日

ActionView —— 动态敏捷的问题需求跟踪工具！

Actionview 是一个基于 PHP Laravel框架后端和 ReactS+ Redux 前端构建的问题跟踪工具,其设计灵感来源于 jira,但更轻量级、更具可定制性。前端源码可以在 actionview-fe 找到，这个工具旨在为团队提供一个高效、灵活的项目管理和buo追踪平台,同时避免高易的许可证费用。

项目及技术应用场景

Actionview 广泛适用于软件开发团队、项目经理以及任何需要进行任务管理、问题跟踪的团队。它的特性包括

自定义项目配置：既可以使用全局配置，也可以创建本地自定义方案。

工作流控制：每个项目可以使用默认或自定义的工作流程，精确控制各个步骤，确保正确的人在正确的时间执行正确的操作。

敏捷视图：支持 Scrum 和 Kanban 看板，便于敏捷开发。

Gantt 图表：展示项目进度，便于规划和监控

统计报告：提供多维度的数据报表，帮助决策者了解项目状态

集成：与 GitLab 和 GitHub 通过 webhook 进行集成，实现代码库的同步与交互

GitHub：https://github.com/lxerxa/actionview

Linly-Dubbing：一款智能视频多语言AI配音/翻译工具！

Linly-Dubbing是一个开源AI视频工具,支持配音、翻译、对口型，能自动将视频内容翻译成多种语言,并生成字幕。通过OpenAI API和Qwen模型等进行字幕翻译，并且通过声音分离技术和口型同步技术，视频配音自然流畅，对口型准确。用户可以上传视频，选择翻译语言，实现个性化的多语言配音，用Linly-Dubbing轻松实现视频内容的国际化。

主要功能：

多语言支持：提供中文及其他多种语言的配音和字幕翻译服务，满足不同语言市场的需求。

AI语音识别：采用WhisperX和FunASR技术，实现精准的语音到文本转换，包括说话者识别。

AI语音合成：集成Edge TTS、XTTS和CosyVoice等工具,生成自然流畅的语音输出，支持声音克隆。

AI字幕翻译：使用OpenAI AP、Qwen模型和Google Translate,确保翻译的准确性和自然性。

声音分离：可以分离人声和伴毒，为视频后期制作提供便利。

口型同步：基于Linly-Talker技术，实现虚拟角色口型与配音的精确匹配，提高视频的真实性。

视频处理：用户可以上传视频，自定义字幕、背景音乐、音量和播放速度等，增加视频吸引力。

GitHub：https://github.com/Kedreamix/Linly-Dubbing

AI加持的私人网盘！PicHome：支持管理图片与媒体文件的网盘程序！

PicHome是一款功能强大的开源网盘程序，它不仅能高效管理各类文件，还在图像和媒体文件管理方面表现出色。其亮点包括强大的文件共享功能和先进的AI辅助管理工具，为用户提供了便捷、智能的文件管理体验。

功能特性

多样化的列表模式

传统网盘：传统网盘通常仅提供列表和网格两种视图。
PicHome：提供包括瀑布流、自适应布局、网格、列表、双排列表和详细视图在内的多种模式，以适应不同用户的视觉和操作体验。

定制化的文件信息展示

传统网盘：信息展示固定，通常只显示图标、文件名和后缀名。
PicHome：允许用户根据需要自定义显示文件名、后缀名、标签、文件大小、图像尺寸、视频时长和添加时间等丰富信息。

增强的文件快速预览功能

传统网盘：需要打开文件才能查看内容。
PicHome：通过提供足够大的缩略图，使得用户在没有打开文件的情况下就能快速识别和选择所需文件。音视频文件甚至可以在列表中直接预览，快进播放。极大提升了查询效率。

先进的标签化文件管理

传统网盘：大多不支持或仅提供基础的标签管理功能。
PicHome：支持自动获取图片的颜色、形状等属性，以及音视频的时长等信息，并允许用户添加二级标签、文件描述和评分，从而实现多维度、深度的文件管理。

GitHub：https://github.com/zyx0814/Pichome

9月18日

LLM-Aided OCR ：一款开源的OCR工具！

LLM-Aided OCR 是一个通过应用大型语言模型(LLM)校正来增强 Tesseract OCR 输出的项目,主要用于扫描的 PDF 文件。它可以提高 OCR 的准确性和可读性，尤其是对于那些质量较差或包含复杂文本的文档。该项目结合了 OCR 技术和 LLM 的语言理解能力，使其可以将扫描版PDF文件转换成高准确度和格式规范的Markdown文档，显著提高了工作效率。

LLM-Aided OCR 的处理流程非常清晰，包含以下几个关键步骤：

PDF 转换为图像：首先将 PDF 文件转化为图像格式，便于进行 OCR 扫描。
OCR 处理：利用 OCR 技术扫描图像，提取出文中的文本内容。
LLM 纠错：通过本地 LLM 或 API 对 OCR 提取的文本进行纠错与格式调整，确保文本的准确性和可读性。
生成 Markdown：最后将处理后的文本转换为 Markdown 格式输出，方便后续编辑和使用。

GitHub：https://github.com/Dicklesworthstone/llm\_aided\_ocr

PPT 制作神器！ moffee：Markdown 转变为PPT的工具！

moffee 的核心功能是将 Markdown 文档转换为 PPT 幻灯片，这意味着你只需要专注于编写内容，而不再需要耗费精力在排版上。

与传统的 PPT 制作工具相比，moffee 通过 Markdown 轻量化文本输入的方式，让你轻松完成内容创作。它的设计非常简洁，几乎没有学习成本。

这种一键转换功能非常适合那些需要频繁制作幻灯片的人群，比如教师、讲师、技术分享者等。只需几分钟，你的 Markdown 文档就能化身为一套专业的幻灯片。

实时预览所见即所得

与其他 Markdown 转换工具不同，moffee 提供了一个 Web 实时预览功能。在编写 Markdown 文档的同时，你可以即时查看最终的 PPT 效果，这极大地减少了反复修改和调整的时间。

实时预览不仅仅是一个便利的功能，它还保证了你可以及时发现并调整内容和格式，确保最终的演示效果符合预期。无论是字体、布局还是图片的展示，都可以在生成 PPT 之前快速调整到最佳状态。

与AI工具结合提升创作效率

如果你经常使用 ChatGPT 或 Claude 等 AI 工具来生成文本内容，moffee 更是你的绝佳搭档。

你可以通过这些 AI 工具快速生成 Markdown 格式的文档，然后使用 moffee 将其一键转换为 PPT。这个组合能大幅提高工作效率，尤其是在需要短时间内完成大量内容创作的情况下。

GitHub：https://github.com/BMPixel/moffee

8.8Kstare！MinerU :一款开源的智能数据提取工具！

MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具，专注于复杂PDF文档的高

效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown

格式，支持从网页和电子书中提取内容，提高A语料准备效率。Miner具备高精度的PDF模型解析工具

链，支持多种输入模型，自动识别乱码,保留文档结构,转换公式为LaTex，适用于学术、财务、法律等多

个领域，支持CPU和GPU，兼容Windows/Linux/Mac平台，性能卓越。

Mineru的主要功能

PDF到Markdown转换：将包含多种内容类型的PDF文档转换为结构化的Markdown格式，便于进一步的编辑和分

析。

多模态内容处理：能识别和处理PDF中的图像、公式、表格和文本等多种内容

结构和格式保留：在转换过程中，保留原始文档的结构和格式，如标题、段落和列表

公式识别与转换：特别针对数学公式，能识别并转换成LaTeX格式，方便学术交流和技术文档使用。

干扰元素去除：自动删除页眉、页脚、脚注和页码等非内容元素，净化文档信息。

乱码识别与处理：自动识别并纠正PDF文档中的乱码，提高信息提取的准确性。

高质量解析工具链：集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR)，确保提取结果的高准确度。

GitHub：https://github.com/opendatalab/MinerU

9月14日

LlamaCoder：一款开源的自主托管的高效代码补全工具！

Llama Coder 是一个专为 Visual studio Code 设计的高效、自托管的 Github Copilot 替代方案。它整合了Olama 和 codellama 技术,提供了在您硬件上运行的自动补全功能。无论你是编程语言还是自然语言,这个插件都能提供出色的智能辅助。

项目及技术应用场景

开发环境优化:对于开发者来说，Llama Coder 可以显著提高编码效率，特别是在编写复杂代码时，其强大的智能补全功能可以快速完成代码片段。

多平台支持:不仅适用于 Windows 笔记本，还在 Mac M1/M2/M3 系列设备上表现出色,甚至可以在配备RTX 4090 显卡的独立机器上发挥最佳性能。

语言通用性:无论是编程语言还是自然语言，Llama Coder 都能胜任，是跨语言开发者的理想选择。

项目特点

与 copilot 相当的性能:Llama Coder 提供与 Github Copilot 类似的强大补全建议

高速运行:在推荐的硬件配置下，Llama Coder 能够实现快速响应，确保流畅的编码体验。

严格保护隐私:不收集任何使用数据，让用户安心工作。

高度可配置:支持本地安装和远程安装，用户可以根据硬件条件选择合适的模型和设置.。

Github :https://github.com/nutlope/llamacoder

Clarity AI：一款开源的AI图片放大和增强工具！

Clarty AI是一款利用最新AI技术的高分辨率图片放大增强工具，它能够增强图片细节并提供超高分辨率，适用于多种场景如风景、肖像、插图、动漫、室内设计等。这表明Clarty AI不仅是一个高质量的图片放大工具,而且还是一个开源项目，允许用户自由使用和修改基代码。

Clarity AI的主要特点包括其开源性质、无损放大能力以及对多种图像类型的适用性。这些特性使其成为一个强大的工具，用于提升低分辨率图像的质量，同时保持图像的原始细节和清晰度。此外，Clarity AI作为一个免费且开源的Magnific替代品，提供了与Magnific相似的功能，但以更开放的方式提供给用户。

Clarity AI无损图片放大AI工具的主要优势在于其采用最新的A!技术进行高分辨率图片的放大和增强，同时作为

一个开源项目，它允许用户自由地访问和修改源代码，以满足特定的需求或进行个性化定制。

GitHub：https://github.com/philz1337x/clarity-upscaler/

PhotoMakerV2-腾讯推出的AI写真生成框架!

PhotoMaker V2是腾讯推出的Al图像生成框架,能在极短的时间内生成逼真的人物照片。与初代相比,V2版本在角色的一致性和可控性上实现了显著提升,用户可通过文本指令精确控制生成结果。腾讯还提供了丰富的集成脚本,如ControlNet和T2l-Adapter,以及IP-Adapter-FaceelD和InstantID等,进一步增强了角色个性化生成的能力。

PhotoMakerV2的主要功能

1.快速生成逼真人物照片:能在几秒钟内生成高质量的逼真人物图像.

2.角色多样性:确保生成的人物照片具有多样性,避免角色"撞脸"

3.文本控制:用户可通过文本指令来控制生成的人物特征,实现个性化定制。

4.集成脚本支持:提供与ControlNet、T2l-Adapter等工具的集成脚本,以及IP-Adapter-FacelD或InstantID的整合选项,增强角色生成的可控性和个性化。

PhotoMakerV2的技术原理

深度学习:PhotoMakerV2利用深度学习技术,基于生成对抗网络(GANS)来生成逼真的图像。GANs包含两个网络:生成器(Generator)和判别器(Discriminator)。生成器负责创建图像,判别器则评估图像的真实性。

文本到图像的转换:PhotoMakerV2能将文本描述转换为图像。涉及到编码器-解码器架构,其中文本描述首先被编码为一个向量,然后这个向量被用来生成图像。

特征控制:通过训练数据,PhotoMakerV2学习到如何根据特定的文本描述调整生成图像的特征,如性别、年龄、表情等。

多样性和一致性:PhotoMakerV2在生成图像时,能保持角色的一致性,同时确保不同图像之间的多样性,避免生成重复或相似的面孔。

github:https://github.com/TencentARC/PhotoMaker

9月13日

Linly-Dubbing：一个开源的多语言AI配音和视频翻译工具

Linly-Dubbing可以将视频自动翻译成其他语言并生成字幕，还能克隆视频中说话者的声音并自动配音，以及进行口型匹配。

主要功能

自动下载视频：支持从YouTube等网站下载视频
多语言支持：支持中文及多种其他语言的配音和字幕翻译。
AI语音识别：精准的语音识能力，语音到文本转换和说话者识别。
LLM 翻译：结合领先的大语言模型（如GPT），快速且准确地进行翻译，确保翻译的专业性和自然性。
声音克隆：通过声音克隆技术，生成与原视频配音高度相似的语音，保持情感和语调的一致性。
口型同步：通保持口型同步，使配音与视频画面高度契合，提升视频的真实性和互动性。
灵活上传与翻译：用户可以上传视频，自主选择翻译语言和标准，确保个性化和灵活性。

GitHub：https://github.com/Kedreamix/Linly-Dubbing

UniPortrait：在单人和多人场景中保持身份一致并进行风格转换!

UniPortrait 是一个用于人像图像个性化的统一框架，专注于在单人和多人场景中保持身份一致性的同时，提供高度可编辑的图像生成。该框架由阿里巴巴集团的研究团队开发。

它能够：

单人和多人图像个性化：统一处理单人和多人图像的个性化生成，确保在复杂场景中的身份一致性。
高保真度的身份保持：在生成图像时，能够准确地保持参考图像中的面部特征和身份信息。
广泛的面部可编辑性：允许用户根据文本描述对图像进行灵活编辑和定制，而不会丢失原始身份特征。
自由形式的输入描述：支持使用多样化的文本提示，无需预先设定布局或格式限制。

主要特点：

高保真度： UniPortrait 画出来的人物肖像非常逼真，能够清晰地展现出每个人的独特面部细节。
可编辑性强：你可以根据自己的喜好，对 UniPortrait 画出来的人物肖像进行修改，比如改变发型、表情等等，UniPortrait 都能很好地满足你的需求。
自由创作：你可以尽情发挥你的想象力，用文字描述你想要 UniPortrait 画什么样的人物肖像，UniPortrait 会尽力理解你的意思，并将其转化为生动的画面。

项目地址：https://aigcdesigngroup.github.io/UniPortrait-Page/

GitHub：https://github.com/junjiehe96/UniPortrait

论文：https://arxiv.org/pdf/2408.05939

在线演示：https://huggingface.co/spaces/Junjie96/UniPortrait

MedSAM-2：基于SAM-2 的能够处理多种2D和3D医学图像的模型

Medical SAM 2 (MedSAM-2)，一个基于SAM 2框架的高级分割模型，解决2D和3D医学图像分割任务。

通过将医学图像视为视频，MedSAM-2不仅适用于3D医学图像，还引入了一种新的单次提示分割功能（One-prompt Segmentation），即用户只需为某一图像提供提示，模型即可自动分割后续所有相似目标，无需再提示。

在多种医学影像模式下测试了MedSAM-2，比如腹部器官、视盘、脑肿瘤、甲状腺结节和皮肤病变。与目前最先进的模型相比，MedSAM-2在传统和交互式分割任务中表现非常出色，显示出卓越的泛化能力，即它能够很好地适应不同的图像分割任务。

牛津大学团队首次将 SAM-2（Segment Anything Model 2）应用于医学图像分割，开发出MedSAM-2模型。这一模型能够处理多种医学成像模式，包括2D和3D图像。通过以下几方面的创新，显著提升了医学图像分割的效率和准确性：

统一处理2D和3D图像：MedSAM-2 采用将医学图像视为视频的方法，使其不仅适用于3D医学图像，还能够高效地处理2D图像。意味着它可以用于从普通的X光片到复杂的CT和MRI扫描图像。
一次性提示分割：用户只需为一个图像提供一次提示，模型即可自动分割随后的所有图像，无需考虑图像之间的时间关系。这显著减少了用户的交互需求，提升了操作效率。
优越的泛化能力：MedSAM-2 展现了卓越的泛化能力，能够在不同类型的医学图像分割任务中保持高性能，无需针对每个新任务进行重新训练或微调。
实时处理能力：MedSAM-2 具备实时处理复杂场景中对象运动和遮挡的能力，使其在各种实际应用中表现出色。

论文：https://arxiv.org/pdf/2408.00874

GitHub：https://github.com/MedicineToken/Medical-SAM2

9月12日

VideoDoodles：在视频中轻松随意插入手绘动画并实现无缝融合！

在视频中插入手绘动画！传统上这是一项非常困难的任务，但 VideoDoodles 让它成为可能。

VideoDoodles是一种创新的交互式系统，允许用户在视频中添加手绘动画。这些动画不仅能跟随视频中的物体移动，还能自动调整大小和角度，看起来像是原本就属于视频中的一部分。这对于想要给视频增添个性化效果或教育性内容的创作者来说，非常有用。

该系统通过在3D场景中放置平面画布，使得用户可以将手绘动画与视频内容无缝融合。这些画布可以被精确跟踪，并根据视频中的视角和物体移动进行调整，从而让手绘动画看起来像是原本就属于视频场景的一部分。

VideoDoodles具体作用有哪些？

让视频更有趣：你可以用它在视频里加上创意的手绘内容，比如画个搞笑的小人或者漂亮的彩虹，让视频更吸引人。
更好地解释内容：比如在教学视频里，你可以用手绘动画来突出重点，让观众更容易理解你要表达的东西。
简单易用：不管你是新手还是专业人士，都可以很快上手，用它做出专业水准的动画效果。

系统优势

3D效果的简化创建：系统将2D绘图与3D计算机视觉技术结合，使得即使是没有3D建模经验的用户也能轻松创建具有透视和遮挡效果的3D动画。
对新手友好：系统的设计目标之一是降低学习曲线，使得没有动画经验的用户也能快速上手并创建复杂的动画效果。
用户控制和自动化的平衡：系统在提供强大的自动化功能的同时，也让用户可以通过关键帧精确控制动画的效果，从而实现他们的创作意图。

项目地址： https://em-yu.github.io/research/videodoodles

论文：: https://www-sop.inria.fr/reves/Basilic/2023/YBNWKB23/VideoDoodles.pdf

GitHub: https://github.com/adobe-research/VideoDoodles

自动撰写论文！The AI Scientist：全自动的完成科学研究 !

The AI Scientist 是一个全面的自动化科学发现框架，利用先进的大语言模型（LLMs）来执行科学研究的各个环节。这个框架能够生成研究想法、编写代码、执行实验、生成图表、撰写科学论文，并进行同行评审。整个过程都是自动化的，不需要人类干预。

全自动研究过程： AI科学家自动化整个研究过程，包括构思、实验、数据可视化和手稿撰写。
自动化同行评审：系统包括一个同行评审机制，能够评估生成的论文质量并提供改进反馈。
高效低成本研究：该系统设计为计算效率高，每篇研究论文的生成成本约为15美元。
开放式发现： AI科学家可以反复迭代其想法，构建一个类似于人类科学社区的知识库。

主要功能特点

The AI Scientist 的核心技术依赖于基础模型，特别是大语言模型（LLMs），如GPT-4。这些模型通过对大量数据的预训练，具备了生成和理解自然语言的强大能力，使其能够独立构思研究问题、生成代码、撰写论文等。
应用：
- 文本生成：利用LLMs生成研究想法、实验计划和科学论文的文本部分。
- 代码生成：使用LLMs编写实验代码和分析脚本。
- 文献检索：通过语义分析，LLMs可以自动检索相关文献并生成引用。

官方介绍及演示：https://sakana.ai/ai-scientist/

论文：https://arxiv.org/pdf/2408.06292

GitHub：https://github.com/SakanaAI/AI-Scientist

Cutword：一款强大的中文文本分词工具！

cutword 是一个中文分词库，字典文件根据截止到2024年1月份的最新数据统计得到，词频更加合理。

分词速度是jieba的两倍。可通过 python -m cutword.comparewithjieba 进行测试。

应用场景

由于其高效和灵活性，Cutword在多个领域都有广泛的应用潜力:

1.数据挖掘:在大量文本数据中提取关键词，为后续的数据分析提供基础。

2.搜索引擎优化:帮助提升搜索结果的相关性和准确性。

3.机器翻译:作为预处理步骤，为机器学习模型输入分词后的文本,

4.情感分析:通过准确的分词，更好地理解用户的情感倾向和评论内容。

5.自然语言生成:在构建聊天机器人或智能助手时，用于处理和生成自然的语言表达

Cutword的主要特点包括：

高性能:基于Cython优化，运行速度快，处理大规模文本效率高，

易用性:简单明了的API设计，使得集成到现有项目中变得轻松。

可扩展性:支持自定义词典，适应各种专业领域的分词需求。

开放源代码:完全免费且开源，可以自由查看和修改代码，满足个性化定制需求,。

GitHub：https://github.com/liwenju0/cutword

9月11日

文本标注，LabelU轻松拿下！支持图像、视频、音频标注！

LabelU提供了多种标注工具和功能,可广泛适用于文生视频、文生图片、文生音频、目标检测、分类、分割、

关键点、折线、OCR等算法场景，具体包括：

·基于视频，具备强大视频处理能力，可实现视频分割、视频分类、视频时间戳等功能，为模型训练提供高质

量标注数据。

·基于图像，提供多功能图像处理工具，涵盖2D框、语义分割、多段线、关键点等多种标注工具,协助你轻松

完成图像的标识、注释和分析。

·基于音频，提供高效精准的音频分析工具，能够进行音频分割、音频分类、音频时间戳等，更好地注释复杂

的声音信息。

关键还有一点，Labelu支持导入预标注 JSONL 文件进行二次修改,这意味着什么?(划重点!)用大模型自动标注，如果结果不准确，可以导入Labelu进行人工批量审核、二次修改，相当实用的功能!用来制作视频生成大模型常用的微调数据，也能轻松搞定。

GitHub：https://github.com/opendatalab/labelU

探索超凡记忆！SuperMemory：你的私人智能书签助手！

SuperMemory 是一款创新的在线工具,它将你的浏览器扩展与先进的A!技术相结合,打造属于你的第二大

脑。这个项目旨在解决我们常遇到的问题--收藏了大量网络内容却鲜少回顾。通过SuperMemory，你可以轻松保存、管理和检索网页、推文和其他有价值的信息。

项目特点

一键保存:Chrome扩展让保存网页或推文变得轻而易举。

AI驱动:利用Cloudflare Al进行内容理解和检索，提供智能化的回应

无缝集成:Google账户直接登录，方便快捷。

自我托管:支持本地部署，数据隐私有保障。

社区支持:开放源代码，欢迎贡献和反馈。

应用场景

无论你是研究者、学生、博主还是普通互联网用户,SuperMemory 都可以极大地提升你的信息管理效率

1.学术研究:快速存档和搜索相关资料，避免重复工作。

2.个人学习:积累知识碎片，方便日后复习和整合,

3.灵感记录:捕捉创意灵感，随时查阅不遗漏任何细节

4.社交媒体管理:整理并回顾你的Twitter书签，提炼核心内容。

GitHub：https://github.com/supermemoryai/supermemory

IncarnaMind：通过AI模型与多个文档同时聊天并能精确查询信息

IncarnaMind 是一个允许用户通过多种大语言模型（LLM）与个人文档（PDF、TXT）进行互动的工具，如 GPT-3.5、GPT-4 Turbo、Claude，以及开源的 LLMs 如 Llama2。

该项目解决了文档检索中的常见挑战，包括处理多个文档、精确性与语义检索的平衡，以及跨不同 LLM 的稳定性。

解决的挑战

固定分块:IncarnaMind的滑动窗口分块技术在时间、计算能力和性能方面提供了平衡的解决方案。

精度与语义:小块可以实现细粒度的信息检索，而大块则专注于粗粒度的数据。我们利用基于嵌入的方法

和 BM25 方法来实现混合搜索方法。

单文档限制 :IncarnaMind 支持多文档查询,打破了一次一个文档的障碍。

稳定性:IncarnaMind使用Chains代替Agent来确保不同LLM之间的稳定解析。

GitHub：https://github.com/junruxiong/IncarnaMind

9月10日

信息挖掘神器！AI首席情报官:从信息源中按设定的关注点提炼讯息!

首席情报官（Wiseflow）是一个敏捷的信息挖掘工具，可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息，自动做标签归类并上传数据库。

SiliconFlow官宣Qwen2-7B-Instruct、glm-4-9b-chat等数款LLM在线推理服务即日起免费，这意味着您可以“零成本”使用首席情报官进行信息挖掘啦！

我们缺的其实不是信息，我们需要的是从海量信息中过滤噪音，从而让有价值的信息显露出来！

功能特色

原生 LLM 应用 精心选择了最适合的 7B~9B 开源模型，最大化降低使用成本，且利于数据敏感用户随时完全切换至本地部署。
轻量化设计 不用任何向量模型，系统开销很小，无需 GPU，适合任何硬件环境。
智能信息提取和分类 从各种信息源中自动提取信息，并根据用户关注点进行标签化和分类管理。
WiseFlow尤其擅长从微信公众号文章中提取信息，为此我们配置了mp article专属解析器！
可以被整合至任意Agent项目 可以作为任意 Agent 项目的动态知识库，无需了解wiseflow的代码，只需要与数据库进行读取操作即可！
流行的 Pocketbase 数据库 数据库和界面使用 PocketBase，除了 Web 界面外，目前已有 Go/Javascript/Python 等语言的SDK。

GitHub：https://github.com/TeamWiseFlow/wiseflow

十分强大！PDF Guru Anki：一款以PDF为中心的多功能办公学习工具箱

PDF Guru Anki 是一款以PDF为中心的多功能办公学习工具箱，支持 win10/11, macOS, Linux 平台。

包含四大板块功能：

PDF实用工具箱：包括PDF水印去除、批量添加书签、批量OCR、PDF转换等功能。

PDF水印去除：移除PDF文件中的水印。
PDF批量添加书签：为多个PDF文件批量添加书签。
PDF批量OCR：对PDF文件进行光学字符识别，将图像中的文字转换为可编辑文本。
PDF转换：支持将PDF文件转换为其他格式，如Word、Excel等。

Anki制卡神器：支持从PDF、Word、Xmind、幕布、Markdown、Excel、微信读书、欧陆词典等材料快速制作Anki卡片，支持挖空题、问答题、选择题等题型。
Anki最强辅助：拓展了Anki的功能，包括自建同步服务器、卡片导出PDF、字段批量修改、批量添加发音、图片批量上传图床等。
视频笔记神器：支持边看视频边记笔记，插入视频时间戳和截图，支持时间戳回链跳转，并与Anki制卡功能结合，打造从记录到复习的学习闭环。

适用人群：

办公人士：频繁处理PDF文档，包含几十项实用功能。
考试备考人群：考公、考研、考证等考试备考，快速将学习资料制作成Anki卡片，强化知识点。
小初学生家长：帮助孩子制作Anki卡片，掌握知识点。
终身学习爱好者：制作Anki卡片不断复习巩固，提高学习效果。

Github: https://github.com/kevin2li/PDF-Guru

下载：https://guru.kevin2li.top/

教程：https://guru.kevin2li.top/docs/intro

苹果文生图大模型！俄罗斯套娃式扩散，同时处理不同分辨率的图像

苹果发布了Matryoshka Diffusion Models (MDM)，一种新的图像和视频生成方法，可以理解为“套娃扩散模型”。它的名字来源于俄罗斯套娃，因为它像套娃一样，把小的结构嵌套在大的结构里。

当前，用于生成高质量图像和视频的模型面临很大的计算和优化难题。大多数方法要么在图像的像素层面上逐步生成，要么通过先训练一个压缩图像的模型，再在低分辨率的图像上进行处理。

MDM 的创新在于它能同时处理不同分辨率的图像。就像你在画一幅画，先画小的细节，然后再画大的背景，MDM 就是这样同时处理不同层次的内容，并且能够在不同清晰度下同时处理图像，比如它可以同时生成低清晰度的草图和高清晰度的细节部分。这种方法让整个过程更快，而且生成的图像质量更高。

MDM 的核心技术之一是 多分辨率联合去噪。传统的扩散模型通常在单一分辨率上执行去噪操作，而 MDM 通过同时处理不同分辨率的图像，显著提高了生成效率和质量。

GitHub：https://github.com/apple/ml-mdm

论文：https://arxiv.org/pdf/2310.15111

9月9日

多功能模型！ReSyncer：可实现音视频口型同步、说话风格迁移和换脸

ReSyncer是由清华大学、百度和南洋理工大学 S-Lab 实验室共同开发的一种新型框架，它能够生成非常逼真、与音频同步的口型视频，并且具备多种功能，如个性化调整、根据视频驱动的口型同步、改变说话风格以及进行人脸交换。

高保真度的音频同步口型视频：ReSyncer可以制作出非常逼真、准确地跟随音频同步的嘴部动作视频。
个性化微调：允许用户对生成的内容进行个性化调整，以满足不同的需求。
视频驱动的口型同步：除了音频，它还可以根据其他视频的嘴部动作来驱动同步，让新视频中的角色模仿已有视频中的说话动作。
说话风格迁移：ReSyncer可以将一个人的说话风格（如语气、节奏）迁移到另一个人身上。
人脸交换：它还可以在视频中替换说话者的面部，同时保持口型与音频的同步。

论文：https://arxiv.org/pdf/2408.03284

项目地址：https://github.com/danielepantaleone/Resyncer

一款本地AI语音聊天系统！voicechat2：快速、低延迟的交互体验！

VoiceChat2新技术的本地AI语音聊天系统，致力于为用户提供快速、低延迟的交互体验。该系统融合了SRT（Secure Reliable Transport）、LLM（Large Language Model）和TTS（Text-to-Speech）等技术，让用户能够享受到流畅、自然的语音交流。

项目用途：

人机对话：实现与AI助手的实时语音互动，如智能客服、AI陪聊等

教育培训：实时语音指导和解答问题，为学生提供即时反馈。

远程工作和会议：提高线上沟通效率，减少语音延迟，保证会议的流畅进行。

游戏:在多人联机游戏中进行实时语音交流，提升游戏体验。

GitHub：https://github.com/lhl/voicechat2

一款强悍的 HTML5 Canvas 2D 图形渲染引擎：Leafer JS！

经过3 年多开发的 LeaferJS 开源引擎终于打磨成熟，迎来了正式版的发布！号称只用 1.5s 可以渲染 100万个矩形，并且还是国产的。

Leafer JS是一款开源的HTML5 Canvas 2D图形渲染引擎，它以其强大的性能和丰富的功能在图形处理领域脱颖而出，具备瞬间创建数百万个图形的超强能力，其创建速度之快令人惊叹。例如，它可以在极短的时间内（如1.5秒内）创建出100万个可交互的矩形，且内存占用极低（约350MB），远低于同类引擎。

Leafer JS为图片编辑器的开发，提供了丰富的功能和自定义编辑器样式配置，可移动、缩放、旋转、倾斜，支持多选、框选、打组、双击进组，锁定、层级。支持自定义编辑工具和内部编辑器。还与第三方开发者携手提供了开箱即用的插件，如标尺、视窗控制、滚动条、文本编辑，对齐吸附、SVG 导出插件也即将开发，这些插件可以节省你大量的开发工作。

GitHub：https://github.com/leaferjs/LeaferJS

9月6日

AI界的"小钢炮":MiniCPM-V 2.6 震撼发布，端侧AI多模态能力增强！

MiniCPM-V 2.6面壁智能推出了一款颠覆性的端侧AI多模态模型——MiniCPM-V 2.6。这个被亲切地称为"小钢炮"的模型，以其惊人的性能和极致的效率，向业界巨头发起了挑战。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比，MiniCPM-V 2.6 性能提升显著，并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括：

领先的性能：MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。

多图理解和上下文学习：MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平，并展现出了优秀的上下文学习能力。

视频理解：MiniCPM-V 2.6 还可以接受视频输入，进行对话和提供涵盖时序和空间信息的详细视频描述。模型在有/无字幕评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。

GitHub：https://github.com/OpenBMB/MiniCPM-V

28.5Kstar！Flowise ：开发人员无需编写代码即可创建LLM应用程序！

Flowise，一个用户友好的、无代码的平台，它简化了构建LangChain工作流的过程，允许开发人员创建LLM应用程序，而无需编写代码。

Flowise的关键特性，包括拖放式UI、用户友好性和多功能性。

FlowiseAI不仅降低了AI应用的准入门槛，还极大加速了创意到现实的转化进程。我们可以通过可视化推拽的方式创建自己的LLM应用, 同时还能通过git一键部署到自己的服务器上. 无需深厚的编程知识，就能轻松搭建自己的AI模型和工作流.

GitHub：https://github.com/FlowiseAI/Flowise

微软开源AI-For-Beginners：为人工智能初学者提供极佳的入门资源

微软的开源项目是一套精心设计的学习资源,旨在帮助初学者快速理解和掌握人工智能的基础知识。这个项目不仅包含了一系列的文章和教程，还提供了实践性的编程作业和案例研究，让你在理论与实践中并进。

技术分析：

该项目涵盖了广泛的人工智能主题,包括机器学习、深度学习、自然语言处理(NLP)、计算机视觉等关键领域。它基于现代数据科学工具和技术栈，如 Python、TensorFlow 和 PyTorch，这些都是当前AI开发的核心技术。

Python：作为数据分析和机器学习的主要语言，Python 的易读性和丰富的库支持使它成为AI初学者的理想选择。

TensorFlow& PyTorch：这两个是主流的深度学习框架,它们都提供高级AP|进行模型构建和训练，而初级用户可以从它们的直观接口开始学习。

项目中的教程详细解释了这些技术的基本概念，并提供了逐步指导,帮助新手逐步建立自己的技能树。

GitHub：https://github.com/microsoft/AI-For-Beginners

9月5日

国产开源搜索引擎框架！MindSearch：搭建专属AI搜索引擎！

MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言査询快速在各种文件格式(如PDF、DOCX.TXT)中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。

MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型(LLM)，如GPT和Claude,来构建自己的搜索引擎。这个框架支持多智能体架构，能够在短时间内处理超过300个网页的内容，从而提高信息整合和管理的效率。

此外，MindSearch还具备多轮追问的能力，能够根据用户的上下文进行深入的交互，进一步提升搜索结果的准确性和相关性。这种设计使得MindSearch在面对复杂查询时表现出色，能够有效减少用户的认知负担。

总体而言，MindSearch作为一款创新的A!搜索工具，不仅在国内市场上引起了广泛关注，也对A!搜索领域产生了积极影响。它的推出标志着中国在A!搜索技术上的重要进步，并为用户带来了更加智能和人性化的搜索体验

GitHub：https://github.com/InternLM/MindSearch

可灵本地平替！阿里发布长视频生成项目：EasyAnimate！

自从 Sora 发布以来，AI 视频生成的热度不减,社区中涌现了大量类 Sora 的开源项目。今天给大家分享一款开源的视频生成模型，来自阿里云团队的EasyAnimate，它是阿里云人工智能平台PAI自主研发的DiT-based视频生成框架，它提供了完整的高清长视频生成解决方案，包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。在预训练模型的基础上，EasyAnimate可通过少量图片的LoRA微调来改变生成视频的风格，相比已有方案具有更好的扩展性和完整性。

EasyAnimate在人工智能平台PAI上进行了集成，供用户一键训练和部署，其支持以下功能：

最大分辨率768x768，最长144帧的视频推理（512x512分辨率可在A10 24G上推理）
DiT 基线模型的训练
DiT LoRA模型的训练（512x512分辨率可在A10 24G上训练图片Lora）
VAE模型的训练和推理
视频预处理

GitHub：https://github.com/aigc-apps/EasyAnimate/

在线体验：https://modelscope.cn/studios/PAI/EasyAnimate/summary

个性化图片生成模型！ViPer ：根据个人偏好生成作品！

最近，瑞士洛桑联邦理工学院的研究团队推出了一种新方法，名为 ViPer（Visual Personalization of Generative Models via Individual Preference Learning），旨在根据用户的视觉偏好个性化生成模型的输出。

这一创新在即将到来的2024年 ECCV 会议上进行了展示，团队希望能够让每个用户在相同的提示下，获得更符合自己喜好的生成结果。

同时，项目还提供了一种代理指标模型，能够根据用户喜欢和不喜欢的图像预测某个查询图像的偏好分数。这意味着，用户可以更好地了解自己对新图像的潜在喜好。

另外，ViPer 还提供了代理评分机制，用户可以通过提供喜欢和不喜欢的图像，计算出查询图像的评分。这一评分从0到1不等，分数越高，表明用户越喜欢这幅图像。团队建议每个用户提供大约8张喜欢的和8张不喜欢的图像，以确保结果的准确性。

项目及演示：https://viper.epfl.ch/

论文：https://arxiv.org/pdf/2407.17365

GitHub：https://github.com/EPFL-VILAB/ViPer

9月4日

智谱Al版的Sora正式开源！清影：支持文生视频、图生视频的AI模型

清影是智谱A|推出的AI视频生成模型，能够将任意文字或图片生成视频，用户只需输入一段文字和选择风格即可生成高精度视频。清影已上线智谱清言ApP，支持文本生成视频和图片生成视频，同时推出“照片动起来”小程序。

清言的AI视频生成功能，基于智谱大模型团队自研打造的视频生成大模型 CogVideoX。通过优化技术,智谱生成式视频模型的推理速度提升了6倍。智谱清言的“清影”功能令人瞩目的特点之一便是快速生成视频的能力。只需短短 30 秒，就能生成 6 秒的精彩视频，极大地提高了用户的创作效率，节省了大量时间。

“清影”为用户提供了丰富多样的视频风格，涵盖卡通 3D、黑白老照片、油画、电影感等多种选择。无论是追求奇幻的卡通世界，还是复古的黑白影像，亦或是艺术感十足的油画风格，用户都能随心所选，充分满足个性化的创作需求。

在人工智能领域，“清影”功能有望迎来更为广阔的发展前景。随着技术的不断进步，其生成视频的时长将不断延长，从目前的 6 秒逐步拓展到更长的时间，为用户提供更完整和丰富的内容创作。

分辨率也将进一步提高，从现有的 1440x960 向更高清晰度迈进，呈现更为细腻和逼真的画面。

在线体验：https://chatglm.cn/video?via=onetts.com

GitHub：https://github.com/THUDM/CogVideo

运动场的AI"裁判"！RoboflowSports ：实时跟踪运动员精准分析比赛

在球场上，每一次奔跑、每一个转身、每一个进球，都可能成为比赛的关键。而今，RoboflowSports携其深度学习模型，为体育数据分析带来了革命性的变革。它像一位精准的"鹰眼"，捕捉着赛场上的每一个细节，让教练和分析师能够洞察秋毫，从数据中挖掘胜利的秘密。

RoboflowSports的超能力源自其先进的对象检测技术，它不仅能迅速锁定足球的踪迹，还能标注出视频中运动员的关节位置，为分析运动员的姿态和动作提供了强有力的支持。而图像分割技术更是让RoboflowSports如虎添翼，它能够将运动员和足球从复杂的背景中分离出来，进行更为精细的图像处理。

这款工具的主要功能包括对象检测、图像分割和关键点检测，它通过可视化工具将分析结果直观展现，同时提供数据集管理，支持用户进行训练和测试。这些功能不仅提升了体育数据分析的准确性，还辅助了战术研究与分析，对运动员表现评估和实时比赛分析起到了关键作用。

GitHub：https://github.com/roboflow/sports

Real-time-translation-typing：实时打字翻译工具！

该项目是一个实时打字翻译软件，提供语音实时打字、语音实时翻译功能，尤其适用于游戏（如LOL）的语音打字输入。

其主要功能包括：

实时打字翻译：支持中英文等多种语言的实时翻译。
实时语音转文字并翻译：能够将语音实时转换为文字并进行翻译。
游戏语音转文字输入：专为游戏玩家设计，特别是LOL玩家，通过语音输入实现快速打字。

目前支持搜狗、百度、有道等翻译API，通过配置文件可选择和切换主翻译API。

GitHub：https://github.com/sxzxs/Real-time-translation-typing

9月3日

Stability AI 开源！Stable Fast 3D：0.5秒内将图片变成完美的3D模型

Stability AI 推出了一个新的模型，Stable Fast 3D。这个模型可以在0.5秒内将一张图片变成一个详细的3D模型。这个技术让3D模型的生成速度和质量达到了新的高度。

用户上传一张图像，模型会生成一个完整的3D资产，包括UV展开的网格、材质参数、减少了光照烘焙的反照率颜色，以及可选的四边形或三角形重新网格化可以通过Stability AI API和Stable Assistant聊天机器人使用该模型，并可以在增强现实中与3D作品互动。

主要功能特点：

超快生成：只需0.5秒就能生成一个完整的3D模型，比之前的模型快了很多。
高质量：生成的3D模型质量很高，有细致的网格和材质，颜色也很逼真。
简单操作：用户只需上传一张图片，系统就会自动生成详细的3D模型。
API和聊天机器人：用户可以通过Stability AI的API和Stable Assistant聊天机器人轻松使用这个模型，并在增强现实设备上互动。

GitHub：https://github.com/Stability-AI/stable-fast-3d

SD原班人马创业，开源FLUX.1：120亿参数的AI图像生成模型！

前Stability AI 核心成员 Robin Rombach 创立了一个新的公司：“黑森林实验室”，并且获得了3200万美元的融资。

同时他们发布了一个名为Flux.1图像生成模型家族。

FLUX.1是黑森林实验室推出的首个产品,它是一个基于多模态和并行扩散Transformer块的混合架构,拥有120亿参数,堪称目前最大的开源文本到图像模型之一。FLUX.1提供了三个版本:

FLUX.1 [pro]: 顶级性能版本,提供最先进的图像生成能力。
FLUX.1 [dev]: 开放权重的非商业用途版本,性能接近[pro]版。
FLUX.1 [schnell]: 专为本地开发和个人使用设计的快速版本。

FLUX.1在视觉质量、提示词遵循、图像细节和输出多样性等方面都达到了新的高度。

关键技术创新：

流匹配（Flow Matching）：通过流匹配方法，模型在保持高质量生成的同时，提高了训练效率和生成速度。

旋转位置嵌入（Rotary Positional Embeddings）：提高了模型在处理不同尺寸和形状图像时的灵活性和准确性。

并行注意力层（Parallel Attention Layers）：显著提升了模型的计算效率和生成速度。

GitHub：https://github.com/black-forest-labs/flux

GPT-SoVITS：开源 AI 语音克隆工具，智能语音合成的新境界！

想象一下你第一次听到机器发出的声音，听起来就像是人类的声音。你既惊讶又难以置信，对这项技术能走多远充满好奇。GPT-SoVITS 不仅突破了界限，还重新定义了界限。这不仅仅是机器说话；而是它们用一种带有人类语言的细微差别、情感和独特性的声音说话，标志着语音技术的未来已经到来。

功能：

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

GitHub：https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

9月2日

数字人智能对话系统 - Linly-Talker：数字人交互，与虚拟的自己互动！

Linly-Talker 是一个将大型语言模型与视觉模型相结合的智能 A 系统，创建了一种全新的人机交互方式。它集成了各种技术，例如 Whisper、Linly、微软语音服务和 SadTalker 会说话的生成系统。该系统部署在 Gradio 上，允许用户通过提供图像与 A1助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。

Linly-Talker的组成部分：

1. ASR(自动语音识别)- Whisper:Liny-Talker利用OpenAl的Whisper进行准确的语音识别。这确保系统能够有效地理解和解释您的语音命令。

2 .TTS(文本转语音)·Edge TTS:为了提供自然而人性化的对话体验，Linly-Talker使用微软语音服务进行高质量的文本到语音合成,这意味着AI助手能够以清晰逼真的声音回应您。

3 .THG(说话头部生成)· SadTalker: Linly-Talker更进一步，引入了SadTalker技术，这是CVPR2023的前沿技术。它可以生成与AI助手回应相匹配的逼真说话头部动画。

4 .LLM(大型语言模型)-Linly:Linly是由深圳大学CVI开发的核心语言模型，它利用大规模语言模型的强大能力，理解和生成人类般的回应。Linly模型在大量数据上进行了预训练，并可以进行特定任务的微调。

GitHub：https://github.com/Kedreamix/Linly-Talker

一键部署！markdown-to-image:将 Markdown 转为海报的编辑器

这个 React 组件将 Markdown 呈现为视觉上吸引人的社交媒体图像。该项目还包括一个内置的 Web 编辑器，可以通过简单的一键部署用作在线 Markdown 到海报编辑器。

特征：

将 Markdown 渲染为针对社交共享优化的海报图像
一个内置模板，支持自定义模板
具有 9 个预构建选项的可定制主题
将输出复制为图像
一键部署到 Vercel 等平台
集成图像 CORS 代理，可轻松将在线图像插入海报中
将输出复制为 HTML 代码，以便粘贴到电子邮件和编辑器中

GitHub：https://github.com/gcui-art/markdown-to-poster

SpeechGPT2：一个端到端的语音对话模型，能够真切感知和表达情感！

SpeechGPT2 是由复旦大学计算机学院开发的一个端到端的语音对话语言模型，类似于 GPT-4o。**它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应，如说唱、戏剧、机器人、搞笑和低语等。**为了处理冗长的语音序列，SpeechGPT2 使用了一种超低比特率的语音编解码器 (750bps)，能够建模语义和声学信息。

预训练数据包括超过10万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。

技术细节：

语音编解码器：参peechGPT2 使用超低比特率的语音编解码器，能够同时建模语义和声学信息。这种编解码器的比特率为 750bps，采用 25hz 的 RVQ3。

模型架构：从一个包含70亿参数的文本语言模型（7B文本LLM）初始化。

自回归解码：生成一秒语音需要进行25步的自回归解码。每一步解码都基于之前生成的内容进行推断，逐步生成完整的语音。

GitHub：https://github.com/0nutation/SpeechGPT

8月30日

阿里开源！OutfitAnyone：支持任何服装及人物的高质量虚拟试穿技术

OutfitAnyone是由阿里巴巴开发的一个基于扩散模型的2D虚拟试穿框架，旨在解决现有虚拟试穿技术在生成高保真、细节一致的结果时遇到的挑战。

OutfitAnyone采用双流条件扩散模型，可以处理衣物变形，生成更加逼真的试穿效果。它具有可扩展性，能够适应不同的姿势、体型，并适用于从动漫到野外图像的广泛应用场景。

保持衣物细节：能保持衣物的纹理、图案和形状，即使在不同体型和姿势下也能生成逼真的试穿效果。
适应不同体型和姿势：无论用户的体型或姿势如何变化，系统都能准确地调整衣物，确保其与用户的身体完美契合。
可扩展性：
- 系统支持多种姿势和体型，不论是静态姿势还是动态姿势，都能生成高质量的试穿效果。
广泛应用场景：
- 系统不仅适用于普通用户上传的自拍照片，也适用于专业模特的照片。
- 甚至可以应用于动漫角色的虚拟试穿，展示了其在不同图像类型中的适应性。
- 无论是在室内还是室外场景中，系统都能生成逼真的试穿效果，适应不同的背景和光照条件。

GitHub：https://github.com/HumanAIGC/OutfitAnyone

在线体验：https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

论文：https://arxiv.org/pdf/2407.16224

FlashFace：实现图像个性化定制，精准保留人脸特征！

FlashFace是一种由香港大学、阿里巴巴和蚂蚁集团合作开发的工具，通过提供参考面部图像和文本提示，实现高质量的人脸个性化，保留细节如纹身和罕见脸型，同时解决文本与图像指导之间的冲突。

FlashFace可以产生多样的人像个性化结果：

1.在很大程度上保留参考面孔的身份(例如，纹身、疤痕，甚至是虚拟人物罕见的脸型)。

准确地遵循指示，特别是当文本提示与参考图像相矛盾时(例如,将成人定制为儿童或老人)。

2.改变年龄和性别

3、虚拟角色生成真人

GitHub：https://github.com/ali-vilab/FlashFace

Meta SAM 2 登场：首个能在图片和视频中实时分割对象的开源 AI 模型！

Meta 公司宣布将以 Apache 2.0 许可发布 SAM 2，因此任何人都可以使用它来构建自己的体验。

Meta 还将以 CC BY 4.0 许可共享用于构建 SAM 2 的数据集 SA-V，并发布基于网络的演示体验，所有人都可以在其中试用 Meta 的模型版本。

对象分割：是指识别图像中与感兴趣物体相对应的像素，是计算机视觉领域的一项基本任务。

在零样本的前提下，SAM 2可以实现精准「抠图」！

GitHub：https://github.com/facebookresearch/segment-anything-2

8月29日

AI 翻译！ bilingual_book_maker：开源的基于 OpenAI 的 AI 翻译脚本！

bilingual_book_maker 是一个基于 OpenAI 的 AI 翻译脚本，可以帮助用户制作多语言版本的 epub 文件和图书。该工具仅适用于翻译进入公共版权领域的 epub 图书，不适用于有版权的书籍。

bilingual_book_maker 只需要系统中配置好 OpenAI API Keys、Python 以及正常的 proxy 环境即可用1小时20分翻译生成一本自动排版的中英文 epub 小说，是真的厉害！

GitHub：https://github.com/yihong0618/bilingual\_book\_maker

GitHub 上一款兼顾便利性和美观性的绘图工具： Revezone

这是一款堪称神器的手绘效果白板工具 Excalidraw，完美满足了在绘图便利性和美观性两方面的诉求。一经发现，爱不释手，工作学习中的各种「流程图」、「框架图」、「线框图」等绘制的得心应手。

Revezone 在白板的手写字体中默认支持了中文手写字体，中英文使用同一个手写字体进行渲染。效果前后对比如下：

优化前 Excalidraw 效果：

优化后 Revezone 效果：

功能特点：

缝合了 Excalidraw 和 Tldraw 的无限画布白板；
提供所见即所得的类 Notion 编辑器；
在左侧边栏可轻松创建和管理文件；
灵活的布局可拖拽标签页位置和分屏操作等。

GitHub：https://github.com/revezone/revezone

狂澜45.6Kstar！Meilisearch：一款快如闪电的开源搜索引擎！

Meiisearch 旨在提供快速的搜索速度。它可以在毫秒级别内返回查询结果，即使在处理大型数据集时也是如此。例如,在官方提供的基准测试中,使用 Meiisearch 处理 10 万个文档时,平均搜索时间为 1.47 毫秒，而使用Elasticsearch 搜索同样的数据集时，平均搜索时间为 44.1 毫秒。

功能特色：

1.支持中文搜索，不需要额外的配置。

2.提供开箱即用的功能属性,如错字容忍、过滤器和同义词。

3.支持拼写纠正、同义词替换、近义词搜索等功能，这些功能可以大大索结果的质量

GitHub：https://github.com/meilisearch/meilisearch

8月28日

一款自定义字幕内容的截屏生成器：fake-screenshot！

这是一个可以伪造任何网站界面截图的工具。但本工具的目的其实不是破坏，而是为了警告:不要轻易相信网上看到的“截图”！

本工具的目的是传递（如上的）信息，而不是破坏。因此所有经过本工具制作出来的截图都被打上了水印。

水印的处理分为两种：

修改网页文字时会打上透明水印。（肉眼不可见，但经过专门提供的水印检查工具可以检查出来）
修改图片时会打上肉眼可见（但比较浅）的水印。

GitHub：https://github.com/thegreatjavascript/FakeScreenshot

Diffree：通过文本描述能自动在图像中找到合适的位置添加对象！

Diffree是一种基于扩散模型的图像编辑工具，专门用于在图像中通过文本描述添加对象。它不需要用户手动绘制任何遮罩或边界框，而是依靠模型自动预测对象的位置和形状，实现无缝融合的新对象添加。

– 与原始图像保持一致（光线、色调、颜色等）

– 无需画框或遮罩

– 仅根据文字描述为图像添加对象

– 自动确定放置新对象的位置。

例如：你只需提供描述性文本，如“添加一只狗”或“在桌子上放一个花瓶”，Diffree就能自动在图像中找到合适的位置并添加对象。

Diffree的主要功能：

1. 文本引导对象添加

2. 背景一致性维护

3. 自动位置和形状预测

4. 高质量对象添加

项目地址：https://opengvlab.github.io/Diffree/

GitHub：https://github.com/OpenGVLab/Diffree

论文：https://arxiv.org/pdf/2407.16982

9Kstar！PhotoMaker：定制化生成任意风格的逼真人物照片！

PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法，主要用于生成高质量的现实感人类照片。

PhotoMaker 旨在通过堆叠 ID 嵌入来生成逼真的人像照片。可以在几秒钟内完成个性化定制，无需额外的 LoRA 训练。该方法可以根据文本提示，生成符合描述的高质量人像图片，同时保持人物身份的特征。

假设你有几张朋友的照片：一张是在生日聚会上拍的，一张是在旅游时拍的，还有一张是在家庭聚会上拍的。每张照片都能提供一些朋友的独特信息。

通过堆叠这些照片的特征，PhotoMaker 可以生成一张新的照片，这张照片中的朋友不仅看起来像真实的朋友，还可能有你在描述中提到的特定特征，比如“戴着太阳镜的朋友”。这种方法不仅快速，而且生成的图像质量非常高，看起来就像是真实拍摄的一样。

项目及演示：https://photo-maker.github.io/

论文：https://arxiv.org/pdf/2312.04461

GitHub：https://github.com/TencentARC/PhotoMaker

在线体验：https://huggingface.co/spaces/TencentARC/PhotoMaker-V2

8月27日

AudioNotes：利用AI快速提取音视频的内容转化为Markdown笔记！

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容，并通过调用大模型进行整理，将这些内容转换为结构化的Markdown笔记，便于用户快速阅读和理解。

音视频内容识别：利用先进的自动语音识别（ASR）技术，能够精准地提取音视频中的文本内容。
结构化笔记生成：通过大模型对提取的内容进行整理，生成清晰、易读的Markdown笔记。
与音视频内容对话：支持用户与音视频内容进行交互式对话，以获取更多信息或进行深入探讨。

GitHub：https://github.com/harry0703/AudioNotes

17.9Kstar！Mem0：让大模型拥有超强记忆力!

Mem0为大语言模型提供了一层智能的、自我改进的记忆层，用于大语言模型（LLM），以实现跨应用程序的个性化AI体验。也就是为大语言模型（比如ChatGPT）提供了一个个性化记忆存储功能，使其能够记住和利用之前的交互信息，从而提供更加个性化的服务。

解决了AI模型缺乏长期记忆和个性化能力的问题，使AI能够根据用户历史和偏好提供更精确和有用的响应。

Mem0适用于需要长期记忆和上下文保留的AI应用，如聊天机器人和智能助理。

主要功能：

1.个性化AI导师：创建一个能够根据学生进步和学习偏好进行适应的个性化AI导师。

2.个性化旅行助手：构建一个个性化的AI旅行助手，了解您的旅行偏好和过去的行程。

3.客户支持代理：开发一个个人AI助手，记住用户的偏好、过去的互动和上下文，提供个性化和高效的支持。

GitHub：https://github.com/mem0ai/mem0

开发文档：https://docs.mem0.ai/overview

Stable Video 4D ：可通过单个视频并生成八个新角度的动态视频！

Stability AI 宣布推出 Stable Video 4D（SV4D），这是一款创新模型，用户可以上传单个视频并生成八个新角度的动态新视角视频。

Stable Video 4D 可以在大约40秒内生成跨越8个视角的5帧视频，整个4D优化过程大约需要20到25分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象，增强产品的真实感和沉浸感。

主要功能特点：

多视图视频生成：SV4D的主要功能之一是从单个视频生成多视角的视频帧。这意味着给定一个单视角的视频，SV4D能够生成该视频中对象在多个不同视角下的帧，并确保这些帧在时间上的一致性。
4D 表示优化：SV4D不仅仅是生成多视角的视频帧，它还能够使用这些生成的视角视频来优化动态3D对象的4D表示。

混合采样方案：为了处理长视频输入，SV4D采用了一种混合采样方案。

GitHub：https://github.com/Stability-AI/generative-models

模型下载：https://huggingface.co/stabilityai/sv4d

论文：https://arxiv.org/abs/2407.17470

8月26日

照片“对口型”！EchoMimic：通过音频输入即可生成肖像动画视频

EchoMimic 是由蚂蚁集团开发的一种通过音频和面部标志生成逼真的肖像动画视频的新方法。与传统的方法不同，EchoMimic 不仅可以单独使用音频或面部标志点，还可以结合两者进行视频生成。从而提高了生成视频的稳定性和自然度。

EchoMimic的主要功能

EchoMimic 的主要功能围绕着生成逼真的肖像动画视频，通过结合音频输入和面部标志来实现。以下是其主要功能的详细介绍：

单独通过音频生成肖像视频
单独通过面部标志生成肖像视频
结合音频和选定的面部标志生成肖像视频
多语言和多风格支持

无论是中文还是英文，甚至是唱歌的场景，EchoMimic都能轻松应对，让人物的“表演”更加逼真自然。

GitHub：https://github.com/BadToBest/EchoMimic

腾讯开源！MimicMotion：一张图片生成跳舞视频的动作视频模型！

腾讯和上交发布了一个根据图片生成跳舞视频的项目MimicMotion。效果同时支持面部特征和唇形同步，不止可以搞跳舞视频，也可以做数字人。

MimicMotion方案优化的内容有:

引入基于置信度的姿态引导机制。确保生成的视频在时间上更加连贯流畅。
开发了基于姿态置信度的区域损失放大技术。能够显著减少生成图像中的扭曲和变形。
提出创新的渐进式融合策略。能够在可接受的计算资源消耗下，实现任意长度视频的生成。

它能生成多样化视频，控制视频长度和姿态，保证细节质量、时间平滑性，减少图像失真，生成长视频时可控制资源消耗。

GitHub：https://github.com/Tencent/MimicMotion

微软开源的GraphRAG爆火，狂揽12.8k 星星！

本月初，微软发布最强 RAG 知识库开源方案 GraphRAG，项目上线即爆火，现在星标量已经达到 12.8 k。

相比传统的 RAG，回答的质量有明显改善，特别是对于回答复杂问题，比如统计或排序类的问题，传统的 RAG 完全没办法回答，GraphRAG 却能够回答的相当好，LLM 生成的知识图谱结构给出了数据集的整体结构和其中主题，让私有数据集也能被组织成有意义的语义集群并对其进行预总结。在回应用户查询时，LLM 会使用这些聚类对主题进行总结。

GitHub：https://github.com/microsoft/graphrag

8月23日

32.5Kstar！Open WebUI:面向 LLM 的用户友好型 WebUI！

Open WebUI 是一个仿照 ChatGPT 界面，为本地大语言模型提供图形化界面的开源项目，可以非常方便的调试、调用本地模型。你能用它连接你在本地的大语言模型（包括 Ollama 和 OpenAI 兼容的 API），也支持远程服务器。Docker 部署简单，功能非常丰富，包括代码高亮、数学公式、网页浏览、预设提示词、本地 RAG 集成、对话标记、下载模型、聊天记录、语音支持等。

主要功能：

1.轻松设置：使用 Docker 或 Kubernetes（kubectl、kustomize 或 helm）无缝安装，支持两者和标记图像，获得无忧体验。

2.Ollama/OpenAI API 集成：毫不费力地集成与 OpenAI 兼容的 API，以实现与 Ollama 模型一起进行的多功能对话。自定义 OpenAI API URL 以链接到 LMStudio、GroqCloud、Mistral、OpenRouter 等。

3.响应式设计：在台式电脑、笔记本电脑和移动设备上享受无缝体验。

4.适用于移动设备的渐进式 Web 应用程序（PWA）：使用我们的 PWA 在您的移动设备上享受类似本机应用程序的体验，在 localhost 上提供离线访问和无缝用户界面。

GitHub：https://github.com/open-webui/open-webui

6.7k star！一款功能强大且开源的3D建模软件——OpenSCAD.

OpenSCAD是一款功能强大的免费开源建模工具，只需几行代码即可制作精确的3D模型。通过正确的设置，你甚至可以制作适应性强的“参数化”模型。

它内置了丰富的3D模型,可以解决我们的大多数场景需求, 同时还提供了完善的文档,非常适合学习参考。

与大多数用于创建3D模型的免费软件（例如著名的应用程序Blender）不同，OpenSCAD专注于CAD方面，而不是3D建模的艺术方面。因此，当您计划创建机器零件的 3D 模型时，这可能是您正在寻找的应用程序，但可能不是用于创建计算机动画电影的工具。

GitHub：https://github.com/openscad/openscad

收获165Kstar！Auto-GPT：一款开源的基于GPT-4的自主AI代理工具！

AutoGPT 是一种创新的开源自主人工智能(AI)工具，充分利用了 OpenAl 最新的文本生成模型GPT-3.5 和 GPT-4，并与软件和在线服务进行无缝交互。这种生成式预训练 Transfomer(GPT)模型代表了最先进的语言处理技术,通过深度学习里算法根据给定的输入生成与人类类似的文本。

新版的AutoGPT使用“Blocks”来构建代理。这些模块化功能块可以组合起来创建自定义行为，极大地简化了功能扩展和代理构建过程。例如，有用于发布Reddit帖子的Block、发送Discord消息的Block、获取维基百科摘要的Block等。

这意味着每个“Block”都是一个独立的、可复用的功能模块。这些模块可以像积木一样组合起来构建出具有复杂功能的AI代理。这种设计方法极大地简化了功能扩展和代理构建过程。

功能特点：

1.模块化设计(Blocks)：每个“Block”是一个独立的功能模块，可以完成特定的任务。通过组合这些Blocks，你可以创建复杂的行为和功能，而不需要从头编写代码。

2.功能扩展：由于每个Block都是独立的模块，你可以根据需要添加、删除或修改Blocks，而不会影响到整个系统。这使得功能扩展变得非常简单。

GitHub：https://github.com/Significant-Gravitas/AutoGPT

8月22日

无需联网！H2O-Danbe3：可以直接在手机上运行的开源模型！

H20-Danube3 是一个由 H20.ai开发的一系列小型语言模型。这些模型旨在提供高效的自然语言处理能力，能够在普通边缘硬件设备(如智能手机)上运行

H20-Danube3 解决了需要强大计算能力的大型模型在普通设备上无法高效运行的问题。通过优化，它们能在不牺牲性能的情况下，实现在普通硬件上高效运行。

H20-Danube3 可以用于开发高效的聊天机器人、问答系统、文本分类工具等，可以在移动设备上离线运行，适用于 iPhone、iPad 或桌面设备，而且不需要互联网连接。为用户提供便捷的智能服务。

模型分为两个主要版本

1.H20-Danube3-4B：包含大约 4亿个可训练参数,训练了6万亿个 tokens。

2.H20-Danube3-500M：包含大约5亿个可训练参数,训练了 4万亿个 tokens。

多任务能力

通用语言任务：模型在序列分类、问答系统、token分类等任务中表现优异，经过微调后能够在特定任务上超过一些大型模型。

聊天能力：提供了 H20-Danube3-4B-Chat和 H20-Danube3-500M-Chat版本，专门针对聊天任务进行了优化和微调。

多语言处理：支持处理多种语言的文本，能够进行多语言生成和理解。

语言翻译：将文本从一种语言翻译到另一种语言，支持多种语言对。

数据摘要：对结构化数据进行分析和总结，生成数据报告。从数据中提取有价值的察，生成分析报告。

论文：https://arxiv.org/abs/2407.00927

模型下载：https://huggingface.co/h2oai/h2o-danube3-4b-chat

Magic Insert：一键拖放图像，实现不同风格背景的完美融合！

Magic Insert 是一个是一种能够将图像中的主体从一个具有任意风格的图像拖放到另一种风格迥异的目标图像中的方法，实现风格感知和逼真的插入。

它可以让你把一个图像中的主体(比如人或物体)拖放到另一个风格完全不同的图像中，并让这个主体看起来自然、真实。

Magic Insert让图像编辑变得更简单和高效。无论是将卡通风格的对象放到现实照片中，还是让不同风格的图像无缝融合，Magic Insert都能做到。它不仅能保留对象的细节，还能生成逼真的阴影和反射，让结果看起来更加自然。通过使用多样化的数据集和先进的技术，Magic Insert显著提升了图像编辑的质量和效率。

主要功能：

1.风格感知拖放：将一个图像中的对象拖放到另一个风格完全不同的图像中。

2.风格感知个性化：在进行对象插入之前，Magic Insert会先对对象进行风格化处理，使它看起来符合目标图像的风格。

3.逼真的对象插入：Magic Insert不仅仅是简单地把对象贴到目标图像上，还会添加阴影和反射等细节，让插入的对象看起来更加真实。

4.多样化数据集支持：Magic Insert使用了一个名为SubjectPlop的数据集，这个数据集包含了各种风格的对象和背景，帮助系统更好地学习和测试。

5.高效的编辑能力：与传统方法相比，Magic Insert能够更快、更好地完成图像编辑任务，节省时间和资源。

项目及演示:https://magicinsert.github.io/

论文:https://arxiv.org/pdf/2407.02489

Demo :https://magicinsert.github.io/demo.html

阿里云开源！ Qwen2-Audio ：支持音频聊天和预训练的语言模型！

阿里巴巴发布了一个音频处理模型:Qwen2-Audio，它可以通过语音聊天和音频分析两种方式与用户互动。在语音聊天模式下，用户可以与模型进行直接的语音对话;在音频分析模式下，用户上传音频文件进行转录分析等。

Qwen2-Audio 能够识别语音中的情感,如愤怒、快乐、悲伤等,为情感计算和用户情感体验提供支持。

用户无需区分语音聊天和音频分析模式，模型能够智能识别并在实际使用中无缝切换两种模式，Qwen2-Audio 在多个测试中表现优异，能够准确识别和翻译语音，并进行情感识别和声音分类等任务。

Qwen2-Audio在事实性和遵循期望行为方面经过了优化，并且在音频中心指令跟随能力的测试中，其表现超过了以前的最先讲技术，如Gemini-1.5-pro，此外，Qwen2-Audio是开源的，目的是推动多模态语言社区的发展。

简单来说，Qwen2-Audio就像一个超级聪明的虚拟助手,它可以听懂你在说什么,甚至可以理解音频中的各种

声音和音乐。无论你是用说的还是用唱的，它都能给出回应，就像和你进行一场真实的对话一样。而且，它还

能帮助研究人员和开发者更好地理解和使用声音数据，让声音识别和处理变得更加准确和高效。

GitHub :https://github.com/QwenLM/Qwen2-Audio

论文:https://arxiv.org/pdf/2407.10759

8月21日

EmoLLM：用于帮助用户进行心理健康辅导的大模型项目！

EmoLLM 是一个用于心理健康领域的大模型项目，,通过对大型语言模型(LLM)进行指令微调旨在支持用户理解、帮助用户进行心理健康辅导。

功能特点：1.心理健康评估:

提供科学的工具来评估个体的心理状态。

使用多轮对话数据集和专业评测方法进行心理健康诊断。

2.情绪管理与调节

帮助用户管理和表达情绪。

提供情感支持，帮助用户从负面情绪中恢复。

3.认知行为辅导 :

分析和改善用户的思维模式、信念系统和认知偏差。

提供解决问题的策略，提升用户的应对能力。

4.行为模式改善 :

提供应对压力的技巧和社交技能培训。

增强用户的自我效能感和行为适应能力。

5.预防和干预措施

提供心理教育、心理咨询和心理治疗的策略。

设计和实施个性化的心理健康干预方案。

GitHub:https://github.com/SmartFlowAI/EmoLLM

图像编辑！ULTRAEDIT:可通过简单文本描述对图像进行修改和编辑！

UltraEdit 可以仅仅通过提示词即可实现对指定内容的图像编辑，而不改变图像其他部分，同时保持风格一致。

该数据集包含约400万个编辑样本，旨在提供更广泛和多样的图像编辑任务。ULTRAEDIT通过结合大语言模型(LLMs)和人类评估者的编辑示例，可以生成高质量和多样化的编辑指令，并基于真实图像生成源图像和目标图像，使得图像编辑更加直观、高效和便捷。

主要功能

1.多样化的编辑指令生成

ULTRAEDIT 利用大型语言模型(LLMs)和人类评估者的示例生成多样化的编辑指令。这些指令涵盖了广泛的图像编辑类型，如添加对象、替换对象、变换场景、调整颜色等。

2.高效的图像编辑

根据生成的指令，ULTRAEDIT 自动对图像进行编辑。这是通过扩散模型和其他图像生成技术来实现的，能够快速生成高质量的编辑图像。

3.区域编辑

能力:支持基于特定区域的图像编辑。

实现:ULTRAEDIT 采用自动化的方法生成编辑区域，通过识别图像中的对象并根据编辑指令生成相应的编辑区域。这些区域通过修改后的修补扩散管道进行处理，生成高质量的区域编辑样本。

优势:支持精细的区域编辑，提供了更高质量的图像编辑效果，特别是在需要精确修改图像特定部分的任务中表现出色。

Github:https://github.com/HaozheZhao/UltraEdit

LobeChat：一键免费部署自己的私有聊天机器人，支持多种功能

LobeChat是一个开源的、现代设计的LLMs/AI聊天框架。它支持多个AI提供商(如OpenAl、Claude3、Gemini、ollama、Bedrock、Azure、Mistral、Perplexity)和多模态(如视觉、TTS)，并具备插件系统。用户可以一键免费部署自己的私有ChatGPT聊天应用。

它支持图像识别、语音转换、文本生成图像等多种功能，并且提供插件系统来扩展其功能。用户可以轻松部署和管理自己的聊天应用，并根据个人喜好自定义主题和设置。项目完全开源，用户可以自由扩展和贡献代码。

LobeChat功能介绍

1.多模型服务提供商支持

支持多个模型服务提供商: LobeChat支持多种模型服务提供商，满足社区的多样化需求，提供更丰富的对话选择。

2.本地大语言模型支持

ollama:支持基于Ollama的本地模型使用，用户可以灵活使用自己的或第三方模型。

3.模型视觉识别

GPT-4-vision:支持OpenAl的GPT-4-vision模型，可以识别图像内容并进行智能对话。

4.文本转语音和语音转文本（TTS & STT)

TTS (文本转语音)︰将文本消息转换为清晰的语音输出，用户可以选择多种声音。

STT(语音转文本)︰将语音转换为文本，提高互动体验。

5.文本生成图像

图像生成:支持DALL-E3、MidJourney和Pollinations等文本生成图像工具，用户可以在对话中生成图像。

GitHub：https://github.com/lobehub/lobe-chat

8月20日

MVDiffusion：完美复刻场景，高质量多视角图像生成模型！

MVDifusion的目标是产生内容高度一致且全局语义统一的多视角图片,其方法的核心思想是同步去噪和基于图片之间对应关系的全局意识。

功能特点：

1. 自回归生成全景图

自回归生成过程时，可以将其类比为一种逐步构建图像的方式。其中第n个图像的生成取决于第n-1图像，通过图像变形和修复技术来实现。这种自回归方法会导致错误的累积，并且不能处理循环闭合。

2.模型结构

全景图像是由8张重叠的透视图像组成的。每一对相邻的图像之间,像素之间的对应关系是通过一个3x3的单应矩阵来确定的。在全景图像中，不同的透视图像需要通过这个知阵来进行像素级的对应，以便它们能够正确地拼接在一起，形成一个连续的全景图。

以生成全景图(panorama)为例，输入一段描述场景的文字(prompt)，MVDlfusion能生成一个场景的多视角图片。

这8张图片能够拼接成一张全景图:

GitHub：https://github.com/Tangshitao/MVDiffusion

ControlNeXt，可控视频和图像生成，同时包含多种形式的控制信息

ControlNeXt，可控视频和图像生成，同时包含多种形式的控制信息。该项目提出了一种新方法，与 ControlNet 相比，可训练参数减少了高达 90%，实现了更快的收敛速度和出色的效率。该方法可以直接与其他 LoRA 技术结合使用，以改变风格并确保更稳定的生成。

ControlNeXt-SVD：生成由人体姿势序列控制的视频。这可以看作是复制 AnimateAnyone 实现的尝试。然而，该模型建立在稳定视频扩散的基础上，采用了更简洁的架构。
ControlNeXt-SD1.5 ：可控图像生成。建立在 Stable Diffusion 1.5 之上。可训练参数更少，收敛速度更快，效率更高，并且可以与 LoRA 集成。
ControlNeXt-SDXL：可控图像生成。模型建立在 Stable Diffusion XL 之上。可训练参数更少，收敛速度更快，效率更高，并且可以与 LoRA 集成。

项目地址：https://github.com/dvlab-research/ControlNeXt/

全网爆火！快手开源LivePortrait：让照片模仿你的表情和姿态！

近日，快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架，该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上，生成极具表现力的视频结果。这个框架，就像是一个神奇的画笔，只需要你提供一张静态的肖像，它就能绘制出一段流畅的动态视频。这不仅仅是技术上的突破，更是对传统动画制作的一次颠覆。它高效、精确，甚至还能处理多人物肖像的无缝拼接，让每个人物的动作都自然流畅，没有任何突兀的边界。

使用场景示例：

动画制作者使用LivePortrait快速生成角色动画，用于动画电影的预览。

游戏开发者利用LivePortrait为游戏角色创建逼真的面部表情。

广告制作团队使用LivePortrait为产品广告生成吸引人的动态人像。

产品特色：

从静态图像生成不同风格（现实、油画、雕塑、3D渲染）的人像动画

通过Kling生成的源视频进行人像视频编辑

基于给定的标量控制眼睛和嘴唇的开合程度

通过微调动物数据，实现对猫、狗和熊猫的精确驱动

在RTX 4090 GPU上以PyTorch实现12.8ms的生成速度

现在，无论你是想制作一段个性化的肖像视频，还是想给老照片赋予新的生命，LivePortrait都能帮你轻松实现。这不仅仅是一个工具，更是一个让创意无限扩展的平台。

GitHub：https://github.com/KwaiVGI/LivePortrait

8月19日

B站up主开源！AI吟美：一款功能较全的 AI 虚拟主播！

在数字化和虚拟现实不断进步的今天，虚拟主播（Vtuber）已成为娱乐和社交媒体领域的一个重要组成部分。AI吟美（AI-YinMei）是一个由个人开发者Winlone创建的人工智能虚拟主播项目，它通过整合多种先进技术，为用户带来互动和娱乐的新体验。

AI吟美的主要功能

AI吟美具备多种互动功能，使其在虚拟直播中具有高度的可操作性和趣味性。

聊天功能：AI吟美不仅可以与观众进行实时聊天，还能识别老粉丝，进行个性化互动。它具备多重性格，可在不同场景中切换角色，增加互动的趣味性。
唱歌功能：用户可以通过简单的指令让AI吟美唱歌，甚至可以请求AI推荐和演唱特定类型的歌曲。
绘画功能：通过输入绘画指令，AI吟美能够实时生成图画，为观众提供视觉上的享受。
跳舞功能：AI吟美具备多种舞蹈表演功能，用户可以选择特定舞蹈或让AI随机表演。
表情功能：用户可以通过简单指令让AI吟美展示各种表情，增加互动的生动性。
场景切换功能：AI吟美能够根据时间或用户指令自动切换直播场景，增强观众的沉浸感。

可以看到它内置了几种角色，当然我们也可以自定义添加角色，在parameter标签下upload character进行上传，支持yaml、json、png形式。

GitHub地址：https://github.com/worm128/AI-YinMei

audio2photoreal：通过一段音频，驱动 3D 数字人。

最近 Meta 又挖了一个比较火的新坑 audio2photoreal。功能简单来说就是，通过一段音频，就能驱动 3D 数字人。

比如先录制一段音频，这是你的声音。

audio2photoreal 就能根据你的声音，驱动那个 3D 数字人。

Audio2Photoreal技术的实现离不开深度学习、计算机视觉等领域的最新进展。在深度学习方面，研究团队采用了先进的神经网络模型，对音频信号进行特征提取和分类。在计算机视觉方面，团队则利用了大量的真实人脸和肢体动作数据，对模型进行训练和优化，以确保生成的虚拟人像具有高度逼真的效果。

研究人员提到，该框架可以生成 30 FPS 的“高质量动作样本”，还能模拟人类在对话中“手指点物”、“转手腕”或“耸肩”等不由自主的“习惯性动作”。

总之，Audio2Photoreal技术为虚拟角色制作带来了革命性的变革，使得音频信号能够快速转化为高度逼真的虚拟人像。随着技术的不断发展和完善，相信未来我们将看到更加生动、真实的虚拟角色在各个领域得到广泛应用。同时，我们也期待着更多的技术创新和突破，为数字化时代带来更加丰富多彩的娱乐互动体验。

GitHub地址：https://github.com/facebookresearch/audio2photoreal

Ugly-avator：AI在线生成丑萌个性头像！

Ugly Avatar 是一个在线丑头像生成器网站。通过简单的操作，你可以一键生成搞怪个性的头像，并以 PNG 格式下载保存。

**Ugly Avatar 具备以下特点 **：

1.免费使用:完全免费，无需注册登录。

2.简洁易用:界面简洁，打开即用。

3.个性头像生成:-键生成多个搞怪个性的头像。

4.发现新头像:支持发现和生成新的头像,

5.下载支持:支持 PNG 格式下载生成的头像。

使用场景

1.社交媒体:为你的社交媒体账号生成独特的头像，吸引眼球。

2.聊天软件:在聊天软件中使用搞怪头像，增添趣味。

3.创意展示:展示个性化创意，制作独特的个人标识。

Ugly Avatar 是一个有趣且实用的丑头像生成器网站。如果你想为自己的社交媒体或聊天软件添加一点趣味,不妨试试 Ugly Avatar。

GitHub地址：https://github.com/txstc55/ugly-avatar

8月16日

AI角色扮演 - SillyTavern：允许通过文本生成AI进行交互！

SillyTavern 是一个本地部署的交互界面，允许你通过文本生成AI（LLM 大语言模型）进行交互，和自定义的角色进行角色扮演。无论是想要和AI聊聊天，还是想要进行一场刺激的角色扮演游戏，SillyTavern都能满足你的需求。

SillyTavern 是 TavernAI 1.2.8 的一个分支，它正在更积极的开发中，并添加了许多主要功能。在这一点上，它们可以被认为是完全独立的程序。

Github地址：https://github.com/SillyTavern/SillyTavern

AI时代新爬虫!Firecrawl:网站内容抓取 ,自动转为LLM数据！

FireCrawl是一款创新的爬虫工具，它能够无需站点地图，抓取任何网站的所有可访问子页面。与传统爬虫工

具相比，FireCrawl特别擅长处理使用JavaScript动态生成内容的网站，并且可以转换为LLM-ready的数据。

此外，它还提供了一个易于使用的AP!,让开发者能够轻松实现内容的爬取和转换。

可以先通过FireCrawl 提供的playground来快速体验下。

最简单的情况下，只需要填一个URL就可以，firecraw会抓取到相关的内容，还可以通过LLM来提取信息。

GitHub地址：https://github.com/mendableai/firecrawl

35.1Kstar！腾讯开源的图像修复新利器：GFPGAN！

GFPGAN（Generative Facial Prior GAN）是由腾讯ARC实验室开发的一个开源项目，旨在通过生成对抗网络（GAN）实现高质量的人脸图像修复。该项目的核心技术基于生成对抗网络，并结合了面部先验信息，从而在修复过程中保持人脸特征的真实性和一致性。详细的技术细节记录在项目论文中，用户可以通过项目示例进行实际效果的体验。

在GFPGAN模型中，修复过程分为以下几个步骤：

输入图像：输入待修复的人脸图像。
生成器修复：生成器通过面部先验信息和GAN技术对图像进行修复。
判别器评估：判别器对生成的图像进行评估，并将结果反馈给生成器。
优化生成器：生成器根据反馈不断优化，生成高质量的修复图像。
输出图像：最终输出修复后的高清人脸图像。

应用场景：

GFPGAN可以广泛应用于多个领域:

老照片修复：它可以将破损、模糊的老照片恢复成清晰的图像。

视频质量提升：可提高旧视频的画质，使其看起来更现代。

低清图像增强：在网络信号不佳或存储空间有限的情况下，GFPGAN可以用于低分辨率图片的质量改善。

视觉艺术创作：艺术家和设计师可以利用此工具对图像进行创意改造。

GitHub地址：https://github.com/TencentARC/GFPGAN

8月15日

3.4Kstar！GeekAI：AI 助手全套开源解决方案！

GeekAI是AI 助手全套开源解决方案，自带运营管理后台，开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火，文心一言等多个平台的大语言模型。支持 MJ AI 绘画，Stable Diffusion AI 绘画，微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。

主要特性：

完整的开源系统，前端应用和后台管理系统皆可开箱即用。
基于 Websocket 实现，完美的打字机体验。
内置了各种预训练好的角色应用，比如小红书写手，英语翻译大师，苏格拉底，孔子，乔布斯，周报助手等。轻松满足你的各种聊天和应用需求。
支持 OPenAI，Azure，文心一言，讯飞星火，清华 ChatGLM等多个大语言模型。
支持 Suno 文生音乐
支持 MidJourney / Stable Diffusion AI 绘画集成，文生图，图生图，换脸，融图。开箱即用。
支持使用个人微信二维码作为充值收费的支付渠道，无需企业支付通道。
已集成支付宝支付功能，微信支付，支持多种会员套餐和点卡购买功能。
集成插件 API 功能，可结合大语言模型的 function 功能开发各种强大的插件，已内置实现了微博热搜，今日头条，今日早报和 AI 绘画函数插件。

GitHub地址：https://github.com/yangjian102621/geekai

腾讯震撼发布！MOFA-Video: 具有可控性的AI图生视频模型！

MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型，该技术利用生成运动场适应器对图像进行动画处理以生成视频。MOFA-Video能够在预训练的Stable Video Diffusion模型基础上，通过稀疏控制信号如手动轨迹、面部标记序列或音频等，实现对视频生成过程中动作的精细控制。MOFA-Video不仅能够单独使用这些控制信号，还能将它们组合使用，以零样本(zero-shot)的方式进行更复杂的动画制作，提供了一种全新的、高度可控的图像动画视频解决方案。

MOFA-Video的功能特色

轨迹控制动画:用户通过在图像上手动绘制轨迹，指导MOFA-Video生成相应的视频动画。这种功能特别适合需要精确控制物体或相机运动的场景。

面部关键点动画:系统利用面部关键点数据，如通过面部识别技术获得的标记，来生成逼真的面部表情和头部动作动画。

混合控制动画:MOFA-Video能够将轨迹控制和面部关键点控制相结合，实现面部表情和身体动作的同步动画，创造出复杂的多部分动画效果。

音频驱动面部动画:通过分析音频信号，MOFA-Video能够生成与语音或音乐同步的面部动画。

视频驱动面部动画:使用参考视频，MOFA-Video能够使静态图像中的面部动作模仿视频中的动作实现动态的面部表情再现。

零样本多模态控制:MOFA-Video支持零样本学习,即不同控制信号可以无需额外训练即可组合使用，这大大提高了动画生成的灵活性和多样性。

长视频生成能力:通过采用周期性采样策略，MOFA-Video能够生成比传统模型更长的视频动画，突破了帧数限制。

GitHub地址：https://github.com/MyNiuuu/MOFA-Video

官方项目主页：https://myniuuu.github.io/MOFA\_Video/

11.6Kstar！Omnivore:一个开源的“稍后阅读”,允许用户保存、标记和分享文章

Omnivore是一个开源的“稍后阅读”应用，它允许用户保存、标记和分享文章，还支持PDF文件和邮件添加文章。Omnivore提供了跨平台应用和浏览器扩展，方便用户在不同设备上使用。用户可以离线访问已保存的内容，并通过Logseq和Obsidian插件将Omnivore集成到他们的工作流程中。项目完全开源，用户可以自由扩展和部署。

主要功能：

1.保存文章和PDF

使用Omnivore的移动应用和浏览器扩展保存文章和PDF文件，稍后在无干扰的阅读器中阅读。

2.集中管理RSS订阅和新闻简报

将新闻简报直接发送到0mnivore库中，避免分散在多个邮箱中的干扰。

3.组织阅读列表

使用标签、过滤器、规则和全文搜索来组织和管理阅读列表，构建适合自己的系统。

4.添加高亮和笔记

在阅读时高亮显示关键部分并添加笔记，这些标注会永久保存在文章中，随时访问。

5.文本转语音

在iOS应用中使用文本转语音功能，通过逼真的AI语音朗读保存的文章，减轻眼睛疲劳。

GitHub地址：https://github.com/omnivore-app/omnivore

在线体验:https://omnivore.app/

8月14日

支持多种文件格式！OmniParse：开源的数据清理和整理的自动化工具！

OmniParse 是一个数据摄取和解析平台,可以将各种非结构化数据(如文档、表格、图像、视频、音频文件和网页内容)转换为结构化、可操作的数据，以便于生成式人工智能(GenAl)应

用的兼容和优化。

它可以进行:

数据清理：从原始数据中去除错误、不一致或无用的信息。

数据结构化：将非结构化的数据转换为有组织、标准化的格式，使其易于分析和使用，

传统上，数据清理、结构化和准备工作是复杂且耗时的过程。0mniParse 通过自动化和智能化处理，使这一过程变得更加简单和高效。大大提高了人工智能应用(例如生成式人工智能应用)数据清理和数据准备的工作效率。

OmniParse 可应用于多个领域，包括但不限于：

文档管理：将大量文档自动转换为结构化数据，便于检索和分析。

内容创作：支持图像、音频和视频的处理和转录，为创作者提供高效的工具

网页爬取：自动爬取和解析网页内容，为数据分析和研究提供支持。

教育和培训：为教育资源提供高效的内容转换和结构化工具。

GitHub :https://github.com/adithya-s-k/omniparse

5.2Kstar！ChatTTS-ui:开箱即用的ChatTTS将文字合成为语音

一个简单的本地网页界面，直接在网页使用 ChatTTS 将文字合成为语音，支持中英文、数字混杂，并提供API接口，同时支持Windows、Linux、Mac 部署。

功能特点：

1.自动视频翻译：集成更快耳语模型/并支持自定义拥抱脸模型。同时，它集成了批量语音到字幕、批量字幕翻译和批量配音小工具。

2.多种配音和翻译渠道

3.完全离线：翻译通道换成本地模式，配音通道换成克隆语音，可实现完全本地离线视频翻译。

4.免费开源：该代码在 GitHub 上公开供查看，免费，没有功能限制，也没有隐藏费用

Github:https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file

官网:https://pyvideotrans.com/

ControlNet作者新作！PaintsUndo:输入图像即可生成绘画全过程！

PaintsUndo是一个旨在模拟数字绘画行为的基础模型。你只需要通过输入静态图像，它就能帮你自动生成视频输出，展示了整个绘画的全过程，不仅限于某一种类型的图像，PaintsUndo可以应用于各种不同类型的图像，从线稿到填色还有局部细节调整，全都有的那种：

不仅限于某一种类型的图像，PaintsUndo可以应用于各种不同类型的图像：

主要功能和特点

1.单帧模型(paints_undo_single_frame）

功能:单帧模型通过输入一张图像和一个操作步骤数，输出该操作步骤数对应的图像。

2.多帧模型( paints_undo_multi_frame）

功能:多帧模型通过输入两张图像，生成这两张图像之间的16帧中间帧。

3.混合使用单帧和多帧模型

功能:结合使用单帧模型和多帧模型，可以生成更长的绘画过程视频。

PaintsUndo除了直接生成从线稿到上色的视频，还有其它玩法：

比如输入线稿，也能生成线稿绘制过程：

能够从图像中提取不同精细度的草图，提供从粗略到极其粗略的多种草图版本：

GitHub :https://github.com/lllyasviel/Paints-UNDO

演示:https://lllyasviel.github.io/pages/paints\_undo/

8月13日

接近人类水平！Fish Speech:开源的支持中英日语言的完美TTS模型！

Fish Speech 是一个全新的文本转语音 (TTS)解决方案，该项目由fishaudio开发。当前模型使用约十五万小时三语数据训练，对中文支持非常的完美。

能够熟练处理和生成中文、日语和英语的语音，语言处理能力接近人类水平，并且声音表现形式丰富多变。作为一个仅有亿级参数的模型，Fish Speech 设计高效轻量，用户可以在个人设备上轻松运行和微调，成为您的私人语音助手。

设计高效轻量，用户可以在个人设备上轻松运行和调整模型性能。

Fish Speech 支持多种不同的语音生成模型，包括但不限于
VITS2:一种基于变分推理的文本到语音型。
Bert-VITS2:结合BERT模型的变分推理文本到语音型
GPT VITS:结合GPT模型的文本到语音模型。
MQTTS:基于量化技术的文本到语音模型。
GPT Fast:快速生成语音的GPT模型,
GPT-SOVITS:结合GPT和SoVITS技术的文本到语音模型

GitHub :https://github.com/fishaudio/fish-speech

在线体验:https://fish.audio/zh-CN/

能挑战Midjourney?! 快手突然开源文生图模型可图Kolors!

没有任何预兆！快手突然开源文生图模型可图Kolors！支持中英文，可稳定生成中文图像，还在评分里面呈现能打赢MJ6的能力。采用CHATGLM3作为文本解码器，对中文理解能力强。

快手说，他们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。 Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。

在中国元素方面，能够非常好的把握。

可图对中文文本的理解达到了非常高的层次，它采用了智谱出品的CHATGLM3的开源大模型作为文本解码器，这是大模型级别的文本解码器，对中文的理解能力绝对的超过对手很多。

在中文输出方面，可图已达到顶尖水准。

GitHub地址：https://github.com/Kwai-Kolors/Kolors/blob/master/README\_CN.md

4.4Kstar！LivePortrait：只需一张静态肖像图像就能生成动态视频！

LivePortrait是一个用于生成逼真肖像动画的框架，只需一张静态肖像图像就能生成动态视频。其主要目标是实现高效目精确控制的肖像动画，使得生成的动画在视觉效果和细节控制上都达到较高水平。它能够从单一图像生成生动的动画视频，并能精确控制眼睛和嘴唇的动作，确保动画的自然流畅。还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。

解决了什么问题：

生成质量和效率:

传统的扩散模型方法虽然生成质量高，但计算开销巨大，难以实现实时处理。LivePortrait通过隐式关键点方法，在保证高质量的同时，大幅提高了计算效率。

可控性不足：

现有的许多方法缺乏对细节的精细控制，如眼睛和嘴唇的独立动作控制。LivePortrait通过专门设计的重定向模块，解决了这一问题，使得动画在微表情和细节动作上更加逼真。

主要功能：

1.从单一图像生成生动动画

2.精确控制眼睛的动作

3.精确控制嘴唇的动作

4.多风格肖像的支持

5.高分辨率动画生成

项目及演示:https://liveportrait.github.io/

论文:https://arxiv.org/pdf/2407.03168

GitHub :https://github.com/KwaiVGl/LivePortrait

8月12日

浦语灵笔IXC-2.5:能看懂视频，完整书写文章、自动生成网站的多模态模型

InternLM-XComposer-2.5 (浦语灵笔 IXC-2.5)是由上海人工智能实验室,香港中文大学,商汤集团,清华大学开发的一个强大的多模态大模型，支持长上下文的输入和输出,能够处理从336像素到4K高清分辨率的图像，并擅长自由形式的文本图像组合和理解。

它在多种文本-图像理解和创作应用中表现出色，具有与GPT-4V相当的能力，仅使用7B LLM后端。通过ROPE外推，IXC-2.5可以扩展到96K长上下文窗口。相较于前一个版本，IXC-2.5在视觉-语言理解方面有三个主要升级:超高分辨率理解、精细的视频理解和多轮多图像对话。此外，它还扩展了两个引人注目的应用:网页制作和高质量文本-图像文章创作。

在28项基准测试中，IXC-2.5在16项上超越了现有的开源模型，并且在16项关键任务中超过或与GPT

4V和Gemini Pro接近。

详细功能介绍

1.长上下文输入和输出

2.超高分辨率图像理解

3.精细的视频理解

4.多轮多图像对话

5.网页制作

6.高质量文本-图像文章创作

GitHub地址：https://github.com/InternLM/InternLM-XComposer

论文:https://arxiv.org/pdf/2407.03320

在线体验:https://openxlab.org.cn/apps/detail/WillowBreeze/InternLM-XComposer

阿里发布! FUNAudioLLM：能理解和生成各种人类语音的语音处理模型！

FunAudioLLM 是阿里巴巴开发的一组语音处理模型，旨在改善人类与大语言模型之间的语音交互,它由两个主要模型构成:SenseVoice 和 CosyVoice。

SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。

CosyVoice：语音生成模式，这个模型主要生成自然目情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

SenseVoice 主要专注于多语言语音识别、情感识别和音频事件检测，提供高精度、低延迟的语音处理能力。CosyVoice 则侧重于自然语音生成和控制，支持多种语言、音色和说话风格的生成，能够实现零样本学习和细粒度的语音控制。这两者结合，使得 FunAudioLLM 能够在多种应用场景下提供卓越的语音交互体验。

FUNAudioLLM的应用：

1.语音到语音翻译(Speech-to-Speech Translation)

2.情感语音聊天(Emotional Voice Chat)

3.互动播客(Interactive Podcasts)

4.情感有声书(Expressive Audiobooks)

GitHub地址：https://github.com/FunAudioLLM/CosyVoice

              https://github.com/FunAudioLLM/SenseVoice

清华大学团队开源！Unique3D-用AI实现单张图片生成高质量3D模型！

Unique3D是由清华大学团队开源的一个单张图像到3D模型转换的框架，通过结合多视图扩散模型和法线扩散模型，以及一种高效的多级上采样策略，能够从单张图片中快速生成具有高保真度和丰富纹理的3D网格。Unique3D结合ISOMER算法进一步确保了生成的3D模型在几何和色彩上的一致性和准确性，仅需30秒即可完成从单视图图像到3D模型的转换，生成效果优于InstantMesh、CRM、OpenLRM等图像转3D模型。

Unique3D的功能特色

单图像3D网格生成:Unique3D能够从单个2D图像自动生成3D网格模型，将平面图像转换为具有空间深度的三维形态。
多视角视图生成:系统使用多视图扩散模型生成同一物体的四个正交视图图像，这些视图从不同方向捕捉物体的特征，为3D重建提供全面的视角信息。
多级分辨率提升:通过多级上采样过程逐步提高生成图像的分辨率，从低分辨率到高分辨率(如从256x256到2048x2048)，使得3D模型的纹理和细节更加清晰。
几何和纹理细节整合:在重建过程中，Unique3D将颜色信息和几何形状紧密结合确保生成的3D模型在视觉上与原始2D图像保持一致，同时具有复杂的几何结构和丰富的纹理细节。

GitHub地址：https://github.com/AiuniAI/Unique3D

8月9日

推荐三款PDF开源神器：Stirling-PDF、OCRmyPDF 与 Marker

1.Stirling-PDF，29.8Kstar！

这是一个强大的、本地托管的、基于 Web 的 PDF 操作工具，使用 Docker。它使您能够对 PDF 文件执行各种操作，包括拆分、合并、转换、重组、添加图像、旋转、压缩等。这个本地托管的 Web 应用程序已经发展到包含一套全面的功能，可以满足您的所有 PDF 要求。

Stirling PDF 不会出于记录保存或跟踪目的发起任何出站呼叫。

所有文件和 PDF 要么仅存在于客户端，要么仅在任务执行期间驻留在服务器内存中，要么仅临时驻留在文件中以执行任务。届时，用户下载的任何文件都将从服务器中删除。

GitHub地址：https://github.com/Stirling-Tools/Stirling-PDF

2.OCRmyPDF，12.8Kstar！

OCRmyPDF 为扫描的 PDF 文件添加 OCR 文本图层，允许对其进行搜索

主要特点

从常规 PDF 生成可搜索的 PDF/A 文件
将 OCR 文本准确地放置在图像下方，以便于复制/粘贴
保持原始嵌入图像的精确分辨率
如果可能，在不中断任何其他内容的情况下，将 OCR 信息作为“无损”操作插入
优化 PDF 图像，通常生成的文件比输入文件小
如果需要，在执行 OCR 之前纠偏和/或清理图像
验证输入和输出文件

GitHub地址：https://github.com/ocrmypdf/OCRmyPDF

3.Marker，14.1Kstar！

Marker 可以快速准确地将 PDF 转换为 Markdown。

支持各种文档（针对书籍和科学论文进行了优化）
支持所有语言
删除页眉/页脚/其他工件
设置表格和代码块的格式
提取并保存图像以及 Markdown
将大多数方程转换为乳胶
适用于 GPU、CPU 或 MPS

GitHub地址：https://github.com/VikParuchuri/marker

31.2K Star！微信聊天记录导出工具，训练专属 AI 聊天助手！

WeChatMsg 是一款适合于 Windows 的微信聊天记录导出工具，傻瓜式操作，目前已支持导出文本、图片、视频、表情包、语音聊天，并且可导出为 HTML、Docx、csv、TXT 文件，帮你保留与某人的微信记忆，包括语音。WeChatMsg 能够生成年度聊天报告，让你清晰地看到自己的社交足迹。除此之外，它还可以让我们用聊天数据训练个人专属的 AI 聊天助手。

主要功能：

Windows本地微信数据库
还原微信聊天界面，显示文本、图片和拍一拍等系统消息。
导出数据
分析聊天数据，做成可视化年报

GitHub地址：https://github.com/LC044/WeChatMsg

2.5Kstar！ChatUI：一个移动端聊天机器人UI设计框架！

ChatUl 是一个专为构建对话式用户界面(Conversational Ul)设计的语言和基于 React 的库，源自阿里巴巴的丰富聊天交互经验。它的核心目标是提供最佳实践，帮助开发者轻松创建出响应式、无障碍且具有良好用户体验的聊天应用。

它提供了强大的工具集，包括 TypeScript 编写的稳健代码、自动适应不同设备的响应式设计以及对无障碍功能的支持。不仅如此还内置了主题定制和国际化的功能，让用户在享受对话式交互的同时，能够感受到个性化的体验。

应用场景

ChatUI 适用于各种需要实时交流和交互的应用，如:

在线客服系统
人工智能聊天机器人
社交媒体平台
移动应用中的即时通讯模块
电商网站的购物助手

项目特点

1.易用性:集成简单，只需几行代码即可快速搭建聊天界面,

2.性能优化:经过压缩处理，加载速度快，用户体验流畅。

3.兼容性:除了现代浏览器，还特别照顾到IE11用户，通过polyfils提供支持。

4.演示示例:CodeSandbox在线示例，一键体验ChatUl的强大功能。

GitHub地址：https://github.com/alibaba/ChatUI

8月8日

开源项目! AutoStudio:能做漫画的AI,还能生成风格一致的连环画！

AutoStudio是一个先进的AI工具，它能够在多轮对话中与用户互动，生成一系列主题和风格一致的图像。

无论用户如何添加或修改内容，AutoStudio都能保持图像生成的一致性，特别适合连环画创作和其他需要连贯视觉叙事的场景。

AutoStudio采用基于大语言模型的三个智能体来处理交互，并使用基于扩散模型的Drawer生成高质量图像：

主题管理器解释对话，识别不同的主题，并为其分配适当的上下文；
布局生成器为每个主题生成部分级别的边界框，以控制主题的位置；
监督员为布局生成器提供布局改进和修正的建议。

最后，绘制器基于扩散模型完成基于改进布局的图像生成。

项目主页：https://howe183.github.io/AutoStudio.io/

GitHub地址：https://github.com/donahowe/AutoStudio

PocketSphinx：一个开源的自动语音识别(ASR)引擎

PocketSphinx是一个开源的自动语音识别(ASR)引擎，它被广泛应用于语音识别任务。

主要特点

开源和跨平台：Pocketsphinx 是一个开源项目，基于 BSD 许可证发布。这意味着开

发者可以自由使用、修改和分发它。Pocketsphinx 支持多个操作系统，包括

Windows、macOs、Linux、iOs 和 Android.

轻量级和高效：Pocketsphinx 设计为轻量级语音识别引擎，能够在资源有限的设备

上运行，如嵌入式系统和移动设备。它在处理速度和内存使用方面都进行了优化，适

合实时应用。

离线工作：Pocketsphinx 能够在本地进行语音识别，无需互联网连接。这在需要高

隐私性和低延迟的应用场景中具有优势，因为语音数据不需要发送到云端进行处理。

灵活的词汇表和语言模型：Pocketsphinx 支持自定义词汇表和语言模型，开发者可

以根据具体的应用需求调整识别范围和精度。这使得 Pocketsphinx 可以适应各种不

同的语音识别任务，从简单的命令控制到复杂的自然语言处理。

GitHub地址：https://github.com/cmusphinx/pocketsphinx

B 站开源轻量级 Index 系列语言模型：专为角色扮演优化的模型

Bilibili首次发布Index系列模型中的轻量版本:Index-1.9B系列

其中的 chat 版本训练时引入了互联网社区语料，趣味性明显增强; character 版本则为角色扮演做了优化。

Index-1.9Bcharacter :在SFT和DPO的基础上引入了RAG来实现fewshots 角色扮演定制！

目前，已在 HuggingFace和ModelScope 上同步开源。

GitHub地址：https://github.com/bilibili/Index-1.9B

8月7日

开启AI视频新纪元——Follow-Your-Pose-v2：腾讯推出的全新图生视频模型

Follow-Your-Pose-v2是由腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型，只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成视频长度可达10秒。

该模型可以在推理耗时更少的情况下，支持多人视频动作生成。模型具备较强的泛化能力，无论输入人物是什么年龄、服装，背景如何杂乱，动作视频的动作如何复杂，都能生成出高质量的视频。

应用场景广泛

Follow-Your-Pose-v2具有重要的应用前景和实际意义。例如，在电影制作中，可以通过这一模型快速生成角色的动态效果，大大减少制作成本和时间。

在教育领域，该模型可用于创造更加互动和真实的教学材料，帮助学生更好地理解复杂动作或历史事件。此外，这一技术还可以应用于虚拟现实中，为用户提供更加丰富和真实的交互体验。

GitHub地址：https://github.com/mayuelala/FollowYourPose

沐雪AI聊天助手：一个会自动找你的AI伴聊女孩！

沐雪，一个独特的Al女性角色，不仅能够响应你的信息，还能主动找你开启聊天之旅。这款由ChatGLM2-6B和Qwen-7B Qlora微调模型驱动的聊天机器人，以其个性化的二次元风格和丰富的交互性，正等待着与你展开无尽的对话体验。

沐雪的核心在于两个强大的预训练语言模型: ChatGLM2-6B和Qwen-7B。这些模型经过了微调，使得沐雪的回答原创率达到惊人的98%以上。特别是，它们采用了P-Tuning V2和Qlora方法，保证了对话的质量和流畅度。项目还利用了HuggingFace的数据集框架，使得模型训练更加高效便捷。

特点亮点

主动聊天：不同于一般聊天机器人，沐雪会按照设定的概率主动发起话题。

丰富的情感色彩：以傲娇的16岁少女形象出现，会关心他人，有时还会有些小调皮。·高度定制化:可以根据你的需求调整设置，如控制其主动聊天的概率。

易部署：只需Python 3.10环境，简单几步即可运行。

GitHub地址：https://github.com/Moemu/Muice-Chatbot

卖货主播大模型！Streamer-Sales: 自动生成商品解说文案进行销售

Streamer-Sales是一个直播卖货大模型，它能够帮助直播带货主播生成商品解说文案。能根据商品特点，自动生成吸引用户的介绍，提升销售效果。

它可以将语音转成文字和观众互动、也支持生成带情感的语音，以及生成数字人视频进行解说，甚至能实时查询快递信息。

主要功能

1.主播文案一键生成：根据商品特点自动生成吸引用户的解说文案，激发购买欲望。

2.推理加速：集成LMDeploy进行推理加速，显著提升推理效率，支持KV缓存和Turbomind。

3.检索增强生成(RAG)：结合商品说明书和相关文档，增强生成的文案内容，使其更加贴合实际。

4.语音转文字(ASR)：支持将语音输入转换为文字，便于主播在直播过程中与观众互动。

5.文字转语音(TTS)：生成带有情感的语音输出，使解说更加生动自然。

6.数字人生成：生成虚拟主播视频，用数字人进行商品解说，提升观众体验。

7.实时信息查询(Agent)：通过网络查询实时信息，如快递状态，提供给用户最新的数据。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验: https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

8月6日

EVTexture：提升视频分辨率的新方法！利用AI将模糊视频变清晰

EVTexture是一种提升视频清晰度的新方法，专门利用事件信号进行纹理增强。EvTexture特别关注于利用事件相机捕获的高频动态细节来改善视频的纹理质量。专门利用“事件相机"捕捉到的快速变化信息来增强视频中的纹理细节。

事件相机是一种特殊的相机，它能非常快速地记录下场景中的变化。普通相机是每秒固定拍摄很多张图片，而事件相机只在某个像素发生亮度变化时记录数据，所以它能够捕捉到非常细微和快速的变化。这些变化包含了非常高的时间分辨率和动态范围的信息。这些信息对普通相机来说是无法捕捉到的。

然后利用这些快速变化的信息来改善视频中细小的、复杂的部分，比如树叶的细节、衣服的纹理等等。通过这些高频细节信息，可以使视频变得更加清晰和真实。

EvTexture解决了什么问题：

1.细节恢复不佳：普通方法在恢复视频中的细节时效果不理想，尤其是纹理丰富的区域(如树叶和布料上的细节)。EVTexture利用事件相机记录的高频变化信息，专门增强这些区域的细节，使得视频更加清晰。

2.时间一致性差：在播放视频时，保持每一帧之间的细节一致性是一个难题。EvTexture通过多次迭代优化细节信息，确保在时间轴上每一帧的细节都能保持一致，看起来更加平滑。

3.基于事件的VSR方法的局限：以前的方法主要是利用事件信息来提升运动细节（如物体的移动)，而忽略了事件信息中的细节部分。EvTexture是第一个专门利用事件信息来增强视频细节的方法，因此在恢复纹理细节方面效果显著提升。

GitHub地址：https://github.com/DachunKai/EvTexture

LobeChat：一键免费部署自己的私有聊天机器人，你能想到的功能它都有

LobeChat功能介绍

1.多模型服务提供商支持

支持多个模型服务提供商: LobeChat支持多种模型服务提供商，满足社区的多样化需求，提供更丰富的对话选择。

2.本地大语言模型支持

ollama:支持基于Ollama的本地模型使用，用户可以灵活使用自己的或第三方模型。

3.模型视觉识别

GPT-4-vision:支持OpenAl的GPT-4-vision模型，可以识别图像内容并进行智能对话。

4.文本转语音和语音转文本（TTS & STT)

TTS (文本转语音)︰将文本消息转换为清晰的语音输出，用户可以选择多种声音。

STT(语音转文本)︰将语音转换为文本，提高互动体验。

5.文本生成图像

图像生成:支持DALL-E3、MidJourney和Pollinations等文本生成图像工具，用户可以在对话中生成图像。

GitHub: https:// github.com/lobehub/lobe-chat

DeepSeek发布DeepSeek-Coder-V2：在代码和数学能力上超越了GPT-4-Turbo

DeepSeek宣布发布开源模型DeepSeek-Coder-v2，该模型在代码和数学能力上超越了GPT-4-Turbo,成为全球首个在这些领域竞争的开源模型。DeepSeek-Coder-v2基于DeepSeek-v2的模型结构，总参数236B，激活参数21B，具有全球顶尖的代码和数学能力，并在多个排行榜上位居全球第二，次于GPT-4o和GPT-4-Turbo之间。同时，它在中英通用能力上也表现出色，位列国内第一梯队。

DeepSeek-Coder-V2与DeepSeek-V2相比，各有所长，前者更擅长理科，后者更擅长文科。该模型和相关代码、论文全部开源，免费商用，无需申请，提供两种规模:236B和16B，并支持API服务和本地私有化部署。

全球顶尖的代码、数学能力

DeepSeek-Coder-v2沿用DeepSeek-v2的模型结构，总参数236B，激活21B，在代码、数学的多个榜单上位居全球第二，介于最强闭源模型GPT-4o和GPT-4-Turbo之间。

GitHub地址：https://github.com/deepseek-ai/DeepSeek-Coder-V2

8月5日

ChatGPT克隆版！LibreChat:可在一个界面中选择使用不同的Al模型

Librechat是一个免费的开源ChatGPT克隆版，用户可以在一个界面中选择使用不同的Al模型。它支持与OpenAl、Azure、Anthropic和Google等Al模型服务的集成。用户甚至可以在对话中切换Al模型，并使用DALL-E或Stable Diffusion等插件进行图像生成。

LibreChat解决了多Al模型整合和切换的问题，提供了一个多功能的聊天平台，使用户能够更加灵活地使用不同的Al服务，同时保证了系统的安全性和可扩展性。

LibreChat主要功能特点

1.多种AI模型选择

支持OpenAl、Azure OpenAl、BingAl、ChatGPT、Google vertex Al、Anthropic(Claude)等模型的选择和切换。

⒉.兼容远程和本地Al服务

包括groq、ollama、Cohere、Mistral Al、Apple MLX、koboldcpp、OpenRouter等Al服务的兼容性。

3.自定义预设

用户可以创建、保存和分享自定义预设，并在聊天过程中切换AlI端点和预设。

4.多模态聊天

支持上传和分析图像，与Claude 3、GPT-4(包括gpt-4o)和Gemini Vision等AI模型进行多模态聊天。

5.高级代理和文件处理

通过openAl助理API支持高级代理、代码解释器、工具和API操作。

GitHub地址: https://github.com/danny-avila/LibreChat

全球首个数字人开源！满足多个行业的多样化需求！

硅基数字人SDK是完全开源的，已收获1.8K星！

通过将数字人交互能力开源，开发者可自行接入多方大模型、语音识别（ASR）、语音合成（TTS）能力，实现数字人实时交互，并在Android和iOS多终端一键部署，让每个开发者可轻松创建智能化、个性化的数字人Agent，并应用到各行各业。

这个开源的SDK提供了 14 个数字人模板，你可以前往开源项目的地址下载和使用这些数字人模型。硅基数字人还会不定期更新本地模型包，以便下载和使用最新的模型。

核心功能：

部署成本低: 无需客户提供技术团队进行配合，支持低成本快速部署在多种终端及大屏。
网络依赖小: 适合地铁、银行、政务等多种场景的虚拟助理自助服务。
功能多样化: 可根据客户需求满足视频、媒体、客服、金融、广电等多个行业的多样化需求。

GitHub地址:https://github.com/GuijiAI/duix.ai

免费开源！RTranslator : 实时翻译应用！可实现多人、多语言的实时对话翻译

RTranslator是一个几乎完全开源的免费离线实时翻译应用，专为Android系统设计。用户可以通过蓝牙耳机连接应用，将手机放进口袋，与他人进行实时语言转换的对话，应用会自动翻译并播报对方的语言。

其主要功能包括对话模式、对讲机模式和文本翻译模式。该应用使用Meta和OpenAi的先进Al模型，确保高质量翻译且无需联网，保护用户隐私。RTranslator支持多种语言，并完全开源，用户可以免费下载和使用。

主要功能

1.对话模式(Conversation Mode) :

功能描述:用户通过蓝牙耳机连接应用，与另一部安装此应用的手机进行实时对话。

2.对讲机模式(WalkieTalkie Mode) :

功能描述:设计用于短时间内的快速对话，如在街上问路或与店员交流。

3.文本翻译模式(Text Translation Mode) :

功能描述:提供经典的文本翻译功能。

工作流程:输入文本并选择目标语言，应用将文本翻译为所选语言并显示结果。

GitHub: https://github.com/niedev/RTranslator

下载: https://github.com/niedev/RTranslator/releases/

8月2日

阿里云发布！VideoLLaMA2视频语言模型，提升模型对视频、音频内容的理解力

VideoLLaMA2是一个旨在提升视频大语言模型(Video-LLM)时空建模和音频理解能力的项目。该模型集成了一个专门设计的时空卷积（(Spatial-Temporal Convolution，STC)连接器，有效捕捉视频数据中的复杂时空动态。此外，通过联合训练，模型还集成了音频分支，增强了多模态理解能力。

主要功能：

理解视频里的动作和变化:它能识别视频中人物的动作和事件，比如知道某人在做什么。
处理视频中的声音:它不仅看视频，还能听视频里的声音，比如说话声或音乐，并结合声音和画面理解内容。
回答关于视频的问题:你可以问它视频里的事情，它会给出详细的回答，比如“这个人在干什么? ”。
生成视频字幕:它能为视频生成字幕，方便观众理解视频内容。

GitHub: https://github.com/DAMO-NLP-SG/VideoLLaMA2

论文: https://arxiv.org/pdf/2406.07476

在线演示: https://huggingface.co/spaces/lixin4ever/VideoLLaMA2

与GPT 4o不相上下！发布Claude 3.5 Sonnet最新模型可在聊天窗口运行代码

Anthropic发布claude 3.5 Sonnet最新模型，新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型，同时其运行速度是Claude 3 opus的两倍，成本是其五分之一。

该模型可在Claude.ai和Claude iOS应用上免费使用。

Claude 3.5 Sonnet的定价为每百万输入tokens 3美元和每百万输出tokens 15美元，具有200K tokens的上下文窗口。其性价比高，适合中高端应用场景。

主要特点及应用场景：

1.实时生成和编辑

2.方便整合到项目中

3.提升工作效率

4.团队协作

GitHub：https://github.com/mattppal/Chat-with-Claude-Sonnet-35

Diffutoon:将真实视频直接渲染为高清动漫风格，并可进行文字编辑

Diffutoon，一种基于扩散模型的创新型toon shading方法。它可以将真实感视频直接渲染为动漫风格，并通过一个额外的分支根据提示编辑内容。

Diffutoon通过创新的方法分解问题，使得生成的动漫风格视频更流畅、更清晰。

主要功能特点

1.动画风格化( Toon Shading)

Diffutoon的主要功能是将真实感视频转换为动漫风格的视频。能够将输入的真实视频转换为平面化和风格化的动漫风格，适用于视频游戏开发和动画制作等多个领域。

2.一致性增强(Consistency Enhancement)

通过引入运动模块(AnimateDiff）和滑动窗口机制，Diffutoon能有效解决视频每一帧独立处理导致的不一致问题，确保生成视频的连贯性和流畅性。

3.结构指导(Structure Guidance)

为了在风格化过程中保留视频中的重要结构信息（例如轮廓和深度)，Diffutoon使用了控制网络(ControlNet）来进行结构指导。

4.上色与超分辨率(Colorization and Super-Resolution)

Diffutoon采用专门的控制网络进行视频的上色处理，即使输入视频的分辨率较低，也能够生成高质量的动漫风格视频:

上色模型:一个训练用于超分辨率任务的ControlNet模型，能够提升整体视频质量。

色彩信息保留:在风格化过程中，通过控制网络确保生成的视频色彩信息准确且一致。

5.视频编辑功能(Video Editing)

Diffutoon允许用户通过提示编辑视频内容，实现个性化的视频制作:

编辑分支:设计了一个额外的编辑分支，可以生成文本指导的编辑信号，如更改视频中的颜色或添加特效。

编辑信号传递:编辑信号以颜色视频的形式传递给主动画风格化流水线，从而生成符合用户需求的高质量视频。

项目及演示: https://ecnu-cilab.github.io/DiffutoonProjectPage/

论文: https://arxiv.org/pdf/2401.16224

GitHub: https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/Diffutoon

在线体验: https:/lgithub.com/camenduru/Diffutoon-jupyter?tab=readme-ov-file

8月1日

微软开源视觉模型！Florence-2:能够执行超过10种不同的视觉任务

Florence-2是一个由微软开发的新的视觉模型，主要用来处理各种图像任务。它可以通过简单的文字提示完成任务，比如描述图片内容、识别和定位图片中的物体，以及分割图片中的不同区域。

Florence-2解决了现有大视觉模型在处理多样化任务时的局限性，提供了统一的解决方案，能够高效地处理各种复杂的视觉任务。

它不仅能描述图片的内容，还能识别图片中的物体，并指出这些物体的位置。

任务处理能力

Florence-2能够执行超过10种不同的视觉任务，包括图像字幕生成、对象检测、图像区域关联和分割等。这种广泛的任务能力证明了其在多任务处理上的高效性和实用性。

图像描述:自动生成对图像内容的文字描述。
目标检测:识别和定位图像中的不同物体。
视觉定位:在图像中找到与文本描述相对应的具体区域。
图像分割:将图像划分为不同的区域，识别每个区域的内容。

为了让Florence-2能处理这些任务，研究人员开发了一个巨大的数据集，包含了5.4亿个详细的图片注释。通过学习这个数据集，Florence-2学会了如何理解和处理各种图像任务。

GitHub: https://github.com/kijai/ComfyUl-Florence2

阿里agentUniverse 多智能体框架开源，让复杂任务迎刃而解

第七届数字中国建设峰会上，蚂蚁集团正式开源多智能体框架agentUniverse，这是行业首个开源的金融领域多智能体技术框架，该框架核心提供了多智能体协作编排组件，可帮助开发者加快大模型技术在金融场景的落地研发。

agentUniverse是一个大模型多智能体框架。核心提供了多智能体协作编排组件，它相当于一个模式工厂(pattern factory)，允许开发者对多智能体协作模式进行开发定制，同时附带了搭建单一智能体的全部关键组件。开发者可以基于本框架轻松构建多智能体应用，并通过社区对不同领域的模式(pattern)实践进行交流共享。

主要特点：

1.框架设置: AgentUniverse-提供了一个结构良好的框架，确保不同组件的无缝集成，这些组件是构建智能体所必需的。框架设计能够处理从低层次功能到高层次编排的所有内容。

2.基于组件的设计:框架提供了各种组件，使开发人员可以轻松定制和构建针对特定需求的智能体。这些组件包括:

模式工厂(Planner Factory, P Factory):促进智能体计划的制定。

执行模块:处理分配给智能体的任务执行。

评估模块:评估智能体行为的性能和结果。

表达模块:管理智能体与用户之间的互动和交流。

Github :https://github.com/alipay/agentUniverse

字节跳动发布新的深度估计模型：Depth-Anything-V2,速度提升10倍以上！

与V1相比，本版本通过三项关键实践产生了更精细、更稳健的深度预测：

1) 将所有带标签的真实图像替换为合成图像；

2) 扩大教师模型的容量；

3) 通过大规模伪标签真实图像的桥梁来教授学生模型。

与基于Stable Diffusion的最新模型相比，V2模型在效率（速度快10倍以上）和准确性上都显著提高。

Github:https://github.com/DepthAnything/Depth-Anything-V2

7月31日

8Kstar! awesome-ai-agent:最主流AI自主Agent的全面列表及其详情

awesome-ai-agents项目,提供了一个关于AI自主代理的列表，包括开源项目和闭源项目与公司。列表中的每个AI代理都简要介绍了其主要功能和用途。整个列表是根据作者的最佳知识汇编的，虽然不是全面的，但涵盖了广泛的AI代理应用。文档鼓励用户提供反馈和讨论，并且可以提交新的AI代理信息。

项目地址：https://github.com/e2b-dev/awesome-ai-agents

阿里开源！MimicBrush：创新图像编辑工具，重新定义局部重绘

最近阿里巴巴联合香港大学开源了一个创新图像编辑工具：MimicBrush，这个工具相当于是一个局部重绘工具。MimicBrush 是根据我们提供的参考图进行局部重绘的，我们只需要指定原图中需要编辑的部分，然后上传一张参考图像，MimicBrush 就能自动捕捉两者之间的语义对应关系并完成图像编辑。

核心特点：

模仿式编辑:用户可以直接从野外参考图像中汲取灵感，进行图片编辑，无需担心参考图像和源图像之间的匹配问题。
自动化图像编辑:通过随机选择视频帧、遮罩和恢复的训练方式，MimicBrush模型能够自动理解参考图像，并实现图像编辑过程的自动化。
零阶图像编辑:用户无需具备专业的图像编辑技能，只需提供编辑区域和参考图像，即可一键完成编辑，极大地简化了图像编辑的流程。

项目地址：https://top.aibase.com/tool/mimicbrush

GitHub：https://github.com/ali-vilab/MimicBrush

免费开源！AI知识库系统的PDF转Markdown工具来啦！

Marker API：用于将 PDF 文件快速、高准确度地转换成 Markdown 格式。

转换后的Markdown文件能够精确地还原原始PDF的段落、表格和图片，同时还能将页眉、页脚等无关内容自动消除。

具体功能：

- 将 PDF 转换成 Markdown。

- 支持同时转换多个 PDF 文件。

- 支持多种文档类型，包括书籍和科学论文。

- 支持所有语言。

- 移除页眉、页脚和其他非文本元素。

- 格式化表格和代码块。- 提取并保存Markdown中的图片。

- 将大多数方程式转换成LaTeX格式。

GitHub地址：https://github.com/adithya-s-k/marker-api

7月30日

5.4Kstar！MiGPT：将小爱音箱接入 ChatGPT ，改造你的专属语音助手！

GitHub 上一个开源项目 MiGPT，旨在将小爱音箱打造成你的专属 AI 语音助手。通过该项目，你可以将小爱音箱和米家智能设备与 ChatGPT 的理解能力完美融合，打造成一个懂你、有温度与你共同进化的家。

项目亮点： LLM 回答：通过接入 ChatGPT 等大模型，让你的小爱音箱变身聊天高手。角色扮演：一秒调教小爱，成为你的完美伴侣或贴心闺蜜。流式响应：可快速响应你的指令，对你的爱意秒回。长短期记忆：记住与你每一次的对话，越聊越默契。自定义 TTS：可接入豆包同款音色替换小爱同学的语音。智能家居 Agent：根据你的心情为你播放喜欢的音乐，调节灯光，逗你开心。

GitHub：github.com/idootop/mi-gpt

Stability AI 发布！Stable Audio Open:可生成47 秒的高质量音频数据

前不久，Stability AI 宣布推出开放模型 Stable Audio Open，该模型能够生成高质量的音频数据。与 Stability AI 的商业 Stable Audio 产品不同的是，Stable Audio Open 可以通过简单的文本提示生成长达 47 秒的高质量音频数据。

Stable Audio Open 是基于 Transformer 架构的潜在扩散模型，由三个组件组成：将波形压缩为可管理序列长度的自编码器、用于文本调节的基于 T5 的文本嵌入，以及在自编码器的潜在空间中运行的基于 transformer 的扩散 (DiT) 模型。经过专业训练后，这个模型已经非常适合创建鼓点、乐器 riffs、环境音、拟声录音和其他用于音乐制作和声音设计的音频样本。虽然它可以生成简短的音乐片段，但它并未针对完整的歌曲、旋律或人声进行优化。

项目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

开源项目！99AI：一个开源的AI工具/AI绘画/LLM模型功能聚合网站！

99AI是一个综合性的AI Web应用平台，旨在为用户提供一个集成化、易于部署的人工智能服务站点。参考ChatGPT官网的理念，将多种AI技术集成于一个单一的平台中，从而提供了一个全方位的AI服务体验，包括但不限于对话、绘画、语音处理等功能。

99AI 采用了先进的 Web 技术构建其系统，前端使用 Vite + Vue3 框架搭配 TypeScript 进行开发，界面美观、响应迅速。后端则选择了 Node.js + NestJS，保证了服务的稳定性和扩展性。

99AI提供了专门的绘图板块，这里支持MJ。当然也可以直接在对话中调用dell3或者千问等模型进行绘图。

99AI的后台特别丰富。主界面有对话的统计，访客统计等等数据展示类。左侧功能区有系统设置、用户管理、模型管理、数据管理、应用管理、存储管理甚至支付管理和套餐与分销管理。

GitHub地址：https://github.com/vastxie/99AI

7月29日

堪比神笔马良！SketchDream：基于线稿即可生成3D模型！

近期，一篇题为《SketchDream: Sketch-based Text-to-3D Generation and Editing》的论文提出了基于线稿和文本的三维内容生成和编辑方法 SketchDream ，论文发表在 SIGGRAPH 2024，并被收录于图形学顶级期刊 ACM Transactions on Graphics。这个 3D AIGC 工作可以帮助你成为神笔马良，通过画笔画出三维世界。

即使用户不会使用复杂的三维软件，也可以基于线稿自由创作三维内容，并对真实的模型进行修改和编辑。

提供线稿和文本描述，该方法即可生成对应的三维模型。进一步，用户可以旋转到新的视角，对局部区域进行修改，实现三维模型的精细化定制。

项目地址：http://www.geometrylearning.com/SketchDream/

吴恩达开源AI翻译智能体Agent项目

人工智能著名学者、斯坦福大学教授吴恩达一直非常推崇智能体。此前他曾在个人博客着重指出「AI智能体工作流将会在今年推动人工智能取得长足进步」，AI智能体的未来潜力愈加被看好，吸睛无数。于是在前不久开源了一个很棒的AI翻译代理，刚上线就收获2.9Kstar！

它的运作原理很简单，很受启发！

AI翻译工作流程：

1、提示LLM将一种语言翻译成另一种语言。

2、反思翻译并提出建设性建议。

3、使用建议改进翻译。

项目地址：https://github.com/andrewyng/translation-agent

hallo:可生成让照片唱歌和说话的视频，并能控制人物表情和姿态

hallo通过语音音频输入来驱动消像图像生成动画视频，也就是一段语音+个人图像生成会说话唱歌的视频。

这个方法的目的是提高语音输入与生成的动画之间的对齐精度，包括嘴唇、表情和姿态的同步。

·通过输入语音，生成对应的人物嘴唇同步、表情变化和姿态变化的动画。

·提高语音与生成动画之间的对齐精度，使动画的嘴唇、表情和姿态与语音更匹配。

·采用先进的技术和结构，增强了动画生成的实时性和视觉效果，使生成的动画更加逼真和自然。

主要功能

1.虚拟角色动画生成

通过语音音频输入生成逼真、动态的虚拟角色动画。

·实现了虚拟角色的口型、表情和姿态的精确同步。

2.真实角色动画生成

·应用于真实人物的语音驱动动画生成。

·生成的动画能准确反映真实人物的表情和动作变化。

3.多种运动控制

·提供对角色表情、姿态和嘴唇运动的精确控制。

支持多种表情和姿态的自适应控制，增强动画的多样性和真实性。

4.歌唱动画生成

·通过语音和歌曲音频输入，生成同步的歌唱动画。

·动画能够准确反映歌唱时的口型和表情变化。

项目及演示：https://fudan-generative-vision.github.io/hallo/#/

论文：https:/arxiv.org/pdf/2406.08801

GitHub:https://github.com/fudan-generative-vision/hallo

7月26日

Motion Follower:将视频中人物动作转移到另一个视频中的人物身上

Motion Follower用来编辑视频中运动的新方法，它能将目标视频的运动信息转移到源视频上，同时保持源视频的背景和主角外观。

这意味着Motion Follower可以将一个视频中的运动（例如某人的动作）复制到另一个视频中的人物上，而不改变第二个视频的背景和人物的外观。

主要功能

1.视频运动信息转移：能够将目标视频中的运动信息（如人物的动作、舞蹈等）转移到源视频中的人物身上，使源视频中的人物做出目标视频中的动作。

2.保持源视频背景：在运动信息转移过程中，保留源视频的背景不变，即使目标视频的背景不同，也不会影响合成视频中的背景。

3.保持人物外观：在将运动信息转移到源视频中的人物时，保特源视频中人物的外观不变，包括他们的服装、面貌等特征，只改变他们的动作。

4.支持大范围相机运动：MotionFollower能够处理包含大范围相机运动的视频，使得在移动的场景下也能实现高质量的运动信息转移。

5.高效的视频编辑：通过引入一致性正则化和多重损失函数，确保编辑后的视频在时间一致性和视觉效果上达到高质量水平。

项日及演示：https:/francis-rings.github.io/MotionFollower/.

论文：https://arxiv..org/pdf/2405.20325

GitHub:https://github.com/Francis-Rings/MotionFollower

高保真！Follow-Your-Emoji:通过感知表情生成丰富的肖像动画

Follow-Your-Emoji是一个基于扩散模型的头像动画生成框架。可以将参考头像（例如照片、卡通人物、雕塑甚至动物)的表情和动作转换为动画。其主要特点是能够在保持原始头像身份特征的同时，生成自由风格和丰富表情的动画。

Follow-Your-Emojii通过使用MediaPipe提取面部的3D关键点生成2D表情感知标志，这些标志包含面部特征和瞳孔点但排除面部轮廓，作为运动表示引导动画生成过程，确保目标运动与参考肖像对齐，避免身份世露，同时浦捉微妙表情变化，实现高保真、自然生动的肖像动画。

（有GIF）

Follow-Your-Emoji能做什么？

1.身份保持：生成动画时，确保参考头像的身份特征不会丢失。

2.表情丰富：生成各种夸张和细微的表情，如大幅度的瞳孔运动。

3.多样化风格：支持多种风格的头像动画，包括卡通、现实人物、雕塑和动物等。

4.长时间动画：使用新进生成策略，确保长时间动画的稳定性和一致性。

主要特点和优势

·高保真度：生成的动画保留了参考头像的细节和身份特征，视觉效果出色。

·灵活多样：支持多种风格和类型的头像，适用于不同的应用场景。

·易于控制：用户可以通过提供简单的表情和动作标记序列来控制动画效果。

项目及演示：https:/follow-your-emoji.github.io/

论文：https:/arxiv.org/abs/2406.01900

6.17Omost:根据文本描述生成符合你预期的图像，可自动帮你完善提示词

Omost是一个使用大语言模型(LLM)生成图像的项目。它通过虚拟画布代理来合成图像，旨在将模型的代码能力转化为图像生成能力。

通俗解释Omost是怎么工作的？

1.文字描述：你首先用文字描述你想要的图像内容。例如，你可能会描述：“一群勇士在与一条龙战斗，背景是闪电和暴风雨的天空。”

2.生成代码：Omost利用大语言模型会把你的文字描述转换成一种“代码”。这个代码不是普通的计算机代码，而是一种详细的描述，告诉电脑如何在画布上绘制出你想要的图像。

3.虚拟画布：这个代码会传递给一个虚拟画布。虚拟画布就像是一个画图的软件，它会根据代码里的描述来安排图像的各个部分。

4.图像生成器：最后，虚拟画布把这些安排传递给一个图像生成器，图像生成器会根据这些安排绘制出最终的图像。

GitHub:https://github.com/lllyasviel/Omost

在线体验：https:/huggingface.co/spaces/.lllyasviel/,Omost

7月25日

3D生成！影眸团队推出Rodin Gen-1：在几十秒内即可生成3D图像的Al模型！

影眸团队推出的Rodin Gen-13D生成AI模型，可以在几十秒内通过文本生成高质量的3D模型，这些模型使用四边形构造，并具有逼真的材质效果（看起来很真实）。比外，他们还计划开源一个小型版本的Rodi模型，让更多人能够使用和参与改进这个技术。

Rodin几乎达到了可以在实际项目和商业用途中直接应用的标准。生成的3D模型质量非常高，细节丰富，足以满足生产级别的要求。

Rodin通过整合Latent Diffusion Transformer(DiT)和多种3 D ConditionNet,显著提升了3D资产创建的速度和多样性，并且增强了用户控制能力，允许根据实时输入精确调整生成的3D资产的尺寸和属性，非常适合需要在现场或紧急情况下调整设计的艺术家。此外，Rodi能够处理多种输入类型，彻底革新了传统3D建模工作流程，提供了一个强大且适应性强的平台。

GitHub:https://github.com/CLAY-3D/OpenCLAY

Consistent Character:可生成给定角色的不同姿势图像，且保持人物一致性！

Consistent Character模型，结合多种技术实现角色的一致性图像生成，可以生成给定角色的不同姿

势的图像，并且保证生成的图像在姿势变化的情况下保持角色的一致性。

该模型使用了以下技术：

·InstantID：用于快速识别角色。

·IPAdapter：用于图像处理和调整。

·Controlnet：用于控制图像生成的各个方面。

·FaceDetailer：用于增强面部细节。

·SDXL Lightning：用于加速和优化生成过程。

循环处理不同姿势：

模型在每次运行时，循环处理多个姿势。每个姿势都会独立运行一次完整的工作流程，从而确保每个生成的姿势都是一致且独立的。这种方法避免了在工作流程内部的重复，提高了处理效率和一致性。

GitHub:https://github.com/fofr/cog-consistent-character

在线体验：replicate.com/fofr/consistent-character

StreamSpeech ：实时语言翻译模型，还能将语音内容实时转录为文本!

StreamSpeech是一个用于实时语言翻译的先进模型，旨在实现流媒体语音输入的实时翻译。

Simul-S2ST不仅能将语音翻译成另一种语言，还能将语音内容实时转录为文本。这对于需要文本记录的场景，如会议记录、字幕生成等非常有用。用户可以同时获得语音和文本两种形式的翻译结果。并且支特多种语言的翻译，能够在不同语言之间进行高效的语音翻译。

它结合了语音识别(ASR)、语音翻译(Speech-to-Text Translation,S2TT)和语音合成(Speech Synthesis),通过多任务学习的统一框架，同时学习翻译和同步策略，从而在讲话人说话的同时生成目标语言的语音翻译。

主要功能特点：

1.实时翻译：

同步语音到语音翻译(Simul-S2ST)：实时生成目标语言的语音翻译，使其适用于需要低延迟、高质量翻译的场景，如国际会议、在线教育和跨语言交流等。

连续语音输入和输出：该系统能够处理连续的语音输入，自动识别并翻译源语言的语音，然后输出连续的目标语言语音。这种功能使得Simul-S2ST非常适合长时间的演讲或对话，不会因为向子或段落的结束而中断。

2.高质量翻译和低延迟：

高性能：在各种基准测试中，StreamSpeech都表现出了最先进的翻译性能，确保翻译质量的同时，实现了低延迟的实时翻译体验。

3.全面的语音处理能力：

语音识别：StreamSpeech能够进行高效的语音识别，及时展示识别结果。

语音翻译：支持多种语言之间的实时翻译，提升跨语言沟通的效率。

语音合成：通过非自回归的文本到单元生成，快速生成目标语言的语音输出。

项目及演示：https://ictnlp.github.io/StreamSpeech-site/

GitHub:https://github.com/ictnlp/StreamSpeech

论文：https:/arxiv..org/pdf/2406.03049

模型下载：https:/huggingface.co/ICTNLP/StreamSpeech_Models./tree/main

7月24日

阿里开源！通义千问系列第二代AI开源模型Qwen2今日发布！

通义千问是阿里巴巴开源的一系列大语言模型。Qwen系列大模型最高参数量720亿，最低18亿，覆盖了非常多的范围，其各项评测效果也非常好。而昨天，Qwen团队的开发人员向HuggingFacel的transformers)库上提交了一段代码，包含了Qwen2的相关信息。就在今天，通义干问(Qwen)宣布经过数月的努力，Qwen系列模型从Qwen1.5到Qwen2的重大升级，并已在Hugging Face和ModelScope上同步开源。

Qwen 2.0 主要内容如下：

5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；

多个评测基准上的领先表现；

代码和数学能力显著提升；

增大了上下文长度支特，最高达到128 K tokens(Qwen2-72B-Instruct).

项目地址：https://github.com/QwenLM/Qwen2

字节开发！Seed-TTS：几乎完美接近人声的文本到语音(TTS)模型！

Seed-TTS是由字节跳动开发的一种高级文本到语音(TTS)模型系列，能够生成高质量、几乎无法与

人类语音区分的语音。该模型可以基于简短的语音片段生成高度自然且富有表现力的语音。

Seed-TTS在多个实验中表现优异，其生成的语音在自然度和说话者相似度上接近人类语音，展示了

强大的生成能力和应用潜力。

主要功能

1.高质量语音生成

Seed-TTS是一种能够生成高质量、几乎无法与人类语音区分的语音模型。通过大规模自回归文本到

语音(TTS)模型的架构设计，Seed-TTS在语音自然度和说话者相似度方面达到了新的高度。

2.语音属性控制

Seed-TTS提供了对各种语音属性的高级控制能力，包括但不限于情感、语调、说话风格等。通过精

调，用户可以灵活地控制生成语音的不同属性，以满足各种应用场景的需求。

3.多样性和表现力

Seed-TTS能够生成高度多样化和富有表现力的语音，这使得它在多个应用场景中表现出色，如有声

读物、虚拟助手、视频配音等。

4.零样本上下文学习

Seed-TTS支持零样本上下文学习(ICL),这意味着即使在没有大量训练数据的情况下，也能够基于

简短的语音片段生成高质量的语音。这一功能特别适用于需要快速生成特定说话者语音的应用场景。

5.强化学习增强

通过引入强化学习(RL)方法，Seed-TTS在模型鲁棒性、说话者相似度和可控性方面得到了显著提

升。RL方法使得模型能够在不同的环境中保持稳定性，并提高生成语音的质量。

6.语音编辑功能

Seed-TTS支持语音内容编辑和说话速度编辑，使得用户可以根据需要对生成的语音进行灵活调整。

编辑功能：

内容编辑：可以对生成的语音内容进行部分修改和替换。

速度编辑：可以调整生成语音的说话速度，以适应不同的应用场景需求。

7.跨语言内容创建

功能：支持不同语言间的语音转换，帮助跨语言沟通和交流。

实例：语言学习应用，通过Sed-TTS生成目标语言的发音，帮助学习者练习口语。

项目及演示：https://bytedancespeech.github.io/seedtts\_tech\_report/

论文：https:/arxiv.org/pdf/2406.02430

GitHub:https://github.com/BytedanceSpeech/seed-tts-eval/

6.4k star，Reor：很强的私人AI智能笔记软件！支持离线使用！

reor是一款私人的、离线人工智能个人知识管理应用程序，利用自动链接相关笔记、回答笔记上的问题、提供语义搜索以及生成AI闪卡来增强个人的知识管理。所有数据本地存储，支持类似Obsidian的Markdown编辑器。Reor项目的核心假设是，思考工具的AI模型应默认在本地运行。它利用了Ollama、Transformers.js和LanceDB等技术，使得大型语言模型（LLM）和嵌入模型能够在本地运行。同时，也支持连接到OpenAI或兼容的API。

Reor的核心功能

自动链接相关笔记，形成知识网络
AI驱动的问答系统，基于笔记内容提供答案
强大的语义搜索功能，快速找到所需信息
创建AI闪卡，辅助记忆和学习
支持本地存储，保护用户隐私和数据安全
兼容Obsidian风格的Markdown编辑器，方便笔记编辑
能够与Ollama直接交互，下载并运行本地模型
支持连接到OpenAI或OpenAI兼容的API

GitHub地址：https://github.com/reorproject/reor

项目地址：https://github.com/reorproject/reor

7月23日

3D虚拟试衣技术来了！港大和西北工业提出GaussianVTON：首次实现2D到3D的无缝过渡。

GaussianVTON实现高效的人类环境通过重构和编辑在试戴应用程序中进行交互多视点图像。方法首次使用了图像提示实现更精确和定制的3D高斯泼洒编辑。

与现有的依赖文本提示的作品不同。对于3D编辑，例如,GaussianEditor，GaussianVTON避免了错误地替换服装并影响服装的其他区域，以及导致背景和面部特征等其他元素的变化。

此外，与文本驱动相比3D服装人体生成或重建工作，如HumanGaussian,GaussianVTON是基于真实的人体图像，避免导致奇怪的体型，并符合提示。

GitHub地址：https://github.com/HaroldChen19/GaussianVTON

7kStar！中科院团队开源FastSAM模型!比原版提速50倍！

最近中科院团队开源了FastSAM模型，能以50倍的速度达到与原始SAM相近的效果，并实现25FPS的实时推理。

该成果在Github已经获得7K+次星标，在Twitter、PaperswithCode等平台也受到了广泛关注。

FastSAM模型通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务，⽤带实例分割分⽀的常规 CNN 检测器以**⾼出50倍的运⾏速度**实现了与SAM⽅法相当的性能，是⾸个实时分割⼀切的基础模型。

SAM 的出现带动了 “分割⼀切”（Segment Anything）任务的发展。这⼀任务由于其泛化性和可扩展性，有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 进⼀步推动了分割⼀切模型的实际应⽤和发展。从模型压缩的⾓度看，FastSAM 也证明了基于大模型产生高质量数据，通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

论文地址：https://arxiv.org/abs/2306.12156

GitHub项目页：https://github.com/CASIA-IVA-Lab/FastSAM

Talk With Gemini:开源的私人Gemini应用，一键部署您的私人AI助手！

Talk With Gemini是一款开源应用程序，能够一键免费部署您的私人 Gemini 应用, 支持 Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini Pro 和 Gemini Pro Vision 模型。

特色功能：

简洁界面：提供直观、易用的操作体验。

多媒体支持：支持图片识别和语音对话，丰富交互方式。

多模态模型：兼容Gemini1.5和Gemini1.5 Flash,增强理解能力。

GitHub地址：htps:/github.com/Amery?2010/TalkWithGemini

7月22日

43.7kstar！Joplin：免费开源的个人知识库工具！

Joplin是一款免费、开源的笔记和待办事项应用程序，可以处理整理到笔记本的大量笔记且支持搜索。用户可以直接从应用程序或从自己的文本编辑器中复制、标记和修改，笔记本身采用Markdown格式编写。

Joplin的典型特征可以概括为以下几点：

1.支持多媒体笔记：包括图像、视频、PDF和音频文件，支持直接从应用程序创建数学表达式和图表，使用移动应用程序拍照并将其保存到笔记。

2.支持多人协同：借助Joplin Cloud,支持与朋友、家人或同事分享笔记并进行协作，还可以将注释发布到Internet并与其他人共享URL。

3.支持保存网页：作为笔记，支持使用Chrome和Firefox上提供的Web Clipper扩展程序来保存网页或截取屏幕截图作为笔记。

4.支持定制：支持使用插件、自定义主题和多个文本编辑器，包括：富文本或Markdown来自定义应用程序，支持使用扩展API创建自定义脚本和插件。

5.100%自有数据包括：Joplin是开源的，笔记会保存为开放格式，因此始终可以访问，同时使用端到端加密(E2EE)来保护笔记并确保除了自己之外没有人可以访问。

GitHub地址：https://github.com/laurent22/joplin

DockerHub地址：https://hub.docker.com/r/joplin/server

官网链接：https://joplinapp.org/

阿里开源！通义千问系列第二代AI开源模型Qwen2

Qwen 2.0 主要内容如下：

5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；

多个评测基准上的领先表现；

代码和数学能力显著提升；

增大了上下文长度支特，最高达到128 K tokens(Qwen2-72B-Instruct).

项目地址：https://github.com/QwenLM/Qwen2

开源项目！AiEditor：一个面向 AI 的下一代富文本编辑器

AiEditor 是一个面向 AI 的下一代富文本编辑器，它基于 Web Component 开发，因此支持 Layui、Vue、React、Angular、Svelte 等几乎任何前端框架。它适配了 PC Web 端和手机端，并提供了友好的 UI 页面，支持亮色和暗色两个主题。除此之外，还提供了灵活的配置，开发者可以方便的使用其开发任何文字编辑的应用。

在AI 方面，AiEditor 支持使用私有的 ApiKey 对接任何的大模型，包括 ChatGPT、讯飞星火、文心一言以及任何的私有化大模型。AiEditor 发布的第一个开源版本，已经具备一个编辑器该有的基本功能，比如：

github地址：https://github.com/aieditor-team/AiEditor

7月19日

腾讯开源AI工具——DynamiCrafter：将静态图像转换为动画视频！

DynamiCrafter是一个利用视频扩散先验技术来为开放域图像制作动画的项目。这个项目由香港中文大学、腾讯AI实验室和北京大学的研究人员共同开发。它能够将静态图像转换为动画，涵盖多种主题和风格，如风景、人物、动物、交通工具、雕塑等。DynamiCrafteri还探索了通过文本控制运动的方法，并在不同应用场景下展示了其表现，例如讲故事和循环视频生成。

该项目能够处理各种类型的静态图像，将其转换为动画，不限于特定的主题或风格，包括处理风景、人物、动物、交通工具、雕塑等多种类型的图像。

DynamiCrafter的应用场景

DynamiCrafter项目的应用场景包括但不限于以下几个方面：

1.数字媒体和娱乐：为电影、动画、游戏和虚拟现实环境创造动态背景和角色动画。

2.教育：制作教育视频和演示，通过动画化的图像来解释复杂的概念或过程。

3.社交媒体和营销：生成吸引人的动态图像和短视频，用于社交媒体广告和品牌推广。

4.艺术创作：艺术家可以使用DynamiCrafter将他们的静态作品转换为动画，探索新的表达方式。

5.讲故事：通过动态图像讲述故事，为书籍、电子书或在线内容增添视觉效果。

项目地址：https://github.com/Doubiiu/DynamiCrafter

19.3kStar! chatwoot:新一代的人工智能客服系统

Chatwoot 是一个现代化、自托管的客户服务工具，旨在帮助企业与客户进行更有效、更个性化的交流。它提供了一整套功能强大的实时聊天和消息传递平台，让你可以控制你的客户关系，无需依赖第三方服务。

chatwoot为我们提供了从一个地方管理对话、建立关系和取悦客户的所有工具。

功能特点：

1、开源可以免费部署到本地。

2、真人坐席、机器人自动回答、A建议回答，任你选择组合使用。

3、UI漂亮，完美展示你想要的内容，包括富文本和Markdown(普通客服聊天框只支持纯文字)。

除了网页外，Chatwoot for mobile还支持在Android和ios上使用，使您能够浏览对话、回复消息并与您的团队合作。

项目地址：https://github.com/chatwoot/chatwoot

强大的开源项目！RAG-GPT：快速搭建智能客服！

RAG-GPT提供了一整套开源解决方案，它基于Flask框架，旨在利用LLM和RAG技术快速搭建一个全功能的客服解决方案。该项目包括前端用户界面、后端服务和管理员控制台，为企业利用LLM搭建智能客服等对话场景提供了一个完整的自动化解决方案，可以帮助开发者快速搭建一个智能问答系统，且代码完全开源。

RAG-GPT关键特性：

内置LLM支持：无缝集成chatgpt、智普AI等大型语言模型，利用其丰富的语言理解能力，生成答案。
知识库支持丰富：支持各类本地文件，网站地址作为知识库进行检索。
快速部署集成：仅需Python环境，无需额外的中间件或依赖，可以在五分钟内部署生产级别的对话服务机器人并一键集成对话机器人到你的网站上。
灵活配置：用户友好的后台管理界面，支持定制化设置，简化维护流程。

从特性可以知道，RAG相比一些商业收费的基于知识库的问答系统优势在于

易用、快速搭建
能自主管理知识库，避免商业秘密和知识产权泄漏
可以自主选择LLM模型和甚至扩展部署本地模型。

RAG-GPT的基本组成分为三部分：

一是智能问答后端服务
二是管理后台系统
三是用户使用的chatbot UI。

GitHub：https://github.com/open-kf/rag-gpt

7月18日

layerdivider：将单个图片转PSD分层文件的AI开源项目

layerdivider是个令人眼前一亮的开源工具，它能自动地将单一的图像智能地转化为层次分明的图层结构，使您的创作流程更加高效。借助机器学习算法，它可以识别并分离图像中的颜色区域，构建出与原始图像色彩相近但更具组织性的图层。

项目技术分析

layerdivider的核心算法基于像素级的颜色信息进行集群分析，利用CIEDE2000标准来衡量颜色相似度。通过以下步骤实现图像分层：

1.对输入图像进行像素级别的RGB集群划分。

2.结合颜色差异阈值，合并类似颜色的集群。

3.应用模糊处理以平滑图像。

4.计算每个集群的模糊后平均颜色，并据此重绘所有像素。

5.反复执行以上过程，以优化分层效果。

6.创建基于最终集群结果的基础图层。

7.使用输入图像的集群平均色重新绘制基础图层。

8.根据基础层和原色差异计算效果图层。

GitHub：https://github.com/mattyamonaca/layerdivider

腾讯开源！ToonCrafter:自动生成卡通动画的中间帧并根据参考图像对草图自动上色

ToonCrafter是一个帮助动画师生成和优化卡通动画过渡效果的工具。由香港中文大学、香港城市大学和腾讯人工智能实验室联合开发，解决了卡通动画中帧与帧之间过渡不自然的问题，提升了动画制作的效率和效果。通过生成模型和插值技术，实现了高质量的动画过渡和上色效果。使动画制作更高效，效果更自然。

主要能力包括：

卡通草图插值：在不同的动画帧之间生成自然的过渡。

草图上色：根据参考图像对草图进行上色。

稀疏草图引导：通过稀疏草图来指导动画过渡的生成。

主要功能介绍：

1.生成性卡通插值

"ToonCrafter通过生成性插值方法，在卡通动画帧之间生成自然连贯的中间帧。它能够处理复杂的非线性运动和遮挡问题，使动画过渡更加平滑自然。

ToonCrafteri能够适应不同的动画风格，无论是简单的线条动画还是复杂的卡通场景，它都能轻松处理。

2.草图引导插值

ToonCrafter支持用户通过草图引导插值过程。用户可以提供稀疏的草图输入，系统将根据草图生成符合用户预期的中间帧。这种方式允许用户对动画过渡进行细致控制，提升了插值结果的准确性和个性化。

3.参考图像上色

ToonCrafter能够根据参考图像对草图进行上色。用户可以提供一张或两张参考图像，系统将根据参考图像的颜色和风格，对输入的草图进行上色处理。这使得草图上色过程更加高效，效果更加逼真。

用户只需提供一张已上色的图片，ToonCrafter:会根据这张图片为草图上色，节省上色时间。

4.细节注入与恢复

ToonCrafteri配备双参考3D解码器，通过细节注入与恢复机制，将输入帧的细节信息注入生成的中间帧中。这有效地保留了动画帧中的高细节区域，避免了压缩带来的质量损失，使生成的中间帧更加清晰和细腻。

5.用户交互控制

专业解释：ToonCrafter提供了用户交互控制功能，使用户能够灵活地调整插值结果。用户可以在插值过程中实时修改草图，系统将根据用户的修改动态更新生成结果。这种交互方式使得动画制作过程更加直观和高效。

这使得你可以在制作动画的过程中随时修改草图，ToonCrafters会立即更新动画，让你看到最终效果。

GitHub：https://github.com/ToonCrafter/ToonCrafter

字节跳动开源！PuLID：一款个性化文本到图像生成框架！

PuLID是由字节跳动团队开发的开源个性化文本到图像生成技术。它利用先进的对齐技术和快速采样方法，无需调整模型即可实现高效的定制化，轻松完成图像换脸功能。这项技术能够保持高真实性，同时尽量减少对原始图像风格和背景的干扰。用户可以轻松通过文本提示编辑图像，生成逼真且个性化的图像结果。

PuLID的功能特色

高度逼真的面部定制：用户只需提供目标人物的面部图像，PuLID便能精准地将该面部特征应用到各

种风格的图像中，生成极具真实感的定制化肖像。

原始风格保留：在进行面部替换的过程中，PuLID精心设计算法以最大程度地保留原始图像的风格元

素，如背景、光照和整体艺术风格，确保生成的图像与原图风格一致。

灵活的个性化编辑：PuLID支特通过简单的文本提示对生成的图像进行细致的编辑，包括但不限于人

物的表情、发型、配饰等，赋予用户更大的创作自由度。

快速出图能力：利用先进的快速采样技术，PuLID能够在极短的时间内生成高质量的图像，大幅提升

了图像生成的效率。

无需精细调整：用户在使用PuLID时，无需进行繁琐的模型调整或参数优化，即可快速获得理想的图

像结果，极大降低了技术门槛。

兼容性与灵活性：PuLID与多种现有的基础模型和身份编码器具有良好的兼容性，使其能够轻松集成

到不同的应用平台中。

GitHub：https://github.com/ToTheBeginning/PuLID

7月17日

比肩GPT-4！国产大模型GLM-4开源！具备多轮对话、内容创作等功能

GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。新一代基座大模型 GLM-4 的整体性能相比上一代大幅提升，十余项指标逼近或达到 GPT-4；支持更长上下文；更强的多模态；支持更快推理速度，更多并发，大大降低推理成本；同时 GLM-4 增强了智能体能力。

基础能力（英文）：/LM-4在MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等数据集上，分别达到GPT-4 94%、95%、91%、99%、90%、100%的水平。

指令跟随能力：/LM-4在IFEval的prompt级别上中、英分别达到GPT-4的88%、85%的水平，在Instruction级别上中、英分别达到GPT-4的90%、89%的水平。

长文本能力：LongBench(128K)测试集上对多个模型进行评测，GLM-4性能超过Claude2.1;在「大海捞针」(128K)实验中，GLM-4的测试结果为128K以内全绿，做到100%精准召回。

GLM-4 ALL Tools

GLM-4实现自主根据用户意图，自动理解、规划复杂指令，自由调用网页浏览器、Code Interpreter代码解释器和多模态文生图大模型，以完成复杂任务。

简单来讲，即只需一个指令，GLM-4会自动分析指令，结合上下文选择决定调用合适的工具。

All Tools-文生图：/LM-4能够结合上下文进行AI绘画创作(CogView3),如下图所示，大模型能够遵循人的指令来不断修改生成图片的结果：

GLM-4能够根据用户提供的Function描述，自动选择所需Function并生成参数，以及根据Function的返回值生成回复；同时也支持一次输入进行多次Function调用，支持包含中文及特殊符号的Function名字。这一方面GLM-4 All Tools与GPT-4 Turbo相当。除了单项工具自动调用外，GLM-4 同样能够实现多工具自动调用，例如结合网页浏览、CogView3、代码解释器等的调用方式。

GitHub：https://github.com/THUDM/GLM-4

DeepFaceLive：实现直播过程或视频通话时的实时面部替换！

DeepFaceLive是一款专门用于实时面部交换的软件，可以在进行直播过程或视频通话时进行实时面部替换。

主要特性：

实时面部交换：用户可以在视频通话或流媒体传输中实时替换自己或他人的面部，使用预训练的面部模型。

视频通话应用：用户可以在视频通话中实时更换自己的面部，使用来自网络摄像头的实时视频或预录视频。

直播应用：在直播时，主播可以更改自己的面部表情或整个面容，以吸引观众或增加互动性。

高质量面部合成

基于DeepFaceLab：DeepFaceLive建立在DeepFaceLab的基础上，后者为当前领先的面部交换框架，确保了合成面部的高质量和真实性。

电影级结果：软件能够产生接近电影质量的面部合成效果，提供高保真的视觉体验。

用户定制化

灵活的管道结构：DeepFaceLive提供了一种灵活和解耦的结构，使用户能够根据自己的需求轻松自定义面部交换的各个方面。

Face Swap(Insight):提供了一个模块，用户可以用单张照片替换视频中的面部。

面部动画器：DeepFaceLive,应用中还包括一个面部动画模块，用户可以控制静态面部图片，通过视频或相机捕捉的自己的面部来操作这些图片。

易于使用的接口：软件设计了简单易懂的用户界面，即便是非技术用户也可以轻松掌握面部交换技术。

详细介绍：https:/www.deepfakevfx.com/downloads./deepfacelive/

GitHub:https://github.com/iperov/DeepFaceLive

前所未有！SignLLM：通过文本描述生成和翻译多语言手语视频！

SignLLM是首个多语言手语数据集及其生成模型，旨在通过先进的人工智能技术生成和翻译多种手语。该项目引入了首个多语言手语数据集，名为Prompt2Sign,并基于比数据集开发了多种生成手语的模型。

Prompt2Sign数据集，包括美国手语(ASL)和其他七种手语。比数据集将大量视频转化为便于模型训练的格式，优化了如seq2seq和text2text等翻译模型的训练。基于该数据集，SignLLM提出了首个多语言手语生成(SLP)模型，具备从输入文本或提示生成手语手势的两种新模式。

项目及演示：https:/signllm.github.io/

论文：https:/arxiv.org/abs/2405.10718v1

GitHub:https://github.com/SignLLM/

7月16日

LlamaFS：基于Lama3，自动整理文件的系统！

LlamaFS是一个自动整理文件的系统。它基于Lama3,可以帮你自动重命名和组织电脑里的文件，并且可根据文件内容和时间等信息，自动给文件重命名并归类。支持多种文件类型，不仅可以整理普通文件，还能处理图片和音频文件。

主要功能

1.文件自动重命名和分类：LlamaFS会根据文件内容自动给文件起名字，并把它们放到合适的文件夹里。

2.隐私保护：有“隐身模式”，保证你的文件不会被泄露。

3.用户友好界面：提供一个易用的界面，你可以在应用建议的整理方案前进行调整。

使用场景

整理下载文件夹：例如，你的下载文件夹可能很乱，LlamaFS可以自动识别文件内容并把它们分类，比如把税务文件放到一个文件夹，把照片放到另一个文件夹。

批量处理：可以一次性处理很多文件，省去你手动整理的麻烦。

实时监控：它可以一直运行，随时整理你新增的文件。

GitHub:https://github.com/iyaja/llama-fs

无需编写代码！RAGapp：轻松构建企业级RAG聊天机器人

RAGapp是一个简便的企业级Agentic RAG)应用，旨在帮助企业用户高效使用人工智能(AI)技术,基于Llamalndex构建，配置简单，可在用户自己的云基础设施中通过Docker进行部署。

例如，如果您正在部署一个供销售人员使用的平台，可以在CM、电子邮件、自定义系统提示模板等中添加自定义工具。然后让销售人员根据自己的需求构建聊天机器人。

主要应用场景

1.企业知识管理：

企业可以使用RAGapp进行内部知识管理，结合信息检索和生成功能，帮助员工快速找到所需信息，并生成相关报告或文档。

2.客户服务：

RAGapp可以用于客户服务系统，帮助客服人员快速检索和生成回答，提高客户服务效率和满意度。

3.内容创作和编辑：

内容创作者和编辑可以利用RAGapp进行资料检索和内容生成，辅助创作高质量的文章、报告和其他文档。

4.数据分折和决策支持：

企业可以通过RAGapp进行数据分析，生成数据报告和决策支持文档，帮助管理层做出更明智的决策。

GitHub:https://github.com/ragapp/ragapp

腾讯开源AI项目：V-Express! 让照片开口唱歌说话！

V-Express是由南京大学和腾讯AI实验室共同开发的一项可以把单张照片变成视频的技术，并且它能够根据不同的信号，如声音、姿势、图像参考等来控制视频内容。它确保了弱信号也能有效地影响最终生成的视频，让视频生成更加逼真和多样化。

功能特点

1.平衡控制信号：V-Express能够同时处理多种控制信号，比如声音、图像参考、姿势等，确保弱信号（如音频)不被强信号（如姿势和图像）掩盖。

2.生成肖像视频：它可以根据一张人物照片，结合音频等控制信号，生成一段人像视频。比如你有一张你的照片和一段你说话的音频，V-Express可以生成一段你说话的视频。

3.渐进式训练：通过逐步增强弱信号的影响力，V-Express能够上这些弱信号在生成视频时起到更大的作用。

能够影响视频生成的各种数据类型，比如声音、姿势、图像参考等。具体来说：

1.声音信号：

理解：当你提供一段声音（例如你说话的音频），V-Express能够分析这个声音信号，并将其转换成视频中的嘴部动作和表情，使生成的视频与你的声音同步。

应用：比如你有一张自己的照片和一段你说话的音频，V-Express能够生成一个视频，视频中的你在说话，嘴型和表情与音频完全匹配。

2.姿势信号：

理解：如果你提供的是一段描述姿势的信号（例如骨架动画或姿势数据），V-Express能够根据这些姿势信号生成相应的身体动作和头部姿态，使视频中的人物按照这些姿势动作。

应用：比如在虚拟会议中，系统可以根据你的动作生成一个虚拟形象，跟随你的实际动作进行演示。

3.图像参考信号：

理解：当你提供参考图像（例如目标人物的照片），V-Express能够根据这个参考图像生成相应的肖像视频，确保生成的人物在视频中与参考图像相似。

应用：比如在电影制作中，使用演员的照片生成虚拟角色的视频，使其外观与真实演员一致。

项目及演示：https:/tenvence.github.io/p/W-express,/

GitHub:https://github.com/tencent-ailab/V-Express

模型下载：https:/huggingface.co/tk93/V-Express

7月15日

ReVideo:允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

ReVideo是一个创新的视频编辑工具，允许用户通过指定内容和运动来精确地编辑视频。与现有的方法不同，ReVideo不仅可以修改视频的视觉内容，还能控制视频中的运动轨迹。

1.内容编辑：用户可以选择视频中的特定区域，并对孩区域的内容进行修改。例如，可以更改某个物体的颜色、形状或添加新的元素。这个修改是通过编辑视频的第一帧来实现的，确保修改内容在后续帧中保持一致。

2.运动控制：用户可以定义视频中对象的运动轨迹。这意味着不仅可以改变视频中物体或人物的外观，还可以控制其在视频中的移动方式。例如，可以让一个静止的物体沿着用户定义的路径移动，或者改变一个已经移动的物体的运动轨迹。

3.综合内容和运动编辑：

ReVideo允许同时修改视频的内容和运动轨迹。例如在修改物体外观的同时改变其运动方式。

用户可以在同一视频中实现复杂的编辑，例如同时改变对象的外和移动方式。

项目及演示：https:/mc-e.github.io/project/ReVideo/

论文：https:/arxiv.org/abs/2405.13865

GitHub:https://github.com/MC-E/ReVideo

视频文章高精度！YOL0v10:毫秒级的实时端到端目杨标检测开源项目！

YOLOV10是一个开源的实时端到端目标检测系统，由清华大学多媒体智能组(THUM1G)开发。意味着从输入图像到输出物体检测结果（包括物体的类别和位置）这一过程是由同一个模型直接完成的，而不需要额外的后处理步骤，如非极大值抑制(NMS).

模型能够在接收到图像或视频的同时，迅速且准确地识别并定位其中的物体，从输入到输出的整个过程由统一的模型直接完成，无需额外的后处理步聚。它在自动驾驶、安防监控、机器人导航等需要快速响应的应用中尤为重要。

YOLOV10能够在保持高精度的同时，大幅度减少计算时间和所需资源。它主要用于自动驾驶、机器人导航等需要快速检测物体的场景。

功能特点

1.实时检测：

高速度：YOLOV1O能够在极短的时间内处理输入的图像或视频帧，通常在毫秒级别内完成物体检测，适用于需要快速响应的应用场景如自动驾驶、安防监控和机器人导航。

低延迟：优化的模型架构减少了处理时间，确保系统能够实时输出检测结果。

2.端到端模型：

统一处理流程：从输入图像到输出检测结果的整个过程由一个统一的模型直接完成，消除了中间的人工干预或额外处理步骤。

无MS依赖：引入一致的双重分配策略，使模型不再依赖非极大值抑制(NMS)进行后处理，从而减少推理时间，提高检测效率。

3.高精度与高效性：

通过优化模型架构和训练策略，Y0L0V10在保持高检测精度的同时，显著减少了计算开销和推理延迟，实现了精度与效率的良好平衡。

4增强的特征提取能力：

大核卷积：利用大核卷积增强模型的感受野，提高特征提取能力，尤其对大型物体的检测更加准确。

部分自注意力模块(PS):引入部分自注意力机制，增强模型的全局建模能力，提高检测准确性和鲁棒性。

GitHub:https://github.com/THU-MIG/yolov10

论文：https://arxiv.org/pdf/2405.14458v1

虚拟试衣！ViViD:视频虚拟试穿技术,可随意替换视频中人物的衣服

ViViD视频虚拟试穿技术旨在通过合成视频让消费者看到衣物穿在自己身上的真实效果。该框架由中国科学技术大学和阿里巴巴集团的研究团队联合开发，利用扩散模型(DiffusioModels)来实现高质量和一致性的试穿视频。

解决了什么问题？

1.时空一致性问题：传统的基于图像的方法应用到视频中会导致时间上的不一致，出现闪烁和伪影。ViViD通过时空模块解决了这一问题，确保视频的连贯性。

2.低质量和模糊问题：现有的视频试穿解决方案通常生成低质量和模糊的结果。ViViD利用广散模型生成高质量的视频，保留了衣物的细节和质感。

3.数据集的限制：现有的视频虚拟试穿数据集普遍分辨率低、种类单一，限制了模型的性能。ViViD构建了一个高分辨率、种类丰富的数据集，显著提升了模型的表现。

主要能力与效果

1.高质量的服装细节保留：ViViD利用服装编码器提取细粒度的服装语义特征，通过注意力特征融合机制，将这些细节准确地注入到目标视频中。这确保了在试穿过程中，服装的颜色、质地和图案等细节都能被高保真地保留和呈现。

2.时空一致性：ViViD引入了姿态编码器和层次化时间模块，以确保视频帧之间的时空一致性。姿态编码器帮助模型理解和处理人体姿态与服装之间的交互，而时间模块则捕捉和整合视频帧间的时间信息，使得生成的视频更加连贯和自然，避免了闪烁和伪影。

3.多种服装类型的支持：ViViD的数据集包含了上身、下身和连衣裙（包括连体衣）等多种服装类型。这使得ViViD能够适用于多种试穿场景，包括上半身、下半身和连衣裙，适应多样化的试穿需求。

4.高分辨率视频生成：ViViD利用收集的新数据集，其分辨率高达832×624，能够生成高分辨率的试穿视频。这确保了视频中的每一帧都具有良好的视觉质量，能够展示出服装的细节和人物的动作。

5.实时视频试穿：基于ViViD的高效训练和推理框架，具有较快的处理速度，能够在合理的时间内完成视频虚拟试穿，适用于实时或近实时的应用场景。

项目及演示：https://becauseimbatmant0.github.io/ViViD

论文：https:/arxiv.org/pdf/2405.11794

GitHub:https://github.com/alibaba-yuanjing-aigclab/ViViD

7月12日

实时面部替换！StreamV2V:可实现视频实时换脸和风格转换

StreamV2V是一个可以实现实时视频转换的工具，能够在一个RTX4090显卡上运行。它可以用来做面部替换，比如将视频中的人脸换成Elon Musk或Will Smith的脸。

主要功能

1.实时视频到视频转换StreamV2V能够在RTX4090GPU上实现实时视频到视频的转换，处理速率达到20FPS。该功能确保视频转换过程中保持高效和低延迟。

实时性：StreamV2V能够处理流媒体输入，实时地将一个视频转换为另一个视频。

流媒体输入：输入的视频可以是实时流媒体视频，比如从网络摄像头传输的视频流。

2.面部交换StreamV2V支持将视频中的人脸替换为其他人的脸，例如Elon Musk或Wil训I Smith。该功能可用于娱乐、虚拟现实等多种应用场景。

3.视频风格化StreamV2V可以将视频转换成不同的艺术风格，包括：

·黏土动画风格：将视频处理成类似于黏士动画的效果。

·涂鸦艺术风格：将视频转换成类似于手绘涂鸦的艺术效果。

项目及演示：https:/jeff-liangf.github.io/projects/streamv2v/

GitHub:https://github.com/Jeff-LiangF/streamv2v

论文：https:/arxiv.org/abs/2405.15757

自然流畅！ChatTTS：支持中英文对话的文本到语音TTS模型！

ChatTTS是一个专门为对话场景设计的文本到语音模型，支特中英文，能生成自然流畅的对话语音。这个项目提供了基础模型和高级控制方法，可以用来生成带有情感和语调变化的语音。用户可以通过基础代码快速上手，也可以根据需要进行高级定制。

该模型经过超过10万小时的训练，公开版本在HuggingFace上提供了一个4万小时预训练的模型，但没有针对任何特定任务或应用场景进行微调。用户可以直接使用这个模型，也可以根据自己的需求，在特定领域的数据上对模型进行进一步微调。

ChatTTS详细主要功能

1.对话式TTS(Conversational TTS)

ChatTTS专为对话任务优化，使得生成的语音自然且富有表现力。它能够支持多种说话人语音，便于互动对话场景的应用。例如，在智能助手或对话机器人中，ChatTTS可以实现多个角色之间的对话。

2.多说话人支持(Multiple Speakers)

ChatTTS具备多说话人支持能力，能够模拟多个不同的说话人。这一特性使其在对话场景中更加真实，并能适应多角色的互动需求。

3.高质量音频(High-Quality Audio)

ChatTTS提供了高质量的语音输出，音频质量在开源TTS模型中名列前茅。这主要得益于模型在大量数据上的训练和优化，确保了输出语音的清晰度和自然度。

GitHub:https://github.com/2noise/ChatTTS

第二大脑！Khoj:开源的个人化AI助手,能连接在线和本地文档

Khoj是一个开源的、个人化的A!助手，旨在充当你的第二大脑。它能够帮助你回答任何问题，不论这些问题是在线上的还是在你自己的笔记中。Khoj支持使用在线A!模型（例如GPT4)或私有、本地的语言模型（例如Llama3)。你可以选择自托管Khoj,也可以使用官方提供的云实例。

主要功能

1.整合知识

·Khoj可以理解你的PDFs、Markdown、纯文本、GitHub和Notion文件，并将它们与在线信息整合在一起。

·语义搜索：在你的文档和笔记中提供快速、准确的语义搜索，帮助你快速找到所需信息。

·支持通过桌面应用程序直接从计算机连接文件，并自动保持同步。

2.替代搜索引擎

·替代网络搜索：Koj可以代替你进行互联网搜索，提供最新的信息，访问互联网，获取实时信息并回答你的问题。让你专注于工作，不需要切换标签页或设备，也不需要筛选链接。

·本地搜索：您的个人数据保留在本地，所有搜索和索引均在本地机器上完成（自托管时）。

·增量搜索：提供增量搜索，支持快速的“边输入边搜索”体验。

3.多平台访问

·Obsidian:集成Obsidian笔记工具，可以直接在Obsidian中使用Khoj的功能。

"Emacs:支持Emacs编辑器，方便Emacs用户调用Al助手。

·桌面应用程序：提供独立的桌面应用程序，用户可以直接在电脑上使用KhO。

·网页：通过刘览器访问Khoj的功能，适合所有设备。

·WhatsApp:支持通过WhatsApp与Khoj进行交互，随时随地使用AI助手。

4.在线与本地模型支持

·在线A!模型：例如GPT4,适合需要高性能和最新技术的用户。

·本地语言模型：例如Llama3,适合注重隐私和数据安全的用户，可以在本地运行，不依赖互联网。

GitHub:https://github.com/khoj-ai/khoj

在线体验：https:l/app.khoj.dev/

7月11日

高效快速！CAT3D：一分钟生成输入图像的高质量3D新视图！

CAT3D是一种使用多视角扩散模型从任意数量的输入图像创建3D场景的方法。它可以从任意数量的图像生成一致的新视图，用于3D重建，达到实时渲染的效果。

该模型通过模拟真实的捕捉过程生成场景的新视角，这些生成的视角可以用于3D重建技术，从而生成可以从任何视角实时渲染的3D表示。整个处理过程（包括视图生成和3D重建）只需一分钟。

主要功能特点

1.多视图生成

CT3D利用一个经过训练的多视图扩散模型来生成一致的新视图，可以从几张图片生成新的图片，这些新图片看起来就像是从不同角度拍摄的一样。

2.设计相机路径

为了更好地创建3D模型，CAT3D设计了多种相机移动路径，以覆盖场景的所有重要部分。可以像人在真实世界中移动相机时那样生成场景的不同视角。这些新视角看起来就像是从不同位置拍摄的照片。

3.稳健的3D重建

CAT3D生成的新图片作为输入，经过稳健的3D重建流程，创建高质量的3D模型。

4.实时渲染

CAT3D生成的3D模型可以实时渲染，适用于游戏、视觉特效和混合现实设备。

具体功能包括：

实时交互：生成的3D模型可以从任意角度进行渲染，支持实时互动。

高质量渲染：生成的3D内容与真实世界高度一致。

项目及演示：https:/cat3d.github.io/

图库：https:/cat3d.github.io/gallery.html

创新技术！T2V-NPR：从文本生成高质量的矢量图形和动画！

T2V-NPR是一种新的技术，可以通过文本描述生成高质量的矢量图形。传统方法存在生成的图形路径交叉或不平滑的问题，而这种新方法通过一种双分支的神经网络(VAE)学习路径的几何属性和视觉特征，从而生成更清晰、更符合预期的矢量图形。这项技术不仅可以生成复杂的矢量图形，还能根据需要进行定制和优化，适用于多种数字艺术创作和设计应用。

主要功能

1.自动生成矢量图形：根据文本描述生成符合几何约束的矢量图形。

2.可调整细节级别的SVG生成：通过调整路径数量，可以生成具有不同抽象水平的SVG。使用较少路径生成简单平坦的风格，增加路径数量则可以增加细节和复杂度。

3.多样风格的$VG生成：通过修改文本提示中的风格相关关键词，或限制路径参数（如填充颜色和路径数量)，可以生成具有多样风格的矢量图形。

4.SVG定制化：基于示例SVG和文本提示，可以定制SVG,同时保留示例的视觉特性。

5.图像到SVG生成：可以从自然图像生成矢量图标，体现了该方法的适应性和灵活性。

6.SVG动画：可以根据描述运动的文本提示，将初始SVG动画化。

GitHub地址：https:/intchous.github.io/T2V-NPR/

论文：https://arxiv.org/abs/2405.10317

4.5K star! Exadel CompreFace：基于Docker开源的人脸识别系统！

Exadel CompreFace 是一个免费的开源人脸识别 GitHub 项目。本质上，它是一个基于 docker 的应用程序，可以用作独立服务器或部署在云中。

从技术角度来看，CompreFace比类以的免费人脸识别解决方案具有多项优势。

您不需要具备机器学习技能即可设置和使用 CompreFace，并且系统提供REST API，用于人脸识别、人脸验证、人脸检测、地标检测、面具检测、头部姿势检测、年龄和性别识别。即使系统只“看过”一次人的照片，也能准确地识别出人的身份。该解决方案还具有角色管理系统，可让您轻松控制谁有权访问您的人脸识别服务。

GitHub地址：https://github.com/exadel-inc/CompreFace

7月10日

2.7K star！Raneto：一款简单高效的开源知识库工具!

Raneto是一个免费、开放、简单的 Markdown 支持的 Node.js 知识库。

Raneto是一款简单高效的开源知识库工具，帮助我们整理知识文档和构建知识体系。它具有简洁直观的界面，可以轻松对文档进行分组管理。而且，它还提供了友好的Markdowi支持，让我们能够以更加方便的编写和刘览技术文档。如果你正在寻找一个简单易用的知识库工具，那么Raneto是值得一试的选择。

Raneto官网:http://docs.raneto.com/

GitHub地址: https://github.com/gilbitron/Ranetol

超越GPT-4，AutoWebGLM：自主完成任务的网页导航智能体！

Auto Agent,即借助1LM(大型语言模型)强大的理解和响应能力，能够自动完成人类世界中的复杂操作，如自动总结最新新闻，自动安排日程等。这种能力不仅能提升生活效率，还将重新界定机器辅助生产力的边界。

AutoWebGLM系统包括两个关键部分：浏览框架和LM Agent。,浏览框架（左侧）使用各种网页处理模块来组织简洁的HTML和其他信息，以便LM Agent做出决策，然后由自动化浏览程序执行。LM Agent(右侧)从多种来源获取的数据中学习，并进一步使用RL(强化学习)和RFT(拒绝采样微调)来提升自身，从而增强网页浏览能力。

论文链接: https://arxiv.org/abs/2404.03648

GitHub 地址: https://github.com/THUDM/AutoWebGLM

医疗专用！Meditron：基于 Llama 完全开源的医学大语言模型

Meditron是一款专为医疗领域设计的开源大模型多模态基础模型套件。它基于Meta Llama2构建，是一种利用人工智能技术来辅助临床决策和诊断的工具。通过提供基于证据的护理建议和具有情境意识的推荐，帮助医疗工作者在诊断和治疗过程中做出更准确的决策。

该模型特别适用于资源有限的医疗环境，能够支持那些最需要但常常被忽视的地区。Meditron解决了几个主要问题，特别是在低资源医疗环境中：

1.信息获取困难：在许多低资源地区，医疗工作者面临信息不足的问题，难以获得最新的医疗知识和指南。Meditron通过提供一个基于最新医疗数据和实践的智能决策支持系统，帮助医生和医疗工作者获得关键的诊断和治疗信息。

2.诊断不准确和延误：医疗误诊和诊断延误在资源有限的地区尤为常见，这往往因为缺乏专业设备或专家知识。Meditron通过其高性能的模型提供准确的诊断支持，改善这一情况。

3.医疗服务不均等：全球医疗资源分布极不均衡，低资源地区的医疗服务质量远低于发达地区。Meditron作为一个开源项目，使得全球任何地区的医疗机构都能够利用这一先进技术，无需重大投资，从而帮助减少全球医疗服务的不平等。

github地址：https://github.com/epfLLM/meditron

7月9日

Chenyme-AAVT: 简单易用的全自动视频翻译工具！

Chenyme-AAVT旨在提供一个简单易用的全自动视频翻译工具，帮助您快速识别声音并翻译生成字幕文件，然后将翻译后的字幕与原视频合并，以便您更快速的实现视频翻译。主要基于OpenAl开发的Whisper来识别声音和LLMs-辅助翻译字幕，利用Streamlit搭建快速使用的 WebUI界面，以及FFmpeg来实现字幕与视频的合并。

主要功能：

1.全自动识别和翻译:对视频或音频中的语言内容进行自动识别和翻译，生成字幕文件。

⒉支持多种语言和模型:支持多种语言识别和翻译，以及使用不同的模型，如推荐使用faster-whisper和大型模型以获得更佳体验。

3.GPU加速和VAD辅助:支持GPU加速以提高处理速度，同时利用语音活动检测(VAD）辅助识别以提升准确性。

4.多种字幕格式输出和预览:支持输出多种字幕格式，并提供字幕预览以及视频预览功能。

5.高级功能:支持字幕编辑、二次精翻，以及视频内容的总结和问答等AI辅助功能。Github:https://github.com/Chenyme/Chenyme-AAVT

前特斯拉Optimus科学家带队！开源LeRobot:AI实体机器人代码库！

**LeRobot：一个机器人的“图书馆”！**此次推出的LeRobot开源代码库旨在为Pytorch框架下的现实世界机器人提供模型、数据集和工具，目标是降低进入机器人技术的门槛，以便每个人都可以做出贡献，并从共享数据集和预训练模型中受益。

LeRobot不仅仅是一个软件包，而是一个综合平台，其中包括用于共享、可视化数据和训练最先进模型的多功能库。具体而言，LeRobot开源数据库提供了一组预训练模型、包含人类收集演示的数据集，以及无需组装机器人即可使用的模拟环境，以为机器人在现实世界中的动作提供更多的支持。

它与物理模拟器无缝集成，让没有物理机器人硬件的爱好者和开发人员可以在虚拟环境中模拟和测试他们的人工智能模型，目标是提供一个可以适应和控制任何形式的机器人的AI系统，从而实现机器人应用的多功能性和可扩展性。

Remi Cadene在推文中表示，LeRobot之于机器人就像Transformer架构之于NLP——它提供带有预训练检查点的高级AI模型的简洁实现。他们还复现了来自学术界的 31 个数据集和一些模拟环境，无需实体机器人即可开始使用。

github：https://github.com/huggingface/lerobot

6.2K star！Reor：基于AI的知识管理工具，轻松构建“第二大脑”

Reor:—个基于Al的开源桌面笔记应用,可以作为个人知识管理工具，帮助你构建自己的"第二大脑"。它能够自动将你写的每条笔记分块并嵌入到一个内部向量数据库中，帮助你自动组织和连接你的想法,其内置的LLM能够针对你的笔记进行检索式问答(RAG)，回答基于笔记内容的查询。

主要功能包括：

1、自动链接相关想法: Reor能够自动将你写的每条笔记分块并嵌入到一个内部向量数据库中，通过向量相似度自动连接相关笔记，可以自动将笔记中的相关内容链接起来，帮助你组织和连接思维。

2、LLM支持的问答:应用内置的大语言模型能够在你的笔记集合上执行检索式问答(RAG)，帮助回答基于笔记内容的查询。

3、语义搜索功能: Reor提供了语义搜索能力，使得用户可以基于内容的语义而非仅仅是关键词进行搜索，提高了搜索的准确性和相关性。

下载: https://www.reorproject.org/

GitHub: https://github.com/reorproject/reor

7月8日

Flowise ：LLM开源低代码工具、可视化LangChain、可定制AI Agent

Flowise，它基于LangChain.js提供了丰富的内置组件，方便我们通过拖拉拽的方式，以非常直观可视化的方式快速构建属于我们自己的聊天机器人、智能客户、知识问答等应用。同时，也可以非常方便的集成到自己的产品中去。

同时Flowise也是一个非常先进的图形用户界面，用于开发基于 LLM 的应用程序。这些应用程序也称为 Gen Apps、LLM Apps、Prompt Chaining、LLM Chains 等。

Flowise 是专门为 LangChain 打造的用户界面 (UI)，利用了 React-Flow 技术。其目的是提供一个无缝平台，用于轻松进行流程实验和原型设计。用户可以享受拖放组件和聊天框功能的便利，以增强他们的体验。

github：https://github.com/FlowiseAI/Flowise

高速精确！rembg：一键批量智能抠图经典AI开源项目

Rembg是一款公开源代码的工具，擅长高速且精确地从图片中剥离背景。它常以内置于StableDiffusion WebUI插件的形式运作，为用户提供了无与伦比的操作便利性，仅需几次点击，即可实现图片背景的透明化处理。这一特点极大地方便了设计师、艺术家、市场推广专员以及所有需要迅速处理图像背景的人群。

功能特性：

1.自动背景去除：最核心的功能是自动且准确地识别并移除图片中的背景，无需手动选择或绘制区域，大大节省了编辑时间。

⒉高精度边缘处理：即使是对毛发、透明物体或复杂边缘的处理，Rembg也能保持较高的精度，减少人工后期修正的需求。

3.输出透明背景：处理后的图片可以输出为PNG格式，带有透明背景，方便用户在不同背景下使用图片，增加了编辑灵活性。

4.速度高效：利用机器学习算法，Rembg能快速处理图像，即便是处理高分辨率图片也拥有较快的处理速度。

github：https://github.com/danielgatis/rembg

歌曲制作！suno-AI：音乐生成API接入开源项目

Suno Al是一款音乐生成Al，号称音乐界的ChatGPT。前不久刚发布了v3，效果很惊艳。一些场景可以直接用来出音频了。

该Al音乐生成器由来自Meta、TikTok、Kensho 等知名科技公司的团队成员开发，目标是不需要任何乐器工具，让所有人都可以创造美妙的音乐。

GitHub:https://github.com/SunoAI-API/Suno-API

7月5日

快速转换! Buzz：完全免费、无需登录的语音转文字工具

Buzz是一款可以自动识别语音为文本字幕的软件工具，基于OpenAl开源的 Whisper自动语音识别模型，可以批量将音频或者是视频中的内容自动转化为带有时间的字幕，速度非常快，是一款能极大提高效率的生产力小工具。

Buzz语音转文字工具的特点：

1.高准确率:基于OpenAl开源的Whisper自动语音识别模型，这是一款非常强大的机器学习模型

2.转换速度快:Buzz的模型都离线存在本地，转换过程无需联网，因此转换速度很快，适合批量转换语音跨平台支持 Windows / macOs / Linux

3.不仅支持中文，也支持很多个国家的语言，还能将结果翻译，不过只能翻译成英文

github：https://github.com/chidiwilliams/buzz

最强中文智者！Llama3中文资料库，集合了与Llama3模型相关的各种中文资料

Llama3中文聊天项目综合资源库，集合了与Llama3模型相关的各种中文资料，包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。

1.多版本支持与创新:该仓库提供了多个版本的Llama3模型，包括基于不同技术和偏好的微调版本，如直接中文SFT版、Instruct偏好强化学习版、趣味版等。此外，还有Phi3模型中文资料仓库的链接，和性能超越了8b版本的Llama3。

2部署与使用:项目提供了网页部署的代码和教程，使用户可以轻松地在网页上使用这些模型。部署教程包括如何在Streamlit上部署这些模型进行在线体验。

3.训练与推理资源:除了已经提供的模型，仓库还包括多种训练和推理的资源，如训练教程、推理脚本、优质训练数据集的整理等。

4.扩展和增强∶项目还在计划中包括增加更多的扩展如角色扮演增强模型、长上下文支持等，旨在提升模型的功能和适应更多复杂场景的能力。

GitHub仓库地址: https://github.com/CrazyBoyM/llama3-Chinese-chat

AI驱动! Chat2DB:通过自动化和智能化的工具简化复杂的数据处理！

Chat2DB是一个由AlI驱动的数据管理平台，目标是简化和增强数据库操作的流程。该项目已经吸引了超过一百万开发者的使用，并且在GitHub上获得了大量的关注和支持。

Chat2DB主要解决的是数据库管理的复杂性问题，通过自动化和智能化的工具简化数据库的查询和管理操作，使非技术用户也能轻松处理复杂数据，同时也为专业开发者提供强大的支持，提高他们的工作效率。

全链路数据管理平台：

无论数据存储在何处，Chat2DB都能无缝对接，支持关系型和非关系型数据库，实现一站式管理。

提供数据库表结构的可视化管理，支持数据库的查询、创建、修改、删除等操作。

通过这种方式，Chat2DB使数据管理变得更加高效和易于控制，为用户提供了一个强大且灵活的工具，以支持他们的数据需求。

让没有技术背景的普通人也能轻松进行数据开发和分析。通过人工智能技术，使得用户可以使用自然语言来处理和查询数据，无需深入了解复杂的数据库语言或编程技能。这样，任何人都可以探索数据，发现有用的信息，并做出基于数据的决策。

模型下载：

huggingface: Chat2DB-SQL-7B

modelscope: Chat2DB-SQL-7B

GitHub: https://github.com/chat2db/Chat2DB

7月4日

精准提取！VimTS：自动识别并精确提取图像或视频序中的文本信息

VimTS，一种先进的文本检测工具，专门设计用于同时处理视频和图像中的文本。它通过一种新的方法来提高视频和图像中文本标注的准确性，特别是在不同类型的数据之间转换时。这项技术有助于减少为视频标注文本而需的人工标注工作，从而节省大量时间和资源。

VimTS不仅能处理图像中的文本，也特别适用于视频中文本的动态识别，提供了一种综合性强、适应性高的解决方案。它的这些能力使得它在自动驾驶、自动化监控、内容制作和多语言通讯等多个领域都有实际的应用价值。

项目及演示: https://vimtextspotter.github.io/

论文: https://arxiv.org/abs/2404.19652

GitHub: https://github.com/Yuliang-Liu/VimTS

高精度！MistoLine:将手绘草图直接生成高质量图像！

MistoLine是一个基于SDXL-ControlNet的模型，专注于实现对不同类型线稿的灵活适应和高精度图像生成。它能够利用用户提供的各种线稿作为输入，包括手绘草图、不同预处理器生成的线稿以及模型自动生成的轮廓线。

广泛应用场景：

手绘草图渲染:用户可以通过手绘草图进行高质量图像渲染，保持手绘线条的灵活性。

图像风格化转换:通过线稿输入，可以将原始图像转换为不同的风格，适用于艺术风格创作和漫画生成。

中国(大陆地区)便捷下载地址:

链接: https://pan.baidu.com/s/1DbZWmGJ40Uzr3Iz9RNBG\_w?pwd=8mzs

提取码:8mzs

模型地址: https://huggingface.co/TheMistoAl/MistoLine

GitHub: https://github.com/TheMistoAl/MistoLine

开源助手！Danswer:可以与企业内部知识库、文档和人员连接的AI工具

Danswer是一款开源的Al助手工具，旨在帮助企业快速查找和使用内部知识。它通过与团队的文档、应用程序和人员数据相连接，提供类似于ChatGPT的聊天体验。

Danswer可以部署在笔记本电脑、本地服务器或云端，并且用户拥有全部的部署和数据控制权。它支持与任何大型语言模型(LLM）集成，并通过MIT许可开放源代码。

主要功能：

1.聊天与搜索：提供聊天界面，能快速搜索和回答问题，同时支持连接到常见的办公工具如Slack、Google Drive、Confluence等。

2.个性化Al助手：定制不同提示和知识集的Al助手，以满足各种需求。

3.连接任何LLM：支持连接各种LLM，包括自托管，确保完全隔离。

4.搜索和AI回答：结合文档搜索和自然语言查询的Al回答。

5.自托管与数据安全：用户可以将Danswer部署到任何地方，所有聊天和数据都完全在用户的控制下。

6.用户验证与访问控制：提供用户验证功能，并能在文档层面控制访问权限。

官网: https://www.danswer.ai/

GitHub: https://github.com/danswer-ai/danswer

7月3日

腾讯开源！混元DiT模型：支持中英双语文本生成高分辨率、高质量的图像

混元DiT是腾讯推出的一款先进的文本到图像生成模型，它基于扩散变换器(Diffusion Transformer)技术构建。该模型特别设计以处理中英双语文本，能够根据详细的文本提示生成高分辨率、高质量的图像。混元DiT在多个维度上进行了创新和优化，使其在图像生成领域尤其在处理中文内容方面表现出色。

功能特点

1.双语文本理解:

语言模型:混元DiT结合了双语CLIP和多语言T5文本编码器，这使得模型不仅能理解中文和英文，还能抓住语言中的细微差别，如语境、句式复杂性等。

细粒度理解:模型对文本的理解达到了细粒度水平，能精确解释和转换包含丰富细节和深层含义的长文本描述。

2.多分辨率和高质量图像生成:

多分辨率支持:模型支持生成不同分辨率的图像，适应从移动设备到高清显示器的多种显示需求。

图像质量:通过先进的生成网络和优化算法，生成的图像在视觉上质量上乘，能够达到接近真实的效果。

3.多轮对话能力:

交互式生成:用户可以通过多轮对话与模型互动，逐步细化和调整图像内容，使最终生成的图像更贴近用户的初衷。

上下文感知:模型能够理解并记忆对话历史中的上下文，以此为基础生成或修改图像。

4.系统性能优化:

训练和推理优化:采用了如ONNX图优化、内核优化等多种工程技术，大幅提高了模型的运行效率和响应速度。

成本效率:在推理阶段通过算法加速和资源优化降低部署成本，使模型在实际应用中更具成本效益。

项目及演示: https://dit.hunyuan.tencent.com/

论文:https://arxiv.org/pdf/2405.08748

GitHub: https://github.com/Tencent/HunyuanDiT

模型: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

艺术新纪元 ! ChatMusician:能够理解和生成音乐的大语言模型

ChatMusician能自动生成结构完整、风格多样的音乐作品,包括单声部旋律、和声编配，乃至完整的乐曲结构设计,同时它还能理解和分析音乐理论的各个方面。

ChatMusician通过持续的预训练和微调LLaMA2，结合了文本兼容的音乐表示方式—-ABC符号，使得模型能够像处理语言文本一样理解和生成音乐。

主要功能：

1.音乐生成: ChatMusician能够根据给定的文本提示、和弦序列、旋律线索、音乐主题或形式等条件，自动生成结构完整、风格多样的音乐作品。这包括单声部旋律、和声编配，乃至完整的乐曲结构设计。性能超过GPT-4基线。

⒉音乐理解:该模型不仅能创作音乐，还能理解和分析音乐理论的各个方面，如和声分析、旋律结构、音乐形式等。这使得ChatMusician可以在音乐教育和理论分析中发挥作用。

3.资源共享:项目提供了大规模的音乐-语言语料库(MusicPile)、音乐理论基准测试(MusicTheoryBench)、模型代码和在线演示，供研究和教育使用。

GitHub:https://github.com/hf-lin/ChatMusician

49.4Kstar! faceSwap：AI视频/图片换脸神器

FaceSwap是一个利用深度学习技术来识别和交换图片和视频中人脸的工具。该项目提供了一种创新的方法，使用户能够进行人脸交换，并在图像和视频中实现身份变换和面部表情转换。

Faceswap的应用场景

Faceswap的应用非常广泛，既可以用于娱乐和艺术创作，也可以用于影视制作和特效产生。下面是Faceswap技术在不同领域的应用示例:

1.娱乐和艺术创作:Faceswap可以用于制作有趣的照片和视频，使用户能够将自己的脸部特征与名人、角色或动物等进行交换。这种技术可以用于制作搞笑的图片、制作创意艺术作品或生成有趣的社交媒体内容。

2.影视制作: Faceswap在影视制作中扮演着重要的角色。它可以用于数字特效和妆容效果，例如将一个演员的面部特征与替身演员进行交换，使得观众无法察觉到替身的存在。这种技术还可以用于恢复历史上的人物形象，使他们在电影中复活或重新出现。

3.隐私保护和安全:Faceswap技术也引发了隐私和安全方面的担忧。它可以被用于欺骗系统，例如通过伪造身份进行非法活动或诈骗。为了应对这些问题，研究人员和开发者也在努力提供相应的解决方案，例如开发检测和对抗Faceswap技术的方法。

github地址：https://github.com/deepfakes/faceswap

7月2日

ChatGPT-Plus:一套完整的Al助手开源方案自带运营管理后台！

ChatGPT-Plus是一套完整的Al助手开源解决方案，自带运营管理后台，开箱即用。该项目集成了ChatGPT、Azure、ChatGLM、讯飞星火、文心一言等多个平台的大语言模型，并支持MJAl绘画、Stable Diffusion Al绘画、微博热搜等插件工具。

主要功能包括：

1.多语言模型集成：支持OpenAl、Azure、讯飞星火、文心一言和清华ChatGLM等多个大语言模型。

2.Websocket通信：采用Websocket进行数据传输，确保实时性和连贯性，提供打字机般的流畅体验。

3.内置角色应用：预设多种角色模式，如小红书写手、英语翻译大师、苏格拉底、孔子、乔布斯等，以满足不同的交流和应用需求。

4.Al绘画功能：集成了MidJourney和Stable Diffusion Al绘画功能，支持生成高质量的艺术图像。

GitHub地址:https://github.com/yangjian102621/chatgpt-plus

Lama Cleaner：可本地运行的免费开源的图片擦除、修复神器

Lama Cleaner是一款完全免费开源，而且没有分辨率限制的图片去水印、修复工具。Lama Cleaner，内置了多种Al模型构建，功能相当的齐全。可用于快速去除图像中各种水印、物品、人物、字体、等对象，并支持老照片修复、文本替换图像内容等。

功能展示：

1.去除路人

2.对象替换

原图：

替换后:

GitHub地址: https://github.com/Sanster/lama-cleaner

MagnificAI平替？SUPIR：让任何图片免费高清放大！

SUPIR (Scaling-UP lmage Restoration）是一个突破性的图像修复和画质增强方法，利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术，通过深度学习和多模态方法，实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制，能够根据用户的输入调整恢复的各个方面，如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的研究人员共同推出。

案例演示：

原图

高清修复后：

GitHub:https://github.com/Fanghua-Yu/SUPIR

7月1日

当AI遇上爬虫!ScrapeGraphAI:更高效的网络抓取Python库!

ScrapeGraphAl是一个革命性的Python库，代表了网络抓取领域的重大进步,它利用大型语言模型(LLMs)的强大功能和直接图形逻辑来创建灵活且适应性强的Web抓取管道。

脱颖而出的原因：

1.直接图逻辑︰此功能使用基于图的方法动态创建爬取管道，确保基于用户定义的提示实现高效的数据检索。

2.多功能模型和API: ScrapeGraphAl支持各种模型和API，包括OpenAlI的GPT、Docker、Groq、Azure等，允许用户根据自己的抓取需求选择最佳选项。

3.灵活性和适应性︰传统的网页抓取工具通常依赖于固定模式或手动配置来从网页中提取数据。ScrapeGraphAl由LLMs提供支持，可适应网站结构的变化，减少开发人员持续干预的需要。

4.易于安装︰通过简单的pip install 命令，用户可以快速设置ScrapeGraphAl并开始从网站、文档和XML文件中抓取数据。

GitHub:https://github.com/VinciGit00/Scrapegraph-ai

开源 Sora Web-UI，文本在线生成视频

SoraWebui 是一个开源项目，通过允许用户使用文本在线生成视频，使用 OpenAI 的 Sora 模型简化视频创建，具有简单的一键网站部署功能。

github地址：https://github.com/SoraWebui/SoraWebui/tree/main

demo地址：https://sorawebui.com/zh/playground

OpenAl发布免费新品GPT-4o:可对音频、视觉和文本实时推理，与人自然对话！

OpenAl刚刚发布了GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。它的速度比GPT4-turbo快⒉倍，价格便宜50%!

根据传统的基准测试，GPT-4o在文本、推理和编码智能方面的性能达到了GPT-4Turbo的水平，同时在多语言、音频和视觉功能方面也创下了新高。

GPT-4o的新功能：

体验GPT-4级别的智能

从模型和网页获取响应

分析数据并创建图表

讨论拍摄的照片

上传文件以获取摘要、写作或分析帮助

发现并使用GPT和GPT商店

通过“记忆"构建更有帮助的体验

主要特点与功能：

模型优势：/PT-4o是最新的旗舰模型，具有GPT-4级别的智能，但速度更快，且在文本、语音和视觉方面的能力得到了显著提升。

图像理解与讨论：/PT-4o在理解和讨论用户分享的图像方面表现优于任何现有模型。例如，用户可以拍摄不同语言的菜单，与GPT-4o对话以翻译、了解食物的历史和重要性，以及获取推荐。

即将推出的语音模式：未来的改进将支持更自然的实时语音对话和通过实时视频与ChatGPT对话的能力。例如，用户在观看现场体育赛事时，可请求ChatGPT解释规则。计划在未来几周内以 alpha版本推出新的语音模式，并向Plus用户提供早期访问。

项目地址: https://openai.com/index/hello-gpt-4o/

6月28日

探索强大！Vtracer：将图片转化为矢量 SVG 图形的免费开源工具

VTracer是由visioncortex团队开发的一款创新的开源软件О，致力于将位图(如JPG和PNG)转换为矢量图形(SVG)。这个工具不仅能够矢量化图形和照片，还能追踪曲线以输出紧凑的矢量文件。它的设计初衷是处理历史蓝图的高分辨率扫描，但同时也适用于低分辨率像素艺术，可以模拟复古游戏艺术品的"image-rendering: pixelated"效果。

VTracer与经典的Potrace相比，有显著的技术优势。它拥有图像处理管道，能够处理彩色的高分辨率图像，而Potrace仅接受二值化输入(黑白像素图)。在算法效率方面，Potrace使用的是o(n^2)拟合算法，而VTracer则实现了全程o(n)的时间复杂度，这意味着VTracer在处理大规模数据时更为高效。

应用场景

VTracer的应用广泛，包括：

1.历史文化资料数字化:用于高清晰度扫描的历史蓝图和其他重要文档的矢量化。

2.设计工作:为设计师提供了一种快速将草图或照片转化为可编辑矢量图形的方法。

3.游戏开发:将像素艺术作品转换为可缩放的矢量图形，适应不同屏幕尺寸。

4.印刷行业:用于高精度的图案转印前的预处理。

GitHub：https://github.com/visioncortex/vtracer

AnythingLLM：可打造成企业内部知识库的私人专属 GPT

AnythingLLM是一个开源的、可定制的、功能丰富的文档聊天机器人。它专为那些希望与之智能对话或利用现有文档构建知识库的任何人设计。

AnythingLLM不仅是一个高效、可定制的开源企业级文档聊天机器人解决方案，同时也是一个全能的应用。它能够将任何文档、资源或内容片段转化为大语言模型(LLM）在聊天中可以利用的相关上下文。该应用允许用户选择并配置要使用的LLM或向量数据库，并支持多用户管理及权限控制，以确保数据安全和高效协作。

https://weibo.com/ttarticle/p/show?id=2309404982825190555806

github地址:https://github.com/Mintplex-Labs/anything-llm

全息AI数字人开源方案！只需4个摄像头即可实现全息角色传送！

马克斯·普朗克信息学研究所、萨尔大学和萨尔布吕肯视觉计算、交互与人工智能研究中心合作，提出了一种新的实时渲染方法。它只需要4个摄像头视角和3D骨骼姿势，即可捕捉到人类运动的细节，包括衣服褶皱、面部表情和手势。同时可以实时以4K分辨率呈现人类的高度逼真的自由视角视频。

主要功能包括：

1.实时自由视角呈现：仅需4个稀疏摄像头视角和3D骨骼姿势数据，即可在4K分辨率下实时生成角色的自由视角视频。

2.高精度动态建模：利用骨骼驱动的神经网络精确捕捉人体的动态几何形状，呈现衣物褶皱、面部表情和手势等细节。

3.依视角变化的纹理映射：从4个摄像头视角创建依视角而变的纹理，准确重现角色的动态纹理细节。

4.图像优化与4K渲染：基于图像的优化网络生成高分辨率的最终视频画面，确保呈现效果逼真和细腻。

主要技术方法可以简单理解为：

1.骨骼模型驱动：通过使用人的骨骼姿势数据，计算机会创建一个跟踪人体运动的虚拟模型。

2.多角度纹理映射：从不同角度的摄像头视角，将捕捉到的图像映射到虚拟模型上，让模型呈现逼真的外观。

3.纹理增强：使用神经网络进行纹理处理，将多角度的图像数据结合起来，生成细节丰富的纹理效果，比如衣服的褶皱和面部表情。

4.图像优化：最终，模型会被渲染成4K的超高分辨率画面，确保虚拟角色在画面中看起来细腻、真实，甚至可以处理复杂的服装或姿势。

项目及演示: https://vcai.mpi-inf.mpg.de/projects/holochar/

论文: https://arxiv.org/abs/2312.07423

GitHub: https://github.com/ashwath98/deepcharacters

6月27日

AniTalker: 一张照片和输入音频生成生动的能说话的面部视频

AniTalker通过一个静态的肖像画和输入音频，生成生动多样的说话面部动画视频。该框架不仅仅着重于嘴唇同步这样的言语线索，而且能够捕捉到面部表情和非言语线索的复杂动态。

AniTalker能实现的效果包括：

1.面部动画生成：通过输入静态的人像和音频信号，AniTalker可以生成说话的面部动画。这种动画不仅包括口型同步，还包括与说话内容匹配的面部表情和头部动作。

2.多样化和可控性：集成的扩散模型和方差适配器允许生成具有高度多样性和可控性的动画。这意味着可以根据不同的输入和参数设置，生成各种不同表情和动作的面部动画。

3.真实感和动态表现： AniTalker的动画不仅外观真实，动作流畅，还能很好地捕捉细微的面部动态和复杂的非言语信息，如眨眼、微笑等。

4.长视频生成：AniTalker 可以生成较长的面部动画视频，演示视频显示，最长可以超过3分钟，适用于多种应用场景，如虚拟助理、数字人物表演等。

项目及演示:https://x-lance.github.io/AniTalker/

论文: https://arxiv.org/abs/2405.03121

GitHub: https://github.com/X-LANCE/AniTalker

Ctrl-Room:基于室内场景布局可编辑的文本生成3D室内设计！

Ctrl-Room:从简单的文本描述生成3D室内场景,生成的3D房间包含设计师风格的房间布局,和高保真的房间纹理。Ctrl-Room生成的房间网格支持用户交互式编辑,例如拖拽、缩放、替换某个家具等操作。

我们的关键思考是在生成过程中,把房间布局和房间纹理分成两个阶段：

在房间布局生成阶段：我们把房间整体布局用holistic scene code参数化,然后训练了一个文本驱动的扩散模型来学习房间的整体布局。

**在纹理生成阶段,**我们以布局生成阶段得到的纹理作为条件,微调一个预训练的controlnet模型来生成一张高保真的全景图,来表示房间的纹理。

通过这种方法,我们可以得到一个既符合常理的房间布局,又有高保真的纹理的3D房间模型.更重要的是,得益于scene code参数化方式,我们可以很方便的编辑房间中的某个物体,然后在全景图上使用本文提出的mask-guided editing方法实现编辑操作。

GitHub:https://fangchuan.github.io/ctrl-room.github.io/

智能聊天！AIChat Web:开源的大模型后台管理平台！

AlChatWeb是一个基于深度学习技术的开源在线聊天系统，旨在为用户提供与人工智能进行自然语言交互的能力。该项目利用先进的自然语言处理(NLP)模型和机器学习算法，打造了一个友好、互动性强的聊天体验，让开发者可以轻松集成到自己的应用中，或作为一个独立的聊天机器人平台使用。

项目优势

1、零基础，不会高敲代码也可以搭建

快速:项目提供一键部署脚本，采购服务器后只需执行一键部署脚本即可搭建，整个过程最快不超过3分钟。简单部署后，进入提供的管理后台，即可定义自己站点的内容，无需修改任何代码，无需构建部署环节，即改即生效。

2、高度自定义

项目提供方便易用，成熟稳定的管理后台(基于vue-element-admin)，绝大部分内容可以在后台直接设定。

GitHub地址：https://github.com/vastsa/AlChatWeb

6月26日

anime.gf：一个开源的AI动漫女友互动聊天项目！

Animegf一个本地且开源的工具,提供了一个与虚拟角色互动的平台,类似于CharacterAl。它提供了一个用户友好的、多API支持的大型语言模型(LLM)前端界面,允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色,让每个虚拟角色都有自己的狼虫特个性和语言风格,使得与之对话感觉像是与一个真实的个体交流。可以接入OpenAl、Anthropic、Mistral和TogetherAl等模型。

GitHub地址：https://github.com/cyanff/anime.gf?tab=readme-ov-file

IC-Light:图像重新照明！根据文本提示或背景图参考重新生成特定光照的图像！

IC-Light是一款用于操纵图像照明效果的开源项目，全称为"Imposing Consistent Light"。它当前提供两类模型:文本条件重照明模型和背景条件模型，两种模型都需要以前景图像作为输入。

功能特点:

1.文本条件模型：用户可以输入文本提示词(如“左侧光线"、“日光")，模型通过这些提示词和初始潜变量生成具有特定光照方向和特征的图像。

2.背景条件模型：通过结合背景提示信息，可以对前景物体进行不同风格的光照变化，而无需复杂的提示词。

3.一致的照明：利用HDR(高动态范围)图像中光线传播的独立性，使不同光源的混合效果与混合光源产生的效果一致。该方法通过在模型训练期间引入MLP(多层感知器）来实现一致的光照，使模型能够产生具有高度一致性的重照明效果。

GitHub: https://github.com/lllyasviel/IC-Light

ChatGPT-On-CS:基于大模型智能对话的AI客服工具！

ChatGPT-On-CS是基于大模型的智能对话客服工具，支持微信、千牛、哗哩哗哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入，可选择GPT3.5/GPT4.0(后续会支持更多平台)，能处理文本、语音和图片，通过插件访问操作系统和互联网等外部资源，支持基于自有知识库定制企业AI应用.

注:本项目只是一个用于对接外部平台的客服工具，不提供任何平台的账号，需要自行准备。并且知识库功能也需要自行准备，该项目目前只支持的OpenAl的API接口(或代理)接入

Github:https://github.com/cs-lazy-tools/ChatGPT-On-CS

6月25日

本地运行！Windrecorder:记录屏幕内容，实现记忆搜索！

Windrecorder是一款通过记录屏幕上所有内容、从而实现记忆搜索的应用。它可以根据OCR文本、或对画面的描述进行搜索，摘要浏览活动。它的所有能力都完全运行在本地，无需联网或上传任何数据，你完全拥有所有数据。

Windrecorder目前可以做到:

以较小的文件体积稳定持续地录制屏幕。只索引发生变化的画面，记录其OCR文本、页面标题等信息到数据库;在无人使用电脑时，自动维护数据库、清理、压缩视频。

完善的webui界面，可以回溯画面、进行OCR/图像语义等查询;提供活动统计、词云、时间轴、光箱、散点图等数据摘要。

支持多语言。目前内建有:简体中文、English、日本晤。

开源地址: github.com/yuka-friends/Windrecorder

开源框架！CrewAI:让AI像一个精密运作的团队，自主代理！

在CrewAl框架中，任务是代理负责完成的个人分配。它们是人工智能团队将承担的基本工作单元。了解如何定义和管理任务是充分发挥CrewAI潜力的关键。CrewAl 中的任务封装了代理执行该任务所需的所有信息，包括描述、分配给它的代理以及所需的任何特定工具。任务设计灵活，可根据您的需要进行简单和复杂的操作。

主要特性：

基于角色的代理设计：为代理自定义具体的角色、目标和工具。

自治的代理间委派：代理可以自主地委派任务并相互询问，提高解决问题的效率。

灵活的任务管理：使用可自定义的工具定义任务并动态地分配给代理。

流程驱动：目前仅支持sequential任务执行，但正在开发更复杂的如共识和层级等流程。

Github:https://github.com/joaomdmoura/crewAI

16.7Kstar！Open-Sora：国产开源的视频生成模型！

国产技术团队Colossal-Al开源了视频生成模型Open-Sora1.0,该模型继承并超越了OpenAl Sora的优异视频生成效果，通过提供一个低成本且高效的训练及推理复现流程，极大降低了技术门槛。

Open-Sora的架构采用了Diffusion Transformer (DiT）模型，结合时间注意力层，优化了对视频数据的处理。通过预训练的VAE和文本编码器，以及空间-时间注意力机制的应用，实现了高效的空间布局和时间序列关联的学习。此外，模型还引入了多阶段训练策略，包括大规模图像预训练、视频预训练及高质量视频数据的微调，有效提升了视频生成的细节和质量。

GitHub:github.com/hpcaitech/Open-Sora

6月24日

完全开源！Agently：AI新闻汇总报告生成器，根据关键词自动输出！

Agently新闻汇总报告生成器是一个基于Agently AI应用开发框架开发的应用项目。本项目构建了基于大语言模型驱动的全自动工作流，能够根据用户输入的主题关键词，自动完成新闻汇总报告的结构设计、栏目组稿（含新闻检索、筛查、总结、栏目信息撰写）及报告MarkDown格式文件的输出全过程。同时，本项目完全开源，欢迎开发者们共同优化。

GitHub地址：https://github.com/AgentEra/Agently-Daily-News-Collector

StoryDiffusion：开源的AI故事创作项目，支持生成剧情漫画和故事视频！

StoryDiffusion可以通过生成一致的图像和视频来创建一个神奇的故事。我们的工作主要有两个部分：

一致的自我关注，用于长距离序列上的字符一致的图像生成。它是可热插拔的，与所有基于SD1.5和SDXL的图像扩散模型兼容。对于当前的实现，用户需要为一致的自我关注模块提供至少3个文本提示。我们建议至少5-6个文本提示，以便更好地安排布局。

用于长距离视频生成的运动预测器，在压缩的图像语义空间中预测条件图像之间的运动，实现更大的运动预测。

官方地址：https://storydiffusion.github.io/

github地址：https://github.com/HVision-NKU/StoryDiffusion

huggingface：https://huggingface.co/spaces/YupengZhou/StoryDiffusion#/

高效渲染！LoG:百万平方米大场景的3D实时视图合成！

LoG(Level of Gaussians)是浙江大学3DV小组提出的一个新型的3D场景高效渲染方法。**该方法旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。**LoG的主要创新在于采用类似细节层次(LOD)的思想来有效渲染3D场景，通过树状结构存储高斯原始体，并通过端到端的方式从图像重建这些结构，实现场景的高效渲染。

功能特点:

1.实时渲染大规模场景：LoG技术可以处理和渲染数百万平方米的大规模3D场景，并且保持实时的渲染性能。这对于需要快速加载和响应的应用，如虚拟现实和交互式模拟，尤为重要。

2高质量视觉效果：尽管在渲染过程中减少了不必要的细节，LoG依然能够在观看者视野中提供高分辨率和高质量的视觉效果。这意味着即便是在广阔的场景中，用户也能体验到丰富的视觉细节和真实感。

3.广泛的应用适用性：LoG的这些特性使其非常适合于各种需要大规模、高质量和实时渲染的应用，包括但不限于游戏开发、电影制作、城市规划和虚拟旅游等领域。

GitHub：https://github.com/zju3dv/LoG

6月21日

2.9K star！！免费白嫖使用 Kimi 等的LLM国产大模型API接口！

最近一段时间，国产大模型kimi 火了，起因是它的200万字超长上下文输入，这使得它能够处理和分析大量的文本信息，为用户提供深度的理解和分析。

kimi是一款国产智能大模型，可快速阅读和分析内容，支持中英文对话。**作者通过搭建kimi-free-api获取API，将其接入ChatNio项目实现自部署。**kimi具备多种功能，如问答、文件阅读、网页解析等，且响应速度快。作者推荐使用极空间Z423部署，并分享了获取key和设置过程。kimi因免费试用、模型大、响应快等特点受到欢迎，可视为国内用户的GPT4.0平替。

github地址： https://github.com/LLM-Red-Team/kimi-free-api

完全开源！FunClip：阿里达摩院推出的AI自动视频剪辑工具！

FunClip是阿里达摩院推出的一款完全开源、本地部署的自动化视频剪辑工具，通过调用阿里巴巴通义实验室的FunASR Paraformer系列模型实现视频的自动化语音识别。用户可以根据识别结果，选择文本片段或未定说话人，快速裁剪出所需视频片段。FunClip的特色包括集成高精度的中文ASR模型、支持热词定制化、说话人识别，以及提供Gradio交互界面，使得视频剪辑变得简单方便。此外，它还支持多段剪辑，并能自动生成SRT字幕文件。

GitHub:https://github.com/alibaba-damo-academy/FunClip

开源引擎！RAGFlow：深度提取文档，提取重要信息！

RAGFlow是一款基于深度文档理解构建的开源RAG ( Retrieval-AugmentedGeneration)引擎。RAGFlow个人可以为各种规模的企业及提供一套专业的RAG工作流程，结合针对用户群体的大语言模型(LLM）不同的复杂格式数据提供可靠的问答以及有理有据的引用。

作为一款端到端的RAG解决方案，RAGFlow旨在通过深度文档理解技术，解决现有RAC技术在数据处理和生成答案方面的挑战。它不仅能够处理多种格式的文档，还能够智能地识别文档中的结构和内容，从而确保数据的高质量输入。RAGFlow的设计哲学是“高质量输入，高质量输出”，它通过提供可解释性和可控性的生成结果，让用户能够信任并依赖于系统提供的答案。

GitHub:https://github.com/infiniflow/ragflow/

6月20日

网易有道自研！QAnything：国产本地知识库问答系统

网易有道开源了其内部的本地大模型知识问答系统，支持python环境一键安装，问答速度还可以，支持本地隐私环境数据管理。

QAnything 的主要原理是基于检索增强的生成(Retrieval Augmented Generation，简称RAG)。RAG是近期很火的一种技术框架，它能够利用检索外部内容的方式增强大语言模型的准确度、专业能力和个性化等各方面的性能。

网易有道开源的QAnything 是一套完整的RAG系统，包括专门优化的自研的embedding和rerank模型、微调后的LLM(大型语言模型)、优化后的推理代码、向量数据库，以及一个立即上手可用的前端。所有的算法模型(包括7B大模型+embedding / rerank+OCR）占用显存不超过16GB.

github地址：https://github.com/netease-youdao/QAnything

开源模型！Langchain-Chatchat：基于LLM构建的本地智能知识库

LangChain-Chatchat(原Langchain-ChatGLM):基于Langchain与ChatGLM等大语言模型的本地知识库问答应用实现。一种利用LangChain思想实现的基于本地知识库的问答应用，其目标是期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

它的核心思路是通过使用FastChat 接入 Vicuna, Alpaca,LLaMA, Koala, RWKV等模型，然后依托于LangChain框架支持通过基于FastAPI提供的API调用服务，或使用基于Streamlit 的WebUI进行操作。

依托于本项目支持的开源LLM与Embedding模型，全部可使用开源模型离线私有部署实现。与此同时，本项目也支持OpenAl GPT API的调用，并将在后续持续扩充对各类模型及模型API的接入。

GitHub :https://github.com/chatchat-space/Langchain-Chatchat

惊艳! phidata：让AI具有记忆、知识库、工具

Phidata是一个使用函数调用构建Al助手的工具包。它不仅可以帮助开发者更快地构建Al助手，还可以通过模块化设计轻松扩展其功能。Phidata基于Python语言，支持各种功能，包括自然语言处理、语音识别和图像识别。它还提供了一些预训练的模型，可用于快速构建Al助手。

三步构建Al应用，Phidata让你轻松上手

PhiData的核心理念很简单，就是通过函数调用来实现任务。

训练专属助手：用您的数据，训练出懂您产品的AI。

API连接：产品与Al瞬间对接，无缝合作。

持续优化： PhiData全程陪伴!

项目地址:https://github.com/phidatahq/phidata

6月19日

OneKE：浙大&蚂蚁联合研发大模型知识抽取框架

OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架，具备中英文双语、多领域多任务的泛化知识抽取能力，并提供了完善的工具链支持。基于Chinese-Alpaca-2-13B全参数微调的版本以及对应的IEPile数据集已经发布在始智Al wisemodel.cn开源社区。

OneKE主要聚焦基于Schema的可泛化信息抽取，采用了基于Schema 的轮询指令构造技术，专门针对提升大模型在结构化信息抽取的泛化能力进行了优化，旨在通过提供中英双语、可泛化的大模型知识抽取，OneKE在一定程度上具备统一、通用、可泛化的知识抽取能力。同时，配套开源OpenSPG及 DeepKE开源框架的支持，支持开箱即用。帮助研究人员和开发者更好地处理信息抽取、数据结构化、知识图谱构建等问题。

OneKE的典型特点:

1.多领域多任务泛化性。支持金融、常识、医疗等领域实体多属性、事件多论元的抽取，不限制属性数量;

2.中英文双语支持。支持中文和英文两种语言文本的知识抽取任务;

3.完善的工具链支持。OneKE依托 OpenSPG 及DeepKE开源库提供了完善的SFT及抽取工具支持，开箱即用

模型地址:https://wisemodel.cn/models/zjunlp/OneKE

数据集地址:https://wisemodel.cn/datasets/zjunlp/IEPile

开源项目！DDColor：给黑白图片一键生成自然生动的彩色

DDColor是一种用于图像色彩化的端到端方法，它通过双解码器结构来提高色彩化的质量。简言之，DDColor使用多尺度视觉特征来优化可学习的颜色标记(即颜色查询)，并在自动图像着色方面实现最先进的性能。

工作原理:

特征提取:

在处理黑白图像时，DDColor首先借助深度神经网络等编码器，深入挖掘图像中的重要视觉特征。这些特征涵盖了从宏观轮廓到微观纹理的各个层次的信息，确保对图像的全面分析。

多尺度视觉特征:

在处理照片时，DDColor采用多尺度分析策略。例如，它首先在较低的分辨率下大致识别出远处的建筑物轮廓，然后在较高的分辨率下进一步识别出建筑物的窗户、汽车的形状以及行人的服装等细节特征。这种多尺度分析方法确保了对图像各个部分的全面理解和准确识别。

颜色标记优化:

基于不同层次的特征分析结果，DDColor进一步优化颜色标记。例如，根据识别出的特征，系统可能会将远处的建筑物标记为灰色或白色，将汽车标记为红色或蓝色，而将行人的衣服标记为多种不同的颜色。这种基于特征的颜色标记优化确保了最终上色效果的准确性和自然度。

项目体验地址:colab.research.google.com...

报告地址:arxiv.org/pdf/2212.1161...

github地址:github.com/piddnad/DDCo...

6月18日

VideoSwap代码放出 :可替换视频人物同时保持背景不变

VideoSwap的工作原理相当直观。首先，用户需要上传一个视频文件，然后选择要替换的主体。接下来，VideoSwap会自动分析视频内容，将主体与背景分离。一旦分离完成，用户可以将原主体替换为另一个不同的主体。整个过程不仅快速，而且无需专业的视频编辑技能。

除了替换主体外，VideoSwap还提供了交互式操作功能，如添加、删除等。这意味着用户可以进一步细化交换结果，实现更加个性化和精确的视频内容编辑。例如，如果用户对替换后的主体的位置、大小或角度不满意，可以通过简单的拖放、缩放或旋转操作进行调整，直到达到满意的效果。

总之，VideoSwap是一款强大的视频编辑工具，它通过替换视频中的主体并保持背景不变，为用户提供了更多的创意空间。此外，其交互式操作功能使得编辑过程更加个性化和精确。如果您希望为您的视频内容增添新意，那么VideoSwap无疑是一个值得尝试的选择。

项目演示:https://videoswap.github.io/

代码:https://github.com/showlab/VideoSwap

LLaVA++:赋予Phi-3和Llama-3视觉能力

LLaVA++项目旨在通过扩展原有的LLaVA (Language and Vision Assistant）模型，集成先进的语言模型Phi-3和Llama-3，并赋予它们视觉处理能力。这些模型原本是为了优化语言处理任务而设计，通过此项目的改造，它们现在也能理解和生成与图像相关的内容。

技术整合过程

整合Phi-3和Llama-3到LLaVA模型中的过程涉及几个关键步骤:

1.模型选择与优化：选择Phi-3 Mini lnstruct 3.8B和Llama-3 Instruct 8B模型，这两种模型因其在处理具体指令方面的优异性能而被选中。

2.视觉能力的集成：在模型中添加视觉处理层，这允许模型接收并分析图像数据。

3.微调与验证：对整合后的模型进行微调，以优化其在视觉语言任务上的表现，并通过一系列标准化测试来验证其性能。

GitHub: https://github.com/mbzuai-oryx/LLaVA-pp

WebLlama:基于Llama-3-8B能通过对话进行网页浏览的智能代理

WebLlama是一个研究项目，由McGill University 的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理，这些代理基于Llama-3模型进行了优化和微调。

WebLlama基于Meta Al最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化，使其能够有效处理与网页交互相关的复杂任务。

WebLlama的性能在多个方面都优于GPT-4V，特别是在与真实世界的网页浏览相关的任务上。

微调使用了名为WebLINX的数据集，该数据集包含超过100,000个网页导航和对话实例，每个实例都由专家注释人员收集和验证。为了训练这款模型，我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。

该模型现在已经可以在Hugging Face Model Hub上获取，模型名称为McGill-NLP/Llama-3-8B-Web。同时，用于训练和评估的数据也可以在Huggingface Hub上找到，数据集名称为McGill-NLP/WebLINX。

评估基准: https://mcgill-nlp.github.io/weblinx/

GitHub: https://github.com/McGill-NLP/webllama

项目网站: https://webllama.github.io/

模型下载: https://huggingface.co/McGill-NLP/Llama-3-8B-Web

6月17日

Jina-ai/Reader:将任何网页URL转换为大语言模型友好的输入格式

jina-ai/reader将任何网页URL转换为大语言模型(LLM）友好的输入格式。它通过一个简单的前缀https : / /r.jina.ai/实现这一转换，从而使LLM能更高效地处理和理解网络内容。这对于提升使用语言模型的自动化系统(如聊天机器人、内容摘要生成器等）的输入质量和输出效果非常有帮助。

该工具支持标准模式、流式和JSON格式输出，满足不同的技术需求和场景。

主要用途包括:

1.提高输入质量:通过格式化和清理URL内容，确保LLM接收到的输入更加规范和易于处理。

⒉流式处理支持:允许系统以流式方式处理大量或实时数据，适合需要快速响应的应用场景。

3.适应多种场景:支持多种模式(如标准模式、流式模式和JSON模式)，以适应不同的技术需求和应用场景。

4.改善自动化系统性能:对于使用代理和检索生成系统的用户来说，可以得到更改善的输出结果。

5.简单易操作:不需要API密钥。只需在URL前添加"https:/r.jina.ai/"即可，用户无需复杂配置即可使用。

6.特定输出格式:支持特定的输出格式，如文本流或JSON，专为与LLM集成设计。

7.延迟时间短:API一般在2秒内处理URL并返回内容，但复杂或动态页面可能需要更多时间。

GitHub: https://github.com/jina-ai/reader

创新模型！ViewDiff 助力生成高质量多视角 3D 图像！

随着人工智能技术的飞速发展，3D内容的生成和应用已经成为研究的热点。Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D 图像。

ViewDiff 通过整合3D体积渲染和跨帧注意力层，使得在单一去噪过程中就能从真实世界数据中生成多视角图像。这种方法的优势在于，它不仅能够生成具有各种高质量形状和纹理的实例，而且能够在真实环境中保持一致性。

ViewDiff 模型的另一个亮点是其自回归生成方案，它能够在任何新的视点上渲染3D一致的图像。这意味着，只要给定一个文本描述或者一个物体的图像，模型就能一次性生成多个视角下的图像。这种能力对于3D内容的创作和应用来说，无疑是一个巨大的进步。

该研究的推出填补了文本生成多视角3D 图像领域的技术空白，有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。ViewDiff 的出现无疑为3D内容的创作和应用开辟了新的道路，不仅在技术层面上具有重大意义，也将为未来的3D 图像生成领域带来更多创新可能。

论文地址:https://arxiv.org/abs/2403.01807

项目地址:https://top.aibase.com/tool/viewdiff

Perplexica: Al驱动的问答搜索引擎支持多种搜索模式搜索更加精准

Perplexica是一个开源的Al驱动搜索引擎，旨在提供一个类似Perplexity Al的替代方案。

它不仅能搜索网页，还能理解用户的问题，并使用先进的机器学习算法提供精准的搜索结果和答案。

Perplexica支持使用本地部署的大型语言模型，如Llama3和Mixtral。这允许用户在不发送数据到外部服务器的情况下，在本地进行复杂的语言处理和搜索任务。
Perplexica设计了多种搜索模式，包括学术搜索、视频搜索和计算等专用模式。这些模式根据用户的具体需求调整搜索算法的行为，提供更为精确和相关的搜索结果。
例如，学术搜索模式专门用于查找学术论文和文章，而Wolfram Alpha模式则针对需要计算或数据分析的查询。

Perplexica的主要功能:

1.多模式搜索：

副驾驶模式(开发中):在这种模式下，Perplexica会生成不同的查询来寻找与用户查询最相关的互联网来源。
常规模式:直接处理用户的查询并执行标准的网络搜索。

2.实时信息更新：

使用SearxNG元搜索引擎技术，Perplexica 能够实时从多个数据源中抓取最新信息，而不是依赖预先索引的数据。这确保了用户获取到的信息是最新的，特别是在快速变化的数据环境中尤为重要。

3.本地大型语言模型(LLM)的支持：

Perplexica支持使用本地部署的大型语言模型，如Llama3和Mixtral。这允许用户在不发送数据到外部服务器的情况下，在本地进行复杂的语言处理和搜索任务。

4.用户隐私和数据安全：

在设计Perplexica时特别重视用户的隐私和数据保护。它不存储用户的查询历史或个人数据，同时采用加密和匿名技术来保护用户信息。

GitHub: https://github.com/ltzCrazyKns/Perplexica

6月14日

CTRL-F-VIDEO:视频Ctrl-F可以在视频中搜索特定的单词或短语

CTRL-F-VIDEO是一个开源项目，使用户能够在视频中搜索特定的单词或短语。

这个项目主要针对YouTube视频，通过一个Chrome扩展来实现搜索功能。用户在YouTube视频页面通过扩展输入想要搜索的词汇，可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现位置。

例如，如果你在观看一个讲座视频，想要找到讲师提到"全球变暖"的部分，只需要在这个扩展中输入“全球变暖”，就可以看到所有提到这个短语的时间点。这个功能尤其适合学习和研究使用，可以帮助你节省查找信息的时间。

主要功能

1.文本搜索和时间条标记：用户可以在YouTube视频中搜索特定的词汇或短语，并在视频的时间条上用不同颜色标记出直接匹配和相似匹配的词汇。

直接匹配:在视频中直接出现的词汇用绿色标记。

相似匹配:基于Levenshtein距离或音素距离显示的相似词汇用紫色标记（准确度较低)。音素完全匹配:音素完全相同的匹配用橙色标记(偶尔有效)。

⒉音频到文本转换：利用OpenAI的Whisper模型将视频中的音频转换为文本，从而实现准确的搜索和匹配。

3.结果存储：对于每一个搜索过的YouTube URL，搜索结果会被存储在json文件中，便于之后再次访问该视频时快速获取之前的搜索结果。

github：https://github.com/Evan-Wildenhain/CTRL-F-VIDEO

高效方法！Video-LAVIT：开源图文视频生成大模型!

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头，每个镜头内的视频帧往往存在大量的信息冗余。因此，将视频分解为交替的关键帧和运动向量，关键帧捕捉主要的视觉语义，而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于，与使用3D编码器处理连续视频帧相比，单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态，这对于大规模预训练更为高效。

为了将连续的视频数据转换为紧凑的离散标记序列，Video-LaVIT设计了视频标记器。关键帧通过使用已建立的图像标记器进行处理，而时间运动的转换则通过设计一个时空运动编码器来实现。该编码器能够捕捉提取的运动向量中包含的随时间变化的上下文信息，从而显著提高LLMs理解视频中复杂动作的能力。

项目地址:https://video-lavit.github.io

微软推出Phi-3 mini系列小型开源语言模型可运行在手机上性能超走成Llama 3

微软推出的Phi-3系列小型开源语言模型，在多种语言、推理、编程和数学基准测试中展示了前所未有的性能，超越了相同大小及更大型号的其他模型。

- Phi-3模型由于其小型化设计，在资源受限的设备上运行，同时能够保持高效性能。

适应多种环境:适合部署在智能手机、嵌入式系统等边缘计算设备上，可以在不依赖云计算的情况下本地处理数据，减少延迟，增强隐私保护。

Phi-3-mini3.8B的参数，3.3T token训练数据。在多个学术基准测试中，Phi-3-mini性能接近或等同于市场上的大模型，例如在MMLU测试中得分为69%，在MT-bench测试中得分为8.38分，和GPT-3.5和Mixtral 8x7B相当，甚至超过刚发布的Llama 3 8B。

Phi-3-small和Phi-3-medium这两个是扩展模型:Phi-3-Small是7B参数，4.8T token训练数据，MMLU75%，MT-bench 8.7分。

Phi-3-Medium是14B参数，4.8T token训练数据，MMLU78%，MT-bench 8.9分。

Phi-3 Microsoft Blog Phi-3微软博客

Phi-3 Technical Report Phi-3技术报告

模型下载: https://huggingface.co/microsoft/Phi-3-mini-128k-instruct

6月13日

OpenVoice:轻松克隆任何声音用多种语言说话并可控制情感口音

由MyShellITTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音，然后能生成多种语言的语音。

openVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参考发言者的音色。

支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

主要功能:

准确的音色克隆: OpenVoice能够精确地克隆参考音色，并在多种语言和口音中生成语音。灵活的声音风格控制:允许用户对声音的情绪、口音、节奏、停顿和语调进行详细的调整，提供个性化的声音输出。

零样本跨语言声音克隆: OpenVoice实现了对大规模多语言数据集之外的语言进行零样本声音克隆，即使这些语言未在训练集中出现也能进行声音复制。

高效的计算性能:相比于市场上现有的商业API，OpenVoice在保持高性能的同时，计算成本大大降低。

网站:http://research.myshell.ai/open-voice

GitHub: http://github.com/myshell-ai/OpenVoice

技术报告:https://arxiv.org/pdf/2312.01479.pdf

在线演示:http://lepton.ai/playground/openvoice

Video2Game:将现实世界的视频自动转换成逼真且可交互的游戏环境

Video2Game:它能将单个视频转换成可以实时互动的、逼真的游戏和模拟环境。该项目由伊利诺伊大学香槟分校和上海交通大学的研究人员开发。

它通过神经网络技术(NeRF)捕捉场景的详细视觉和几何信息，并将这些信息转化为游戏中的网格模型和物理行为，使得虚拟环境不仅逼真，还可以实时互动。玩家可以在这些环境中行走、驾车、甚至与场景中的对象互动，如射击和碰撞，所有这些都遵循现实世界的物理法则。此外，这项技术还可以用于机器人模拟，例如使用机器人在虚拟环境中操控物体。

项目主要通过使用先进的计算机视觉和机器学习技术，例如神经辐射场(NeRF)，来捕捉视频中场景的详细视觉和几何信息。通过这种方式，Video2Game创造出数字化、可交互的虚拟环境，这些环境不仅视觉逼真，还可以实时响应用户的操作和控制。

项目地址: https://video2game.github.io/

在线体验: https://video2game.github.io/src/garden/index.html

论文: http://arxiv.org/abs/2404.09833

GitHub: https:/l/github.com/video2game/video2game

IDM-VTON:虚拟试衣技术能够生成高度真实的虚拟试衣图像

IDM-VTON是一个致力于提升虚拟试衣场景中的图像真实性和细节保留的新方法。让合成的试穿图片更加真实，细节更加精细，尤其是在真实环境中的应用表现更佳。

IDM-VTON能够生成高度真实的虚拟试,衣图像，帮助用户在不实际穿着服装的情况下，通过图像看到自己穿上特定衣服的样子。这项技术尤其适用于在线购物，提升购物体验，帮助消费者更好地做出购买决策。

在线体验: https://huggingface.co/spaces/yisol/IDM-VTON

项目及演示: https://idm-vton.github.io/

论文: https://arxiv.org/abs/2403.05139

GitHub: https://github.com/yisol/IDM-VTON

6月12日

狂揽16.9k star！Umi-OCR：开源、免费的离线OCR软件，图像转文本轻松搞定！

Umi-OCR 是一款基于百度自研的PaddleOCR框架开源的 OCR 项目源、免费的离线OCR软件。

该工具开源至今，一直再对功能进行更新支持，截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持，不可畏不强大！最重要的是免费、离线！

github地址：https://github.com/hiroi-sora/Umi-OCR

MetaGPT-AI智能体执行软件开发完整流程！已获33.8k star！经典AI项目回顾。

etaGPT是一种多智能体框架，其利用SOP（Standard Operating Procedures，标准作业程序）来协调基于大语言模型的多智能体系统，从而实现元编程技术。该框架使用智能体模拟了一个虚拟软件团队，包含产品经理、架构师、项目经理、工程师、质量工程师等角色，并引入SOP成为框架的虚拟软件团队的开发流程。其专注于软件开发，覆盖了从需求分析到代码实现的全生命周期覆盖。

Data Interpreter是MetaGPT的最新更新内容，它是一个强大的代理，能够解决广泛的现实世界问题。无论是机器学习、数学推理，还是开放任务，Data Interpreter都能够胜任。

和 Devin 一样，Data Interpreter也可以编程，能够编写机器学习模型、进行数学推理、自动回复电子邮件、仿写网站、分析股票等等……

开源地址：https://github.com/geekan/MetaGPT

一人能顶一个公司，编程神器 GPT Pilot，诞生了！已获27.8k star！经典AI项目回顾。

GPT Pilot是一个旨在帮助开发人员更快地构建应用程序的工具。帮助开发者以 20 倍速来开发应用，借助 AI 的力量，进一步提升开发效率。它的主要目标是探索在开发过程中如何充分利用GPT-4，从而生成完全可用的、生产就绪的应用程序，同时开发人员可以监督开发过程。

开源地址：https://github.com/Pythagora-io/gpt-pilot

6月11日

2txt: Image to text提取任意图像上的文字并转换成可编辑的文本格式

2txt: lmage to text图像转文字

使用Claude Haiku和@vercel Al SDK创建

可以将任意图像转换成文字的工具

用户可以上传图片，系统会识别图片中的文字并将其转换成可编辑的文本格式。

它不只是简单的0CR，还会分析图片内容进行整理，确保图像到文本的转换过程快速且准确。

2txt项目的工作原理主要涉及几个关键技术组件: Vercel Al SDK、Claude Al以及 Next.js.

体验地址:2txt.vercel.app

GitHub: https://github.com/ai-ng/2txt

https://xiaohu.ai/p/6160

VSR:利用AI算法精确识别一键去除视频中的字幕

Video-sSubtitle-Remover (VSR)一个基于Al技术的工具,专门用于从视频和图片中去除硬编码的字幕和文本水印。这个工具能在不损失图像分辨率的情况下,清除视频领或图片中的不需要的文字信息。

主要功能

1.高精度去除字幕:使用先进的Al算法模型精确识别视频或图片中的硬编码字幕,并将它们去除。

2.智能填充技术:对去除字幕后留下的区域进行智能填充处理,确保视频或图片的视觉连贯性和质量不受影响。

3.自定义字幕去除区域:允许用户自定义需要去除字幕的具体位置,使得去除工作更加精准和灵活。

4.全自动文本去除:支持自动检测视频全篇的字幕或文本,并进行全自动去除,适合批量处理大量视频。

5.批量处理图片:支持批量选择图片,并去除图片中的水印文本,提高处理效率

GitHub: https://github.com/YaoFANGUK/video-subtitle-rernover 整合包下载：Windows GPU版本v1.1.0（GPU）：

百度网盘：https://pan.baidu.com/share/init?surl=zR6CjRztmOGBbOkqK8R1Ng&pwd=vsr1
提取码**：vsr1**

Llama3-8B-Chinese-Chat:基于Llama3-8B微调的中文聊天模型优化中文回答

Llama3-8B-Chinese-Chat是基于Meta-Llama-3-8B-nstruct模型通过ORPo进行微调的中文聊天模型。与原始的 Meta-Llama-3-8B-Instruct模型相比，此模型显著减少了“中文问题英文回答"和混合中英文回答的问题。此外，相较于原模型，新模型在回答中大量减少了表情符号的使用，使得回应更加正式。

与Llama-3-8B-Insturct相比，模型在回答中文提示时一直都能做出更好的反应，而且在逻辑、编码、数学和写作方面表现出色。

ORPO(无参照整体优选优化):

ORPo (Odds Ratio Preference 0ptimization）是一种用于模型优化的方法，特别适用于改进模型在特定任务中的偏好和性能。这种方法通过无需参考的单体偏好优化 (reference-free monolithicpreference optimization)，使得模型在没有明确正确答案的场景中也能进行有效的学习和优化。

模型下载: https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat

6月7日

GPT-Academic:专门针对论文阅读、写作润色优化的学术GPT！

GPT-Academic主要是为了支持学术研究而设计的。它提供了多种工具和功能特别是针对那些需要处理大量文献、写作学术文章或进行数据分析的研究人员和学者。

github：https://github.com/binary-husky/gpt\_academic

在线体验：https://github.com/binary-husky/gpt\_academic/wiki/online

Dynamic Typography :“动态排版"技术可以让文字变成动画

Dynamic Typography:一种新颖的“动态排版"技术，通过视频扩散先验，将文本字母转化为动画，以增强表达语义和动态效果。这种方法不仅考虑了字母的语义变形，还将字母通过动画赋予生命，使得静态文字转化为能够表达复杂情感和信息的动态视觉元素。这种方法极大地扩展了文本的表达范围和效果，为多媒体内容创作提供了新的可能性。

简单来说，就是让字母像变形金刚一样，根据需要变换形状和进行动作，以更好地表达文字背后的情感和意义。

该方法结合了向量图形表示和端到端的优化框架，使用神经位移场将字母转化为基础形状，并对每帧应用运动，以与文本概念的意图保持一致。

项目及演示: https://animate-your-word.github.io/

论文: https://arxiv.org/abs/2404.11614

GitHub: https://github.com/zliucz/animate-your-word

Supermemory:轻松构建一个“第二大脑”可以和你收藏的任何内容聊天

supermemory的主要作用是帮助用户构建一个"第二大脑”，通过一个简单的Chrome扩展，用户可以保存他们在互联网上发现的有价值的内容（允许用户将网页内容、推特收藏等转换成可搜索和可交互的格式)并能以类似ChatGPT的聊天方式与这些内容互动。

它不仅简化了内容的保存和导入流程，还通过智能化的特性，使得这些内容变得可搜索和可交互，你可以通过聊天的形式随时回顾你收藏和保持的任何网页内容并与这些内容互动。这不仅帮助用户有效地存储信息，还能在需要时快速找到和使用这些信息，极大地提高了信息的利用率和个人的生产效率。

GitHub: https://github.com/Dhravya/supermemory

在线演示: supermemory.dhr.wtf

6月6日

TeToS:集成多个文本到语音(TTS)服务商的统一接口

TeToS (Text-to-Speech Operating System)是一个开源项目，提供了一个统一的接口来集成和使用多个文本到语音（TTS)服务提供商。它旨在简化开发者在不同TTS服务之间的集成和使用过程，使得开发者可以轻松地切换或同时使用多种不同的文本到语音服务。

GitHub: https://github.com/frostming/tetos

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM是一个开源项目，主要功能包括从Twitter抓取数据、基于嵌入的图像搜索，以及其他一些数据分析和处理功能。

同时利用LLM还能对Twitter数据进行深入分析，支持多种功能，包括数据可视化和图像标注。

主要功能:

1.Twitter数据抓取

2.基于嵌入的图像搜索

3.数据分析和可视化

4.图像标注

GitHub: https://github.com/AlexZhangji/Twitter-Insight-LLM

ZeST:将一种材质从一个图像迁移到另一个图像的对象上！

ZeST (Zero-Shot Material Transfer)是一种从单一图像进行材质迁移的方法。该技术能够在没有任何先前训练的情况下，直接将一种材质从一个图像迁移到另一个图像中的对象上。

ZeST是由牛津大学、Stability Al和MIT CSAIL的研究团队共同完成。

技术优势:

零训练需求:作为一个零样本方法，ZeST不需要基于大量数据的预训练，这降低了技术使用的门槛和成本。

实时应用能力:因为不依赖云端处理或复杂的预训练模型，ZeST能够在设备上实时进行材质迁移，增强了应用的灵活性和即时反馈能力。

项目及演示: https://ttchengab.github.io/zest/

论文: https://arxiv.org/abs/2404.06425

GitHub: https://github.com/ttchengab/zest\_code

在线体验: https://replicate.com/camenduru/zest

6月5日

lnstantMesh: 10秒内从单张图片快速生成高质量的3D模型

InstantMesh是一个使用前馈框架的技术，它能够从单张图像快速生成高质量的三维网格模型。这个框架结合了多视图扩散模型和基于大规模重建模型(LRM)的稀疏视图重建技术，优化了3D资产的创建过程，并能在极短的时间(约10秒)内完成从图像到3D网格的转换。

“前馈式框架”(Feed-forward framework)在计算机科学和人工智能领域中，特别是在机器学习和神经网络中，是一个常见的概念。在这种框架中，输入数据通过一系列处理层流向输出，没有反馈〈即输出不会再次成为输入的一部分）的机制。这种模型的运作方式是单向的，即数据从输入端传递到输出端，中间可能经过多个处理阶段，但每个阶段只处理一次。

在线体验: https://huggingface.co/spaces/TencentARC/InstantMesh

论文: https://arxiv.org/abs/2404.07191

GitHub: https:/lgithub.com/TencentARC/InstantMesh

VASA-1: —张静态图像＋一段语音生成逼真的对话面部视频

VASA-1，由微软亚洲研究员开发的项目，可以实现从单一静态图像和一段语音音频生成逼真的对话面部动画。VASA-1不仅能够精确同步音频和唇部动作，还能捕捉到丰富的面部细微表情和自然的头部动作，增强了真实感和生动感。

项目及演示: https://www.microsoft.com/en-us/research/project/vasa-1/

论文: https://arxiv.org/abs/2404.10667

打造自己的Al女友:基于Unity开发的Live2D虚拟实时聊天系统

基于Unity开发的Live2D虚拟人聊天系统。它利用Live2D模型提供一个视觉上吸引人的虚拟人形象，结合Unity强大的实时渲染功能，实现与用户的动态交互和聊天。

主要功能

Live2D虚拟人形象集成:

利用Live2D技术，项目实现了一个动态的虚拟人形象。这种技术允许二维图像在屏幕上以近乎三维的形式呈现，提供自然流畅的动画效果，增强用户交互体验。

2.实时聊天功能:

通过集成APIIAzure、OpenAl和APISpace，虚拟人能够与用户进行实时的文本交流。这些API支持基础的自然语言处理和生成，使虚拟人能够理解并回应用户的聊天输入。

3.图像处理和人脸检测:

集成了openCVPlusUnity包，项目支持图像处理功能，特别是人脸检测。这允许虚拟人更好地理解和响应用户的视觉输入，例如用户的表情和动作。

github地址：https://github.com/Navi-Studio/Virtual-Human-for-Chatting

6月4日

MagicClothing:根据文本提示定制生成穿着特定服装的人物图像

Magic Clothing是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统，专门设计来处理服装驱动的图像合成任务。

它能够生成根据文本提示生成定制的、穿着特定服装的人物图像。这个系统通过在生成过程中融合服装细节，实现了高度可控和细粒度的图像输出。

Magic Clothing是OOTDiffusion的一个分支版本，侧重于可控服装驱动的图像合成。

github地址：https://github.com/ShineChen1024/MagicClothing

1.6K star！可部署的完全免费 GPT-3.5-Turbo API 服务！

前两天 OpenAI 不是刚宣布 GPT-3.5 可以免注册访问嘛，紧接着就有大佬在 Github 上开源了一个利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务——FreeGPT35。

支持通过Docker容器一键部署，方便快捷。

github地址：https://github.com/missuo/FreeGPT35

InstantStyle：只要一张参考图，就可以把任何视频、图片按此风格重新渲染，方案开源，论文公开

InstantStyle是一个全新的图片个性化框架，它通过巧妙地将图片中的风格和内容分离，并专注于特定风格区域，解决了风格一致性的挑战，无需复杂的调整。该框架确保了详尽且一致的视觉风格化效果，并将风格强度与文本控制无缝融合。这一技术的推出，为用户提供了一种全新的图片定制化体验，使得个性化图片创作变得更加简单高效。

开源地址: https://github.com/InstantStyle/InstantStyle

论文: https://arxiv.org/abs/2404.02733

6月3日

AI图像编辑软件DesignEdit 像PS一样分图层处理图片

DesignEdit是一个先进的图像编辑研究项目,旨在通过多层次潜在分解与融合技术实现统一且精确的图像编辑。这个项目通过采用设计领域的层次概念,能够灵活操作作图像中的对象并执行多种编辑操作,从而将具有空间意识的图像编辑任务转换为两个主要子任务:多层次潜在分解和多层次潜在融合。

DesignEdit不仅能够执行传统的图像编辑任务,如裁剪、调整亮度或对比度等,还能进行更为复杂的操作,如改变图像中对象的位置、大小,甚至完全更换图像的背景景。这些能力使得DesignEdit成为一个强大的工具,适用于广泛的应用场景,如专业的图像设计、观觉艺术创作和社交媒体内容制作等。

项目地址：https://design-edit.github.io/

MagicTime：是一个专注于生成变形时间延迟视频的模型

MagicTime是一个创新的模型，专注于创建变形时间延迟视频。它采用了基于DiT(Detection and Tracking）的架构，有效解决了现有文本到视频（Text-to-Video,T2V）生成模型在编码现实世界物理知识方面的不足。在传统的T2V生成过程中，视频往往动作范围有限，变化表现不足，无法充分展现复杂的变形效果。

MagicTime的核心贡献在于:

1.物理知识编码的改进:MagicTime通过更精确地反映现实世界的物理规律，解决了现有模型在物理知识编码上的不足。

2.动作和变化的丰富性:与以往生成的视频相比，MagicTime能够产生动作更丰富、变化更复杂的视频，更好地模拟了物体的变形过程。

通过引入变形时间延迟视频的概念，MagicTime不仅提升了视频生成的质量，还增强了视频的动态表现力。它的成功应用展示了在生成具有时间延迟效果的视频方面的优势和潜力，为未来构建更加真实的物理世界变形模拟器提供了新的方向和可能性。项目及演示：https://pku-yuangroup.github.io/MagicTime/ 论文：https://arxiv.org/abs/2404.05014 GitHub：https://github.com/PKU-YuanGroup/MagicTime/tree/main

HairFastGAN：开源的AI发型设计项目！一键更换头发发型！

HairFastGAN,一个解决将参考图像中的发型转移到输入照片上以进行虚拟发型试戴的复杂任务的新方法。它能够将一张照片上的人物发型以高质量和高效率的方方式转移到另一张照片上。

通过分析和处理发型的颜色、形状和结构,以及考虑到照片姿势的差异,HairFastGAN实现了逼真且稳健的发型转移。

github地址：https://github.com/AIRI-Institute/HairFastGAN

5月31日

DreamWalk：在图像生成中实现对风格和内容的精细控制

根据文本描述生成图像时，如果你想精确控制图像的某些风格或特征，就会变得比较困难。 DreamWalk解决了这一问题，它可以让你可以决定哪部分更加强烈地体现某种风格，哪部分则保持原样或采用另一种风格。

例如，在一幅风景画中，你可能希望只将梵高的星空风格应用于天空部分，而保持山脉和河流的自然真实感。 DreamWalk还支持在不同风格之间进行平滑过渡、遵循DreamBooth主题或文本提示的细节。还可以将现有的真实世界图像转换为特定风格的艺术作品。项目及演示：https://mshu1.github.io/dreamwalk.github.io/ 论文：https://arxiv.org/abs/2404.03145

Parler-TTS ：一个完全开源的高质量ai语音生成项目！

Parler-TTS是一个轻量级的文本到语音（TTS）模型，可以以特定说话者的风格（包括性别、音调、说话风格等）生成高质量、自然听起来的语音。这个模型是根据Dan Lyth和Simon King的论文《使用合成注解的高保真文本到语音的自然语言指导》而开发的，Dan Lyth属于Stability AI，Simon King来自爱丁堡大学。

与其他TTS模型不同，Parler-TTS是完全开源发布的。所有的数据集、预处理、训练代码和权重都是公开发布的，这使得社区能够在此基础上建立自己的强大TTS模型。

它能够生成高质量且听起来非常自然的语音。还可以定制说话者的风格（如性别、音调、说话风格等）。与其他TTS模型不同，Parler-TTS 完全开源发布，包括数据集、预处理、训练代码和权重。只需一行代码即可安装。此外，它还提供了交互式演示和详细的训练指南，使用户能够快速上手并自定义模型。开源地址：https://github.com/huggingface/parler-tts

遥遥领先！小米开源AI绘画扩散模型SDXS，生图速度提升30至60倍！

小米终于遥遥领先了要，这次在AI绘画SD领域，开源了自家研发的AI绘画扩散模型SDXS，生图速度提升30至60倍。

通过采用知识蒸馏技术对U-Net和图像解码器架构进行精简，并结合独创的单步DM训练方法，该技术通过特征对齐和分数蒸馏实现了性能的飞跃。SDXS系列提供了两个不同规模的模型，即SDXS-512和SDXS-1024，它们的设计紧密贴合图形分辨率的需求。这两款模型在单GPU环境下分别能够达到约100 FPS和30 FPS的推理速度，相较于以往的模型，速度提升了30至60倍，是SDXL系列的三倍之多，其速度之快令人惊叹不已。

github地址：https://github.com/IDKiro/sdxs

项目主页：https://idkiro.github.io/sdxs/

5月30日

morphic AI开源项目火了！人人都能自建的AI搜索引擎助手！简直是Perplexity的开源版！

Perplexity通过其独特的问答机制，为用户提供了一种全新的信息检索方式，而Morphic则将这一理念带入了开源社区，让更多人能够参与到这一变革中来。

值得一提的是，Morphic的灵活性非常高，它不仅能够与OpenAI的API完美配合，还能够无缝切换到Gemini和Google Search的API，这进一步证明了其强大的适应能力和广泛的应用前景。随着AI技术的不断进步，我们有理由相信，类似的问答式搜索体验将会成为未来搜索服务的标配。

项目地址：http://github.com/miurla/morphic

体验地址：https://www.morphic.sh/ 体验地址2：http://my-morphic-tan.vercel.app

LLocalSearch:完全本地运行的搜索聚合器无需OpenAl或Google API

LLocalSearch是一个完全本地运行的搜索聚合器,使用LLMAgents。用户可以提出一个问题,系统将使用LLMS的链条来查找答案。用户可以看到代理的进度和最终答案。

无需OpenAl或GoogleAPl密钥。与传统依赖于云API(如OpenAl或Google API)的搜索服务不同,LLocalSearch的所有操作都在本地完成,这意味着所有的数据处理和搜索逻辑都在用户的机器上执行行,不需要通过互联网传输数据到外部服务器。

github地址：https://github.com/nilsherzig/LLocalSearch

FreeAskInternet:无需GPU完全免费、私密且本地运行的搜索答案生成器

FreeAskInternet是一个开源项目,提供了一个完全免费、私密且且本地运行的类似perplexity.ai的搜索聚合器和答案生成器。用户可以提出问题,系统将使用多引擎搜索索,并结合搜索结果和LLM(如ChatGPT3.5)生成答案。整个过程都在本地运行,无需GPU、(OpenAl或Google的API密钥）

github地址：https://github.com/nashsu/FreeAskInternet

5月29日

MaxKB:基于 LLM 大语言模型的知识库问答系统

MaxKB，由1Panel精心打造，是一款依托于大型语言模型（LLM）的智能知识库问答系统，它以即插即用的特性，轻松集成到各类商业应用之中。这款系统被设计为Max Knowledge Base，即最大化知识库，目标是助力企业构建其智能化的决策中枢。

MaxKB的核心优势在于其便捷性与高效性。首先，它的开箱即用特性意味着用户可以轻松上传文档，系统还能自动从互联网上抓取所需文档，极大地提升了信息整合的效率。此外，MaxKB能够自动将文本内容进行拆分，并运用先进的向量化技术，使得智能问答的交互体验更加流畅和自然。

其次，MaxKB的无缝嵌入功能，允许用户无需编写任何代码，即可将问答系统快速集成到现有的第三方业务系统中，极大地降低了技术门槛和集成成本。

最后，MaxKB支持多种模型，包括但不限于本地私有的大型模型如Llama 2，以及业界知名的Azure OpenAI和百度千帆大模型等。这种灵活性使得MaxKB能够适应不同企业的需求，为用户提供最适合自己业务场景的智能问答解决方案。

GitHub地址：https://github.com/1Panel-dev/MaxKB

StyleLLM 文风大模型：基于大语言模型的文本风格迁移项目！

stylellm项目是一项创新性的文本风格转换技术，它基于大型语言模型（llm）来实现文学作品风格的迁移。该项目通过深入学习特定的文学作品，包括其常用词汇、句式结构、修辞技巧以及人物对话等元素，构建了一系列具有独特风格的模型。

通过应用这些风格化的模型，stylellm能够将捕捉到的文学风格应用到其他普通文本中。具体来说，用户只需提供一段原始文本，stylellm模型便能够对其进行智能改写，生成具有目标风格的新文本。这一过程不仅可以对文本进行美化和润色，还能够模仿特定的写作风格，从而为用户提供丰富多样的文本创作体验。

开源地址：https://github.com/stylellm/stylellm\_models

Chinese Tiny LLM:从头开始训练专注于中文的大语言模型

Chinese Tiny LLM是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。他们还弄了了新的中文对齐基准测试:CHC-Bench,测试LLMs对中文文化、历史、传统、人文、地理和STEM的深入理解。

测试结果与一些同参数模型性能相当。他们开放了整个数据过滤过程、训练动态、训练和评估数据居,以及模型的中间检查点等所有相关信息。这样的做法使得其他研究者、开发者能够访问这些资源,利用这些资料进行自己的研究或进一步改进模型。

github地址：https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM

5月28日

Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

它将移动UI的视觉元素和语言元素结合起来，不仅能“看懂”屏幕上的内容，还能理解用户的指令和问题，进而执行任务或提供信息。

Ferret-UI的能力不止于看和识别，它还能进行推理。

例如，它可以通过分析屏幕上的元素来推测一个应用的功能，或者理解和参与与屏幕内容相关的对话。

Ferret-UI在所有基础UI任务上均超过了GPT-4V和大多数其他开源UI MLLM 论文：https://arxiv.org/abs/2404.05719

MVEdit 快速生成高质量的3D物体！

又一款图转3D的AI开源项目！无需繁琐的训练，MVEdit 就能够快速生成高质量的3D物体，并提供全功能的UI界面，包含了诸如text to 3D、image to 3D、3D to 3D文字编辑和材质重构等功能。

GitHub：https://github.com/Lakonik/MVEdit

Demo：https://huggingface.co/spaces/Lakonik/MVEdit

开源的AI音乐歌曲生成神器Prompt-Singer！直接拿来用！

浙大发布歌曲合成工具Prompt-Singer，歌手性别风格均可控！Prompt-Singer模型的设计理念是通过自然语言指令作为风格提示来控制合成歌声的风格属性，这不仅可以对特定属性进行精确控制，还可以简化用户交互，为非专业用户如音乐家和视频创作者带来便利。

该模型采用基于解码器的Transformer架构，具有多尺度层次结构，并设计了一个旋律解耦的音高表示方法，使得在保持旋律准确性的同时，能够实现文本条件下的声音范围控制。

论文地址：https://arxiv.org/pdf/2403.11780.pdf

项目地址：http://prompt-singer.github.io

5月27日

DepthFM！一款开源的空间深度估计模型！可生成空间深度图！

DepthFM是一种具有强零样本泛化能力的快速推理流匹配模型，可以利用强大的先验知识，并且很容易地泛化到未知的真实图像中，而只在合成数据上进行训练。与其他最先进的模型相比，DepthFM仅用一个函数评估就获得了明显更清晰的图像。Marigold的深度估计耗时是DepthFM的两倍，但无法生成相同粒度的深度图。

代码链接：https://github.com/CompVis/depth-fm

官方主页：https://depthfm.github.io/

GPT4平替？阿里巴巴开源的多模态大型语言模型，专门用于文档理解！

阿里开源的mPLUG-DocOwl是自GPT-4后首个具备视觉文档理解能力的多模态大语言模型，通过文档类数据的指令微调，它让多模态模型mPLUG-Owl具备了理解文档图片的能力。

实验也表明它不仅具备卓越的性能，还具有很强的泛化和指令理解能力。

github地址：https://link.zhihu.com/?target=https%3A//github.com/X-PLUG/mPLUG-DocOwl

论文地址：https://arxiv.org/abs/2307.02499

体验地址：https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary

12K星！FastGPT -基于 LLM 大语言模型的知识库问答系统！

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！

官方介绍地址：https://fastgpt.run/

github地址：https://github.com/labring/FastGPT

5月24日

6.7KStar！LWM大世界模型AI项目开源！可文字可图片可视频！

Large World Model（LWM）是一个通用的大环境多模态自回归模型，在实验中，LWM 系列模型展现出了优异的多模态性能，在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。

LWM主要解决的问题是，当前的语言模型在理解那些难以用言语描述的世界方面存在短板，并且在处理复杂、长篇任务时表现不佳。视频序列提供了语言和静态图像中缺失的宝贵时间信息，这对于与语言的联合建模而言十分有吸引力。这些模型可以发展对人类文本知识和物理世界的理解，为人类提供更广泛的AI能力。但是，从数百万个视频和语言序列的标记中学习面临着内存限制、计算复杂性和数据集有限等挑战。为了解决这些挑战，LWM整合了大量多样化视频和图书的数据集，使用RingAttention技术在长序列上可扩展地训练，并逐步将环境大小从4K增加到1M标记。

github主页：https://largeworldmodel.github.io/

代码仓库：https://github.com/LargeWorldModel/LWM

huggingface：https://huggingface.co/LargeWorldModel

全能AI抠图模型RMBG v1.4：最强开源AI抠图工具，超准抠图新体验！

近期，一家AIGC公司BRIA开源了一个出圈的模型：RMBG-1.4，它可以实现高质量地一键去除图片中的背景。下面是一些具体的例子，可以看到这个模型可以实现非常精细的“抠图”。MBG v1.4模型是基于所提出的IS-Net，但BRIA采用了私有数据集和特定的训练策略进行优化，这些改进显着提高了模型在不同图像处理场景中的准确性和有效性。

具体来说，这个模型使用超过 12,000 张高质量、高分辨率、手动标记（像素精度）、完全许可的图像进行训练。为了让模型有足够的泛化性，训练数据集包含各种类别的图片。

开源地址：https://huggingface.co/briaai/RMBG-1.4

comfyui集成地址：https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA\_AI-RMBG

Start数7.4k！开源的AI程序员：SWE-agent智能体上线，堪称bug修复神器！

SWE-agent是一个利用大语言模型(如GPT-4、Claude等)来自动化软件工程任务的智能代理系统。它的目标是让AI模型能够像人类软件工程师一样,通过在命令行环境中导航文件系统、编辑文件、运行测试等方式来解决编程问题。

SWE-agent的核心是一个基于OpenAI Gym接口的强化学习环境。这个环境会将一个待解决的软件工程任务(如修复bug、实现新功能等)作为输入,提供给AI模型。模型需要分析任务描述,并在一个模拟的Linux终端环境中,通过执行一系列bash命令、编辑代码文件等操作来尝试完成任务。每执行一个动作,环境就会返回一个观察结果,告知动作的执行效果。模型可以根据观察结果来决定下一步动作,直到任务完成(或达到某个终止条件)。SWE-agent提供了一套DSL(领域特定语言),赋予AI模型一些在普通终端环境中没有的能力

github地址：https://github.com/princeton-nlp/SWE-agent

5月23日

Star 数15K+！一款支持超多PDF 文件操作的开源工具——Stirling-PDF！

这是一个使用Docker的强大的、本地托管的基于web的PDF操作工具。它使您能够对PDF文件执行各种操作，包括拆分、合并、转换、重新组织、添加图像、旋转、压缩等。

最初完全由ChatGPT开发，这个本地托管的web应用程序已经发展到包含一系列全面的功能，可以满足您的所有PDF需求。

GitHub地址：https://github.com/Frooodle/Stirling-PDF

HumanGaussian开源：基于Gaussian Splatting，高质量 3D 人体生成新框架！

遥遥领先！最近香港中文大学、腾讯 AI Lab、北京大学、香港大学、南洋理工大学团队成功推出了一个最新且高效的人体生成模型——HumanGaussian。这个模型通过引入显式的人体结构引导和梯度规范化来辅助3D高斯的优化过程,从而能够生成多样且逼真的高质量3D人体模型。

现在,这个模型的代码和模型都已经开源了,你可以放心地使用它来生成自己的3D人体模型。

文章链接：http://arxiv.org/abs/2311.17061

github地址：https://github.com/alvinliu0/HumanGaussian

腾讯开源虚拟人视频生成新工具MuseV！论文未到开源先行！

MuseV是一个由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架，专注于生成高质量的虚拟人视频和口型同步。它利用先进的算法，能够制作出具有高度一致性和自然表情的长视频内容。

MuseV支持自定义动作和风格，视频时长理论上无限，且生成速度快。这一技术在AI创作领域中表现出色，为虚拟人视频制作提供了新的可能性。

试玩页面：https://huggingface.co/spaces/AnchorFake/MuseVDemo

项目地址：https://github.com/TMElyralab/MuseV

5月22日

UI设计不存在了！Ai开源项目支持通过聊天的方式来进行UI设计！

W&B 团队开发的一个开源工具，你可以通过文字来描述你想要的UI界面，OpenUI可以帮你实时进行渲染出效果。你还可以通过聊天的方式进行任意修改，并将HTML转换为React、Svelte、Web Components等多种前端框架。

看来下目前模型用的是GPT...简单测试了下，还不错，项目还不够完善，可以继续研究。 GitHub：https://github.com/wandb/openui 在线体验：https://openui.fly.dev

GRM：只需少量图片就能在0.1秒内构建出物体的3D模型或整个场景

GRM是一个用于3D重建和生成的大型高斯重建模型。通过有效整合多视角信息，GRM能够在短时间内（大约0.1秒）重建出精确的3D模型。

同时也它支持将文本或图像直接转换成3D模型。项目及演示：https://justimyhxu.github.io/projects/grm/ GitHub：https://github.com/justimyhxu/grm 在线体验：https://huggingface.co/spaces/GRM-demo/GRM

Cog-Become-Image:将将任意人物图像转换成指定的另一种图像

become-image 能够将一张人脸图片转换成另一张完全不同风格的图片，实现了独特的图像转换功能。在使用上，用户可以通过上传两张图片，另一幅是要将人脸转换成目标风格的图片。

用户可以根据需求调节各种参数，如保留原始人脸图像的程度、强度控制以及样式应用等，从而定制出符合个人需求的图片。

github地址：https://github.com/fofr/cog-become-image

5月21日

14.8K星！ChatALL一个可以同时跟多个AI大模型聊天的开源项目！

基于大型语言模型（LLM）的人工智能机器人令人惊叹。然而，它们的行为可能是随机的，不同的机器人擅长不同的任务。如果你想要最好的体验，不要一个接一个地尝试。ChatALL项目可以同时向多个人工智能机器人发送提示，帮助您发现最佳结果。你所需要做的就是下载、安装并询问。

github：https://github.com/sunner/ChatALL

BioMedLM:一个可以在笔记本电脑上运行推理的生物医学语言模型！

BioMedLM是一个由斯坦福大学和DataBricks团队合作开发发的基于GPT风格的自回归语言模型,具有2.7亿参数,专门在PubMed摘要和全文上训练。

这个模型展现了在生物医学多项选择问答任务上与更大模型竞争的强大能力,例如在MedMCQA(dev)上达到57.3%的得分,在MMLU医学遗传学考试上达到69.0%的得分。BioMedLM也可以被微调以产生关于医学主题的患者问题的有用回答。

github地址：https://github.com/stanford-crfm/BioMedLM

Arc2Face:根据你的独特面部特征生成极为逼真且多样化的人脸图像！

Arc2Face是一个先进的人工智能项目,能够根据一个人的独特面部特征(通过所谓的ArcFace嵌入表示)生成极为逼真且多样化的人脸图像。这项技术依靠一个庞大大的人脸图像数据库和一种特殊的算法(Stable Diffusion模型),能够精确地捕捉并再现个人的面部特征。与传统方法不同,Arc2Face专注于使用人脸识别技术的核心特征来引导图像的生成,从而实现在各各种任务中保持人脸身份的一致性。

这意味着Arc2Face可以用于创建非常符合特定人物身份特征的,人脸图像,为人脸识别、数字娱乐以及安全领域等提供了新的可能性。

github地址：https://github.com/foivospar/Arc2Face

5月20日

一键生成简历！开源的AI简历生成神器太牛逼了！

Reactive Resume是一个免费的开源简历生成器，它简化了创建、更新和共享简历的过程。在零用户跟踪或广告的情况下，您的隐私是首要任务。该平台非常用户友好，如果您希望完全拥有自己的数据，可以在不到30秒内自行托管。

它有多种语言可供选择，并具有实时编辑、数十个模板、拖放自定义以及与OpenAI集成等功能，以增强您的写作能力。

你可以将简历的个性化链接分享给潜在雇主，跟踪其浏览量或下载量，并通过拖放部分来定制页面布局。该平台还支持各种字体选项，并提供数十个模板可供选择。是的，甚至还有一个黑暗模式，以获得更舒适的观看体验。

github：https://github.com/AmruthPillai/Reactive-Resume

API for Open LLMs-开源大模型的统一后端接口，与 OpenAI 的响应保持一致！

此项目为开源大模型的推理实现统一的后端接口，与 OpenAI 的响应保持一致，具有以下特性：

以 OpenAI ChatGPT API 的方式调用各类开源大模型
支持流式响应，实现打印机效果
实现文本嵌入模型，为文档知识问答提供支持
支持大规模语言模型开发工具 langchain的各类功能
只需要简单的修改环境变量即可将开源模型作为 chatgpt 的替代模型，为各类应用提供后端支持
支持加载经过自行训练过的 lora 模型
支持 vLLM 推理加速和处理并发请求

支持多种开源大模型： LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3

github地址：https://github.com/xusenlinzy/api-for-open-llm

VideoSwap：替换视频中的人物、物体同时保持视频背景不变！

允许你在视频中将一个主体（如视频中的一个动物、人物或任何物体）更换为另一个不同的主体，同时视频的背景环境保持不变。

你还可以通过交互式操作（如添加、删除等）进一步细化交换结果，实现更加个性化和精确的视频内容编辑。

项目及演示：https://videoswap.github.io

论文：https://arxiv.org/abs/2312.02087

github：https://github.com/showlab/VideoSwap

5月17日

移除对象图像中的任何物体：Inpaint-Anything

可以修复图像、视频和3D 场景中的任何内容，移除后可以通过文本提升再填充新的内容，背后用的是分割模型（Segment Anything）、修复模型（LaMa）和生成模型（Stable Diffusion）。效果在有些自然场景下移除物体还不错。

使用方法：

单击一个对象；
SAM将对象分割出来；
输入文字提示；
文本提示引导的修复模型（例如，稳定扩散）根据文本填充“洞”。

字节开源视频生成模型：AnimateDiff-Lightning视频生成加速十倍

在近日，字节跳动再次引领AI视频生成领域的革新，推出了其最新研究成果——AnimateDiff-Lightning模型。这款开源的文本到视频生成模型，以其令人惊叹的生成速度和卓越的生成质量，标志着视频生成技术的一个重大突破，其生成速度较原版AnimateDiff快达十倍以上，极大地提升了视频内容创造的效率。

Huggingface模型下载：https://huggingface.co/ByteDance/AnimateDiff-Lightning
AI快站模型免费加速下载：https://aifasthub.com/models/ByteDance

Awesome-Generative-AI-Guide - 生成式AI一站式资源库！

awesome-generative-ai-guide是一个集中存放生成式人工智能相关资源的中心，包括每月最新研究论文、面试题库、课程材料、代码笔记本等。内容定期更新，旨在让开发者及从业人员能够及时跟进最新进展，提高生产力。

主要资源包括论文摘要、面试问题分类、免费课程列表、开源笔记本等，还包括一些使用场景和范例。

github地址：https://github.com/aishwaryanr/awesome-generative-ai-guide

5月16日

一款免费开源的项目即可搞定：ChatGPT、Claude、Google Gemini、Mistral、LLaMA2等主流AI大模型的无缝切换使用！

LobeChat 是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（Function Call）插件系统。

支持一键免费部署私人 ChatGPT/LLM 网页应用程序。作者比较敬业，小版本更新迭代频率非常高，程序体验一流，项目已收获12w Star，认为对自己有帮助的同学也可以前往为作者加加star，让更多人能够使用提升效率，用在工作和学习的方方面面。

截止到目前Github一众开源GPT程序中，以作者层面开放插件生态系统的GPT应用程序仅此一家！尽管项目启动晚，但着实把开发进度赶在了前面，相较于注重稳定性和用户交互体验的老牌GPT程序ChatGPT-Next-Web 和 Chatbox桌面程序，LobeChat更加拥抱变化，绿色环保无广告，积极对齐官方GPT-4 Plus并开拓全新功能，为国内用户带来了极大的AI使用便利。

项目地址：https://github.com/lobehub/lobe-chat

脸修复及清晰化神器CodeFormer！面部马赛克修复，面部无损清晰化！

CodeFormer是一款强大的人工智能工具，主要用于图像和视频的修复和增强。它基于深度学习技术，特别是人脸复原模型，可以轻松修复和增强面部图像，提升照片和视频的质量和视觉效果

下载地址：

https://www.codeformer.cn/index.php/codeformer图形界面gui版/

让照片开口唱歌说话！腾讯AniPortrait比阿里EMO先开源！

之前阿里展示EMO项目让照片唱歌说话时，惊艳了所有人，然而到现在为止一直还没开源被饱受诟病，今天腾讯的AniPortrait来啦！也是一个让照片开口项目说话的项目！

根据音频和图像输入生成会说话、唱歌的动态视频它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。支持多种语言，同时支持进行面部重绘和头部姿势控制。

github地址：https://github.com/Zejun-Yang/AniPortrait

5月15日

VoiceCraft：支持克隆语音及修改音频文本的语音模型

VoiceCraft是一款新型语音模型，支持克隆语音和修改音频文本。据称其性能超越了XTTS，引起了业界关注。模型具有强大的音频克隆能力和编辑功能，虽未有详细试用报告，但已公开的演示效果显示出了潜力。

体验地址：https://top.aibase.com/tool/voicecraft

github地址：https://github.com/jasonppy/VoiceCraft

国外开源的让照片跳舞的AI项目！跳个科目三不在话下！

Champ 利用潜在扩散框架内的 3D 人体参数模型，实现了无与伦比的形状对齐和运动引导。

捕捉复杂的人体几何形状和运动从未如此简单！

github地址：https://github.com/fudan-generative-vision/champ

MoneyPrinterTurbo：1.2星！这个AI工具可以一键生成短视频和文案语音！

这个MoneyPrinterTurbo 开源AI项目已经1.2k的star量了！只需提供一个视频主题或关键词，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。

github地址：https://github.com/harry0703/MoneyPrinterTurbo

5月14日

StreamingT2V：根据文字提示生成2分钟的视频

StreamingT2V采用自回归方法来逐帧生成视频内容，也就是会根据前一段视频的内容来生成下一段内容，就像连环画中，每一幅画都是基于前一幅来绘制的。它能够生成长达1200帧（约2分钟）的视频，同时保证整个视频与文本描述紧密相关且动态连续。

主要功能和优势 1、长视频生成： StreamingT2V能够成功生成80、240、600、1200帧（约2分钟）的长视频，并且这一时长还可以进一步扩展，满足更长视频的需求。 2、高动态效果：视频展现出丰富的动态效果，没有停滞或重复，让视频内容更加生动和吸引人。 3、时间一致性：确保视频从头到尾在时间上保持一致，避免了视频片段之间的突兀转换，使整个视频流畅自然。 4、文本紧密对齐：视频内容紧密跟随输入的文本描述，准确展现文本中的场景、动作和故事情节。 5、高质量图像：初始阶段生成的视频具有256×256的分辨率，并通过后续处理提升到720×720，保证了视频的图像质量。 6、模型灵活性： StreamingT2V的效果不依赖于特定的文本到视频的模型，意味着随着基础模型的改进，视频质量有望进一步提升

项目及演示：https://streamingt2v.github.io

论文：https://arxiv.org/abs/2403.14773

github：https://t.co/h8nsZR8IHv

DreamTalk 一键生成说话视频！

DreamTalk是一个基于扩散的音频驱动表达性头部生成框架,能够生成具有多种说话风格的高质量头部视频。

DreamTalk在各种输入中表现出强大的性能,包括歌曲、多种语言的语音、含噪声音频和领域外的肖像画。

开源地址：https://github.com/ali-vilab/dreamtalk

开源AI掌机！可远程语音操控办公的私人助理！

之前火爆一时的AI硬件Rabbit R1，如今，已在GitHub上开源了。相关软件配置和硬件设计，包括CAD文件、电路图等，都能在GitHub仓库中找到。

通过它你可以直接语音操控电脑，远程完成发邮件、改文档等工作任务（云端或本地大模型）。如果你想，还可以教导这位私人AI助理各种软件，让它帮你完成更多更高难度的任务。

开源地址：https://github.com/OpenInterpreter/01

5月13日

一键翻译漫画文字！二次元福音Manga-image-Translator！

Manga-image-Translator这个开源工具，专门用于翻译漫画或图片中的文字。把所谓生番变成熟番，主要设计用于翻译日语文本，但也支持中文、英语和韩语。

利用高效的OCR和AI翻译技术，它能够自动识别和翻译任何图片中的文字，并支持多种语言。该工具不仅可以翻译文字，还可以对去除文字后的区域进行修复和上色，以及重新渲染翻译后的文本。

体验地址：https://cotrans.touhou.ai

开源地址：https://github.com/zyddnys/manga-image-translator

GUI版本：https://github.com/dmMaze/BallonsTranslator

免费、强大的笔记软件！开源笔记本软件Joplin！已获42.3k星！

Joplin 是一款免费的开源笔记软件，能够方便地管理待办事项和处理大量笔记。

Joplin的界面非常简单，没有花哨的功能和各式各样的广告。功能出色，支持加密。其数据可以本地保存，也可以选择使用 Dropbox 、OneDrive、 NextCloud 或 WebDAV 来同步你的笔记。

它是跨平台的，可以在 Linux、Windows、macOS、iOS 和 Android 上使用，并且采用 MIT 许可开源。

官网地址：https://joplinapp.org/

开源地址：https://github.com/laurent22/joplin

视频生成速度提升十倍！字节跳动发布AnimateDiff-Lightning！

AnimateDiff-Lightning能够更快地根据文本描述生成视频，比起原来的AnimateDiff模型，速度提升十倍以上。除了能够根据文本生成视频之外，AnimateDiff-Lightning还可以进行视频到视频的生成，比如可以将现有视频转换成不同风格的视频，包括真实风格和动漫卡通风格等等。

此外，AnimateDiff-Lightning还支持多步骤蒸馏模型，用户根据自己的需求，在生成视频的速度和质量之间做出选择，以平衡生成速度和视频质量。

开源地址:https://huggingface.co/ByteDance/AnimateDiff-Lightning

论文地址:https://arxiv.org/html/2403.12706v1

5月11日

真正的神笔马良！AI实时绘画系统发布！

Stream Multi Diffusion是一个实时、交互、多文本到图像生成平台。

用户可以即时的与系统交互，并通过在多个特定区域内分别输入不同的文本提示来指导AI画图。

例如，用户可以在红色区域生成人物，在耳朵和尾巴区域标记为狗，系统就会根据涂抹的区域生成长着狗狗耳朵和尾巴的人物。

体验地址：https://huggingface.co/spaces/ironjr/SemanticPalette

开源地址：https://github.com/ironjr/StreamMultiDiffusion?tab=readme-ov-file

论文地址：https://arxiv.org/abs/2403.09055

会议画图神器！70.7k星的开源白板工具！

Excalidraw 是一款手绘风格的白板 Web 应用。无论是 Windows / macOS / linux还是手机，打开浏览器就能使用，它能简单地画出美观漂亮的流程图、示意图和开发架构图等常用图片，也可以作为会议画板使用。

提供了自由绘制、多种工具、导出 PNG、实时协作、共享链接、自动保存等多种功能。

简单好用，有画图界的 Markdown 之称。

开源地址：https://github.com/excalidraw/excalidraw

保护个人隐私！免费磁盘加密软件：VeraCrypt！

VeraCrypt 中文版是一款适用于 Windows，Mac OSX 和 Linux 的免费开源磁盘加密软件。该项目基于知名、已停止维护的 TrueCrypt 开发，修复了已知的许多漏洞和安全问题。

支持动态加密系统分区、硬件加速、隐藏加密容器、多重认证等功能。

开源地址：https://github.com/veracrypt/VeraCrypt

5月10日

清华大学计算机系课程攻略！程序员们的福音来了！已获31.7k星！

计算机都要学哪些课程，有什么先后顺序，如何快速持续的提高技术水平？

有类似疑问的小伙伴，可以一起来看看Github上的清华大学计算机系课程攻略。

提供了大量有关课程的资料和学习方法，里面包含了清华CS专业，大一到大四的课程以及推荐书籍资源等。同时欢迎学生们贡献内容来提升资源的完整性和质量。

今天你学习了吗？

开源地址：https://github.com/PKUanonym/REKCARC-TSC-UHT

开源视频神器NewPipe！海量视频手机观看！已获28.1k星！

NewPipe是一个开源的、轻量级的、用于Android 的YouTube视频和音乐流媒体播放器。该播放器在没有Google服务的设备上也能运行。

占用系统资源极少，适合资源有限的设备。还具备去广告和离线观看的便捷操作。

官网地址：https://ostechnix.com/newpipe-a-lightweight-open-source-youtube-client-for-android/

开源地址：https://github.com/TeamNewPipe/NewPipe

网易有道开源的本地化知识库！像 "chatgpt" 一样的体验！

网易有道开源了其RAG引擎QAnything，这一举措使用户能够像使用"chatgpt"一样，通过传入各种类型的文档，如doc、pdf、图片、ppt、excel等，进行问答。

该开源项目包含了embedding、rerank、LLM和向量数据库等所有必要的模型和系统模块，用户可以轻松地一键下载，并在本地搭建一个强大的大模型问答系统，随时开始使用。

开源地址：https://github.com/netease-youdao/QAnything/releases/tag/v1.1.0

5月9日

百变人像：cog-become-image！

输入一张包含人脸的图片，再选择另一张带有风格的图片，就可以把原始图片转成符合风格图片的样子。

用户可以根据需求调节各种参数，如保留原始人脸图像的程度、强度控制以及样式应用等，当然也支持输入提示词，辅助风格化结果的生成，从而定制出符合个人需求的图片。

体验地址：https://replicate.com/fofr/become-image

开源地址：https://github.com/fofr/cog-become-image

全球首个类Sora视频生成模型开源！两天斩获6.5k星！

Colossal-AI团队开源全球首个类Sora架构视频生成模型「Open-Sora 1.0」。本次开源的内容涵盖了整个训练流程，包括数据处理、训练细节和模型权重。

模型支持完整的视频数据预处理、加速训练、推理等，只需 3 天的培训即可制作 2 秒 512x512 视频。

开源地址：https://github.com/hpcaitech/Open-Sora

一键生成原创BGM！图像转音乐AI爆火出圈！

Image to Music V2是一款将图像转换为音乐的生成AI工具，用户只需上传一张图片，就可生成一段时长一分钟的音乐片段。

这款应用还为用户提供了不同的音乐生成模型供其选择，网站预设有布鲁斯、EDM、吉他、钢琴、管弦乐、爵士乐等各种音乐风格，不同提示词配上不同的风格，就能得到各式风味的原创音乐。可以更好地匹配个人喜好和创作需求，提供个性化的音乐创作体验。

体验地址：https://huggingface.co/spaces/fffiloni/image-to-music-v2

开源地址：https://huggingface.co/posts/fffiloni/484223631728087

5月8日

马斯克说到做到！自研3140亿参数的巨无霸模型Grok已开源！

3月18日凌晨，马斯克的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型Grok。

目前，Grok的代码和模型权重已上线GitHub。官方信息显示，此次开源的Grok-1参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿。是当前的开源模型中参数量最大的一个。

Grok-1采用的是Apache 2.0 license，这意味着企业家、程序员、公司和个人现在可以访问 Grok 的权重和文档，从而允许他们将该模型的副本用于各种目的，包括商业应用。

开源地址：https://github.com/xai-org/grok-1官网地址：https://x.ai/blog/grok-os

想动哪里点哪里！创新图生视频模型“Follow Your Click”开源！

腾讯混元、清华大学和香港科技大学联合推出了新的图生视频模型Follow-Your-Click。

其操作方法非常简单。用户将任意一张照片输入模型，只需点击对应区域，加上少量简单的提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

项目主页：https://follow-your-click.github.io/

论文链接：https://arxiv.org/pdf/2403.08268.pdf

GitHub：https://github.com/mayuelala/FollowYourClick

免费一键抠图！商业级背景去除模型RMBG v1.4！

RMBG-1.4号称开源界最强大的一键抠图、去除背景模型。它可以有效对前景与背景进行分离。

这个模型经过在精心挑选的数据集上的训练，包括各种库存图像、电子商务、游戏和广告内容，所以非常适合用于支持大规模企业内容创建的用途。该方案达到了商业级性能，但仅限于非商业用途。

体验地址：https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4

开源地址：https://huggingface.co/briaai/RMBG-1.4

5月7日

让照片起舞！Animate Anyone！已获13.6k星

Animate Anyone是阿里巴巴旗下研究院发布的动画制作AI软件。

Animate Anyone能够自动生成角色、场景、动作等动画元素，并将其组合成完整的动画作品，用户只需提供一些简单的参数即可。这大大降低了动画制作的难度，让动画制作变得更加简单。

体验地址：https://humanaigc.github.io/animate-anyone/

github地址：https://github.com/HumanAIGC/AnimateAnyone

电商网购好助手：Outfit Anyone！

Outfit Anyone只需要一张人物照片和服装照片，就可以为不同的姿势和身体形状创建高质量的虚拟试穿。

这个模型可以自动识别服装和人物的特征，如形状、纹理、颜色、光照等，并且可以根据人物的姿势和背景，合理地调整服装的位置和大小，使之与人物的身体完美地贴合。

可以应用的场景包括在线购物、社交媒体、游戏、电影等。

体验地址：https://humanaigc.github.io/outfit-anyone/

体验地址：https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

github地址：https://github.com/HumanAIGC/OutfitAnyone

真人视频秒变动漫脸！VToonify打破次元壁！

上传一个自拍视频，再选一个风格画的类型，就可以生成一个卡通化的人脸视频。VToonify这个开源项目目前已有多达数十种肖像风格，并且支持高分辨率，是很多人喜欢的玩法。

该项目在风格控制的灵活性、生成视频的质量、时间上的连贯性等方面都有着出色的表现。

体验地址：https://huggingface.co/spaces/PKUWilliamYang/VToonify

开源地址：https://github.com/williamyang1991/VToonify

项目主页：https://www.mmlab-ntu.com/project/vtoonify

AI开源项目图文 ​

2024年更新 ​

12月31日 ​

面向开发者自动化应用程序的多语言翻译 AI 工具！ ​

AigcPanel: 开源的一站式AI视频数字人系统！ ​

DeepSeek-V3首个版本上线并同步开源！超越Claude 3.5紧追o1！ ​

12月30日 ​

阿里云通义开源迄今为止首个视觉推理模型：QVQ-72B！更睿智地看世界！ ​

4.6Kstar！阿里通义开源的 Agent 应用开发框架:Qwen-Agent！ ​

NotebookLM平替！开源的AI笔记工具，自动将多格式笔记转换成博客！ ​

12月27日 ​

Al浏览器助手!Browser Use:自动执行网页中的交互任务! ​

微软开源最强3D生成模型！TRELLIS：一键图像转3D！ ​

开源 AI 办公工具！Univer：支持Word、Excel等文档处理全栈解决方案！ ​

12月26日 ​

新加坡国立大学推出的线性注意力机制，生成8K图像时提速6.3倍！ ​

DisPose:北大等多所高校推出的增强人物图像控制动画质量的技术! ​

基于 Gemini 2.0的英语口语练习助手 实时发音纠正和建议！ ​

12月25日 ​

微软开源的金融市场预测工具：MarS ！能够实现逼真的市场模拟！ ​

Al图像标注工具，支持图像和视频多样化标注样式！ ​

Genesis Project 震撼发布!颠覆性的生成式物理引擎！ ​

12月24日 ​

开源的漫画图片文字翻译工具，多语言翻译无缝嵌入原图！ ​

21.9Kstar！微软开源的多功能、多格式文档转Markdown工具！ ​

李飞飞团队「空间智能」模型开源平替！智源研究院推出3D生成模型See3D！ ​

12月23日 ​

SmartMore联合多所高校推出的高效多模态大型语言模型！ ​

Leffa ： Meta AI开源的图像生成框架，精确控制人物的外观和姿势！ ​

图森未来开源的图生视频大模型：Ruyi！ ​

12月20日 ​

6.9Kstar！CosyVoice 2.0：阿里开源的语音生成大模型！ ​

Runway Act one 平替！HelloMeme:生成局部表情动作一致的图像或视频！ ​

AI漫画生成框架，能生成可控的黑白漫画面板! ​

12月19日 ​

快手联合浙大、清华等机构推出的多视角视频生成模型！ ​

TEN Agent：开源的实时多模态 AI 代理框架！ ​

EXAONE 3.5 ：开源AI模型，擅长长文本处理降低模型幻觉问题！ ​

12月18日 ​

开源AI内容检测工具，支持识别图像、PDF、视频文件！ ​

AI文本到图像生成框架，提升单步扩散模型的效率和性能！ ​

MEMO：音频驱动的生成肖像说话视频框架，保持身份一致性和表现力！ ​

12月17日 ​

开源的AI虚拟试衣工具！智能适配性别和体型自动调整衣物！ ​

See3D-智源研究院开源的3D生成模型，实现从视频中生成3D内容！ ​

AI会议助手！Amurex：提供实时建议、智能摘要、快速回顾关键信息！ ​

12月16日 ​

一款强大的自动生成文章工具：Claude-Journalist！ ​

35.7Kstar！基于A1的照片管理项目，AI驱动的照片分类和搜索功能！ ​

FlipSketch:将静态绘图转换为文本引导的草图动画，简化动画制作过程。 ​

12月13日 ​

谷歌DeepMind 发布新一代天气预测 AI 模型！可精准预测15天内的天气情况！ ​

开源的本地AI搜索助手，智能搜索信息来源追溯！ ​

复旦联合微软等机构推出的端到端身份一致性视频扩散框架！ ​

12月12日 ​

12.2Kstar！开源AI检索生成框架，自动生成精确的SQL查询！ ​

实现AI数字人交互！Lobe Vidol：可与虚拟人和 3D 模型聊天互动！ ​

IC-Light 升级为IC-Light V2-Vary 可更灵活地调整光源位置和强度！ ​

12月11日 ​

腾讯开源混元版Sora！腾讯混元文生视频大模型全面开源！ ​

Make-lt-Animatable:中科大联合腾讯推出的自动生成即时动画AI模型！ ​

开源的AI抠图工具！在浏览器中自动识别图像进行抠图！ ​

12月10日 ​

基于AutoGen代理框架构建的AI浏览器自动化系统！ ​

AnchorCrafter:能自动生成具有主播风格的产品宣传视频 ! ​

ShowUl：一款面向GUI视觉代理的视觉-语言-动作开源模型！ ​

12月9日 ​

狂澜26.8K星！打造属于你的互联网操作系统开源项目！ ​

阿里开源基于通义千问的agent项目： Qwen-Agent ！ ​

18.5K星！开源的AI编程工具，理解和执行复杂的人类指令！ ​

12月6日 ​

Meta 开源先进的视觉分割模型：SAM 2.1！ ​

HART：麻省理工学院推出的自回归视觉AI图像生成模型！ ​

16.5K星！Perplexica:开源AI搜索引擎，支持多种搜索模式、实时信息更新！ ​

12月5日 ​

Fugatto：英伟达推出的多功能AI音频生成模型！ ​

基于FLUX.1的通用控制框架， 通过参考图像来控制图像生成的结果！ ​

4.4Kstar！能够在实时动态、复杂的视频场景中跟踪目标的模型！ ​

12月4日 ​

开源的文本到图像生成框架，适应多种图像生成任务！ ​

AI开源项目图文

2024年更新

12月31日

面向开发者自动化应用程序的多语言翻译 AI 工具！

AigcPanel: 开源的一站式AI视频数字人系统！

DeepSeek-V3首个版本上线并同步开源！超越Claude 3.5紧追o1！

12月30日

阿里云通义开源迄今为止首个视觉推理模型：QVQ-72B！更睿智地看世界！

4.6Kstar！阿里通义开源的 Agent 应用开发框架:Qwen-Agent！

NotebookLM平替！开源的AI笔记工具，自动将多格式笔记转换成博客！

12月27日

Al浏览器助手!Browser Use:自动执行网页中的交互任务!

微软开源最强3D生成模型！TRELLIS：一键图像转3D！

开源 AI 办公工具！Univer：支持Word、Excel等文档处理全栈解决方案！

12月26日

新加坡国立大学推出的线性注意力机制，生成8K图像时提速6.3倍！

DisPose:北大等多所高校推出的增强人物图像控制动画质量的技术!

基于 Gemini 2.0的英语口语练习助手实时发音纠正和建议！

12月25日

微软开源的金融市场预测工具：MarS ！能够实现逼真的市场模拟！

Al图像标注工具，支持图像和视频多样化标注样式！

Genesis Project 震撼发布!颠覆性的生成式物理引擎！

12月24日

开源的漫画图片文字翻译工具，多语言翻译无缝嵌入原图！

21.9Kstar！微软开源的多功能、多格式文档转Markdown工具！

李飞飞团队「空间智能」模型开源平替！智源研究院推出3D生成模型See3D！

12月23日

SmartMore联合多所高校推出的高效多模态大型语言模型！

Leffa ： Meta AI开源的图像生成框架，精确控制人物的外观和姿势！

图森未来开源的图生视频大模型：Ruyi！

12月20日

6.9Kstar！CosyVoice 2.0：阿里开源的语音生成大模型！

Runway Act one 平替！HelloMeme:生成局部表情动作一致的图像或视频！

AI漫画生成框架，能生成可控的黑白漫画面板!

12月19日

快手联合浙大、清华等机构推出的多视角视频生成模型！

TEN Agent：开源的实时多模态 AI 代理框架！

EXAONE 3.5 ：开源AI模型，擅长长文本处理降低模型幻觉问题！

12月18日

开源AI内容检测工具，支持识别图像、PDF、视频文件！

AI文本到图像生成框架，提升单步扩散模型的效率和性能！

MEMO：音频驱动的生成肖像说话视频框架，保持身份一致性和表现力！

12月17日

开源的AI虚拟试衣工具！智能适配性别和体型自动调整衣物！

See3D-智源研究院开源的3D生成模型，实现从视频中生成3D内容！

AI会议助手！Amurex：提供实时建议、智能摘要、快速回顾关键信息！

12月16日

一款强大的自动生成文章工具：Claude-Journalist！

35.7Kstar！基于A1的照片管理项目，AI驱动的照片分类和搜索功能！

FlipSketch:将静态绘图转换为文本引导的草图动画，简化动画制作过程。

12月13日

谷歌DeepMind 发布新一代天气预测 AI 模型！可精准预测15天内的天气情况！

开源的本地AI搜索助手，智能搜索信息来源追溯！

复旦联合微软等机构推出的端到端身份一致性视频扩散框架！

12月12日

12.2Kstar！开源AI检索生成框架，自动生成精确的SQL查询！

实现AI数字人交互！Lobe Vidol：可与虚拟人和 3D 模型聊天互动！

IC-Light 升级为IC-Light V2-Vary 可更灵活地调整光源位置和强度！

12月11日

腾讯开源混元版Sora！腾讯混元文生视频大模型全面开源！

Make-lt-Animatable:中科大联合腾讯推出的自动生成即时动画AI模型！

开源的AI抠图工具！在浏览器中自动识别图像进行抠图！

12月10日

基于AutoGen代理框架构建的AI浏览器自动化系统！

AnchorCrafter:能自动生成具有主播风格的产品宣传视频 !

ShowUl：一款面向GUI视觉代理的视觉-语言-动作开源模型！

12月9日

狂澜26.8K星！打造属于你的互联网操作系统开源项目！

阿里开源基于通义千问的agent项目： Qwen-Agent ！

18.5K星！开源的AI编程工具，理解和执行复杂的人类指令！

12月6日

Meta 开源先进的视觉分割模型：SAM 2.1！

HART：麻省理工学院推出的自回归视觉AI图像生成模型！

16.5K星！Perplexica:开源AI搜索引擎，支持多种搜索模式、实时信息更新！

12月5日

Fugatto：英伟达推出的多功能AI音频生成模型！

基于FLUX.1的通用控制框架，通过参考图像来控制图像生成的结果！

4.4Kstar！能够在实时动态、复杂的视频场景中跟踪目标的模型！

12月4日

开源的文本到图像生成框架，适应多种图像生成任务！