Skip to content

智能助手工作台 v1.0.0 使用教程

📖 一、软件简介

1.1 核心功能

  • 语音转文字:支持单文件和批量处理
  • 文字转语音:支持情感克隆和声音定制
  • 资源搜索:集成网页浏览器,快速访问资源网站

1.2 系统要求

  • 操作系统: Windows 10/11 64位
  • 内存: 4GB及以上
  • 存储空间: 200MB可用空间
  • 网络连接: 需要互联网连接(用于AI功能)

1.3 下载安装

下载页面: https://ai-tool.newmt.fun

安装步骤:

  1. 下载 ai-tools-v1.0.0-setup.exe
  2. 双击运行安装程序
  3. 按照向导完成安装
  4. 首次运行建议重启电脑

🎤 二、语音转文字功能

2.1 准备工作:获取API Token

硅基流动API Token获取步骤:

  1. 访问官网https://cloud.siliconflow.cn/i/tlXMki0P
  2. 注册登录:支持手机验证码、邮箱、GitHub、Google登录
  3. 创建Token:进入个人中心 → API密钥 → 新建API密钥
  4. 复制保存:创建成功后立即复制Token并妥善保存

2.2 操作流程

单文件模式:

  1. 点击左侧导航栏的🎤图标
  2. 在侧边栏输入API Token,选择模型
  3. 点击"选择文件"按钮
  4. 点击"开始识别"
  5. 识别结果可复制、保存或清空

批量模式:

  1. 切换到"批量识别模式"
  2. 点击"添加文件(多选)"
  3. 点击"批量识别"开始处理
  4. 完成后点击"下载ZIP"打包导出

2.3 支持格式

  • 音频: mp3, wav, m4a, flac
  • 视频: mp4, avi, mov, mkv(自动提取音频)

2.4 使用技巧

  • 视频文件会自动提取音频进行识别
  • 选择SenseVoiceSmall模型识别速度更快
  • 批量处理多个文件更节省Token

🔊 三、文字转语音功能

3.1 准备工作:获取Gitee AI Token

  1. 访问 https://ai.gitee.com/models
  2. 注册Gitee AI账号
  3. 在API管理页面创建Token
  4. 复制Token备用

3.2 模型介绍

  • IndexTTS-2:情感克隆模型,可学习声音情感特征
  • Spark-TTS-0.5B:轻量级模型,合成速度快

3.3 操作步骤

  1. 点击左侧导航栏的🔊图标
  2. 输入Gitee AI Token,选择模型
  3. 上传参考音频(30秒以内,清晰无噪音)
  4. 输入要合成的文本(建议不超过500字)
  5. 点击"生成语音",等待完成
  6. 可播放试听或下载保存

3.4 高级功能(IndexTTS-2)

  • 情感音频控制:上传情感参考音频,调节强度
  • 文本情感控制:输入情感文本,控制语音情感
  • 声音克隆:模仿参考音频的音色和语调

🔍 四、资源搜索功能

4.1 使用方法

  1. 点击左侧导航栏的🔍图标
  2. 软件自动打开资源搜索网站
  3. 在嵌入式浏览器中搜索资源

4.2 支持网站


❓ 五、常见问题

5.1 安装问题

Q:安装时提示"Windows已保护你的电脑" A:点击"更多信息" → "仍要运行",或暂时关闭Windows Defender

Q:软件启动后立即闪退 A:安装Visual C++ Redistributable,或更新Windows系统

5.2 功能问题

Q:语音识别总是失败 A:检查API Token是否正确,网络连接是否正常,音频格式是否支持

Q:文字转语音生成速度慢 A:避开高峰期使用,压缩参考音频文件,将长文本分段处理

Q:批量处理中途停止 A:检查网络连接,确认Token额度是否用完,关闭其他程序释放内存

5.3 使用问题

Q:如何保存当前配置? A:API Token会自动保存到本地文件,位置在软件安装目录下

Q:支持哪些语言? A:语音识别主要支持中文普通话,语音合成支持中文


💡 六、使用建议

初学者:

  1. 先从单文件语音识别开始
  2. 使用清晰的短音频进行测试
  3. 正确配置API Token后立即保存

进阶用户:

  1. 利用批量功能提高效率
  2. 尝试创建个性化语音
  3. 探索IndexTTS-2的高级功能

生产环境:

  1. 确保稳定的网络连接
  2. 定期备份重要数据
  3. 关注API使用量和费用

📞 七、技术支持

  • 公众号: 百万教程

📌 附录

API服务商

功能服务商官网免费额度
语音识别SiliconFlowhttps://cloud.siliconflow.cn/i/tlXMki0P新用户赠送额度
语音合成Gitee AIhttps://ai.gitee.com按量计费

文件格式支持

功能支持格式备注
语音识别输入mp3, wav, m4a, flac, mp4, avi, mov, mkv视频自动提取音频
音频提取输出wav16000Hz, 单声道
语音合成参考音频mp3, wav, m4a, flac建议30秒以内
语音合成输出mp3标准MP3格式
文本保存txtUTF-8编码
批量导出zip标准ZIP格式

祝您使用愉快!

文档版本:v1.0.0
最后更新:2026年1月22日
文档维护:公众号_百万教程


【新手必备】硅基流动API Token免费获取完全指南:4步解锁AI模型调用(零门槛+图文对照)

在AI开发热潮下,API Token作为对接硅基流动(SiliconFlow)多模态AI模型的核心凭证,已成为开发者必备工具。无论是免费试用DeepSeek-OCR,还是调用语言、语音、生图等模型,都无需复杂配置和高昂成本——本文将以零基础新手视角,提供一套完全免费、步骤清晰的API Token获取教程,搭配图文分镜,让你10分钟内轻松上手。

第一步:访问官网,完成快速登录

API Token获取的第一步是登录硅基流动平台,支持多种登录方式,无需额外注册,新手也能秒上手。

操作流程:

  1. 打开浏览器,输入官方网址: https://cloud.siliconflow.cn/i/tlXMki0P ,进入平台首页;
  2. 点击页面右上角的「登录」按钮,选择适合自己的登录方式(4种可选,无需复杂验证):
    • 基础登录:手机号接收验证码 / 邮箱+密码登录;
    • 快捷登录:GitHub账号 OAuth 授权 / Google账号 OAuth 授权;
  3. 登录成功后,系统自动跳转至平台首页或开发者控制台(首次登录无强制完善信息环节,直接进入下一步)。

第二步:找到API密钥管理入口

登录后,需快速定位「API密钥」管理页面,这是创建Token的核心入口,位置清晰易找。

操作流程:

  1. 登录成功后,点击页面顶部的「头像」或「我的账号」图标,进入个人中心;
  2. 在个人中心左侧导航栏,或顶部功能菜单中,找到「API密钥」选项(若首页未直接显示,可点击底部“快速获取您的模型API”按钮间接跳转);
  3. 点击「API密钥」,进入密钥管理专属页面(首次使用时页面无已创建密钥,仅显示功能按钮)。

第三步:免费创建API Token(无需审核)

硅基流动的API Token完全免费创建,无需提交申请、无需等待审核,点击按钮即可生成。

操作流程:

  1. 在API密钥管理页面,点击中间醒目的「新建API密钥」按钮(蓝色/绿色主色调,易识别);
  2. 可选操作:在弹出的输入框中填写备注名称(如“免费OCR调用”“测试用Token”“项目A专用”),便于后续多密钥管理;
  3. 无需填写其他信息,直接点击「确认创建」按钮,系统即时生成API Token(含Access Key和Secret Key,或合并为单个Token字符串)。

第四步:复制保存,避免丢失

结语

硅基流动的免费API Token彻底打破了AI模型调用的门槛,无论是个人开发者测试项目、学生学习实践,还是企业验证AI落地场景,都能零成本快速对接优质AI能力。平台不仅提供高速推理(语言模型10x+速度提升、生图1s出图)、高稳定性(完善监控和容错机制)等优势,还支持私有化部署、混合云部署等企业级服务。

按照本文4步流程,你已经掌握了核心获取方法——现在就动手操作,解锁语言、OCR、音视频等多模态AI服务,开启你的AI开发之旅吧!