实时语音转文字 (STT) 与模型选择
无界音流的核心功能是基于本地模型的实时语音转文字(STT)。它能够精准、快速地将您的语音转化为文字,并支持多种输出方式。
实时 STT 功能介绍
无界音流使用先进的 SenseVoice ONNX 本地模型进行推理,支持实时输出和最终结果输出。这意味着您在说话的同时,文字就会立刻显示在屏幕上。
当前 STT 分为两条路径: 麦克风实时识别继续使用 SenseVoice ONNX 本地推理;新增的 native-stt 则用于上传音频文件后的离线转写,支持 Whisper / SenseVoice 两种原生后端。
输出方式
在设置中,您可以选择不同的输出方式:
- 跟随光标注入(推荐):边说边写,识别结果直接输入到您当前光标所在的位置。开启后,请先用鼠标点到你想输入的地方(如 Word、网页输入框),再开始说话。
- 实时输出:在应用界面内实时显示识别结果。
- 最终自动回车:在一段话讲完后,自动输出最终结果并换行。
如何开启实时 STT
确认配置
确保您已经正确配置了模型目录(见下文)。
开始录音
方式一:点击主界面上的 “开始录音” 按钮。
方式二:在任何界面下,按下键盘上的 右侧 Alt 键 (RightAlt)。
结束录音
开始说话吧!您会看到识别的文字实时显示出来。再次按下快捷键或点击停止按钮即可结束录音。
选择与配置不同模型
为了让语音识别功能正常工作,您需要进行简单的模型配置:
配置模型目录
- 打开应用主界面,进入 设置 (Settings)。
- 找到 模型目录 配置项。
- 选择或输入您的 SenseVoice 模型所在的文件夹路径。
推荐模型下载(ModelScope)
无界音流默认使用 SenseVoice 本地模型(ONNX)。推荐使用 ModelScope 下载(参考 ModelScope 文档;小白安装指南见 附录 A):
modelscope download --model iic/SenseVoiceSmall --local_dir ./SenseVoiceSmall
下载完成后,将设置里的 模型目录 指向下载目录(例如 ./SenseVoiceSmall 或 Windows 绝对路径)。
注意: 请确保该文件夹内包含 model.onnx 和 tokens.json 文件。如果尚未下载模型,请参考安装指南获取模型文件。
高级 STT 设置
- 发送帧间隔(毫秒):决定语音识别的实时性。建议设置为
20ms(接近实时)。数值越小,文字上屏越快,但会增加电脑性能消耗。 - 识别语言:强制指定识别的语言(如中文、英文、日文等)。推荐选择 自动 (auto),让 AI 自动判断。
- TextNorm:文本标准化处理。推荐保持 auto(默认)。
native-stt 离线文件转写
升级后的 native-stt 提供了一条与实时麦克风 STT 并行的离线转写路径。它适合较长录音、历史音频、会议回放和本地批量转写场景。
适用场景与特点
- 仅用于音频文件转写:不替代实时麦克风识别;实时录音仍然使用 ONNX STT。
- 支持原生后端:可切换
Whisper或SenseVoice,按模型类型选择最适合的转写引擎。 - 长音频更稳妥:应用会按片段处理较长文件,并把结果持续追加到“原始结果”区域。
- 可中途中止:转写过程中可以点击停止按钮终止当前任务。
- 自动优先 CUDA:系统具备可用 CUDA 环境时,native-stt 会优先尝试 GPU 加速。
如何配置 native-stt
- 在主界面的 STT 面板中,将后端切换为 Whisper 或 SenseVoice。
- 选择对应的 模型文件 或模型路径。
- 再选择需要转写的 音频文件。
- 点击 转写文件,结果会逐步写入“原始结果”区域。
模型与格式说明
- Whisper:适合使用
.bin、.ggml、.gguf模型文件。 - SenseVoice:适合使用
.bin或.gguf模型文件。 - 语言建议:大多数情况下保持
auto即可;如需提高稳定性,可手动指定语言。
注意: native-stt 当前定位为离线文件转写能力,不用于实时麦克风字幕。如果您希望边说边显示,请继续使用默认的 ONNX 实时 STT。
Copyright(c) ZimaBlueAI
齐码蓝智能(大理市 )有限责任公司