实时语音转文字 (STT) 与模型选择

无界音流的核心功能是基于本地模型的实时语音转文字(STT)。它能够精准、快速地将您的语音转化为文字,并支持多种输出方式。

Mini Mode 悬浮字幕界面
Mini Mode — 右下角悬浮实时字幕

实时 STT 功能介绍

无界音流支持 SenseVoice ONNXFunASR 两条本地实时 STT 路径。两者都支持临时流式结果与句级最终结果,您说话时即可持续看到文字上屏。

ℹ️

当前 STT 路径: 麦克风实时识别支持 SenseVoice ONNXFunASR;新增的 native-stt 主要用于上传音频文件后的离线转写,支持 Whisper / SenseVoice 两种原生后端。

输出方式

在设置中,您可以选择不同的输出方式:

如何开启实时 STT

1

确认配置

确保您已经正确配置了模型目录(见下文)。

2

开始录音

方式一:点击主界面上的 “开始录音” 按钮。
方式二:在任何界面下,按下键盘上的 右侧 Alt 键 (RightAlt)

3

结束录音

开始说话吧!您会看到识别的文字实时显示出来。再次按下快捷键或点击停止按钮即可结束录音。

选择与配置不同模型

为了让语音识别功能正常工作,您需要进行简单的模型配置:

选择后端并配置模型目录

  1. 打开应用主界面,进入 设置 (Settings)
  2. 在 STT 后端中选择要使用的实时后端(ONNXFunASR)。
  3. 模型目录 中选择对应后端的模型文件夹路径。

推荐模型下载(ModelScope)

无界音流默认使用 SenseVoice 本地模型(ONNX)。推荐使用 ModelScope 下载(参考 ModelScope 文档;小白安装指南见 附录 A):

modelscope download --model iic/SenseVoiceSmall --local_dir ./SenseVoiceSmall

下载完成后,将设置里的 模型目录 指向下载目录(例如 ./SenseVoiceSmall 或 Windows 绝对路径)。

如果您选择 FunASR 后端,请下载 FunASR-Nano 模型,并将 模型目录 指向该目录:

modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512 --local_dir ./Fun-ASR-Nano-2512
⚠️

注意: ONNX 后端请确保目录中包含 model.onnxtokens.json;FunASR 后端请确保目录为完整的 Fun-ASR-Nano-2512 模型目录(例如包含 model.ptconfig.yaml、tokenizer 相关文件)。

高级 STT 设置

native-stt 离线文件转写

升级后的 native-stt 提供了一条与实时麦克风 STT 并行的离线转写路径。它适合较长录音、历史音频、会议回放和本地批量转写场景。

native-stt 配置界面
native-stt 配置示意:选择后端、模型文件与待转写音频

适用场景与特点

如何配置 native-stt

  1. 在主界面的 STT 面板中,将后端切换为 WhisperSenseVoice
  2. 选择对应的 模型文件 或模型路径。
  3. 再选择需要转写的 音频文件
  4. 点击 转写文件,结果会逐步写入“原始结果”区域。

模型与格式说明

⚠️

注意: native-stt 当前定位为离线文件转写能力,不用于实时麦克风字幕。如果您希望边说边显示,请使用 ONNX 或 FunASR 的实时 STT 路径。