实时语音转文字 (STT) 与模型选择

无界音流的核心功能是基于本地模型的实时语音转文字(STT)。它能够精准、快速地将您的语音转化为文字,并支持多种输出方式。

Mini Mode 悬浮字幕界面
Mini Mode — 右下角悬浮实时字幕

实时 STT 功能介绍

无界音流使用先进的 SenseVoice ONNX 本地模型进行推理,支持实时输出和最终结果输出。这意味着您在说话的同时,文字就会立刻显示在屏幕上。

ℹ️

当前 STT 分为两条路径: 麦克风实时识别继续使用 SenseVoice ONNX 本地推理;新增的 native-stt 则用于上传音频文件后的离线转写,支持 Whisper / SenseVoice 两种原生后端。

输出方式

在设置中,您可以选择不同的输出方式:

如何开启实时 STT

1

确认配置

确保您已经正确配置了模型目录(见下文)。

2

开始录音

方式一:点击主界面上的 “开始录音” 按钮。
方式二:在任何界面下,按下键盘上的 右侧 Alt 键 (RightAlt)

3

结束录音

开始说话吧!您会看到识别的文字实时显示出来。再次按下快捷键或点击停止按钮即可结束录音。

选择与配置不同模型

为了让语音识别功能正常工作,您需要进行简单的模型配置:

配置模型目录

  1. 打开应用主界面,进入 设置 (Settings)
  2. 找到 模型目录 配置项。
  3. 选择或输入您的 SenseVoice 模型所在的文件夹路径。

推荐模型下载(ModelScope)

无界音流默认使用 SenseVoice 本地模型(ONNX)。推荐使用 ModelScope 下载(参考 ModelScope 文档;小白安装指南见 附录 A):

modelscope download --model iic/SenseVoiceSmall --local_dir ./SenseVoiceSmall

下载完成后,将设置里的 模型目录 指向下载目录(例如 ./SenseVoiceSmall 或 Windows 绝对路径)。

⚠️

注意: 请确保该文件夹内包含 model.onnxtokens.json 文件。如果尚未下载模型,请参考安装指南获取模型文件。

高级 STT 设置

native-stt 离线文件转写

升级后的 native-stt 提供了一条与实时麦克风 STT 并行的离线转写路径。它适合较长录音、历史音频、会议回放和本地批量转写场景。

native-stt 配置界面
native-stt 配置示意:选择后端、模型文件与待转写音频

适用场景与特点

如何配置 native-stt

  1. 在主界面的 STT 面板中,将后端切换为 WhisperSenseVoice
  2. 选择对应的 模型文件 或模型路径。
  3. 再选择需要转写的 音频文件
  4. 点击 转写文件,结果会逐步写入“原始结果”区域。

模型与格式说明

⚠️

注意: native-stt 当前定位为离线文件转写能力,不用于实时麦克风字幕。如果您希望边说边显示,请继续使用默认的 ONNX 实时 STT。