javascript如何实现语音识别_有哪些Web Speech API可以使用？_技术教程

Web Speech API 的 SpeechRecognition 是浏览器原生语音识别首选方案，支持 Chrome/Edge（Chromium），需 HTTPS/localhost、用户授权及云端服务；Safari/Firefox 不支持。

JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API，目前最常用、最成熟的是 SpeechRecognition 接口（也叫 Web Speech Recognition），它允许网页实时捕获并转录用户语音为文本。

SpeechRecognition：主流语音识别接口

这是 Web Speech API 中负责语音转文字的核心接口，已稳定支持于 Chrome（桌面和 Android）、Edge（基于 Chromium 版本）等浏览器。Safari 和 Firefox 目前不支持该接口（截至 2025 年）。

使用前需注意：

必须在 HTTPS 或 localhost 环境 下运行，HTTP 非本地站点会被拒绝访问麦克风
需用户主动授权麦克风权限（首次调用时会弹出浏览器提示）
识别过程依赖云端服务（Chrome 会将音频发送至 Google 语音服务处理，离线不可用）

基础使用示例（简洁可运行）

以下是最小可用代码片段：

const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'zh-CN'; // 设置中文识别
recognition.interimResults = true; // 允许返回中间结果（实时显示）
recognition.maxAlternatives = 1;

recognition.onresult = (event) => {
  const transcript = Array.from(event.results)
    .map(result => result[0].transcript)
    .join('');
  console.log('识别结果：', transcript);
};

recognition.onerror = (event) => {
  console.error('语音识别出错：', event.error);
};

// 开始监听
recognition.start();

调用 recognition.start() 后，浏览器会请求麦克风权限；成功后自动开始录音与识别。

配套接口：SpeechSynthesis（语音合成）

虽然不属于“识别”，但常与 SpeechRecognition 搭配使用，实现“听—说”闭环。它通过 window.speechSynthesis 提供文本转语音能力：

支持多语言、语速/音调调节（utterance.rate, pitch, volume）
可通过 getVoices() 获取系统可用发音人（需等待 voiceschanged 事件）
同样仅限 HTTPS / localhost，且部分浏览器（如 Safari）对中文 TTS 支持有限

替代方案（当 Web Speech 不可用时）

若需兼容 Safari、Firefox 或追求离线/隐私优先，可考虑：

WebAssembly + Whisper.cpp / Vosk：将轻量语音模型（如 Vosk）编译为 WASM，在前端本地运行，完全离线、无网络传输，但模型体积较大（5–50 MB）、识别延迟略高
Web Audio API + 自定义后端：用 MediaRecorder 录制音频 Blob，上传至自有语音识别服务（如部署 Whisper、FunASR），适合对数据隐私或定制化有要求的场景
第三方 SDK：如讯飞开放平台、百度语音识别、腾讯云 ASR 的 JS SDK，提供更稳定中文支持和丰富功能（标点、热词、语义解析），但依赖厂商服务与密钥管理

Web Speech API 的 SpeechRecognition 是当前浏览器中开箱即用、零依赖的首选方案；其他方式则用于补足兼容性、离线需求或业务定制化场景。