javascript如何实现语音识别_有哪些Web Speech API可以使用?

Web Speech API 的 SpeechRecognition 是浏览器原生语音识别首选方案,支持 Chrome/Edge(Chromium),需 HTTPS/localhost、用户授权及云端服务;Safari/Firefox 不支持。

JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API,目前最常用、最成熟的是 SpeechRecognition 接口(也叫 Web Speech Recognition),它允许网页实时捕获并转录用户语音为文本。

SpeechRecognition:主流语音识别接口

这是 Web Speech API 中负责语音转文字的核心接口,已稳定支持于 Chrome(桌面和 Android)、Edge(基于 Chromium 版本)等浏览器。Safari 和 Firefox 目前不支持该接口(截至 2025 年)。

使用前需注意:

  • 必须在 HTTPS 或 localhost 环境 下运行,HTTP 非本地站点会被拒绝访问麦克风
  • 需用户主动授权麦克风权限(首次调用时会弹出浏览器提示)
  • 识别过程依赖云端服务(Chrome 会将音频发送至 Google 语音服务处理,离线不可用)

基础使用示例(简洁可运行)

以下是最小可用代码片段:

const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'zh-CN'; // 设置中文识别
recognition.interimResults = true; // 允许返回中间结果(实时显示)
recognition.maxAlternatives = 1;

recognition.onresult = (event) => {
  const transcript = Array.from(event.results)
    .map(result => result[0].transcript)
    .join('');
  console.log('识别结果:', transcript);
};

recognition.onerror = (event) => {
  console.error('语音识别出错:', event.error);
};

// 开始监听
recognition.start();

调用 recognition.start() 后,浏览器会请求麦克风权限;成功后自动开始录音与识别。

配套接口:SpeechSynthesis(语音合成)

虽然不属于“识别”,但常与 SpeechRecognition 搭配使用,实现“听—说”闭环。它通过 window.speechSynthesis 提供文本转语音能力:

  • 支持多语言、语速/音调调节(utterance.rate, pitch, volume
  • 可通过 getVoices() 获取系统可用发音人(需等待 voiceschanged 事件)
  • 同样仅限 HTTPS / localhost,且部分浏览器(如 Safari)对中文 TTS 支持有限

替代方案(当 Web Speech 不可用时)

若需兼容 Safari、Firefox 或追求离线/隐私优先,可考虑:

  • WebAssembly + Whisper.cpp / Vosk:将轻量语音模型(如 Vosk)编译为 WASM,在前端本地运行,完全离线、无网络传输,但模型体积较大(5–50 MB)、识别延迟略高
  • Web Audio API + 自定义后端:用 MediaRecorder 录制音频 Blob,上传至自有语音识别服务(如部署 Whisper、FunASR),适合对数据隐私或定制化有要求的场景
  • 第三方 SDK:如讯飞开放平台、百度语音识别、腾讯云 ASR 的 JS SDK,提供更稳定中文支持和丰富功能(标点、热词、语义解析),但依赖厂商服务与密钥管理

Web Speech API 的 SpeechRecognition 是当前浏览器中开箱即用、零依赖的首选方案;其他方式则用于补足兼容性、离线需求或业务定制化场景。