我要投稿

WhisperLiveKit杀疯了！实时转写+说话人识别+完全本地部署，一键搞定会议纪要

发布日期：2025-09-06 11:49:28 浏览次数： 3572

作者：小兵的AI视界

微信搜一搜，关注“小兵的AI视界”

在当今数字化时代，语音识别技术正逐渐成为我们生活中不可或缺的一部分。无论是会议记录、在线教育，还是直播字幕，实时语音识别都能极大地提高效率和用户体验。今天，我要为大家介绍一个开源的实时语音识别工具——WhisperLiveKit。

一、项目概述

WhisperLiveKit 是一个开源的实时语音识别工具，能够将语音实时转录为文字，并且支持说话人识别功能。它基于先进的技术，如 SimulStreaming 和 WhisperStreaming，提供了超低延迟的转录功能。更重要的是，WhisperLiveKit 完全在本地处理语音数据，确保了隐私和安全。它支持多种语言，可以通过简单的命令快速启动，并且提供了 Web 界面和 Python API，方便开发者和普通用户使用。

二、核心功能

（一）实时语音转文字

WhisperLiveKit 支持多种语言，能够将语音实时转录为文字，适用于会议、讲座等多种场景。无论是在企业会议中记录讨论内容，还是在学术讲座中整理笔记，WhisperLiveKit 都能提供快速准确的转录服务。

（二）说话人识别

在多人会议或讨论中，准确区分不同发言者的身份是非常重要的。WhisperLiveKit 自动区分不同发言者的语音，确保记录的准确性和完整性。这对于会议记录、客服通话等场景非常有帮助。

（三）完全本地化处理

隐私和安全是现代技术中不可忽视的问题。WhisperLiveKit 完全在本地处理语音数据，不会将数据上传到云端，从而保护了用户的隐私。这对于涉及敏感信息的讨论尤为重要。

（四）低延迟流式处理

基于先进的算法，WhisperLiveKit 能够确保实时转录的低延迟，提供流畅的用户体验。无论是实时字幕生成还是会议记录，低延迟都能让用户感受到无缝的交互。

（五）多种使用方式

WhisperLiveKit 提供了 Web 界面和 Python API，方便用户和开发者使用。同时，它还支持 Docker 部署，使得部署和使用更加灵活。

三、技术原理

（一）SimulStreaming

SimulStreaming 是一种基于 AlignAtt 策略的超低延迟转录算法。它能够在语音输入的同时实时生成文字。通过智能缓冲和增量处理，SimulStreaming 避免了传统方法中因语音片段过小导致的上下文丢失和转录不准确的问题。

（二）WhisperStreaming

WhisperStreaming 是一种基于 LocalAgreement 策略的低延迟转录算法，适用于需要快速响应的场景。它提供了更高的转录效率和更好的实时性，适合实时字幕生成等应用。

（三）说话人识别（Diarization）

WhisperLiveKit 使用先进的说话人识别技术，如 Streaming Sortformer 和 Diart，能够实时区分不同发言者的语音。结合语音活动检测（VAD）和说话人嵌入模型，WhisperLiveKit 确保了说话人识别的准确性和实时性。

（四）语音活动检测（VAD）

WhisperLiveKit 使用 Silero VAD 等企业级语音活动检测技术，能够准确检测语音信号中的有效语音段，减少不必要的处理开销。在无语音输入时自动暂停处理，节省计算资源。

四、应用场景

（一）会议记录

在企业会议、学术研讨会以及各类团队讨论中，WhisperLiveKit 能够实时将会议内容转录为文字，精准记录下每一个发言者的观点和讨论细节。其说话人识别功能可自动区分不同发言者的身份，即使在多人同时发言的复杂场景下，也能确保记录的准确性和完整性。这使得会后整理会议纪要变得轻松快捷，大大提高了工作效率。

（二）在线教育

WhisperLiveKit 在教育领域的应用前景广阔。它能够为网课实时生成字幕，帮助学生更好地理解和吸收知识，尤其是对于那些听力有障碍或英语非母语的学生来说，实时字幕能够提供额外的学习支持，增强学习效果。

（三）直播字幕

在直播领域，无论是游戏直播、电商直播还是新闻直播，WhisperLiveKit 都能为直播内容实时生成字幕，支持多种语言。这不仅提升了观众的观看体验，使他们能够更清晰地了解直播内容，还能拓展直播的受众范围，吸引更多的国际观众。

（四）无障碍辅助

WhisperLiveKit 在无障碍辅助领域的应用具有重要意义。它为听力障碍者提供实时字幕，帮助他们在公共场所、媒体播放以及各类活动中更好地获取语音信息。

（五）客服中心

在客服行业中，WhisperLiveKit 能够实时转录客服通话内容，并区分不同发言者的身份。这不仅有助于客服人员在通话过程中快速记录关键信息，还能在通话结束后方便地进行质量监控和数据分析。

五、快速使用

（一）安装依赖

WhisperLiveKit 的安装非常简单，只需要通过 pip 安装即可：

pip install whisperlivekit

需要注意的是，FFmpeg 是必需的，并且必须在使用 WhisperLiveKit 之前安装。根据你的操作系统，可以使用以下命令安装 FFmpeg：

Ubuntu/Debian：`sudo apt install ffmpeg`
MacOS：`brew install ffmpeg`
Windows：从 [FFmpeg 官方网站](https://ffmpeg.org/download.html) 下载 .exe 文件并添加到 PATH 中

（二）快速启动

1. 启动转录服务器：

whisperlivekit-server --model base --language en

2. 打开浏览器并访问 `http://localhost:8000`。开始说话，你将看到文字实时显示出来！

（三）使用示例

1、命令行界面

你可以通过命令行启动转录服务器，并使用各种选项进行配置：

# 使用更好的模型（例如 large-v3）whisperlivekit-server --model large-v3# 高级配置，包括说话人识别和语言设置whisperlivekit-server --host 0.0.0.0 --port 8000 --model medium --diarization --language fr

2、Python API 集成

你还可以通过Python API 将 WhisperLiveKit 集成到你的项目中。以下是一个简单的示例：

from whisperlivekit import TranscriptionEngine, AudioProcessor, parse_argsfrom fastapi import FastAPI, WebSocket, WebSocketDisconnectfrom fastapi.responses import HTMLResponsefrom contextlib import asynccontextmanagerimport asyncio
transcription_engine = None
@asynccontextmanagerasync def lifespan(app: FastAPI):    global transcription_engine    transcription_engine = TranscriptionEngine(model="medium", diarization=True, lan="en")    yield
app = FastAPI(lifespan=lifespan)
async def handle_websocket_results(websocket: WebSocket, results_generator):    async for response in results_generator:        await websocket.send_json(response)    await websocket.send_json({"type": "ready_to_stop"})
@app.websocket("/asr")async def websocket_endpoint(websocket: WebSocket):    global transcription_engine
    # 为每个连接创建一个新的 AudioProcessor，传递共享的引擎    audio_processor = AudioProcessor(transcription_engine=transcription_engine)    results_generator = await audio_processor.create_tasks()    results_task = asyncio.create_task(handle_websocket_results(websocket, results_generator))    await websocket.accept()    while True:        message = await websocket.receive_bytes()        await audio_processor.process_audio(message)

（四）参数与配置

WhisperLiveKit 提供了丰富的参数配置选项，你可以根据自己的需求进行调整。以下是一些重要的参数：

--model：Whisper 模型大小，默认为 `small`。

--language：源语言代码或 `auto`，默认为 `auto`。

--task：`transcribe` 或 `translate`，默认为 `transcribe`。

--backend：处理后端，默认为 `simulstreaming`。

--diarization：是否启用说话人识别，默认为 `False`。

结语

WhisperLiveKit 是一个功能强大且易于使用的开源实时语音识别工具。它不仅提供了实时语音转文字和说话人识别功能，还确保了数据的隐私和安全。无论你是开发者还是普通用户，WhisperLiveKit 都能帮助你提高工作效率和用户体验。如果你对实时语音识别感兴趣，不妨尝试一下 WhisperLiveKit！