A06 - Serenna 多模态语音对话助手

项目概述

重新定义人机交互方式，让 AI 像真人一样与您对话

项目定位

Serenna 是一个跨设备统一会话实例的多模态 AI 语音对话助手，基于 FastAPI 后端构建。不同于传统的语音助手需要唤醒词才能交互，Serenna 支持随时打断和多人对话流，提供如同与真人交谈般的自然对话体验。用户可以在手机、智能胸针、全息终端等多种设备上使用同一个会话身份，实现真正无缝的跨设备交互。

核心特色

Serenna 最显著的特点是其"无需唤醒词"的实时对话能力。系统能够持续监听环境中的语音流，智能识别对话的起始与结束，支持自然打断和多轮对话。结合 DeepSeek 大语言模型的理解能力和 Qwen-VL 的视觉理解能力，Serenna 不仅能听懂你说的话，还能看懂你展示的图片和文件。

人格化设计

Serenna 采用英式管家风格的人设，以优雅、专业、体贴的方式为用户提供服务。系统拥有长期记忆能力，能够记住用户的偏好设置、对话历史和个人信息，随着交互次数的增加，对话体验会越来越个性化和贴心。

FastAPI

后端框架

DeepSeek

语言模型

Qwen-VL

视觉模型

核心能力

六大核心技术能力，构建起完整的智能对话体验

🔊

实时对话

无需唤醒词，系统持续监听环境语音流，智能识别对话意图。支持自然打断和多轮对话流，用户可以随时插话，系统会即时响应并调整对话方向。

无需唤醒词打断支持多人对话

🧠

深度语境理解

基于 DeepSeek 大语言模型精准理解讽刺、幽默、双关语和潜台词等复杂语言现象。系统具备情绪感知能力，能根据语气和用词判断情绪状态并调整回应风格。

语义理解情绪感知潜台词识别

📷

多模态输入

支持语音、图像、文件上传三种输入方式。三种输入方式可以任意组合，例如指着图片用语音提问，系统将综合理解多模态信息后给出回答。

语音输入图像识别文件解析

👤

人格化记忆

采用英式管家风格人设，系统拥有长期记忆能力，会记住用户的偏好设置、日常习惯、重要日期和对话历史。每次对话都会参考历史记录，让交流越来越默契。

英式管家长期记忆偏好学习

🎤

TTS 语音合成

采用 Mimo TTS 引擎，提供自然流畅的语音合成输出。支持流式输出，在对话过程中边生成边播放，大幅减少等待时间。支持语速、音调和音量自定义调节。

Mimo TTS 流式合成多音色

👁️

视觉理解

集成 Qwen-VL 大模型，用户上传照片后系统可识别场景、物品、文字、人脸表情等视觉元素。支持对图表和文档的 OCR 识别，将视觉信息转化为对话内容。

Qwen-VL 场景识别 OCR 识别

技术架构

FastAPI + DeepSeek + Qwen-VL + Mimo TTS 的全异步技术栈

后端服务

Web 框架FastAPI

运行环境Python 3.11+

异步支持AsyncIO + Streaming

会话管理Redis + 持久化

消息推送WebSocket / SSE

AI 模型

语言模型DeepSeek

视觉模型Qwen-VL

语音合成Mimo TTS

语音识别Whisper / Paraformer

向量记忆Embedding + Vector DB

数据处理流程

语音输入

ASR 识别

→

多模态融合

语音/图像/文件

→

DeepSeek

语义理解 + 生成

→

Mimo TTS

语音合成输出

模型模块

deepseek.py

qwen_vl.py

mimo_tts.py

app.py

config.py

static/

发展规划

从手机应用到全息存在，三步走向未来交互形态

第一阶段

手机 App

以智能手机作为 Serenna 的首发载体，打造完整的语音对话助手应用。用户通过手机 App 即可体验 Serenna 的全部核心功能。

iOS / Android 双平台原生 App 开发
多模态输入：语音、拍照、文件上传
后台持续监听，无需唤醒词
云端会话同步，多设备无缝切换
英式管家人格化交互体验

第二阶段

胸针式智能扬声器

将 Serenna 从虚拟应用延伸到实体硬件，设计一款佩戴在胸前的智能扬声器设备，实现真正的"随身 AI 助手"体验。

定制化低功耗语音唤醒芯片
微型高保真扬声器 + 降噪麦克风阵列
4G / Wi-Fi 双模联网
12 小时以上续航能力
触控 + 语音双交互方式

第三阶段

全息存在终端

最终形态 -- 结合全息投影技术，让 Serenna 以虚拟形象的方式呈现在用户面前。不再只是"声音"，而是看得见的虚拟存在。

全息投影硬件终端研发
3D 虚拟形象实时渲染引擎
面部表情和肢体动作同步生成
空间感知与环境交互能力
AI 虚拟形象人格持续进化