SG studio AI 项目

A06 - Serenna 多模态语音对话助手

跨设备统一会话实例的多模态 AI 助手 · FastAPI 后端驱动
无需唤醒词,随时打断,像真人一样对话

实时
语音对话
多模态
输入支持
3阶段
发展规划

项目概述

重新定义人机交互方式,让 AI 像真人一样与您对话

项目定位

Serenna 是一个跨设备统一会话实例的多模态 AI 语音对话助手,基于 FastAPI 后端构建。不同于传统的语音助手需要唤醒词才能交互,Serenna 支持随时打断和多人对话流,提供如同与真人交谈般的自然对话体验。用户可以在手机、智能胸针、全息终端等多种设备上使用同一个会话身份,实现真正无缝的跨设备交互。

核心特色

Serenna 最显著的特点是其"无需唤醒词"的实时对话能力。系统能够持续监听环境中的语音流,智能识别对话的起始与结束,支持自然打断和多轮对话。结合 DeepSeek 大语言模型的理解能力和 Qwen-VL 的视觉理解能力,Serenna 不仅能听懂你说的话,还能看懂你展示的图片和文件。

人格化设计

Serenna 采用英式管家风格的人设,以优雅、专业、体贴的方式为用户提供服务。系统拥有长期记忆能力,能够记住用户的偏好设置、对话历史和个人信息,随着交互次数的增加,对话体验会越来越个性化和贴心。

FastAPI
后端框架
DeepSeek
语言模型
Qwen-VL
视觉模型

核心能力

六大核心技术能力,构建起完整的智能对话体验

🔊

实时对话

无需唤醒词,系统持续监听环境语音流,智能识别对话意图。支持自然打断和多轮对话流,用户可以随时插话,系统会即时响应并调整对话方向。

无需唤醒词 打断支持 多人对话
🧠

深度语境理解

基于 DeepSeek 大语言模型精准理解讽刺、幽默、双关语和潜台词等复杂语言现象。系统具备情绪感知能力,能根据语气和用词判断情绪状态并调整回应风格。

语义理解 情绪感知 潜台词识别
📷

多模态输入

支持语音、图像、文件上传三种输入方式。三种输入方式可以任意组合,例如指着图片用语音提问,系统将综合理解多模态信息后给出回答。

语音输入 图像识别 文件解析
👤

人格化记忆

采用英式管家风格人设,系统拥有长期记忆能力,会记住用户的偏好设置、日常习惯、重要日期和对话历史。每次对话都会参考历史记录,让交流越来越默契。

英式管家 长期记忆 偏好学习
🎤

TTS 语音合成

采用 Mimo TTS 引擎,提供自然流畅的语音合成输出。支持流式输出,在对话过程中边生成边播放,大幅减少等待时间。支持语速、音调和音量自定义调节。

Mimo TTS 流式合成 多音色
👁️

视觉理解

集成 Qwen-VL 大模型,用户上传照片后系统可识别场景、物品、文字、人脸表情等视觉元素。支持对图表和文档的 OCR 识别,将视觉信息转化为对话内容。

Qwen-VL 场景识别 OCR 识别

技术架构

FastAPI + DeepSeek + Qwen-VL + Mimo TTS 的全异步技术栈

后端服务

Web 框架FastAPI
运行环境Python 3.11+
异步支持AsyncIO + Streaming
会话管理Redis + 持久化
消息推送WebSocket / SSE

AI 模型

语言模型DeepSeek
视觉模型Qwen-VL
语音合成Mimo TTS
语音识别Whisper / Paraformer
向量记忆Embedding + Vector DB

数据处理流程

语音输入
ASR 识别
多模态融合
语音/图像/文件
DeepSeek
语义理解 + 生成
Mimo TTS
语音合成输出

模型模块

deepseek.py
qwen_vl.py
mimo_tts.py
app.py
config.py
static/

发展规划

从手机应用到全息存在,三步走向未来交互形态

第一阶段

手机 App

以智能手机作为 Serenna 的首发载体,打造完整的语音对话助手应用。用户通过手机 App 即可体验 Serenna 的全部核心功能。

  • iOS / Android 双平台原生 App 开发
  • 多模态输入:语音、拍照、文件上传
  • 后台持续监听,无需唤醒词
  • 云端会话同步,多设备无缝切换
  • 英式管家人格化交互体验
第二阶段

胸针式智能扬声器

将 Serenna 从虚拟应用延伸到实体硬件,设计一款佩戴在胸前的智能扬声器设备,实现真正的"随身 AI 助手"体验。

  • 定制化低功耗语音唤醒芯片
  • 微型高保真扬声器 + 降噪麦克风阵列
  • 4G / Wi-Fi 双模联网
  • 12 小时以上续航能力
  • 触控 + 语音双交互方式
第三阶段

全息存在终端

最终形态 -- 结合全息投影技术,让 Serenna 以虚拟形象的方式呈现在用户面前。不再只是"声音",而是看得见的虚拟存在。

  • 全息投影硬件终端研发
  • 3D 虚拟形象实时渲染引擎
  • 面部表情和肢体动作同步生成
  • 空间感知与环境交互能力
  • AI 虚拟形象人格持续进化