跨设备统一会话实例的多模态 AI 助手 · FastAPI 后端驱动
无需唤醒词,随时打断,像真人一样对话
重新定义人机交互方式,让 AI 像真人一样与您对话
Serenna 是一个跨设备统一会话实例的多模态 AI 语音对话助手,基于 FastAPI 后端构建。不同于传统的语音助手需要唤醒词才能交互,Serenna 支持随时打断和多人对话流,提供如同与真人交谈般的自然对话体验。用户可以在手机、智能胸针、全息终端等多种设备上使用同一个会话身份,实现真正无缝的跨设备交互。
Serenna 最显著的特点是其"无需唤醒词"的实时对话能力。系统能够持续监听环境中的语音流,智能识别对话的起始与结束,支持自然打断和多轮对话。结合 DeepSeek 大语言模型的理解能力和 Qwen-VL 的视觉理解能力,Serenna 不仅能听懂你说的话,还能看懂你展示的图片和文件。
Serenna 采用英式管家风格的人设,以优雅、专业、体贴的方式为用户提供服务。系统拥有长期记忆能力,能够记住用户的偏好设置、对话历史和个人信息,随着交互次数的增加,对话体验会越来越个性化和贴心。
六大核心技术能力,构建起完整的智能对话体验
无需唤醒词,系统持续监听环境语音流,智能识别对话意图。支持自然打断和多轮对话流,用户可以随时插话,系统会即时响应并调整对话方向。
基于 DeepSeek 大语言模型精准理解讽刺、幽默、双关语和潜台词等复杂语言现象。系统具备情绪感知能力,能根据语气和用词判断情绪状态并调整回应风格。
支持语音、图像、文件上传三种输入方式。三种输入方式可以任意组合,例如指着图片用语音提问,系统将综合理解多模态信息后给出回答。
采用英式管家风格人设,系统拥有长期记忆能力,会记住用户的偏好设置、日常习惯、重要日期和对话历史。每次对话都会参考历史记录,让交流越来越默契。
采用 Mimo TTS 引擎,提供自然流畅的语音合成输出。支持流式输出,在对话过程中边生成边播放,大幅减少等待时间。支持语速、音调和音量自定义调节。
集成 Qwen-VL 大模型,用户上传照片后系统可识别场景、物品、文字、人脸表情等视觉元素。支持对图表和文档的 OCR 识别,将视觉信息转化为对话内容。
FastAPI + DeepSeek + Qwen-VL + Mimo TTS 的全异步技术栈
从手机应用到全息存在,三步走向未来交互形态
以智能手机作为 Serenna 的首发载体,打造完整的语音对话助手应用。用户通过手机 App 即可体验 Serenna 的全部核心功能。
将 Serenna 从虚拟应用延伸到实体硬件,设计一款佩戴在胸前的智能扬声器设备,实现真正的"随身 AI 助手"体验。
最终形态 -- 结合全息投影技术,让 Serenna 以虚拟形象的方式呈现在用户面前。不再只是"声音",而是看得见的虚拟存在。