当前位置: 首页 > news >正文

2026山东大学软件学院项目实训(五)

一、阶段背景StarMate 已具备与通义千问后端的文字对话能力支持默认、老师、朋友、导师等多种人设并允许用户自定义人设。在孤独症干预与家庭陪伴场景中团队通过试用与教师反馈发现部分使用者阅读困难对语音输入、语音反馈的接受度明显高于纯文字同时家长希望切换「老师 / 朋友」时不仅文字语气变化听到的声音也应随之变化以增强沉浸感与角色认同。本次确定要做哪些能力、验收标准是什么、技术路线选哪条。二、本阶段分步工作第一步场景调研与目标确认梳理现有对话页能力文字发送、人设菜单、会话重置、自定义人设等。在此基础上明确增量目标——语音输入STT 与 语音输出TTS且 TTS 需与当前选中的人设绑定。第二步需求拆解与验收标准将目标拆为五项可验证需求。其一AI 回复应支持自动朗读并允许用户一键关闭避免干扰课堂环境。其二不同人设听感应可区分至少满足「男声 / 女声 / 沉稳 / 活泼 / 童声 / 大叔」等差异不能出现菜单标注与播放效果严重不符。其三用户可通过麦克风完成提问说话结束后得到识别文本并进入既有聊天流程。其四无麦克风权限、后端未启动、识别失败、合成失败等情况需有简短中文提示不能长时间无反馈。其五原有文字聊天、人设切换、自定义人设、重置对话等功能不得回退。本步仅形成需求清单与验收描述尚未进入开发。第三步技术路线对比方案 A纯本机语音。 使用 Android 系统TextToSpeech与SpeechRecognizer优点是不改 Flask 后端、接入快适合两周内出原型缺点是各厂商中文音色命名混乱难以保证「导师 女声」稳定成立同性别人设之间 pitch、rate 调节后差别仍有限。本阶段结论可作为流程验证不宜作为最终音色方案。方案 B云端语音 本机兜底。 在 StarMate_Backend 增加识别与合成接口复用项目已有 DashScope 密钥聊天仍走POST /api/chat/send。识别拟用 Paraformer合成拟用 CosyVoice按人设固定声线与语气指令云端失败时回退系统 TTS。第四步人设与合规边界产品曾希望支持「动画角色」风格音色。本阶段调研结论公开 API 无法提供版权角色原声风格模仿也不稳定易引发「名不副实」投诉。故在需求文档中明确对外菜单改为 豪爽大叔、星星童伴 等原创称呼内部 persona key如guangtouqiang可暂保留避免数据库迁移。具体 CosyVoice 声线映射留待第二阶段实现。第六步风险识别与应对预案识别到四类风险并写对策方向依赖 PC 运行后端文档化启动步骤与真机 IP 配置云端合成耗时与失败预案为超时控制、文本截断、本机兜底动画版权与预期管理原创人设 风格化语气不承诺原声模拟器无麦克风语音识别以真机为准模拟器可测文字 TTS。这些预案在后续本阶段只记录。三、本阶段产出与边界产出物包括语音能力目标说明、五项需求与验收标准、技术选型报告本机 vs 云端、架构草图、人设命名策略、风险清单。明确未做未新增transcribe/synthesize路由未编写persona_tts.py未修改ChatPage与ChatViewModel的语音流程未进行真机联调与性能测试。
http://www.zskr.cn/news/1395116.html

相关文章:

  • AI工具选型生死线(2026真实测评白皮书):92%的企业踩中“幻觉兼容性”陷阱,你中招了吗?
  • 手把手教你用CANoe的Replay Block:从导入.asc文件到模拟真实网络负载
  • Proteus实战:STM32外部中断(EXTI)响应机制与按键触发LED流水灯仿真全解析
  • 考执业药师听哪个老师的课?一份基于真实备考经验的选课参考 - 医考机构品牌测评专家
  • 5分钟掌握Outfit字体:免费开源几何无衬线字体的终极解决方案
  • 别等被查出AI代写才后悔!这3个降AIGC工具,效果好到离谱,速度收藏
  • Linux test命令详解
  • 我的博客的开发过程
  • 矿难应急搜救场景:无感定位精准回溯,UWB无法支撑灾后定位
  • Buzz终极指南:完全离线的智能语音转录与翻译工具
  • easybr指纹浏览器:轻量高效的环境隔离解决方案
  • 2026年上半年烟台财产分割律师排行:5位专业律师实力对比 - 奔跑123
  • 告别手动调参:用argparse与Shell脚本实现深度学习自动化“炼丹”
  • 26-cv-2721、26-cv-3253、26-cv-4061MILWAUKEE TOOL 美沃奇工具巨头商标连续发案再度来袭!注意排查!
  • 使用Taotoken CLI工具快速为团队统一开发环境配置模型密钥
  • SpringBoot2 集成 xxl-job:从基础配置到动态参数解析实战
  • 手把手教你用察元AI文档助手揪出文章的“AI塑料味”,AI痕迹检查助手的使用
  • 高危矿井技术大洗牌,无感定位相比UWB拥有哪些碾压级优势?
  • 工业软件多厂商交付时,共享加密狗到底解决什么问题?
  • 26-cv-2040、26-cv-710、26-cv-3496、26-cv-925 NARUTO 火影忍者日本动画巨头东京电视台!NARUTO商标注册09/16/25/28/41大类
  • 3. 烯烃聚合反应机理与动力学_2026-05-05_08-28-17
  • 用ModelSim/iverilog跑一遍HDLbits仿真题:从Testbench编写到波形调试的完整实战
  • 从“页面未找到”到精准定位:URL、服务器与错误排查实战指南
  • 基于BiLSTM-BiGRU混合网络的蛋白质二级结构预测模型详解
  • 企业统计数据用哪个?Excel 共享表格 vs 接龙管家,6 大维度看谁更适合职场
  • OpenAI Codex新增“锁屏运行”功能,可远程操控Mac应用程序但引安全担忧
  • FGW50N65WE:富士电机高速W系列IGBT,650V/50A,内置续流二极管,TO-247封装
  • 哔咔漫画下载器完整指南:3步打造个人离线漫画图书馆
  • 如何高效管理Windows窗口:免费窗口调整工具完全指南
  • 基于WGAN-GP的合成心震图生成:突破心血管监测数据瓶颈