当前位置: 首页 > news >正文

记录 | 关于陪伴型交互AI的一些探讨

关于陪伴型交互AI的一些探讨

怎么说呢主要是发布下关于自己关于AI VTuber的开发进展

前言

目前的化对整体内容进行了局部的优化和更新,并更新到了v0.5.0版本!【好累啊,都没什么热情了】
整体架构已经初步具备了稳定性以及整体工作流的实现

Github项目链接: Interactive-LLM-VTuber (v0.5.0)

同时决定不在继续在v0.5.0的版本上继续更新,并完全开源代码贡献社区发展【详细请看项目开发文档】
该项目从去年十一月开始,耗时10个月,独立开发

虽然但是,实际上只用了1的月半的时间就已经将主要功能开发完成了,但因为js我并不熟悉的问题排查了很长时间才更新到v0.4.2,这个月在AI的帮助下才总算是完成了整个项目的开发。。。。【我要死了,真的】
我只能说,这个项目耗费了我大量的心血,但在前端的问题上也给力我很大的压力【虽然最后找到问题是因为经典的前端和服务器无法主动发起相应的问题,只能等到用户有交互操作才能触发下一步【全部卡在前端的语音交互的模块构建了】】,中间的构建过程中也学到了不少内容,但我总觉得,如果我有能力就能学会更多的东西才对。。。

总之,不搞前端的交互了,就算搞也是去搞搞后端+Unity的功能型实现吧。。。
多余的我也不想多说了,感兴趣可以去项目页看看。
我累了,我得歇会【哈基米燃尽了】
等后面再发发其他项目的构想【除此以为的好像也做了不少好玩的代码全部放在WorkBench了】
后面还得准备比赛和四级
以及 深度学习【理论+实践】+强化学习+脑神经学+分子生物学+病毒+神经网络模拟+生成式认知主体+天才的诞生 的研究和发表【躺】【初步仓库先在Github建好了】
就算累了还得整理资料。。。

啊啊啊啊
睡觉去了

v0.5.0 更新(2025-09-26)
针对稳定性、用户体验和可扩展性的前端和后端优化:

前端
新布局:顶部栏(左侧版本,右侧设置 + MCP 按钮)、左侧聊天记录、底部居中的 GPT 风格输入(圆角文本区域 + 麦克风 + 发送)。
音频自动播放解锁:一个用户手势即可解锁整个会话的音频。
语音流程重做:语音输入现在仅执行 ASR。停止时,前端会轮询/latest_asr、自动填充并发送文本,统一文本→LLM→TTS→播放→历史记录的流程(防止音频播放过时)。
历史 + 流媒体:左侧历史显示“你/AI”;AI 回复以打字机流媒体呈现;在本地保留最后 200 条消息。
思考指示:底部芯片“思考中……”+发送按钮加载状态。
背景设置:设置页面添加背景(颜色/图像)。保存后会触发热重载并立即应用,无需刷新。
MCP 按钮:显示状态(运行/停止)并切换mcp_tool.py进程。
后端
API/路径强化:绝对音频 URL、TTS 后的文件存在检查、固定/audio/目录、TTS 空文本保护。
语音输入重做:录音线程仅写入最后的 ASR 文本;添加GET /latest_asr到前端。
热加载设置:POST /settings自动加载;POST /reload_settings手动加载。传播至 TTS/LLM/系统提示/音频文件夹。
MCP 集成:GET /mcp/status、POST /mcp/start、POST /mcp/stop来控制mcp_tool.py。
如何使用(重点)
开始:python server.py然后访问http://127.0.0.1:5000/。
文本:输入并按发送/回车键。
语音:单击麦克风开始,再次单击停止;识别的文本自动发送。
设置:调整 TTS/LLM/背景并保存 - 无需重启即可热加载。
MCP:通过右上角的按钮切换。

http://www.zskr.cn/news/13086.html

相关文章:

  • luogu P1719 最大加权矩形
  • Laravel5.8 利用 snappyPDF 生成PDF文件
  • 数据结构——链表 - 详解
  • 25秋周总结4
  • 饥荒联机版
  • LinuxC++项目开发日志——基于正倒排索引的boost搜索引擎(5——通过cpp-httplib库建立网页模块) - 详解
  • 微信二次开发文档
  • 【底层机制】Android标准C库为什么选择 bionic 而不是 musl【一】 - 详解
  • DiffDock 环境安装和启用教程
  • 20250927
  • 详细介绍:CTFshow系列——PHP特性Web113-115(123)
  • [题解]P11533 [NOISG 2023 Finals] Topical
  • [题解]P10231 [COCI 2023/2024 #4] Putovanje
  • WPF Prism register interface and service, view and viewmodel, IRegionManager, RequestNavigate
  • 让YOLO飞起来:从CPU到GPU的配置指南
  • 忘形篇
  • 1748:约瑟夫问题
  • 候机的队伍
  • Keil uVision5 设置 hex 输出路径,不放Objects目录下
  • 垃圾收集器G1ZGC详解
  • gen-ui-python
  • 2025国内裱纸机厂家最新推荐排行榜:聚焦智能高速与全自动机型,权威精选综合实力 TOP3 厂家
  • 使用Windbg分析dmp文件的方法以及实战分析实例分享 - 教程
  • Vivado兼容第三方软件工具对照表Modelsim,Questasim,Matlab
  • 2025 年电脑租赁公司最新推荐排行榜:深度解析 TOP3 优质租电脑公司,助企业个人租赁电脑选择指南
  • 完整教程:✨WPF编程基础【1.2】:XAML中的属性
  • 使用JOL查看对象布局
  • 短视频流量|基于SprinBoot+vue的短视频流量数据分析系统(源码+数据库+文档) - 指南
  • 一天一款实用的AI工具,第4期,AI翻译成英语
  • 初次尝试在kubernetes 1.31 上安装 人工智能模型运行平台 llm-d - 详解