当前位置: 首页 > news >正文

FunASR 快速上手

本文摘抄自 FunASR 项目的官方 Markdown 文件

FunASR 的快速上手

下面为快速上手教程,测试音频(中文,英文)

可执行命令行

在命令行终端执行:

funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=vad_example.wav

注:支持单条音频文件识别,也支持文件列表,列表为kaldi风格wav.scp:wav_id wav_path

python示例

非实时语音识别

from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel(model="paraformer-zh", model_revision="v2.0.4",vad_model="fsmn-vad", vad_model_revision="v2.0.4",punc_model="ct-punc-c", punc_model_revision="v2.0.4",# spk_model="cam++", spk_model_revision="v2.0.2",)
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", batch_size_s=300, hotword='魔搭')
print(res)

注:model_hub:表示模型仓库,ms为选择modelscope下载,hf为选择huggingface下载。

实时语音识别

from funasr import AutoModelchunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attentionmodel = AutoModel(model="paraformer-zh-streaming", model_revision="v2.0.4")import soundfile
import oswav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600mscache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]is_final = i == total_chunk_num - 1res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)print(res)

注:chunk_size为流式延时配置,[0,10,5]表示上屏实时出字粒度为10*60=600ms,未来信息为5*60=300ms。每次推理输入为600ms(采样点数为16000*0.6=960),输出为对应文字,最后一个语音片段输入需要设置is_final=True来强制输出最后一个字。

语音端点检测(非实时)

from funasr import AutoModelmodel = AutoModel(model="fsmn-vad", model_revision="v2.0.4")wav_file = f"{model.model_path}/example/asr_example.wav"
res = model.generate(input=wav_file)
print(res)

语音端点检测(实时)

from funasr import AutoModelchunk_size = 200 # ms
model = AutoModel(model="fsmn-vad", model_revision="v2.0.4")import soundfilewav_file = f"{model.model_path}/example/vad_example.wav"
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = int(chunk_size * sample_rate / 1000)cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]is_final = i == total_chunk_num - 1res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size)if len(res[0]["value"]):print(res)

标点恢复

from funasr import AutoModelmodel = AutoModel(model="ct-punc", model_revision="v2.0.4")res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)

时间戳预测

from funasr import AutoModelmodel = AutoModel(model="fa-zh", model_revision="v2.0.4")wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)

更多详细用法(示例)

http://www.zskr.cn/news/52574.html

相关文章:

  • JDBC与MySQL交互有哪些安全措施
  • 网络分析模型八
  • java执行linux 命令
  • 绘图区右键上下文菜单快捷键设置
  • 西门子v4.0问题
  • java 读取linux 文件
  • LDO(线性稳压器)-理论篇
  • Tauri2.9+Vue3电脑端OS系统|vite7+tauri2+arcoDesign桌面os后台模板
  • 题解:P14002 [eJOI 2025] Navigation
  • 多媒体与可视化:WebAssembly集成与实时视频贴图
  • 第三章作业 动态规划
  • 11月17日日记
  • 第三十一天
  • AI模型的github——ModelScope.co和Hugging Face.cn
  • 随缘打赏
  • java linux 中文
  • java linux jdk
  • 用 Swift 进行验证码识别
  • 在 parse_model 函数中添加了自定义模块支持
  • 20232311 2025-2026-1 《网络与系统攻防技术》实验六实验报告
  • android compose viewModel 传参数
  • 奶牛快传服务调整公告
  • 从零实现 REINFORCE/GRPO —— 大模型推理强化微调实践
  • 手撸大模型的分布式训练:深刻理解大模型训练的“起飞”原理
  • 从0到1:揭秘LLM预训练前的海量数据清洗全流程
  • instr在mysql索引中作用是什么
  • Python调用C++代码
  • MySQL EXPLAIN中的key_len:精准掌握索引使用情况
  • AWS云服务深度集成
  • httpd linux 启动