当前位置: 首页 > news >正文

N-gram


📝 N-gram

1. N-gram 的定义

N-gram 是指一段文本中连续出现的 N 个词或字符的序列。它是一种特征工程(Feature Engineering)技术,将文本数据转化为机器学习模型可以理解的数字特征

  • N 是一个变量,代表序列的长度。
N 值 术语 示例序列 作用
1 Unigram (一元语法) 医生态度很好 仅保留词频信息,忽略词序和上下文。
2 Bigram (二元语法) 医生 态度态度 很好 捕捉局部词序和搭配,开始体现上下文信息。
3 Trigram (三元语法) 医生 态度 很好 捕捉更长的上下文,有助于识别固定短语

2. N-gram 的核心作用:捕捉上下文

在情感分析或主题分类中,单个词语(Unigram)往往不够:

  • 仅看 Unigram: 词语“不”和“好”的频率很高。模型只知道“不”是负面词,“好”是正面词。
  • 看 Bigram: 如果使用 Bigram,模型会识别到“不 好”(负面)和“非 常 好”(正面)。

在患者反馈中,N-gram 的重要性体现在:

场景 示例 N-gram 捕捉的特征
负面体验 “等待 时间 太长” Trigram (等待 时间 太长) 作为一个特征,比单个词语更能准确地指向“流程效率低下”这个主题。
混合情感 “护士 很好 但 医生 很忙” Bigrams (护士 很好, 医生 很忙) 帮助分类器识别到句子中存在两个对立的观点,从而将评论分类为“混合情感(Mixed)”。
专业术语 “电子病历 系统” Bigram (电子病历 系统) 比两个独立的 Unigram 更能准确地代表“IT 系统”这个主题。

3. "N-grams Classified" 在综述中的意义

当表 2B 的研究采用 "N-grams Classified" 作为特征时,这意味着:

  1. 特征工程: 研究人员首先将患者评论文本转换成了一个包含所有 $N=1, 2, 3...$ 等 N-gram 组合的特征向量
  2. 分类器输入: 他们没有将原始文本输入给分类器(如 SVM),而是将这个N-gram 频率统计TF-IDF 加权后的向量输入给 SVM 或 Naïve Bayes。
  3. 传统 ML 的标志: 使用 N-gram 作为主要特征是传统机器学习(如 SVM、NB)在 NLP 中最常用的做法。这些模型善于在高维稀疏特征(即大量的 N-gram)上找到关键模式

http://www.zskr.cn/news/46240.html

相关文章:

  • 实用指南:前端性能优化?
  • 2025年云桌面公司排行榜
  • 2025年个体户代办渠道排行榜单
  • 2025年节能型速冻隧道销售厂家排行
  • 【URP】Unity[后处理]阴影,中间调,色差Shadows,Midtones,Highlights
  • 2025 年 11 月深圳企业服务实力派推荐榜:深圳网站建设,深圳外贸独立站推广,阿里巴巴/1688店铺代运营,短视频拍摄运营,商标注册,小程序开发公司精选
  • ubuntu20.04更换为国内源
  • 麒麟v10 x86_64 离线安装mosquitto
  • 2025年深圳神秘顾客研究机构权威推荐榜单:神秘顾客调查/神秘顾客暗访/市场研究源头机构精选
  • 树上的巧克力-树形DP
  • 2025年重庆小程序服务商排名前十强:杰诚智享科技领跑行业
  • NGINX WEBUI Docker 容器化部署指南
  • codeql中java相关ql规则一些记录
  • 常见的文件摆渡系统及其安全性与效率分析
  • 银河麒麟桌面操作系统V10SP1(全X86/ARM架构)【ukui-kwin-x11进程占用CPU内存较高】问题解决方法
  • 自动生成提示
  • C. Trinity
  • Luogu P9128 [USACO23FEB] Fertilizing Pastures G 题解
  • Docker核心概念:镜像、容器、仓库的本质与关联
  • 【知识分享】怎么建立受控的内外网文件传输通道?
  • 2025年克拉玛依壁挂炉公司权威推荐榜单:威能壁挂炉/万家乐壁挂炉/天然气壁挂炉服务商精选
  • R方分数
  • 如何一键检测并修改公众号文章的错字和敏感词?
  • 2025年列管冷凝器制造企业权威推荐榜单:壳管式冷凝器/石墨冷凝器/蒸发式冷凝器源头厂家精选
  • 第六届机械工程、智能制造与自动化技术国际学术会议 (MEMAT 2025)
  • Windows 批处理bat放开始菜单栏、任务栏
  • 2025年郑州除甲醛公司权威推荐榜单:氧道净醛水漆/新房装修除甲醛/甲醛净化源头服务商精选
  • 分享一个比SQLHC还要厉害的脚本
  • 2025 主流 BPM 厂商全解析:功能、优势与应用场景
  • 软件未来预测的准确性与代码简洁之道