写在前面:一套完整的建模题通常包括以下部分
1.问题分析:题目问什么,数据给了什么,限制条件是什么
2.模型假设:为了简化问题,需要合理假设哪些条件
3.符号说明:把变量,参数,指标定义清楚
4.模型建立:选择数学方法,比如评价,预测,优化,分类,仿真等
5.模型求解:用Python、MATLAB得到结果
6.结果分析:解释结果是否合理
7.灵敏度分析/误差分析:说明模型稳定性
8.模型评价与改进:写优缺点
9.论文摘要与正文排版:把整个过程写成竞赛论文
1.一套题应该怎样拆解
首先明确数学建模到底在考什么,它靠的是能不能完成下面的这个流程:
现实问题->提炼关键因素->建立数学模型->编程求解->分析结果->写一篇逻辑完整的论文
所以拿到一套题的时候应该先问:这个题到底需要我解决什么问题?输入是什么?输出是什么?中间需要建立哪些关系?
如何读题
第一遍先读背景,了解这是哪个现实场景的问题
第二遍圈出题目真正问了什么,把每一个问题翻译为“建模语言”
| 题目问法 | 建模语言 |
|---|---|
| 哪个方案最好? | 综合评价 / 排序问题 |
| 未来几年会怎样? | 预测问题 |
| 如何安排资源最合理? | 优化问题 |
| 哪些因素影响最大? | 敏感性分析 / 相关性分析 |
| 如何分类管理? | 聚类 / 分类问题 |
| 某过程如何随时间变化? | 动态模型 / 微分方程 / 仿真 |
第三遍找输入、输出和约束将题目变成可以求解的问题
拆题模版
1.用一句话概括题目背景:例如本题研究的是新能源汽车电池状态评估与寿命预测问题,这一句话可以直接写进论文的“问题重述”
2.分析题目给了哪些数据:一种是表格数据(Excel文件,CSV文件),一种是文字条件(题目里描述的规则、限制、要求)看到文字等级类指标,要想到需要先量化。
要把数据分成几类:
- 时间数据:年份、月份、小时
- 空间数据:经纬度、距离、区域
- 指标数据:成本、销量、能耗、人口、温度
- 状态数据:是否故障、是否拥堵、是否达标
- 约束数据:容量上限、时间限制、预算限制
这一步对应后面的数据预处理。
3.弄明白每一问属于什么类型:这是建模最关键的一步
| 问题类型 | 常见关键词 | 常用模型 |
|---|---|---|
| 评价类 | 最优、排名、综合评价、优劣 | AHP、熵权法、TOPSIS、灰色关联 |
| 预测类 | 未来、趋势、预测、估计 | 回归、时间序列、灰色预测、机器学习 |
| 优化类 | 最小成本、最大收益、最佳方案 | 线性规划、整数规划、遗传算法、粒子群 |
| 分类类 | 分类、分级、识别、聚类 | K-means、SVM、随机森林 |
| 机理类 | 变化规律、传播过程、动态演化 | 微分方程、仿真模型、状态空间模型 |
4.弄明白每一问之间是什么关系:很多模型不是三个孤立的问题,而是层层递进
常见的结构有三种:
第一种:评价->预测->优化,这是最常见的结构
第二种:建模->求解->改进,这种题目通常适合写得比较完整
第三种:分析->分类->决策,这种题目适合于社会、经济、管理类问题
2.模型分析方法
1.第一个常用模型:综合评价模型:熵权法+TOPSIS
综合评价最核心的两个问题
(1)不同指标的量纲不一样,要如何比较
所以第一步要做的就是:指标标准化,也就是把所有指标变成统一的尺度,例如都变成0到1之间的数。
(2)每个指标的主要程度一样吗
答案是否定的,所以我们需要给每一个指标分配一个权重。权重越大,表示这个指标对最终评价影响越大。
而第二个问题就引出了熵权法。
1.熵权法
根据数据本身的差异程度,自动计算每个指标的权重。一个指标的数据差异越大,它能够提供的信息就越多,而一个指标的数据差异越小,它提供的信息就越少。他的核心思想就是:差异越大,权重越大,差异越小,权重越小
熵权法适用于题目给了一堆数据但是没有明确告知每个指标的重要程度。
当然也具有优点和缺点,所以在实际比赛中,熵权法经常和其他方法结合使用
| 优点 | 解释 |
|---|---|
| 客观 | 不依赖个人主观判断 |
| 操作简单 | 有固定计算流程 |
| 适合表格数据 | 对 Excel/CSV 数据很友好 |
| 论文好写 | 很多建模论文都会用 |
| 缺点 | 解释 |
|---|---|
| 只看数据差异 | 不一定符合现实重要性 |
| 容易忽略专业经验 | 某些指标虽然差异小,但现实中可能很关键 |
| 对异常值敏感 | 极端数据可能影响权重 |
2.TOPSIS(逼近理想排序法)
核心思想:TOPSIS会构造两个虚拟对象,一个叫“最优理想方案”,它在所有指标上面都最好,第二个叫“最差理想方案”,它在所有的指标上表现都最差,一个好方案应该满足离最优方案越近越好,离最差方案越远越好。核心判断逻辑:越接近理想最优,越远离理想最差,综合表现越好。
3.为什么使用这两种方法的结合
因为它们分工明确。
| 方法 | 解决的问题 |
|---|---|
| 熵权法 | 计算每个指标的权重 |
| TOPSIS | 根据权重计算每个对象的综合得分和排名 |
完整流程就是:
原始数据
↓
指标标准化
↓
熵权法计算权重
↓
TOPSIS 计算接近程度
↓
得分排序
↓
得出评价结果
所以在论文里可以写:
本文首先构建评价指标体系,并对原始数据进行无量纲化处理;随后采用熵权法确定各指标的客观权重;最后利用 TOPSIS 方法计算各候选方案与理想方案的相对接近度,从而得到综合评价排序。
4.使用步骤
介绍了方法理论,我们接下来详解一下该怎么使用
首先明确指标分为两种:正向指标(越大越好),负向指标(越小越好),当然还存在一种适度型指标,这个既不是越大越好,也不是越小越好,后续再详讲。
第二步进行指标标准化,将他们都转换到0到1之间
对于正向指标,常用方法是:
当前值越接近最大值,标准化结果越接近 1;
当前值越接近最小值,标准化结果越接近 0。
公式是:
对于负向指标,方向反过来:
当前值越小越好,所以最小值应该变成 1,最大值应该变成 0。
公式是:
第三步:用熵权法计算权重
第四步:用TOPSIS计算综合得分,TOPSIS会计算每个地点与“最优方案”和“最差方案”距离,最后得到一个叫“相对接近度”的值,一般在0到1之间,越接近1,什么越接近理想方案
5.这类模型在论文中应该怎么写
(1). 问题分析
充电站选址受到人口密度、交通流量、建设成本和电网接入条件等多种因素影响,属于典型的多指标综合评价问题。由于各指标量纲和属性不同,需先对指标进行标准化处理;同时,不同指标对选址结果的影响程度不同,因此需要确定指标权重。本文采用熵权法计算指标客观权重,并结合 TOPSIS 方法对各候选地点进行综合评价和排序。
(2). 模型建立
首先构建由人口密度、交通流量、建设成本和电网接入条件组成的评价指标体系。其中,人口密度、交通流量和电网接入条件为正向指标,建设成本为负向指标。对原始数据进行无量纲化处理后,采用熵权法计算各指标权重,并利用 TOPSIS 方法计算各候选地点与正理想解和负理想解之间的距离,最终得到各候选地点的相对接近度。
(3). 结果分析
由综合评价结果可知,A 地点的相对接近度最高,说明其综合条件最接近理想建设地点,适合作为优先建设对象。B 地点虽然交通流量和电网条件表现较好,但建设成本相对较高,因此综合得分略低于 A。C 地点人口密度较高,但建设成本和电网条件表现较差,综合排名最低。
2.数据处理方法
1.从原始数据表到标准化矩阵
后面用“熵权法”、TOPSIS,回归、聚类、机器学习等,第一步几乎都绕不开把题目中的原始数据整理成一个可以计算的数据矩阵,所以今天的这节课可以理解为数学建模里的数据整理入门课。
在数学建模中,我们需要把表格变成计算机能处理的形式,也就是将表格写成一个矩阵,而这个矩阵叫做原始数据矩阵,这个矩阵中的每一行代表一个评价对象,而每一列代表一个评价指标。
上节课我们学到不同的指标单位和含义不一样,所以不能直接用原始数据进行计算,而要进行指标标准化,也叫无量纲处理,通过上次学到的公式,先将指标划分为正向指标与负向指标,然后使用标准化公式计算得到一个标准化矩阵,现在所有的指标都有了一个统一的含义,数值越大,说明这个学生在该指标上表现得越好。
论文表达
由于各评价指标的量纲、数量级和属性方向存在差异,直接使用原始数据进行综合评价会导致结果偏差。因此,本文首先对原始指标数据进行无量纲化处理。对于课程成绩、论文数量、竞赛得分和志愿服务时长等正向指标,采用极差标准化方法进行处理;对于违纪次数等负向指标,采用反向极差标准化方法进行处理。经过标准化后,所有指标均转化为数值越大表示表现越优的同向指标,为后续权重计算和综合评价奠定基础。
2.熵权法计算指标权重
熵权法一般分为五步:
标准化矩阵->计算指标比重->计算信息熵->计算差异系数->计算权重
上一步完成了标准化矩阵的计算,接下来要用熵权法来判断每个部分的权重了。
熵权法不是直接用标准化值,而是先把每一列转换成“占比”,公式如下:
这个公式的意思是:在第j个指标下,第i个对象占这一列总量比例是多少。也可以理解为某个对象在某个指标中的“贡献比例”。
经过这个公式计算后就能得到一个比重矩阵,这个矩阵的每一列加起来都等于1。
接下来计算信息熵
信息熵 用来衡量第 j个指标内部的数据分布是否均匀。
| 信息熵 | 含义 | 权重倾向 |
|---|---|---|
| 熵越大 | 数据越平均,区分度越弱 | 权重越小 |
| 熵越小 | 数据差异越大,区分度越强 | 权重越大 |
如果一个对象在该指标下没有贡献即,因此这一项对熵的贡献记为 0。
以后写代码时也要特别处理这个问题。
接下来计算差异系数
差异系数公式是:
他的意思是:信息熵越小,差异系数越大,权重越大·,信息熵越大,差异系数越小,权重越小。
接下来就是最后一步计算权重了
熵权法在论文中怎么写
为避免主观赋权对评价结果产生影响,本文采用熵权法确定各指标的客观权重。首先将标准化后的指标矩阵转化为比重矩阵,计算各评价对象在不同指标下的相对贡献;随后根据信息熵公式计算各指标的信息熵。若某一指标在不同评价对象间差异较大,则其信息熵较小,说明该指标提供的信息量较大,应赋予较高权重;反之,若某一指标取值较为接近,则其信息熵较大,区分能力较弱,权重较低。最终根据差异系数归一化得到各指标权重。
3.TOPSIS综合评价与排序
TOPSIS——逼近理想解排序法
它会构造两个虚拟方案:
1.正理想解:每个指标都表现最好的方案,正理想解可以理解为每一列的最大值。
2.负理想解:每个指标都表现最差的方案,负理想解可以理解为每一列的最小值。
TOPSIS判断一个方案好不好,就看它离正理想解有多近,离负理想解有多远。应该好的方案应该离最好的方案越近越好,离最差的方案越远越好。
这里需要解答一个问题,为什么不直接使用每一行乘权重求和?这当然也可以,但是TOPSIS更强调一个方案在多指标空间中是否接近整体最优状态。这两种方法有时结果相近,但TOPSIS在综合评价论文中更加常见,也更有“模型感”。
计算流程
标准化矩阵->构造加权标准化矩阵->确定正理想和负理想解->计算每个方案到正负理想解的距离->计算相对接近度并排序。
(1)标准化矩阵前面已经介绍过了
(2)构造加权标准化矩阵,加权标准化矩阵的意思是:每个标准化后的指标值,都乘以这个指标对应的权重。
(3)计算每个地点到正理想解的距离
TOPSIS通常采用的是欧氏距离,可以理解为“空间中的直线距离”
(4)计算每个地点到负理想解的距离
(5)计算相对接近度
TOPSIS最后的综合得分叫“相对接近度”
经过以上的步骤我们就走完了TOPSIS的全过程。
在论文中可以这样写:
在得到各指标权重后,本文采用 TOPSIS 方法对各候选地点进行综合排序。首先将标准化矩阵与指标权重相乘,得到加权标准化矩阵;随后分别确定各指标下的正理想解和负理想解。由于所有指标已统一转化为正向指标,因此正理想解由各指标最大值组成,负理想解由各指标最小值组成。进一步计算各候选地点到正、负理想解的欧氏距离,并根据相对接近度公式得到综合评价得分。相对接近度越大,说明该候选地点越接近理想建设方案,其建设优先级越高。
4.适度性指标如何处理
其中x表示当前候选点到已有充电站的距离,表示理想距离,比如3km
根据上面的公式就能计算出这种适度性指标的权重,越接近理想值,得分越高。
用“两两比较法”确定指标的重要性.