目录
一、赛前准备
1、了解国赛
2、软件安装(和队友安装同一个版本)
二、选题策略
1、ABC赛题特点
2、排除背景都看不懂的题
3、定题
三、百度搜索技巧
四、查文献技巧
1、知网
2、其他
五、找数据平台
六、数据预处理
1、缺失值处理
2、异常值处理
七、建模全过程
1、到底什么是模型?
2、建模过程
一、赛前准备
- 人数: 2020年45680队(本科41826队、专科3854队)、 13万多人报名参赛
- 时间:时间:每年9月,2021年9月9日(周四) 18时至9月12日(周日 ) 20时
- 9月12日20:00之前生成“参赛论文”及必要的“支撑材料”的MD5码。
- 生成了MD5码后,就别再碰文件! ! !打开都不行! ! !
- 9月12日20:00 至22:00之间最多只允许上传参赛作品的MD5码1次。
- 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
- 获奖:2020年本科组一等奖292队(0.698%),二等奖1201队(2.87%)
详细规则:关注学校通知和国赛官网全国大学生数学建模竞赛http://www.mcm.edu.cn/index_cn.html
2、软件安装(和队友安装同一个版本)
- Matlab:自行在CSDN搜索安装方法。
- Mathpix:截图即可获得公式编辑(word与latex均有, 付费)。
- AxGlyph: 学术绘图,比matlab和excle高效 (付费)。
二、选题策略
1、ABC赛题特点
- 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
- A题偏向物理/工程类,
- 专业性较强,往往有标准答案,非本专业不建议选择
- 需要根据物理定理使用微分方程和偏微分方程模型
- 神经网络/遗传算法等求解较优解的启发式算法一般不适用! ! !
- 热力学等物理题可以先建立一个非常简陋的模型,再根据题目中的要求一点一点改进
- B题由于近两年改革,题型不定,19年物理类,20年运筹优化类
- C题偏向经管/运筹/统计/数据分析类,
- 赛题较开放易读懂
- 运筹优化类问题一般没有严格最优解,结果合理即可
- 数据往往需要自己找
2、排除背景都看不懂的题
- 若问题背景描述的语句都读不懂,则优先排除
- 往往A题涉及较为深入的理工科知识,如果非相应专业,可能连题目内的学术名词都读不懂
- 有些大体能读懂、具体名词不明白的,可先搜索查明关键词意义再考虑
- 例如: 2017年A题, 关于CT系统参数标定, 若连CT系统成像的基本过程都搞不懂、不了解基本的滤波反投影,就不宜选择该题
3、定题
- 少数服从多数
- 先查资料文献,优先考虑资料较多的:包括查书籍、知网、百度、谷歌等
- 啥都不会三脸懵逼,就选C题,起码题目较易读懂
- 尽量开赛后6小时内定题,不要轻易换题
- 万一做到一半发现做不出来,即使瞎编也要编完一整篇论文交上去! ! !
三、百度搜索技巧
- 完全匹配搜索:查询词的外边加上双引号
- 引号中英文均可
- 例如搜索 “CT参数标定”,得到的结果不是分别带有“CT”或“参数标定”的网页
- 标题必含关键词:查询词前加上intitle:
- 冒号为英文输入下的
- 例如搜索intitle:CT参数标定, 则搜索结果里每一个标题都会带有“CT参数标定”
- 搜索文档:例如查询词后空格再输入filetype:文件格式(doc/pdf/xls/等等)
- 例如搜索:线性规划 filetype:pdf
- 得到的就都是pdf版的资料
- 去掉不想要的:查询词后面加空格后加减号与关键字
- 例如搜索后不想看百度文库的东西,搜索线性规划 filetype:pdf -百度文库
四、查文献技巧
- 先看知网的硕博士论文
- 硕博论文会对研究的问题有详细的背景和基础知识介绍,可帮助我们快速理解题目
- 按照“被引”排序
- 高级检索:想了解神经网络在信贷策略中的应用,想找一些相关的硕博论文
- 进入高级检索界面,“+”和“一”可以自定义增加和减少检索字段
- 主题为:企业信贷(全篇所围绕的)
- OR主题为:信贷决策
- AND关键词:神经网络,词频设置为“模糊”。模糊”是输入的检索词在检索结果中出现即可,字序、字间间隔可以产生变化。
- 检索结果可按“相关度”或“被引”排序
2、其他
- 谷歌学术镜像
- Open Access Library
- 对于数模国赛,没必要查外文文献
五、找数据平台
- 优先在知网、谷歌学术等平台搜索
- 国家统计局
- awesome-public-datasets
- EPSDATA平台
- 其他:国家信息中心,kaggle,和鲸社区
1、缺失值处理
- 比赛提供的数据,发现有些单元格是null或空的
- 缺失太多:例如调查人口信息,发现"年龄”这一项缺失了40%,就直接把该项指标删除
- 最简单处理:均值、众数插补
- 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
- 定性数据,例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失
- 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
- Newton插值法
- 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
- 缺点:区间边缘处的不稳定震荡,即龙格现象。不适合对导数有要求的题目
- 适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
- 样条插值法
- 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
- 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
2、异常值处理
- 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
- 正态分布3σ原则
- 数值分布在( μ-3σ, μ+3σ)中的概率为99.73%, 其中μ为平均值,σ为标准差
- 求解步骤: 1.计算均值μ和标准差σ ; 2.判断每个数据值是否在(μ-3σ, μ+3σ)内,不在则为异常值
- 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
- 不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布
- 画箱型图
- 箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值
- 四分位距IQR = Q3-Q1,也就是排名第75%的减去第25%的数值
- 与正态分布类似,设置个合理区间,在区间外的就是异常值
- 一般设[Q1- 1.5*IQR, Q3+ 1.5*IQR]内为正常值
- 适用题目:普遍适用
- 异常数据处理方法与缺失值处理相同
七、建模全过程
1、到底什么是模型?
- 打开《大学物理》,里面的某一节,就是一个建模过程。
- 你需要学会如何开车,但是暂时还不需要学会造车修车的原理!
- 比赛开始后先查文献,一切以现有的他人成果为基础
- 看不懂原理没关系,把论文“编写”出来就
- 整篇论文,很多思路、模型等都是从参考文献和书籍搬过来的
- All models are wrong.Some are useful (不论对错,管用即可)
2、建模过程
- 一篇完整的数模论文
- 包括摘要(最重要)、问题重述、模型假设和符号说明、模型建立与求解(篇幅最长)、模型的优缺点与改进方法、参考文献和附录。
- 摘要:最重要
- 读者看完摘要,就知道论文研究的问题、用了什么方法、求得了什么结果,以及每一部分的大致步骤。
- 问题重述
- 将题目简述一遍即可,并不重要。注意不要复制粘贴,避免查重
- 模型假设和符号说明
- 好的假设能让你事半功倍
- 例如某一年太阳投影问题,影子长度与地球公转也有关系,但地球公转对影长的影响远远小于自转,可在模型假设里说明“忽略公转对影长的影响”
- 符号说明将论文中定义的重要符号列出表格说明即可
- 模型的建立
- 一组公式,和对公式中每个变量的解释,就是一个模型
- 先查阅资料,看着资料,用自己的话复述一个简单的模型,再根据题目中的约束条件去一步步修改模型,把题目中的变量带入模型中去
- 模型的求解
- 例如:上文我们所建立的最短路径模型,查阅资料可知单源最短路径的常用算法是Dijkstra算法, 那么模型的求解过程可以把资料上的用自己的话复述一遍
- 需要注意的是,必须根据赛题解释清楚“起始点”在本问题中究竟是什么、算法里的“节点”在本题中的实际意义是什么、最短路径意味着什么
- 不同小问
- 并不是针对题目的每一问都要建立一个模型
- 如果每小问之间具有相似性、仅仅是增加了约束条件的话,完全可以全文建立一个模型,再针对每一小问进行模型改进。
- 模型的优缺点与改进方法
- 这一部分不是必须的,可以简单分析下前文模型的优缺点,若没有改进方法也可不写
- 结合查到的文献,分析正文中模型常用在哪种问题,又与本文所求解的问题有何区别
- 参考文献
- 格式一定要规范
- 知网检索结果右侧有引用按钮,打开后复制即可
- 附录
- 附录里要写出正文中求解时用到的代码
- 一定不要把网上搜到的代码直接复制粘贴! ! !
- 把查到的代码里变量名换一换就不会被查重
- 曾出现过参加国赛,在省内被推到国奖,但查重发现代码是复制的,结果被取消获奖并官网通报的先例