• 第一章 赛前准备工作


    目录

    一、赛前准备

    1、了解国赛

    2、软件安装(和队友安装同一个版本)

    二、选题策略

    1、ABC赛题特点

    2、排除背景都看不懂的题

     3、定题

    三、百度搜索技巧 

    四、查文献技巧

    1、知网

     2、其他

    五、找数据平台

    六、数据预处理

    1、缺失值处理

    2、异常值处理

    七、建模全过程 

    1、到底什么是模型?

    2、建模过程


    一、赛前准备

    1、了解国赛

    • 人数: 2020年45680队(本科41826队、专科3854队)、 13万多人报名参赛
    • 时间:时间:每年9月,2021年9月9日(周四) 18时至9月12日(周日 ) 20时 
      • 9月12日20:00之前生成“参赛论文”及必要的“支撑材料”的MD5码。
      • 生成了MD5码后,就别再碰文件! ! !打开都不行! ! !
      • 9月12日20:00 至22:00之间最多只允许上传参赛作品的MD5码1次。
    • 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
    • 获奖:2020年本科组一等奖292队(0.698%),二等奖1201队(2.87%)

    详细规则:关注学校通知和国赛官网全国大学生数学建模竞赛http://www.mcm.edu.cn/index_cn.html

    2、软件安装(和队友安装同一个版本

    1. Matlab:自行在CSDN搜索安装方法。
    2. Mathpix:截图即可获得公式编辑(word与latex均有, 付费)。
    3. AxGlyph: 学术绘图,比matlab和excle高效 (付费)。

    二、选题策略

    1、ABC赛题特点

    • 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
    • A题偏向物理/工程类,
      • 专业性较强,往往有标准答案非本专业不建议选择
      • 需要根据物理定理使用微分方程和偏微分方程模型
      • 神经网络/遗传算法等求解较优解的启发式算法一般不适用! ! !
      • 热力学等物理题可以先建立一个非常简陋的模型,再根据题目中的要求一点一点改进
    • B题由于近两年改革,题型不定,19年物理类,20年运筹优化类
    • C题偏向经管/运筹/统计/数据分析类,
      • 赛题较开放易读懂
      • 运筹优化类问题一般没有严格最优解,结果合理即可
      • 数据往往需要自己找

    2、排除背景都看不懂的题

    • 若问题背景描述的语句都读不懂,则优先排除
      • 往往A题涉及较为深入的理工科知识,如果非相应专业,可能连题目内的学术名词都读不懂
      • 有些大体能读懂、具体名词不明白的,可先搜索查明关键词意义再考虑
      • 例如: 2017年A题, 关于CT系统参数标定, 若连CT系统成像的基本过程都搞不懂、不了解基本的滤波反投影,就不宜选择该题

     3、定题

    • 少数服从多数
    • 先查资料文献,优先考虑资料较多的:包括查书籍、知网、百度、谷歌等
    • 啥都不会三脸懵逼,就选C题,起码题目较易读懂
    • 尽量开赛后6小时内定题,不要轻易换题
    • 万一做到一半发现做不出来,即使瞎编也要编完一整篇论文交上去! ! !

    三、百度搜索技巧 

    • 完全匹配搜索:查询词的外边加上双引号
      • 引号中英文均可
      • 例如搜索 “CT参数标定”,得到的结果不是分别带有“CT”或“参数标定”的网页
    • 标题必含关键词:查询词前加上intitle:
      • 冒号为英文输入下的
      • 例如搜索intitle:CT参数标定, 则搜索结果里每一个标题都会带有“CT参数标定”
    • 搜索文档:例如查询词后空格再输入filetype:文件格式(doc/pdf/xls/等等)
      • 例如搜索:线性规划 filetype:pdf
      • 得到的就都是pdf版的资料
    • 去掉不想要的:查询词后面加空格后加减号与关键字
      • 例如搜索后不想看百度文库的东西,搜索线性规划 filetype:pdf -百度文库
         

    四、查文献技巧

    1、知网中国知网中国知网知识发现网络平台—面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。涵盖基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等十大领域。https://www.cnki.net/

    • 先看知网的硕博士论文
      • 硕博论文会对研究的问题有详细的背景和基础知识介绍,可帮助我们快速理解题目
      • 按照“被引”排序
    • 高级检索:想了解神经网络信贷策略中的应用,想找一些相关的硕博论文
    1. 进入高级检索界面,“+”和“一”可以自定义增加和减少检索字段
    2. 主题为:企业信贷(全篇所围绕的)
    3. OR主题为:信贷决策
    4. AND关键词:神经网络,词频设置为“模糊”。模糊”是输入的检索词在检索结果中出现即可,字序、字间间隔可以产生变化。
    5. 检索结果可按“相关度”或“被引”排序

     2、其他

    五、找数据平台

    六、数据预处理

    1、缺失值处理

    • 比赛提供的数据,发现有些单元格是null或空的
    •  缺失太多:例如调查人口信息,发现"年龄”这一项缺失了40%,就直接把该项指标删除
    • 最简单处理:均值、众数插补
      • 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
      • 定性数据,例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失
      • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
    • Newton插值法
      • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
      • 缺点:区间边缘处的不稳定震荡,即龙格现象。不适合对导数有要求的题目
      • 适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
    • 样条插值法
      • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
      • 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
         

    2、异常值处理

    • 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
    • 正态分布3σ原则
      • 数值分布在( μ-3σ, μ+3σ)中的概率为99.73%, 其中μ为平均值,σ为标准差
      • 求解步骤: 1.计算均值μ和标准差σ ; 2.判断每个数据值是否在(μ-3σ, μ+3σ)内,不在则为异常值
      • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
      • 不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布
    • 画箱型图
      • 箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值
      • 四分位距IQR = Q3-Q1,也就是排名第75%的减去第25%的数值
      • 与正态分布类似,设置个合理区间在区间外的就是异常值
      • 一般设[Q1- 1.5*IQR, Q3+ 1.5*IQR]内为正常值
      • 适用题目:普遍适用
      • 异常数据处理方法与缺失值处理相同

     

    七、建模全过程 

    1、到底什么是模型?

    • 打开《大学物理》,里面的某一节,就是一个建模过程。
    • 你需要学会如何开车,但是暂时还不需要学会造车修车的原理!
      • 比赛开始后先查文献,一切以现有的他人成果为基础
      • 看不懂原理没关系,把论文“编写”出来就
    • 整篇论文,很多思路、模型等都是从参考文献和书籍搬过来的
    • All models are wrong.Some are useful (不论对错,管用即可)

    2、建模过程

    • 一篇完整的数模论文
      • 包括摘要(最重要)、问题重述、模型假设和符号说明、模型建立与求解(篇幅最长)、模型的优缺点与改进方法、参考文献和附录。
    • 摘要:最重要
      • 读者看完摘要,就知道论文研究的问题、用了什么方法、求得了什么结果,以及每一部分的大致步骤
    • 问题重述
      • 将题目简述一遍即可,并不重要。注意不要复制粘贴,避免查重
    • 模型假设和符号说明
      • 好的假设能让你事半功倍
      • 例如某一年太阳投影问题,影子长度与地球公转也有关系,但地球公转对影长的影响远远小于自转,可在模型假设里说明“忽略公转对影长的影响”
      • 符号说明将论文中定义的重要符号列出表格说明即可
    • 模型的建立
      • 一组公式,和对公式中每个变量的解释,就是一个模型
      • 先查阅资料,看着资料,用自己的话复述一个简单的模型,再根据题目中的约束条件去一步步修改模型,把题目中的变量带入模型中去

    •  模型的求解
      • 例如:上文我们所建立的最短路径模型,查阅资料可知单源最短路径的常用算法是Dijkstra算法, 那么模型的求解过程可以把资料上的用自己的话复述一遍
      •  需要注意的是,必须根据赛题解释清楚“起始点”在本问题中究竟是什么、算法里的“节点”在本题中的实际意义是什么、最短路径意味着什么 
    • 不同小问
      • 并不是针对题目的每一问都要建立一个模型
      • 如果每小问之间具有相似性、仅仅是增加了约束条件的话,完全可以全文建立一个模型,再针对每一小问进行模型改进

    • 模型的优缺点与改进方法
      • 这一部分不是必须的,可以简单分析下前文模型的优缺点,若没有改进方法也可不写
      • 结合查到的文献,分析正文中模型常用在哪种问题,又与本文所求解的问题有何区别
    • 参考文献
      • 格式一定要规范
      • 知网检索结果右侧有引用按钮,打开后复制即可

     

    • 附录
      •  附录里要写出正文中求解时用到的代码
      • 一定不要把网上搜到的代码直接复制粘贴! ! !
      • 把查到的代码里变量名换一换就不会被查重
      • 曾出现过参加国赛,在省内被推到国奖,但查重发现代码是复制的,结果被取消获奖并官网通报的先例
         
  • 相关阅读:
    算法基础入门 - 2.栈、队列、链表
    护眼灯什么颜色的灯光好?2022年平价护眼台灯推荐
    MySQL——MySQL的基础操作部分
    什么是HTML和CSS?
    离开大促的电商生意,应该怎么玩?
    Mac M1使用UTM安装centos7 x86_64虚拟机
    MySQl数据库知识点
    通俗易懂OpenCV(C++版)详细教程——OpenCV函数快速查找(不断更新中)
    力扣刷题-链表-翻转链表
    Flutter——最详细(AppBar)使用教程
  • 原文地址:https://blog.csdn.net/weixin_41842236/article/details/126679171