📋 个人简介
💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者
📙 个人主页:W_chaunqi
😀 支持我:点赞👍+收藏⭐️+留言📝
💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨
数据采集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。一般数据来源主要有以下几种方式,如图所示。
数据库:每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。
公开出版物:可以用于收集数据的公开出版物包括〈中国统计年鉴〉《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。
互联网:随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。
市场调查:进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。市场调查就是指运用科学的方法,有目的、有系统地收集、记录、整理有关市场营销的信息和资料,分析市场情况,了解市场现状及其发展趋势,为市场预测和营销决策提供客观、正确的数据资料。市场调查可以弥补其他数据收集方式的不足,但进行市场调查所需的费用较高,而且会存在一定的误差,故仅作参考之用。
Mr.林:数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。
数据挖掘(Data Mining, DM)又称为资料勘探、数据采矿。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘其实是一种高级的数据分析方法。
数据挖掘就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。
一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图、帕雷托图等。
大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。记住,在一般情况下,能用图说明问题的就不用表格,能用表格说明问题的就不用文字。
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。所以,数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
最后,好的分析报告一定要有建议或解决方案。作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们在决策时作参考。所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。
复式条形图
堆积条形图
水平条形图
棘状图
散点图
折线图
基本箱线图
带凹口箱线图
小提琴图
饼图
直方图
核密度图
误差条形图
星图
雷达图
RGUI
在Windows的“程序”选项中找到相应的R程序,例如“R 4.2.1”,点击执行
集成开发环境(Integrated Development Environment,IDE),是一个集代码编辑器、调试器、图形用户界面等一系列工具为一体的应用程序许多优秀的IDE都将开发所需的主要功能集成在一个桌面环境中,大大提高了生产效率使用IDE的优点包括:
Rstudio是一个免费的R语言IDE
它具有语法高亮、命令补全、对象浏览、语法错误检查以及断点调试等功能,可以大大提高开发效率
Rstudio可以在https://www.rstudio.com/获取,选择对应的系统平台进行下载安装
默认情况下窗口被分成如下四个区域:
> install.packages("Rcmdr", dependencies=TRUE)
> library(Rcmdr)
StatET
StatET 是一个基于Eclipse的开源R集成开发环境。它提供了许多用于R编码和包构建的成熟工具,包括一个完全集成的R控制台、代码编辑器、调试器、对象浏览器、文档编写工具和帮助系统。
Rattle
Rattle是一个基于R语言编写的为数据挖掘服务的图形用户界面(GUI),使用gnome做为图形用户界面。它是the R Analytical Tool To Learn Easily的简写,它可以将所有的操作生成相应的R脚本,非常适合用于R语言数据分析的学习。
包的下载地址
https://cran.r-project.org/web/packages/
1.联网时,用命令方式: install.packages(“ape”),选择镜像后,程序将自动下载并安装程序包。
2.直接找到包的下载地址,将数据包下载到本地,手动安装。
Window平台下程序包为zip文件,安装时不要解压缩
3.R界面菜单程序包——安装程序包——选择镜像——选择包
包的安装过程:指的是从某个CRAN镜像站点下载包并将其放入库中的过程。
包的载入:指的是将外存中的包文件载入到内存的过程。
命令方式:
library()
以stringr包为例,执行library (“stringr”)可将对应的包载入
> library ("stringr") #载入字符串处理包stringr
> str_length ("Hello R!")
> [1] 8
菜单方式
R界面菜单
程序包——加载程序包——选择包
查看帮助文件
最常用的方法:
1 菜单 帮助>Html帮助
2 查看pdf帮助文档(从程序包下载页面下载)
查看帮助文档(RStudio中)
> help.start()
如果什么都不发生的话,你应该自己打开‘http://127.0.0.1:20920/doc/html/index.html’
> help("sum") or > ? sum
> example("mean")
demo(graphics)
> library(help="base")
> help(package="ggplot2")
1 help(“t.test”) #获得扩展包的信息
2 ? t.test #获得扩展包的信息
3 help.search(“t.test”) #以t.test为关键词搜索本地帮助文档
4 example(mtcars) #数据集mtcars的使用示例
5 data() #列出当前已经加载包中所含的所有可用示例数据集
6 RGui>Help>Html help
7 在数据包下载页面查看R包pdf手册
工作空间(workspace)就是当前的R工作环境,它存储着所有用户定义的对象(向量、矩阵、函数、数据框、列表)
在一个R会话结束时,你可以将当前工作空间保存到一个镜像中,并在下次启动R时自动载入它。
当前工作目录(working directory)是R用来读取文件和保存结果的默认目录。
R提供了一些管理工作空间的函数
利用这些函数可以方便地完成目录、对象与包的管理
函 数 | 说 明 |
---|---|
getwd () | 显示当前工作目录 |
setwd () | 修改当前工作目录 |
ls () | 显示当前工作空间中的所有对象 |
str () | 显示对象的结构 |
ls.str () | 显示对象中每一个变量的结构 |
exists () | 当前工作空间内是否存在某个对象 |
rm () | 删除一个多或多个对象 |
q () | 退出R。在这之前会询问是否保存工作空间 |
install.packages () | 安装包 |
library () | 载入包 |
在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下。那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢?
好在R语言提供了很多的基本数据集,这些基本数据集是可以直接加载、可以完成几乎所有的数据分析任务模拟数据的。这都是些哪些种类的数据呢?
这些基本数据集都在R包 datasets 里面,可以执行命令:
> data(package="datasets")