DCI认证大纲

首页 DCLC认证 DCI认证大纲 DCI 二级 R语言数据分析考试大纲

DCI 二级 R语言数据分析考试大纲

456    2023-10-09 10:31:59   

数字化能力水平认证(DCI)二级


R语言数据分析考试大纲

   (2023年版)

 

一、基本要求 

1.掌握R语言的基本语法规则。

2.掌握数据处理与分析中常用的R标准库。

3.掌握不少3个第三方库,掌握获取并安装第三方库的方法。

4.能够阅读和分析R语言程序。

5.熟练使用RStudio开发环境。

6.了解R语言的常用第三方库名称:数据分析、数据可视化等。

7.了解R语言的典型应用领域、应用场景。 

二、考试内容 

R语言背景知识

1.R语言的发展历程。

2.R语言与数据科学、计算思维。

3.R语言的典型应用场景。

4.R语言开发环境的配置及常用基本函数:

1)R、Rstudio的安装与环境配置。

2)工作空间相关函数:getwd( )、setwd( )、ls( )、rm( )、history( )、q( )。

3)帮助文档相关函数:help( )、?。

4)包相关函数:install.packages( )、update.packages( )、library( )、require( )。

5)数据集相关函数:data( ) 、head( ) 、tail( ) 、view( )、attach( )。 

基本语法元素

   1.数据类型及其转换、查看:数值型(numeric)、字符型(character)、逻辑型(logical)、复数型(complex)、整数型(integer)、浮点型(double)、特殊值(NA)。

  2.常用数据结构:向量(vector)、矩阵(matrix)、数组(array)、数据框(data frame)、列表(list)、因子(factor)。

1)熟悉向量计算。

2)灵活使用矩阵。

3)综合运用数据框。

4)熟悉因子。 

数据管理

  1.基本控制结构:有顺序结构、分支结构、循环结构。

  2.计算和统计分析函数,灵活运用apply函数族:apply( )、sapply( )、tapply( )、lapply( )。

 1)数学函数:绝对值、平方根、不小于x的最大最小整数、舍入为指定位数的小数、将x舍入为指定的有效数字位数、正弦、余弦和正切、反正弦、反余弦和反正切、对数、指数。

 2)统计函数:平均值、中位数、标准差、方差、绝对中位差、值域、分位数、求和、最大最小值。

 3)数字类型字符处理函数:正则表达式、字符处理函数、日期处理函数、自定义函数。

 3.数据输入输出:

1)利用函数导入数据:read.table( )、read.csv( )。

2)文本文件输出和图片形式输出:write.csv( )、jpeg( )、pdf( )。 

数据可视化

绘图包graphics的使用。

 1.利用高级绘图函数创建图形:利用plot( )函数散点图;hist( )函数绘制直方图;boxplot( )绘制箱线图;pie()绘制饼图;barplot绘制条形;Matplot( )绘制数学图形。

 2.利用低级绘图函在图形上添加额外的点、线和标签元素。

 1)绘图函数中的色彩设置colors( )。

 2)绘图中的文字设置。

 3)添加点元素points( )。

 4)增加线条的函数:abline( )函数绘制直线;lines( )函数绘制曲线;segments( )函数绘制两点间线段。

 3.在一张画布上实现多种不同类型图形的综合展示(图形组合):par( )或layout( )函数将多幅图形组合为一幅图。

 4.图形输出:

1)输出到屏幕展示。

2)输出到文件。 

数据探索

 1.数据描述:

1)数据类别:分类数据、有序数据、区间数据、比例数据。

2)数据的集中趋势分析:平均值和中位数、众数的计算。

3)数据的离散程度分析:方差、标准差、中位数绝对偏差、变异系数、四分位数、极差的计算与分析。

4)数据的分布特征:描述数据分布特征的统计量偏度和峰度的计算,并能初步分析数据的分布特征。

5)数据的相似性:常用的相似性度量相关系数(变量之间的接近程度)和相似系数(样本之间的接近程度)的求解。

 2.数据清洗:

1)缺失值处理:缺失值表示、判别与处理。

2)异常数据处理:判别与处理。

3)数据集成:数据的合并、子集获取、分组汇总、频数计算。

 3.用scale( )函数实现数据规范化。 

数据分析技能

 1.随机数模拟:runif( )函数生成随机数、rnorm( )、dpois( )、dbinom( )函数生成特定分布的随机数。

 2.随机抽样:sample( )、set.seed( )函数等实现重复随机抽样和不重复随机抽样。

 3.线性回归:一元线性回归、多项式回归、多元线性回归。 

三、考试方式 

基本情况

 上机考试,考试时长90分钟,满分100分。

)题型及分值

 1.单项选择题40分。

 2.多项选择题20分

 3.上机操作题40分

(三)考试环境

集中考试

配备考场管理人员或摄像头

设置专门的考场

PC端:Win 8及以上