国家开放大学大数据分析与挖掘技术_国家开放大学系统成人高考函授考试答案

数据整合是一个将两个或者多个对象的值合并成一个对象的预处理操作，数据整合包括（）。【A.】删除数据的异常值【B.】减少接下来处理数据的大小【C.】改变粒度分析（从精细到粗放尺度）【D.】提高数据的解释能力

答案是：BCD

数据整合是一个将两个或者多个对象的值合并成一个对象的预处理操作，数据整合不包括（）。【A.】删除数据的异常值【B.】减少接下来处理数据的大小【C.】改变粒度分析（从精细到粗放尺度）【D.】提高数据的解释能力

答案是：A

一些数据集是由合并数据源形成的，这就使其有可能含有重复数据或者近似重复的个体。【A.】√ 【B.】×

答案是：A

duplicated()函数可以将数据中的重复值直接筛选出来。【A.】√ 【B.】×

答案是：B

duplicated()函数会返回一个布尔数组，表明每一行是否与前面行有重复。【A.】√ 【B.】×

答案是：A

下列关于函数duplicated()的说法正确的是（）。【A.】函数结果会返回数据中的所有重复值【B.】函数结果会返回一个布尔数组【C.】函数结果表明每一行是否与前面行有重复【D.】函数结果会返回数据中的所有非重复值

答案是：BC

下列关于函数duplicated()的说法不正确的是（）。【A.】函数结果会返回数据中的所有重复值【B.】函数结果会返回一个布尔数组【C.】函数结果表明每一行是否与前面行有重复【D.】函数结果会返回数据中的所有非重复值

答案是：AD

下列代码可以将数据集data中的重复个体检测出的是（）。【A.】data.repeat() 【B.】data.repetition() 【C.】data.duplicated() 【D.】data.duplication()

答案是：C

缺失值是不受标准化过程影响的。【A.】√ 【B.】×

答案是：A

为了去除异常值，我们可以对每个变量计算Z-得分，然后去除那些Z-得分异常高或者异常低的个体。【A.】√ 【B.】×

答案是：A

异常点通常是指处于数据边界和数据集中的其他点有着不同模式的点。【A.】√ 【B.】×

答案是：A

缺失值会受到标准化过程影响。【A.】√ 【B.】×

答案是：B

下列代码可以将数据data转换成数值型数据的是（）。【A.】pd.to_numeric(data) 【B.】pd.to_num(data) 【C.】pd.to_number(data) 【D.】pd.to_string(data

答案是：B

下面哪项代码是对数据data进行标准化的过程（）。【A.】Z = (data - data.mean()) / data.std() 【B.】Z = (data.mean() - data) / data.std() 【C.】Z

答案是：A

数据预处理涉及数据整理和整合的各个方面，包括数据清洗、筛选和数据变换，用于数据挖掘前的模型选择等，有助于提高数据挖掘的效率。【A.】√ 【B.】×

答案是：A

dropna()函数默认是删除行，要对列进行删除，则需要添加参数axis=0。【A.】√ 【B.】×

答案是：B

dropna()函数默认是删除行，要对列进行删除，则需要添加参数axis=1。【A.】√ 【B.】×

答案是：A

如果数据质量不高，则会影响数据挖掘的结果。【A.】√ 【B.】×

答案是：A

数据预处理是数据分析工作的准备阶段。【A.】√ 【B.】×

答案是：A

除了填补缺失值，另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数dropna()作用于数据框来实现。【A.】√ 【B.】×

答案是：A

在某些情况下，有些时候并不一定会收集到数据，因而会造成观测值或变量的数据有缺失，这些缺失的数据就称为缺失值。【A.】√ 【B.】×

答案是：A

数据预处理是数据分析工作的实施阶段。【A.】√ 【B.】×

答案是：B

dropna()函数默认是删除列，要对行进行删除，则需要添加参数axis=1。【A.】√ 【B.】×

答案是：B

缺失值的产生有可能是因为某些原因没有收集到信息，也有可能是对于这些个体来说这些属性是不可用的。【A.】√ 【B.】×

答案是：A

缺失值的产生，有可能是因为（）。【A.】数据本身为异常值【B.】某些原因没有收集到信息【C.】对于这些个体来说这些属性是不可用的【D.】数据重复出现

答案是：BC

数据预处理涉及数据整理和整合的各个方面，主要包括（）。【A.】数据清洗【B.】数据筛选【C.】数据变换【D.】数据可视化

答案是：ABC

一般数据的预处理，主要包括（）。【A.】异常点检测【B.】噪声数据检测【C.】缺失值的处理【D.】重复数据的处理

答案是：ABCD

下列关于函数dropna()的说法正确的是（）。【A.】作用是删除缺失值【B.】默认是删除行【C.】默认是删除列【D.】作用于数据框来实现

答案是：ABD

下列不属于缺失值的产生原因的是（）。【A.】数据本身为异常值【B.】某些原因没有收集到信息【C.】对于这些个体来说这些属性是不可用的【D.】数据重复出现

答案是：AD

下列关于函数dropna()的说法不正确的是（）。【A.】作用是删除缺失值【B.】默认是删除行【C.】默认是删除列【D.】作用于数据框来实现

答案是：C

如果想把原始数据中的问号转成Python中缺失值的表示方式NaN，可以输入的语句是（）。 import numpy as np 【A.】data=data.replace(?,np.NaN) 【B.】data=data.replac

答案是：B

删除缺失值的函数dropna()，默认是删除行，如果要对列进行删除，则需要添加参数（）。【A.】axis=null 【B.】axis=-1 【C.】axis=0 【D.】axis=1

答案是：D

除了填补缺失值，另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数（）实现。【A.】dropna() 【B.】deletena() 【C.】clearna() 【D.】throwna()

答案是：A

数据预处理涉及数据整理和整合的各个方面，不包括（）。【A.】数据清洗【B.】数据筛选【C.】数据变换【D.】数据可视化

答案是：D

数据预处理是数据分析工作的（）。【A.】实施阶段【B.】准备阶段【C.】总结阶段【D.】收尾阶段

答案是：B

数据挖掘的对象是各种各样的数据，针对不同的数据其分析方法可能是不同的，所以说数据挖掘没有章法。【A.】√ 【B.】×

答案是：B

数据挖掘的对象是各种各样的数据，针对不同的数据其分析方法可能是不同的。但这并不是说数据挖掘没有章法，其是有一般流程的。【A.】√ 【B.】×

答案是：A

下列操作属于数据分析和挖掘的一般流程的是（）。【A.】数据预处理【B.】探索性分析【C.】从平台或渠道获取数据【D.】将模型结果进行可视化

答案是：ABD

下列操作不属于数据分析和挖掘的一般流程的是（）。【A.】数据预处理【B.】探索性分析【C.】从平台或渠道获取数据【D.】将模型结果进行可视化

答案是：C

在调用statsmodels进行数据分析时，往往采用数据分析接口(api)的方式进行。【A.】√ 【B.】×

答案是：A

Python可以使用import语句导入已经安装在系统中的package。【A.】√ 【B.】×

答案是：A

在Python基本库中，序列是最常见也是最主要的数据结构类型。【A.】√ 【B.】×

答案是：A

Python中常见的序列数据结构类型有（）。【A.】数字【B.】列表【C.】元组【D.】字典

答案是：ABCD

在Python基本库中，最常见也是最主要的数据结构类型是（）。【A.】表格【B.】文字【C.】数组【D.】序列

答案是：D

经典统计中强调的推断在数据挖掘中依然存在。【A.】√ 【B.】×

答案是：B

Python中只能使用“#”作为注释，并且可以对多行注释。【A.】√ 【B.】×

答案是：B

与统计学相比，数据挖掘以开放式方式处理大型数据集，这使得其不可能像推断所需的那样对所分析问题施以严格的限制。【A.】√ 【B.】×

答案是：A

Python中的注释会被执行但不显示结果。【A.】√ 【B.】×

答案是：B

Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植性和可扩展性较差。【A.】√ 【B.】×

答案是：B

Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行。【A.】√ 【B.】×

答案是：A

下列关于Python中的注释说法错误的是（）。【A.】Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行【B.】Python中可以使用“#”进行一行或多行注释【C.】Python中注释下的一切内容会被执行

答案是：BCD

下列属于Python的第三方库的是（）。【A.】Statsmodels 【B.】Matplotlib 【C.】Scipy 【D.】Scikit-learn

答案是：ABCD

统计和数据挖掘的主要区别是（）。【A.】统计侧重于从样本到总体的推断【B.】统计侧重于预测个体记录【C.】数据挖掘侧重于从样本到总体的推断【D.】数据挖掘侧重于预测个体记录

答案是：AD

关于统计和数据挖掘，下列说法正确的是（）。【A.】统计侧重于从样本到总体的推断【B.】数据挖掘侧重于预测个体记录【C.】经典统计中强调的推断在数据挖掘中已不存在【D.】经典统计中强调的推断在数据挖掘中依然存在

答案是：ABC

下列关于Python的说法正确的是（）。【A.】Python是一种面向对象的解释型高级编程语言【B.】可移植性和可扩展性不强【C.】结构简单，语法和代码定义清晰明确【D.】易于学习和维护

答案是：ACD

关于统计和数据挖掘，下列说法错误的是（）。【A.】统计侧重于从样本到总体的推断【B.】数据挖掘侧重于预测个体记录【C.】经典统计中强调的推断在数据挖掘中已不存在【D.】经典统计中强调的推断在数据挖掘中依然存在

答案是：D

如需在Python中安装第三方工具库或包(packages)，可以在终端使用的命令是（）。【A.】install (package的名称) 【B.】install pip (package的名称) 【C.】pip instal

答案是：C

下列关于Python中的注释说法正确的是（）。【A.】Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行【B.】Python中可以使用“#”进行一行或多行注释【C.】Python中注释下的一切内容会被执行但

答案是：A

下列关于Python的说法错误的是（）。【A.】Python是一种面向对象的解释型高级编程语言【B.】可移植性和可扩展性不强【C.】结构简单，语法和代码定义清晰明确【D.】易于学习和维护

答案是：B