国家开放大学大数据预处理复习题_国家开放大学系统成人高考函授考试答案

请写出下方代码的功能 bin_1=pd.cut(price,bins=5) d1={“price”:car_data[“price”],”bin”:bin_1} p1=pd.DataFrame(data=d1) print(“等宽分

答案是：将变量price进行等宽分箱，设定组数为5，将原变量和等宽分箱结果合并进一个数据框，输出前20位等宽分箱结果，输出等宽分箱频数分布

请写出下方代码的功能 model_all = GradientBoostingClassifier(random_state=0) model_all.fit(X=train_x, y=train_y) feature_imp = p

答案是：使用scikit-learn库中的GradientBoostingClassifier()函数，基于训练集train_x和train_y数据，建立GBDT模型model_all，设定随机种子random_state为0。提取model_all的feature_importances属性并保存为feature_imp，它度量的是变量在GBDT模型所包含的所有决策树上的平均重要性。然后根据feature_imp的数值，提取了平均重要性得分较大的前8个变量，其变量名保存在var_tree中。第一句print输出所有变量名称及其重要性，按降序排序。第二句print输出排名前8的变量名称

请写出下方代码的功能 pearson = pd.Series(name="pearson correlation") for i in train_x: pearson[i] = pearsonr(train_y, train

答案是：建立pearson序列，使用for循环，调用scipy.stats库中的pearsonr()函数，分别计算train_x中的每个变量与train_y的相关系数，并存入pearson序列中。判断pearson序列中符合“绝对值大于0.5”这一条件，得到逻辑值序列var_cor。

请写出下方代码的功能 dt_example = pd.Series("") dt_example[0] = "2020/01/20" dt_example[1] = "2020/02/20" dt_example = pd.to_d

答案是：构造一个数组存储时间，第一个时间是2020年1月20日，第二个时间是2020年2月20日，将日期时间从字符串状态转换为标准时间日期格式数据，时间格式为年-月-日。

请写出下方代码的功能 data_1 = copy.deepcopy(data)

答案是：将data数据深复制给data_1

请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0) v1_fill = car_data["v1"].fillna(car_data["v1"].median())

答案是：从数据文件cardata.csv中读取数据，保存在数据框car_data中，使用car_data中变量v1的非缺失部分的中位数填补变量v1的缺失部分，并把填补好的结果保存在数据框v1_fill中

请写出下方代码的功能 train, test = train_test_split(data, test_size=0.3)

答案是：对data数据划分训练集和测试集，测试集比例为0.3.

请写出下方代码的功能 scaler = StandardScaler() new_data = scaler.fit_transform(mydata) print(pd.DataFrame({"Scale":scaler.scal

答案是：使用StandardScaler模块对数据集mydata中的所有变量进行标准化，得到新数据集new_data。调用该模块的scale_参数和mean_参数，通过print输出对mydata中变量进行标准化时所依据的标准差和均值。

对group_a组和group_b组样本进行方差分析的F检验： anova = (group_a, group_b)

答案是：f_oneway

计算离散化变量的各类频数，结果保存在result中： data.

答案是：value_counts()

找出data中3000到10000的值，结果保存在result中： result=data. &data.

答案是：ge(3000) le(10000)

计算变量y与x的Spearman相关系数： Spearman_xy = (y, x)

答案是：spearmanr

对数据集data中的所有变量进行Robust缩放，结果保存在data_scale中： rob_scaler = () data_scale = rob_scaler. (data)

答案是：RobustScaler fit_transform

截取addr的前三个字，并查看唯一值： addr. (0, 3).unique()

答案是：str.slice

将数据集data中的变量v1的缺失值使用其均值进行填补，将填补完的变量保存在v1_fill中： v1_fill = data["v1"]. (data["v1"]. )

答案是：fillna mean()

使用截断方法，将大于data_mean+5*data_std赋值为data_mean+5*data_std ： data[data. (data_mean+5*data_std)] = data_mean+5*data_std

答案是：gt

对数据data计算标准差，结果保存在result中： result=data. ()

答案是：std

对data数据采用等宽分箱，分组数为5组，结果保存在result中： result=pd. (data,bins=5)

答案是：cut

使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值： auc = (y_true=test_y, y_score=model_new. (test_x[var_ne

答案是：roc_auc_score predict_proba

将数据集data中的所有变量缩放到区间[0,5]，结果保存在data_scale中： new_scaler = ( =(0,5)) data_scaler = new_scaler.fit_transfo

答案是：MinMaxScaler feature_range

使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型： train = boston.dropna(subset=["LSTA

答案是：drop axis=1

查看数据集car_data中所有变量缺失值情况，将结果保存在对象missing_car中： missing_car = car_data. .sum()

答案是：isna()

对3倍标准差异常值分类计数，结果保存在result中： result= data. ()

答案是：value_counts

对数据data计算标准分数，data_mean是data的平均值，data_std是data的标准差，结果保存在result中： result=(data- )/

答案是：data_mean data_std

使用客观法离散化data，设定了参数为bins = [0, 10000, 100000, 200000, np.inf]，标签为["new", "used", "old", "worn"]，结果保存在result中： result=pd.

答案是：labels=["new", "used", "old", "worn"]

计算变量y与x的Pearson相关系数： Pearson_xy = (y, x)

答案是：Pearsonr

对数据集data中的所有变量进行Max-ABS缩放，结果保存在data_scale中： ma_scaler = () data_scale = ma_scaler. (data)

答案是：MaxAbsScaler fit_transform

将data_1数据集age变量中的-1和999替换为缺失值： data_1["age"]. ([-1, 999], np.nan, inplace=True)

答案是：replace

car_data数据集中的make变量每一个类别的频数存储在make_count中，现在将car_data数据集中的make变量频数低于100的类别合并为一类： car_data["make1"] = car_data["make"].m

答案是：make_count[x]<100 x

将data离散化为0-1型变量，结果保存在result中： result=data. eq(0).

答案是：astype(int)

对data数据采用等频分箱，分组数为5组，结果保存在result中： result=pd. (data,bins=5)

答案是：qcut

对数据data计算平均值，结果保存在result中： result=data. ()

答案是：mean

通过画箱线图对数据data识别异常值： data.plot. ()

答案是：box

对数据集data中的所有变量进行Min-Max缩放，结果保存在data_scale中： mm_scaler = () data_scale = mm_scaler. (data)

答案是：MinMaxScaler fit_transform

对序列B进行中心化，结果保存在centralize_b中： centralize_b = (B, with_std=False)

答案是：scale

对boston数据集中的变量LSTAT进行处理，随机生成了10个缺失值： sample = random.sample( (boston.shape[0]), 10) boston. [sample,

答案是：range loc

计算car_data数据集中的make变量每一个类别的频数，存储在make_count中： make_count = car_data["make"].

答案是：value_counts()

简述等宽法的适用情况。

答案是：等宽法适用于对数据分布较为均匀的连续型变量进行离散化，根据连续型变量的取值范围，建立若干个宽度相等且首尾相连的区间，将连续型变量的每个值映射到相应的区间，并以区间名称作为新的离散型变量的值。

简述低频分类数据的特点、形成原因及影响。

答案是：低频分类数据通常呈现出类别众多，并且很多类别仅有几个甚至一个样本的情况。低频分类数据形成原因大致可以分为两种：第一，真实的分类结果中确实存在低频分类。第二，采集数据时格式不规范或错误，从而形成一些频数极小（如仅有一个样本）的类别。过多的低频分类会严重影响建模的效率。

简述数据离散化的操作含义。

答案是：数据离散化是指将连续型变量的每个取值映射到根据客观或主观标准事先确定好的一系列分组或分类中，从而得到定性变量的数据预处理方法。

请简述将变量缩放至区间[-1,1]时，Max-ABS缩放与Min-Max缩放的效果是否相同。

答案是：缩放效果不同，因为二者采取缩放方式不同。Min-Max缩放将原数据的所有值整体缩放至[-1,1]。Max-ABS缩放是将原值大于0的数据缩放到(0,1]，将原值小于0的数据缩放到[-1,0)，原值等于0的数据缩放后还为0。

请简述使用相关系数选择变量的思想和步骤。

答案是：无论是Pearson相关系数还是Spearman相关系数，其值均在[-1,1]之间分布。当值为0时，两个变量不相关；当其值为1或-1时，表示两个变量完全正相关或完全负相关。相关系数的绝对值越大，则说明两个变量的相关性越强。运用相关系数进行变量选择的步骤是，分别计算每个变量与目标变量的相关系数，保留与目标变量相关系数大的变量。

简述缺失值填补的思路。

答案是：第一个思路是利用包含缺失值的变量自身的信息进行填补，主要形式为使用该变量的非缺失部分构造简单统计量，并用该统计量填补缺失部分。第二个思路是同时利用包含缺失值的变量自身的信息和其他变量的信息，建立机器学习模型，基于该模型对缺失值变量的预测结果进行填补。

请简述异常值的含义。

答案是：异常值也可以称为离群值，指在一个数据序列中与大多数值相比特别大或特别小的值

请简述数据特征缩放对数据分析的意义

答案是：意义共有三点：一是，多数数据特征缩放的方法可以消除数据的量纲，而保留其数据分布特征，这样更有利于不同量纲数据之间的比较，也避免了自变量的不同量纲对建模的影响；二是，数据特征缩放可以提高梯度下降求解（迭代运算）的收敛速度，提高建模效率；三是，数据特征缩放可以提高一些模型的预测精度。

利用箱线图可以识别出异常值。

答案是：√

将数据离散化后，可以克服连续型变量中隐藏的缺陷，使模型结果更加稳定，得到更加有意义的研究结论。

答案是：√

数量归约是指从所有样本中选择一个有代表性的子集，因此也称为样本归约。

答案是：√

逻辑纠错中比较简单的方式是将不合理的值替换为缺失值，这样既保持了变量的性质不变，又避免了错误数据的危害。

答案是：√

包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著增大。

答案是：√

异常值的数值可能是真实的值。

答案是：√

在进行变量选择时需要遵循的原则是，剔除的变量必须对数据分析影响较小

答案是：√

数据中心化是数据标准化的第一个步骤。

答案是：√

数据预处理是指在对数据进行分析前需要对数据进行的处理工作。

答案是：√

Python中，使用datetime对象的datetime.now()方法获得当前系统时间

答案是：√

完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。

答案是：√

“分箱”是客观法数据离散化的方法。

答案是：√

通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。

答案是：√

经过标准化处理后，新值体现的是原值在序列中的相对位置。

答案是：√

过多的低频类别会严重影响建模的效率。

答案是：√

数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。

答案是：√

如果输入数据是连续型数据，使用决策树模型时，就必须将连续型变量离散化为定性变量使用。

答案是：√

Min-Max缩放可以将数据缩放至任意给定的范围内。

答案是：√

数据缺失使得数据集信息含量降低，还会使一些模型无法应用。

答案是：√

使用客观法得到的是分类形式或顺序形式定性变量，依据的是研究者基于研究目的所确定的类别。

答案是：×

Spearman相关系数为-1时，两个变量不相关。

答案是：×

经过Max-ABS缩放后，数据的正负可能会发生改变。

答案是：×

具有不同的数据特征的变量可以直接纳入到同一个分析体系中。

答案是：×

低频分类数据都是由于数据采集是的错误导致的

答案是：×

数据离散化是指将定性变量转换为连续性变量。

答案是：×

一旦发现异常值，就应当将其删除

答案是：×

Max-ABS缩放只可以将变量缩放至区间[0,1]。

答案是：×

低频分类数据的形成都是由于真实的分类结果确实存在低频类别。

答案是：×

出现在训练集中的异常值，会干扰模型的训练

答案是：×

变量选择的目的是删除数据集的行，样本归约的目的是删除数据集的列。

答案是：×

Pearson相关系数的值均在[0,1]之间分布

答案是：×

数据分析项目中，数据预处理环节不重要，可以忽略不做。

答案是：×

日期时间型数据不能进行任何计算

答案是：×

在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于客观条件原因。

答案是：×

所有的异常值都必须删除。

答案是：×

模型预测准确度总是随着样本数量的增加而同步增加。

答案是：×

在数据预处理时，数据集中变量的数量不能发生变化

答案是：×

低频分类数据的处理方式通常是将频数过低的类别删除

答案是：×

所有的数据错误都可以被发现并纠正。

答案是：×

若数据集中某样本包含缺失值，则该样本需要被删除。

答案是：×

确定异常值时，是比较与（）的距离 A. 平均值 B. 中值 C. 最大值 D. 最小值

答案是：A

下列不属于异常值处理正确方法的是（）。 A. 直接删除 B. 标记 C. 截断 D. 替换为任意值

答案是：D

下列关于数据离散化的方法中，不正确的是（）。 A. 数据离散化可以分为客观法和主观法两种。 B. 客观法基于研究目的确定类别。 C. 通常用名词“分箱”称呼客观法。 D. 分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两

答案是：B

下列关于决策树模型的表述中，不正确的是（）。 A．越晚进入决策树的变量，其对于目标变量而言越重要。 B．该算法形象的以树状结构建立模型，再现了人类决策的过程。 C．具有建立过程直观易理解、便于可视化、应用范围广等一系列优点。

答案是：A

下列关于Max-ABS缩放的表述中，不正确的是（）。 A．Max-ABS缩放将原值大于0的数据缩放到区间(0,1]。 B．不包含负数的变量经过Max-ABS缩放后的结果可能会出现负数。 C．原值等于0的数据缩放后还为0。 D

答案是：B

下列关于数据标准化的表述中，不正确的是（）。 A．标准化后，正负号代表了原始值是大于（+）还是小于（-）均值。 B．标准化后，可以避免数据尺度差异对后续建模造成负面影响。 C．标准化后，数据的标准差并没有变化，只有均值发生变化

答案是：C

下列关于数据预处理的目的中，不正确的是（）。 A．完善数据，使其满足分析建模的质量和数据形式要求。 B．使数据集得以简化，提高建模分析的效率。 C．作为数据分析项目的第一步，为数据采集提供指导。 D．提高数据信息含量，进而提

答案是：C

下列表述中，错误的是（）。 A．低频分类数据都是真实的分类结果确实存在低频类别导致的。 B．可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。 C．过多的低频类别会严重影响建模的效率，在数据预处理阶段需

答案是：A

下列表述中，正确的是（）。 A．含有缺失值的变量必须被剔除。 B．数据缺失的原因一定是该数据不存在。 C．数据缺失对于数据建模分析不存在影响。 D．随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案是：D

下列关于哑变量的说法中，不正确的是（）。 A.任何一个k个类别的定性变量都可以转换为k-1个哑变量。 B.哑变量只有两个类别，用0和1表示。 C.哑变量的0-1形态与逻辑型数据的False和True相同，0表示True，1表示

答案是：C

下列关于异常值处理方法的表述中，正确的是（）。 A．把异常值替换为某一可以接受的值，这一处理方法是标记法。 B.用一个变量将异常值标记出来的方法是截断法。 C.采用截断方法不会造成信息损失。 D.只有在研究目的是获取数据的一

答案是：D

下列关于分箱法的表述中，不正确的是（）。 A.使用客观法进行数据离散化是计算机科学领域通常的做法，通常用名词“分箱”称呼这种方法。 B.分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两种形式。 C.等宽分箱法一般被称作“分

答案是：C

下列关于用方差分析进行变量选择的表述中，不正确的是（）。 A．方差分析是用于检验两组或多组数据之间样本均值的差异是否显著的方法。 B．方差分析的检验形式是F检验。 C．P值以0.01作为筛选标准时，P值大于0.01的变量需要保

答案是：C

下列关于变量的数据特征的表述中，正确的是（）。 A．原始数据的特征往往与分析方法的要求不一致。 B．变量的数据特征与测量尺度和采集方式无关。 C．两个数值型变量之间可以直接比较大小。 D．对数据进行缩放后，数据的分布形状会发

答案是：A

下列关于Robust缩放方法的表述中，不正确的是（）。 A．Robust缩放方法的理念是“首先中心化，然后除以尺度”。 B．Robust缩放方法用到的指标不易受极端值影响。 C．Robust缩放方法用中位数代替了标准化方法里的

答案是：D

下列对定性变量的描述中，不正确的是（）。 A．“成绩”可以作为定性变量。 B．连续型数据很难转变为定性数据。 C．多分类定性变量可以转变为哑变量。 D．顺序型变量可以转变成得分变量。

答案是：B

下列关于低频分类数据的表述中，正确的是（）。 A．低频分类数据都是由于数据采集是的错误导致的。 B．低频分类数据都是真实可靠的，只是其类别的样本频数比较低。 C．使用低频分类数据建立模型会使模型更简化，更精确。 D．低频分类

答案是：D

下列关于数据缺失类型的表述中，错误的是（）。 A．在某次调查中，在整理问卷时不小心打翻墨水瓶，导致部分问卷的部分问题污损，这种缺失记为非随机、不可忽略缺失。 B．数据缺失的三种类型是完全随机缺失、随机缺失和非随机、不可忽略缺失

答案是：A

关于哑变量与one-hot码，下列说法正确的是（）。 A．任何一个个类别的定性变量都可以转换为个哑变量。 B．任何一个个类别的定性变量都可以转换为个比特的one-hot码。 C．哑变量与one-hot码是完全相同的概念。 D

答案是：A

下列表述中，正确的是（）。 A．将连续型变量离散化为定性变量，其数据信息含量会增加。 B．等频法属于有监督离散化方法。 C．数据离散化是指把无限空间中有限的个体映射到有限的空间中，以此提高算法的时空效率。 D．数据离散化是指

答案是：C

下列关于异常值处理的表述中，不正确的是（）。 A. 异常值可能是准确的数据 B. 对于数据错误的异常值，可以删除 C. 删除异常值将改变数据集的样本量 D. 截断方法改变了样本容量

答案是：D

下列关于数据归约的意义中，不正确的是（）。 A．可以降低无效、错误数据对数据建模的影响，提高建模准确性。 B．大幅缩减模型的训练时间，在需要反复训练模型的场景下能够极大地提高建模效率。 C．可以降低数据存储的空间成本。 D．

答案是：D

下列关于数据中心化的表述中，不正确的是（）。 A．中心化后，平均值变为0。 B．中心化后，标准差发生改变。 C．中心化后，极差没有发生改变。 D．中心化后，分布形状没有发生改变。

答案是：B

下列关于数据预处理环节简化数据的表述中，不正确的是（）。 A．过多的数据会导致模型训练效率低下。 B．初学者进行数据分析时需要简化数据，专业数据分析师不需要简化数据。 C．简化数据时，需要保证数据集的信息不过多损失。 D．在

答案是：B

下列关于数据缺失的表述中，正确的是（）。 A．缺失值处理的主要手段就是使用最接近的值进行填补。 B．只要数据录入人员避免漏录，数据就不会缺失。 C．在预处理阶段，遇到数据缺失情况可以忽略，不做处理。 D．某个变量的值为0，说

答案是：A

在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。 A．Q1+1.5XIQR,Q3-1.5XIQR ， B．Q1-1.5XIQR,Q3+1.5XIQR ， C．Q3-1.5XIQR,Q1+1.5XIQR ， D

答案是：D

下列关于数据错误的表述中，不正确的是（）。 A．数据集中所有错误的数据都可以被发现并予以纠正。 B．数据自身的逻辑规律可以帮助我们发现一些数据错误。 C．类别名称不统一会造成数据错误。 D．文字表述不规范会造成数据错误。

答案是：A

下列表述中，正确的是（）。 A．含有缺失值的变量必须被剔除。 B．数据缺失的原因是该数据不存在。 C．数据缺失对于数据建模分析不存在影响。 D．随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案是：D

下列关于异常值识别方法的表述中，不正确的是（）。 A.异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。 B.通过箱线图可以识别异常值。 C.可以利用变量的样本均值和样本标准差来识别异常值。 D.异常值识别标准

答案是：A

下列关于哑变量的名称中，不正确的是（）。 A.二分类变量 B.虚拟变量 C.0-1型变量 D.数值型变量

答案是：D

下列关于异常值的表述中，不正确的是（）。 A．异常值也可以称为离群值。 B．异常值的数值可能是真实可靠的。 C．异常值在数据中占得比例很小。 D．异常值完全是由于错误形成的数据。

答案是：D

下列关于相关系数的表述中，正确的是（）。 A．Pearson相关系数的值在[0,1]之间分布。 B．Spearman相关系数的值在[-1,1]之间分布。 C．变量和的Spearman相关系数的定义为：。 D．相关系数越大，则

答案是：B

下列数据特征缩放的公式中，正确的是（）。 A．数据中心化公式为：X=(X-X1)/S。 B．数据标准化公式为：X=X-X1。 C．Max-ABS缩放公式为：X=X/|X|max。 D．Robust缩放公式为：X=X-Medi

答案是：C

下列关于数据预处理的表述中，不正确的是（）。 A．具备专业经验的数据科学家可以在数据分析前忽略数据预处理。 B．数据预处理是在数据采集后，分析前这段时间里对数据进行的处理操作。 C．数据预处理的效果与数据分析顺利与否直接相关。

答案是：A

下图是某分类变量各类别计数分布的箱线图，从图中可知（）。 A．少部分分类计数很低。 B．该变量类别很少，可以清晰的用箱线图展示各类别的频数。 C．这个变量存在大量低频分类。 D．绝大多数分类计数很高。

答案是：C