国家开放大学大数据分析与挖掘技术_国家开放大学系统成人高考函授考试答案

DBSCAN算法的目的是找到密度相连对象的最大集合。【A.】√ 【B.】×

答案是：A

DBSCAN算法的目的是找到密度相连对象的最小集合。【A.】√ 【B.】×

答案是：B

密度相连是对称关系，密度可达是非对称关系。【A.】√ 【B.】×

答案是：A

DBSCAN聚类可以用于数据分布均匀，呈块状分布，并且聚集形态是固定形状的情况。【A.】√ 【B.】×

答案是：B

DBSCAN算法的缺点是（）。【A.】当数据量增大时，要求较大的内存支持，I/Q消耗也很大。【B.】能够有效处理噪声点和发现任意形状的空间聚类。【C.】DBSCAN算法聚类速度快。【D.】当空间聚类的密度不均匀、聚类间距相

答案是：AD

聚类分析中，关于内部评价指标说法正确的是（）。【A.】DBI指数越大，说明聚类结果越好【B.】DBI指数越小，说明聚类结果越好【C.】DI指数越大，说明聚类结果越好【D.】DI指数越小，说明聚类结果越好

答案是：BC

下列关于聚类方法说法正确的是（）【A.】DBSCAN聚类可以用于数据分布不均匀，呈块状分布，并且聚集形态是任意形状的情况。【B.】快速聚类要事先确定聚类个数，但是运算速度很快，适合大量数据的情况。【C.】系统聚类可以给出聚类过

答案是：AB

下列关于聚类方法说法错误的是（）【A.】DBSCAN聚类可以用于数据分布不均匀，呈块状分布，并且聚集形态是任意形状的情况。【B.】快速聚类要事先确定聚类个数，但是运算速度很快，适合大量数据的情况。【C.】系统聚类可以给出聚类过

答案是：CD

DBSCAN算法中的直接密度可达、密度可达与密度相连理解正确的是（）【A.】只有核心对象之间相互密度可达【B.】密度相连是对称关系【C.】DBSCAN目的是找到密度相连对象的最大集合【D.】密度可达也是对称关系

答案是：ABC

DBSCAN算法的优点是（）。【A.】当数据量增大时，要求较大的内存支持，I/Q消耗也很大。【B.】能够有效处理噪声点和发现任意形状的空间聚类。【C.】DBSCAN算法聚类速度快。【D.】当空间聚类的密度不均匀、聚类间距相

答案是：BC

DBSCAN算法中，密度可达是直接密度可达的传递闭包，并且这种关系是（）的，该算法的目的是找到密度相连对象的（）集合。【A.】对称；最小【B.】对称；最大【C.】非对称；最小【D.】非对称；最大

答案是：D

DBSCAN 算法需要用户输入两个参数:一个参数是（），表示以给定点P为中心的圆形邻域;另一个参数是以点P为中心的邻域内最（）点的数量(MinPts)。【A.】半径；小【B.】半径；大【C.】直径；小【D.】直径

答案是：A

利用基于密度的聚类的概念，即要求聚类空间中的一定区域所包含对象的数目不小于某一给定的阈值，该方法是（）。【A.】关联分析【B.】系统聚类【C.】快速聚类【D.】DBSCAN聚类

答案是：D

下列关于聚类方法说法正确的是（）【A.】DBSCAN聚类可以用于数据分布不均匀，呈块状分布，并且聚集形态是任意形状的情况。【B.】快速聚类要事先确定聚类个数，但是运算速度很快，适合少量数据的情况。【C.】系统聚类可以给出聚类过

答案是：A

DBSCAN算法中的直接密度可达、密度可达与密度相连理解错误的是（）【A.】只有核心对象之间相互密度可达【B.】密度相连是对称关系【C.】DBSCAN目的是找到密度相连对象的最大集合【D.】密度可达也是对称关系

答案是：D

快速聚类要事先确定聚类个数，但是运算速度很快，适合大量数据的情况。【A.】√ 【B.】×

答案是：A

聚类分析中，快速聚类一般用于大样本情况下的样本聚类。【A.】√ 【B.】×

答案是：A

快速聚类要事先确定聚类个数，但是运算速度很快，适合少量数据的情况。【A.】√ 【B.】×

答案是：B

聚类分析中，快速聚类一般用于小样本情况下的样本聚类。【A.】√ 【B.】×

答案是：B

快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的SSE，下图设定了K的取值为1，2，3，4，5，6。K选（）最为合适。

答案是：D

快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的（），选择其最（）的类别个数。【A.】SSE；大【B.】SSE；小【C.】SSR；大【D.】SSR；小

答案是：B

有些情况下，研究者对于研究的对象事先知道分为几类，即已知类别的个数，只是不知道这些类别当中的具体样本，该方法是（）。【A.】关联分析【B.】系统聚类【C.】快速聚类【D.】DBSCAN聚类

答案是：C

请为名词选择①-⑥表示其含义的描述，将配好的A-F填写到括号中。【A.】①最小距离法 -> -> 【B.】②最长距离法 -> -> 【C.】③中间距离法 -> -> 【D.】④重心法 -> -> 【E.】⑤类

答案是：F,D,B,C,A,E

请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。设dij表示第i个样本与第j个样本之间的距离。【A.】①绝对距离 -> -> 【B.】②切比雪夫距离 -> -> 【C.】③马氏距离 -> -> 【D.】④欧氏

答案是：BACD

系统聚类可以给出聚类过程，并且不用事先确定聚类个数。【A.】√ 【B.】×

答案是：A

聚类分析中，重心法没有考虑每一类中所包含的样本点数目。【A.】√ 【B.】×

答案是：B

聚类分析中，类平均法没有充分利用各个样本的信息。【A.】√ 【B.】×

答案是：B

聚类分析中，个体与个体之间的距离越近越有可能是一类。【A.】√ 【B.】×

答案是：A

聚类分析中，离差平方和法要求样本间距离必须采用欧氏距离。【A.】√ 【B.】×

答案是：A

聚类分析中，类平均法充分利用各个样本的信息。【A.】√ 【B.】×

答案是：A

闵可夫斯基距离的大小与个体指标的观测单位有关，没有考虑指标之间的相关性。【A.】√ 【B.】×

答案是：A

马氏距离是由协方差矩阵计算出来的相对距离，没有考虑指标之间的相关性。【A.】√ 【B.】×

答案是：B

马氏距离是由协方差矩阵计算出来的相对距离，考虑了指标的相关性。【A.】√ 【B.】×

答案是：A

系统聚类可以给出聚类过程，但是要事先确定聚类个数。【A.】√ 【B.】×

答案是：B

系统聚类中的类间距离是合并后新出现的类与其他类之间的距离。【A.】√ 【B.】×

答案是：A

闵可夫斯基距离的大小与个体指标的观测单位有关，考虑了指标之间的相关性。【A.】√ 【B.】×

答案是：B

聚类分析中，个体与个体之间的距离越远越有可能是一类。【A.】√ 【B.】×

答案是：B

聚类分析中，重心法考虑了每一类中所包含的样本点数目。【A.】√ 【B.】×

答案是：A

系统聚类中使用的类间距离不同，聚类结果可能是不同的。【A.】√ 【B.】×

答案是：A

设dij表示第i个样本与第j个样本之间的距离。那么距离必须满足的原则有：（）。【A.】【B.】【C.】【D.】

答案是：ABCD

Demirmen 提出了一些在决定聚类方法取舍时应遵循的原则:（）【A.】任何类必须在邻近的各类中是突出的，即各类重心(常用平均数衡量)之间应该有最大的距离；【B.】确定的类中，各类所包含的元素都不宜过分多；【C.】聚类数目

答案是：ABCD

系统聚类中的类间距离是：（）【A.】合并后新出现的类与其他类之间的距离【B.】不能通过前一步的类间距离递推得到【C.】可以通过前一步的类间距离递推得到【D.】有多重可以选择的方式

答案是：ACD

下面哪些距离是明氏距离：（）【A.】绝对距离【B.】欧氏距离【C.】车比雪夫距离【D.】马氏距离

答案是：ABC

常用的类间距确定的方法有（）。【A.】最短距离法【B.】离差平方和法【C.】重心法【D.】类平均法

答案是：ABCD

下面哪个原则是聚类过程中的类需要遵从的原则（）。【A.】同质性原则【B.】互斥性原则【C.】完备性原则【D.】充分性原则

答案是：ABC

下列关于类间距确定方法说法正确的是（）。【A.】离差平方和法要求样本间距离必须采用欧氏距离；【B.】重心法没有考虑每一类中所包含的样本点数目；【C.】类平均法没有充分利用各个样本的信息；【D.】使用离差平方和作为类间距离时

答案是：BC

马氏距离是由（）计算出来的相对距离，（）指标之间的相关性。【A.】协方差矩阵；考虑【B.】协方差矩阵；不考虑【C.】相关系数矩阵；考虑【D.】相关系数矩阵；不考虑

答案是：A

block距离指的是：（）【A.】明氏距离【B.】车比雪夫距离【C.】绝对距离【D.】马氏距离

答案是：C

Minkowski距离指的是：（）【A.】闵可夫斯基距离【B.】车比雪夫距离【C.】欧氏距离【D.】马氏距离

答案是：A

下列关于类间距确定方法说法正确的是（）。【A.】离差平方和法要求样本间距离必须采用欧氏距离；【B.】重心法没有考虑每一类中所包含的样本点数目；【C.】类平均法没有充分利用各个样本的信息；【D.】使用离差平方和作为类间距离时

答案是：A

下面哪个原则不是聚类过程中的类需要遵从的原则（）。【A.】同质性原则【B.】互斥性原则【C.】完备性原则【D.】充分性原则

答案是：D

使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该（），类间离差平方和应该（）。【A.】较小；较小【B.】较小；较大【C.】较大；较小【D.】较大；较大

答案是：B

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，先让每个样本自身各成一类，然后并类，每并一类离差平方和就要增大，选择使其增量最小的两类合并，直到所有的样本聚为一类，该方法为（）。【A.】中间距离法【B.】离差平方和法

答案是：B

在聚类过程中的类需要遵从的原则中，保证了类别之间的差异性的原则是（）。【A.】同质性原则【B.】互斥性原则【C.】完备性原则【D.】充分性原则

答案是：B

Chebychev距离指的是：（）【A.】明氏距离【B.】车比雪夫距离【C.】欧氏距离【D.】马氏距离

答案是：B

在聚类过程中的类需要遵从的原则中，保证了类别之内个体特征的共性的原则是（）。【A.】同质性原则【B.】互斥性原则【C.】完备性原则【D.】充分性原则

答案是：A

下列关于类间距确定方法说法错误的是（）。【A.】离差平方和法要求样本间距离可以采用欧式距离、马氏距离等；【B.】重心法考虑了每一类中所包含的样本点数目；【C.】类平均法充分利用各个样本的信息；【D.】使用离差平方和作为类间

答案是：A

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，通过用不同类的样本点两两之间的平均距离作为类间距离的方法为（）。【A.】中间距离法【B.】离差平方和法【C.】重心法【D.】类平均法

答案是：D

下述谱系图使用的是类平均法，横轴表示类别之间的平均距离，纵轴为具体的每个样本。如在图中距离为1.75 处画一条竖线，该直线与谱系聚类图有2个交点，即可把所有样本分为两类。与第1个交点相连的样本是（），它们形成第一类；而与第2个交点相

答案是：C

Euclidean距离指的是：（）【A.】明氏距离【B.】车比雪夫距离【C.】欧氏距离【D.】马氏距离

答案是：C

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，将公式作为两类的距离，按照最小距离原则吧类别之间距离最小的两类合并为一类，直至把所有样本归为一类，该方法为（）。【A.】中间距离法【B.】离差平方和法【C.】重心法

答案是：A

首先考虑在没有进行聚类之前，所有参加聚类过程的个体没有归入任何类别，即对于每个个体而言，自成一类的方法是（）。【A.】关联分析【B.】系统聚类【C.】快速聚类【D.】DBSCAN聚类

答案是：B

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，取这些距离最大者作为两类的距离，该方法为（）。【A.】重心法【B.】离差平方和法【C.】最长距离法【D.】类平均法

答案是：C

在聚类过程中的类需要遵从的原则中，说明了每一个个体在同一次分类过程中只能分在一个类别当中的原则是（）。【A.】同质性原则【B.】互斥性原则【C.】完备性原则【D.】充分性原则

答案是：C

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，取这些距离最小者作为两类的距离，该方法为（）。【A.】重心法【B.】离差平方和法【C.】最短距离法【D.】类平均法

答案是：C

在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，通过计算两类重心之间的欧氏距离平方作为两类之间的距离的方法为（）。【A.】中间距离法【B.】离差平方和法【C.】重心法【D.】类平均法

答案是：C

Mahalanobis距离指的是：（）【A.】明氏距离【B.】车比雪夫距离【C.】欧氏距离【D.】马氏距离

答案是：D

多元统计分析中的聚类分析方法既可以对样本进行分类，记为Q型分类，也可以对反映事物特征的指标或变量进行分类，记为R型分类。【A.】√ 【B.】×

答案是：A

多元统计分析中的聚类分析方法既可以对样本进行分类，记为R型分类，也可以对反映事物特征的指标或变量进行分类，记为Q型分类。【A.】√ 【B.】×

答案是：B

多元统计分析中的聚类分析方法可以对样本进行分类，记为（）。【A.】S型分类【B.】H型分类【C.】Q型分类【D.】R型分类

答案是：C

不知道哪些学生有相同的某些特征。考虑按照学生的考试成绩、社会实践、思想品德等方面划分奖学金的等级。通常采用（）。【A.】回归分析【B.】分类【C.】聚类分析【D.】关联分析

答案是：C

下列哪一项不属于聚类分析（）。【A.】系统聚类【B.】决策树【C.】Kmeans 【D.】DBSCAN聚类

答案是：B

多元统计分析中的聚类分析方法可以对反映事物特征的指标或变量进行分类，记为（）。【A.】S型分类【B.】H型分类【C.】Q型分类【D.】R型分类

答案是：D

不知道哪些客户有同样的购物习惯与特征等。考虑按照客户的个人资料、购物特征、购物习惯等将客户进行分类。通常采用（）。【A.】回归分析【B.】聚类分析【C.】分类【D.】关联分析

答案是：B

当不知道哪些花是同一品种，哪些花不同品种时，考虑按照花瓣长宽与花萼长宽将不同品种的花分类。通常采用（）。【A.】聚类分析【B.】分类【C.】回归分析【D.】关联分析

答案是：A

按照经济发展、教育水平、面积大小、人口等诸多方面对我国地市级以上城市进行分类。通常采用（）。【A.】回归分析【B.】分类【C.】关联分析【D.】聚类分析

答案是：D

非线性支持向量机通过引进核函数解决线性不可分问题。【A.】√ 【B.】×

答案是：A

常用的核函数有（）。【A.】线性核【B.】高斯核【C.】神经网络核【D.】多项式核

答案是：ABCD

构成随机森林的决策树越多，那么（）【A.】随机森林的预测精度越高【B.】随机森林的预测精度越低【C.】随机森林的训练精度越低【D.】随机森林的训练精度越高

答案是：D

以寻找最大边缘超平面为目的，以及构建相应的分类决策函数来分类的算法是（）【A.】决策树【B.】线性判别分析【C.】线性可分支持向量机【D.】随机森林

答案是：C

支持向量机算法中，超平面到所有两类数据点的距离之和称为分类器的边缘。【A.】√ 【B.】×

答案是：A

对于解决小样本、非线性及高维模式识别问题，（）表现出许多特有的优势。【A.】支持向量机【B.】最近邻分类【C.】随机森林【D.】线性判别

答案是：A

随机森林的优势是（）。【A.】能够处理高维度数据，并且不用做特征选择；【B.】在训练过程中，能够检测到特征间的交互作用；【C.】训练速度快；【D.】容易做成并行化方法。

答案是：ABCD

随机森林算法建立决策树过程中，对于行采样，采样无放回的方式。【A.】√ 【B.】×

答案是：B

随机森林算法建立决策树过程中，对于行采样，采样有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。【A.】√ 【B.】×

答案是：A

下列关于随机森林算法，说法正确的是（）。【A.】建立决策树的过程中，需要注意采样和完全分裂两点；【B.】建立决策树过程中需要两个随机采样，即行采样和列采样；【C.】对于行采样，采样无放回的方式；【D.】采用完全分裂的方式

答案是：ABD

用随机的方式建立一个森林。森林由很多决策树组成的算法是：（）【A.】支持向量机【B.】最近邻分类【C.】随机森林【D.】线性判别

答案是：C

下列关于随机森林算法，说法错误的是（）【A.】建立决策树的过程中，需要注意采样和完全分裂两点；【B.】建立决策树过程中需要两个随机采样，即行采样和列采样；【C.】对于行采样，采样无放回的方式；【D.】采用完全分裂的方式构建

答案是：C

决策树中，CART算法生成的决策树是结构简洁的二叉树，在每一步的决策树只能选择“是”或“否”但当一个feature有多个取值，可以把数据分为多个部分。【A.】√ 【B.】×

答案是：B

CART的结果不受自变量的单调变换的影响。【A.】√ 【B.】×

答案是：A

CART的结果受自变量的单调变换的影响。【A.】√ 【B.】×

答案是：B

决策树中，CART算法生成的决策树是结构简洁的二叉树，在每一步的决策树只能选择“是”或“否”，即使一个feature有多个取值，也只能把数据分为两部分。【A.】√ 【B.】×

答案是：A

下面关于决策树的剪枝操作理解不正确的是（）。【A.】对决策树进行剪枝的目的是提高模型的预测误差【B.】对决策树进行剪枝是为了提高模型的解释能力【C.】只能在生成决策树后再剪枝【D.】剪枝就是从下往上的剪掉一些节点

答案是：ABD

下面关于决策树的剪枝操作理解正确的是（）。【A.】对决策树进行剪枝是为了降低模型复杂度【B.】决策树的剪枝操作可以在生成决策树后再剪枝【C.】不可以在决策树生成过程中剪枝【D.】一般用复杂度参数设定门限来进行剪枝

答案是：ABD

下列属于CART算法的优点的是（）。【A.】CART对于自变量和因变量不做任何形式的分布假定；【B.】CART的结果受自变量的单调变换的影响; 【C.】CART分析所产生的树的结构很容易被任何领域的人理解; 【D.】CART

答案是：ACD

关于下面的决策树说法正确的是（）。【图片】【A.】此决策树根节点的熵为1.581 【B.】根

答案是：ABD

决策树的cp值越小，那么（）【A.】模型越复杂【B.】训练误差越小【C.】预测误差越小【D.】模型更简单

答案是：C

决策树算法中，将当前样本划分为两个子样本，使得生成的每个非叶节点都有两个分支的算法是（）【A.】Hunt 【B.】ID3 【C.】CART 【D.】C4.5

答案是：C

减枝准则是为了在精确性和复杂性中找到平衡，一般采用（）来度量两者之间的关系。【A.】代回误分损失【B.】惩罚常数【C.】叶节点数目【D.】复杂性损失

答案是：D

下列不属于CART算法的优点的是（）。【A.】CART对于自变量和因变量不做任何形式的分布假定；【B.】CART的结果受自变量的单调变换的影响; 【C.】CART分析所产生的树的结构很容易被任何领域的人理解; 【D.】CART

答案是：B

关于下面的决策树说法不正确的是（）。【图片】【A.】此决策树根节点的熵为1.581 【B.】根节点的子节点的熵为0与1 【C.】此根节点的子节点都需要继续划分【D.】落入Peta

答案是：C

下面关于决策树的剪枝操作理解错误的是（）。【A.】对决策树进行剪枝是为了降低模型复杂度【B.】决策树的剪枝操作可以在生成决策树后再剪枝【C.】不可以在决策树生成过程中剪枝【D.】一般用复杂度参数设定门限来进行剪枝

答案是：C

决策树中，C4.5算法是ID3算法的延伸，可以处理缺失值、连续变量及剪枝等。【A.】√ 【B.】×

答案是：A

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以ID3算法提出了增益比。【A.】√ 【B.】×

答案是：B

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以C4.5算法提出了增益比。【A.】√ 【B.】×

答案是：A

决策树算法的C4.5算法可以处理（）。【A.】定性变量【B.】缺失值【C.】连续变量【D.】剪枝

答案是：ABCD

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以C4.5算法提出了增益比。其中k为划分的总数，关于k的说法正确的是（）【A.】代表如果某个属性产生了大量的划分，它的划分信息将会很小，从而降低增益比。【B.】代表如果某

答案是：C

决策树中，ID3算法既能处理定性变量，也能处理连续变量、缺失值等。【A.】√ 【B.】×

答案是：B

决策树中，ID3算法只能处理定性变量，且一个变量使用过后就不能再次使用了。【A.】√ 【B.】×

答案是：A

决策树中，ID3算法的一个变量使用过后还能再次使用。【A.】√ 【B.】×

答案是：B

决策树中，我们需要比较父节点与子节点的不纯度，他们的差越大，测试条件的效果就越好。【A.】√ 【B.】×

答案是：A

决策树只有单一输出。【A.】√ 【B.】×

答案是：A

决策树中，我们需要比较父节点与子节点的不纯度，他们的差越小，测试条件的效果就越好。【A.】√ 【B.】×

答案是：B

决策树中结点的最优划分是依据（）来确定的。【A.】局部最优性【B.】信息增益大的划分【C.】信息增益小的划分【D.】GINI增益大的划分

答案是：ABD

决策树是一种由节点和有向边组成的层次结构。下列属于决策树的节点的是：（）【A.】根节点【B.】内部节点【C.】叶节点【D.】终节点

答案是：ABCD

决策树算法依据数据类型的不同和树状结构的不同有不同版本的决策树，下列属于决策算法的是：（）【A.】Hunt 【B.】ID3 【C.】CART 【D.】C4.5

答案是：ABCD

采用将样本递归划分建立对象属性与对象值之间映射的算法是：（）【A.】支持向量机【B.】决策树【C.】最近邻分类【D.】线性判别

答案是：B

在决策树中，节点误分率越大，那么（）【A.】节点的不纯度越低【B.】节点的不纯度越高【C.】节点越靠近根节点【D.】节点越靠近叶节点

答案是：B

（假定在某个节点）如果数据已经只有一类了，则该节点为叶节点，否则进行下一步。该算法是：（）【A.】Hunt 【B.】ID3 【C.】CART 【D.】C4.5

答案是：A

在决策树中，节点熵越大，那么（）【A.】节点的不纯度越低【B.】节点的不纯度越高【C.】节点越靠近根节点【D.】节点越靠近叶节点

答案是：B