国家开放大学大数据分析与挖掘技术_国家开放大学系统成人高考函授考试答案

KNN算法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的。【A.】√ 【B.】×

答案是：A

KNN算法在类别决策时，与极多数量的相邻样本有关。【A.】√ 【B.】×

答案是：B

KNN算法主要靠判别类域的方法来确定所属类别的，而不是靠周围有限的邻近的样本。【A.】√ 【B.】×

答案是：B

近邻选得多，模型则比较稳健。【A.】√ 【B.】×

答案是：A

KNN算法在类别决策时，与极少量的相邻样本有关。【A.】√ 【B.】×

答案是：A

最近邻算法中，随着近邻个数的增加，模型的复杂度增加。【A.】√ 【B.】×

答案是：B

下列关于KNN算法说法正确的是（）。【A.】随着k值的增加，模型的复杂度增大【B.】在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。【C.】最近邻分类每个样本都可以用它最接近的k个邻居来

答案是：BC

如图分别为k=1，k=10，k=30时，训练集数据与测试集数据的分布，说法正确的是（）。【A.】近邻选得越多，模型越容易受敏感点的影响。【B.】近邻选得越少，模型越容易受敏感点的影响。【C.】近邻选得越多，模型越稳健，但是不

答案是：BC

下列关于KNN算法说法错误的是（）。【A.】随着k值的增加，模型的复杂度增大。【B.】在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。【C.】最近邻分类每个样本都可以用它最接近的k个邻居来

答案是：AD

试想有如图的两类数据，“1”点表示一类数据，“0”点表示另一类数据，当k=1时，请问图中实心的圆点（从左到右）各自属于哪一类。（）【A.】“1”；“1” 【B.】“1”；“0” 【C.】“0”；“0” 【D.】“0”；“1”

答案是：B

如图分别为k=1，k=10，k=30时，训练集数据与测试集数据的分布，说法正确的是（）【图片】 k=1

答案是：B

下列哪一个方法适用于类域的交叉或重叠较多的待分样本集（）【A.】决策树【B.】随机森林【C.】KNN算法【D.】支持向量机

答案是：C

下列关于k近邻算法的k值，说法正确的是（）【A.】随着k值的增加，模型的复杂程度减小，模型越稳健。【B.】随着k值的增加，模型的复杂程度增加，模型越稳健。【C.】随着k值的减少，模型的复杂程度增加，模型越稳健。【D.】随着

答案是：A

如图是某数据集训练集和测试集的KNN算法的训练精度和测试精度，从图中可以判断k值取（）最为合适。【图片】【A.】1 【B.】5

答案是：B

每个样本都可以用它最接近的k个邻居来代表的算法是：（）【A.】支持向量机【B.】决策树【C.】最近邻分类【D.】线性判别

答案是：C

贝叶斯判别与距离判别的结果总是一样的。【A.】√ 【B.】×

答案是：A

先验概率是根据以往经验和分析得到的概率。【A.】√ 【B.】×

答案是：A

距离判别既没有考虑每个分类的观察值不同时，每类出现的机会是不同的，也没有考虑误判所造成的损失差异。【A.】√ 【B.】×

答案是：A

先验概率与后验概率一定不相同。【A.】√ 【B.】×

答案是：B

贝叶斯判别既没有考虑每个分类的观察值不同时，每类出现的机会是不同的，也没有考虑误判所造成的损失差异。【A.】√ 【B.】×

答案是：B

关于下面的贝叶斯判别结果说法正确的是（）。 Setosaversicolorvirginica01.000000e+005.048809e-171.869461e-2516.250263e-1712.635294e-029.7364

答案是：ABC

下列关于贝叶斯判别和线性判别，说法错误的是（）。【A.】贝叶斯判别考虑每个分类的观察值不同时，每类出现的机会是不同的。【B.】贝叶斯判别与距离判别的结果总是一样的。【C.】线性判别简单、直观且实用。【D.】线性判别考虑了

答案是：BD

下列不是判别分析的方法（）。【A.】距离判别【B.】协方差阵判别【C.】聚类判别【D.】贝叶斯判别

答案是：BC

下列关于贝叶斯判别和线性判别，说法正确的是（）【A.】贝叶斯判别考虑每个分类的观察值不同时，每类出现的机会是不同的。【B.】贝叶斯判别与距离判别的结果总是一样的。【C.】线性判别简单、直观且实用。【D.】线性判别考虑了误

答案是：AC

对每个样本，先计算判别函数得分，然后根据先验概率和判别函数得分的条件概率，计算出该样本被判为每一类的后验概率，被判入哪一类的后验概率最大，则把样本判为哪一类。该分类方法是（）【A.】聚类判别【B.】决策树【C.】贝叶斯判别

答案是：C

马氏距离既受总体空间大小的影响，也受计量单位的影响，反映了按平均水平计算被判定样本到中心的相对距离。【A.】√ 【B.】×

答案是：B

马氏距离不受总体空间大小的影响，也不受计量单位的影响，反映了按平均水平计算被判定样本到中心的相对距离。【A.】√ 【B.】×

答案是：A

通常情况下，线性判别（距离判别）一般采用马氏距离。【A.】√ 【B.】×

答案是：A

马氏距离实质上是经过标准化的变量的欧氏距离。【A.】√ 【B.】×

答案是：A

样品和哪个总体距离最近，就判它属于哪个总体的分类方法是：（）【A.】支持向量机【B.】决策树【C.】最近邻分类【D.】线性判别

答案是：D

请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。【A.】①真正类 -> -> 如果一个点属于负类并且被预测到正类中【B.】②假正类 -> -> 如果一个点属于正类并且被预测到正类中【C.】③真负类 -> -> 如

答案是：B,A,D,C

关于混淆矩阵，如果一个点属于负类并且被预测到负类中，称为：（）【A.】真正类；【B.】假正类；【C.】真负类；【D.】假负类。

答案是：C

关于混淆矩阵，如果一个点属于正类并且被预测到正类中，称为：（）【A.】真正类；【B.】假正类；【C.】真负类；【D.】假负类。

答案是：A

关于混淆矩阵，如果一个点属于负类并且被预测到正类中，称为：（）【A.】真正类；【B.】假正类；【C.】真负类；【D.】假负类。

答案是：B

关于混淆矩阵，如果一个点属于正类并且被预测到负类中，称为：（）【A.】真正类；【B.】假正类；【C.】真负类；【D.】假负类。

答案是：D

判别规则所依据的最简单的原则是，新样本离哪一个类别中心的距离最近，那么它就属于哪一类。【A.】√ 【B.】×

答案是：A

所有针对于二分类问题的模型都可以直接应用于多分类问题。【A.】√ 【B.】×

答案是：B

如果已知或假定总体服从一定的分布，则可以使用参数判别规则，反之则可以使用非参数判别规则。【A.】√ 【B.】×

答案是：A

判别分析的核心是建立判别法则。【A.】√ 【B.】×

答案是：A

分类和回归的根本区别在于，分类的解释变量Y是一个一维的定性变量或离散变量。【A.】√ 【B.】×

答案是：A

分类任务就是通过学习得到一个目标函数f，一个把自变量空间映射到因变量空间的函数，我们称该目标函数为决策函数或判别函数。【A.】√ 【B.】×

答案是：A

根据已知或假定总体是否服从一定的分布（如多元正态分布），可以将判别分析的判别规则分为（）。【A.】两组判别分析【B.】参数判别规则【C.】非参数判别规则【D.】多组判别分析

答案是：BC

针对于多分类问题，我们可以采取哪些方法。（）【A.】“一对一”，对于两两的类别组合，建立【图片】个二分类模型；【B.】选择可以直接进行多分类的模型；【C.】直接使用针对二分类问题的模型；【D.】“一对其他”，给每个类别与

答案是：ABD

下列属于分类算法的是（）。【A.】决策树【B.】Kmeans 【C.】最近邻分类【D.】支持向量机

答案是：ACD

下列不属于分类算法的是（）。【A.】决策树【B.】Kmeans 【C.】最近邻分类【D.】支持向量机

答案是：B

根据从不同总体中随机抽取出来的不同样本，在分析样本特征的基础上建立一定的判别法则，根据新的样本特征和判别法则判别新样本应该来自哪一个总体的是：（）【A.】回归分析【B.】聚类分析【C.】主成分分析【D.】判别分析

答案是：D

计数模型的离散因变量的数字是没有数值含义的。【A.】√ 【B.】×

答案是：B

计数模型的离散因变量的数字是有数值含义的，即次数之间可以进行数学运算。【A.】√ 【B.】×

答案是：A

对于Poisson回归模型，可以使用极大似然估计进行参数估计。【A.】√ 【B.】×

答案是：A

为监测某厂家生产的某款激光打印机的质量问题，考察该款打印机发生故障的次数。其发生故障的次数可能会受到打印纸张数量（千页）、打印机使用时长（千小时）、硒鼓（原装/兼容）等因素的影响。收集数据后的分析结果如下： &

答案是：ABC

下面关于Poisson回归模型说法不正确的是（）【A.】又称为计数模型【B.】假设观测因变量数据服从Poisson分布【C.】使用极大似然法进行参数估计【D.】模型不需要进行检验

答案是：ABC

对于某个时间、空间等范围内事情发生次数的计数数据，一般都认为其近似服从（）。【A.】卡方分布【B.】韦布尔分布【C.】标准正态分布【D.】泊松分布

答案是：D

依据离散因变量选项的含义和次序的不同，可以将多重选择模型分为（）. 【A.】ordinal probit模型【B.】有序模型【C.】无序模型【D.】ordinal logit模型

答案是：BC

对于分析多个属性的离散因变量与自变量的关系的模型是（）。【A.】线性概率模型【B.】计数模型【C.】二元选择模型【D.】多重选择模型

答案是：D

在多重选择模型中，对于无序选择模型，一般假定随机误差项是独立同分布的随机变量，且假定服从（）。【A.】卡方分布【B.】均匀分布【C.】标准正态分布【D.】韦布尔分布

答案是：D

二元选择模型的的参数估计结果可以理解为自变量变动对因变量的边际影响，应当理解为自变量的变动。【A.】√ 【B.】×

答案是：B

二元选择模型的因变量中的“0”和“1”只是对应属性的标注或符号，不具备任何数值上的意义，不直接进行数学运算。【A.】√ 【B.】×

答案是：A

二元选择模型的的参数估计结果不能理解为自变量变动对因变量的边际影响，应当理解为自变量的变动，对因变量取“1”的概率的影响有多大。【A.】√ 【B.】×

答案是：A

隐变量是不能直接进行观测，但可以通过其他直接观测得到的变量（显变量）进行描述和反映的变量。【A.】√ 【B.】×

答案是：A

二元选择模型的因变量中的“0”和“1”可以直接进行数学运算。【A.】√ 【B.】×

答案是：B

下列关于线性概率模型，说法正确的是（）【A.】解释变量的合理变化会导致预测概率溢出[0,1]区间；【B.】使用加权最小二乘法修正异方差性可以保证概率预测值在[0,1]区间。【C.】当样本量充分大时，普通最小二乘法参数估计量的

答案是：AC

线性概率模型的缺点是（）【A.】解释变量的合理变化会导致预测概率溢出[0,1]区间；【B.】使用加权最小二乘法修正异方差性也无法保证概率预测值在[0,1]区间；【C.】随机误差项的分布未知；【D.】模型误差具有异方差性，

答案是：ABCD

下列属于二元选择模型的模型检验方法的是（）. 【A.】Z统计量对回归系数检验【B.】LR似然比对模型的拟合优度进行检验【C.】AIC、BIC信息指数【D.】Wald统计量对多个系数进行检验

答案是：ABCD

下列关于线性概率模型，说法错误的是（）【A.】解释变量的合理变化会导致预测概率溢出[0,1]区间；【B.】使用加权最小二乘法修正异方差性可以保证概率预测值在[0,1]区间。【C.】当样本量充分大时，普通最小二乘法参数估计量的

答案是：BD

离散因变量具有两个选项或两种属性，离散因变量的属性往往是对立或互斥的模型是（）【A.】线性概率模型【B.】计数模型【C.】二元选择模型【D.】多重选择模型

答案是：C

假定隐变量的随机误差项服从标准正态分布的模型是（）。【A.】线性概率模型【B.】二元Probit模型【C.】二元Logit模型【D.】计数模型

答案是：B

假定隐变量的随机误差项服从Logit分布的模型是（）。【A.】线性概率模型【B.】二元Probit模型【C.】二元Logit模型【D.】计数模型

答案是：C

属于离散因变量模型的是（）。【A.】线性概率模型【B.】计数模型【C.】二元选择模型【D.】多重选择模型

答案是：ABCD

要考虑与运动会上获得的奖牌数相关的因素，比如参赛队总人数、运动员平均年龄、参与项目数等，此时最适合的模型是（）。【A.】线性回归模型【B.】Logistic回归模型【C.】分位数回归【D.】计数模型

答案是：D

讨论是否购买手机与哪些变量有关，采用离散选择模型来建模，那么响应概率就是指（）【A.】做出“购买”决策的概率【B.】做出“不购买”决策的期望【C.】做出“购买”决策的对数【D.】做出“不购买”决策的倒数

答案是：A

分析自变量对计数因变量的影响时所建立的模型为（）。【A.】线性回归模型【B.】Logistic回归模型【C.】分位数回归【D.】计数模型

答案是：D

与一般的回归分析过程一样，分位数回归模型进行参数估计之后，也需要对模型进行评价以及进行显著性检验。【A.】√ 【B.】×

答案是：A

当数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，模型稳健性较好。【A.】√ 【B.】×

答案是：B

分位数回归是对以古典条件均值模型为基础的延伸，它用几个分位函数来估计整体模型。【A.】√ 【B.】×

答案是：A

当数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，模型稳健性较差。【A.】√ 【B.】×

答案是：A

当数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，模型的稳健性（）。【A.】没有影响【B.】较好【C.】较差【D.】无法判断

答案是：C

多项式回归当阶数过高时，待估参数过多，在样本量不大的情况下会比较困难，这是多项式回归的一大缺陷。【A.】√ 【B.】×

答案是：A

多项式回归当阶数过高时，待估参数过多，但这并不影响对于结果的判断。【A.】√ 【B.】×

答案是：B

多项式回归模型常常会应用到三阶以上。【A.】√ 【B.】×

答案是：B

一般的多项式回归模型很少应用到三阶以上。【A.】√ 【B.】×

答案是：A

多项式回归类似于可线性化的非线性模型，可通过变量代换的方式使用普通最小二乘对参数进行估计。【A.】√ 【B.】×

答案是：A

有些时候变量间的曲线关系比较明显，但是难将其线性化，这个时候可以考虑直接使用非线性最小二乘估计法来估计模型参数。【A.】√ 【B.】×

答案是：A

如果在存在非线性关系的情况下使用线性回归拟合曲线也是可以的，不会影响结论。【A.】√ 【B.】×

答案是：B

非线性形式的变量关系一般可以通过变量代换或转换的方式转化为线性关系。【A.】√ 【B.】×

答案是：A

如果在存在非线性关系的情况下使用线性回归拟合曲线，则会丢失数据之间的大量有用信息，甚至会得出错误的结论。【A.】√ 【B.】×

答案是：A

非线性形式的变量关系转化为线性关系可以通过的方式是（）。【A.】变量代换或转换【B.】变量剔除【C.】变量筛选【D.】增加变量

答案是：A

对含有虚拟变量的回归方程进行分析，应当先确定分析的参照方程。【A.】√ 【B.】×

答案是：A

定性因素对因变量的影响在进行回归分析的过程中，无需对定性变量做处理。【A.】√ 【B.】×

答案是：B

参照方程就是指当所有虚拟变量为0时的方程。【A.】√ 【B.】×

答案是：A

定性因素对因变量的影响在进行回归分析的过程中，需要把定性变量转化为虚拟变量之后再引入回归模型中进行分析。【A.】√ 【B.】×

答案是：A

定性因素对因变量的影响在进行回归分析的过程中，需要进行特殊的处理是（）。【A.】把定性变量取对数再做分析【B.】把定性变量转化为虚拟变量之后再引入回归模型中进行分析【C.】把定性变量去掉【D.】无需做任何处理

答案是：B

P-P图或Q-Q图形在残差符合正态假定条件下，散点图看起来应该像是一条截距为0、斜率为1的直线。【A.】√ 【B.】×

答案是：A

只有通过检验的模型才能够充分描述变量之间的关系，建立的模型才有现实意义。【A.】√ 【B.】×

答案是：A

P-P图或Q-Q图形在残差符合正态假定条件下，散点图看起来应该像是（）。【A.】一条水平直线【B.】一条截距为0、斜率为-1的直线【C.】一条截距为0、斜率为1的直线【D.】一条垂直直线

答案是：C

路径相互重叠越多，使用Fp-tree结构获得的压缩效果就越好。【A.】√ 【B.】×

答案是：A

Apriori算法的效率比FP-growth算法的效率高。【A.】√ 【B.】×

答案是：B

路径相互重叠越少，使用Fp-tree结构获得的压缩效果就越好。【A.】√ 【B.】×

答案是：B

DBSCAN算法基于密度的聚类的概念，即要求聚类空间中的一定区域所包含对象的数目不小于某一给定的阈值。【A.】√ 【B.】×

答案是：A

密度相连是对称关系，密度可达也是对称关系。【A.】√ 【B.】×

答案是：B

DBSCAN聚类可以用于数据分布不均匀，呈块状分布，并且聚集形态是任意形状的情况。【A.】√ 【B.】×

答案是：A

DBSCAN算法中，密度可达是直接密度可达的传递闭包，并且这种关系是对称的。【A.】√ 【B.】×

答案是：B

DBSCAN算法中，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。【A.】√ 【B.】×

答案是：A

DBSCAN算法基于密度的聚类的概念，即要求聚类空间中的一定区域所包含对象的数目不大于某一给定的阈值。【A.】√ 【B.】×

答案是：B

事物或现象在较长时间内持续发展变化的一种趋向或状态，称为( ) 【A.】长期趋势【B.】季节变动【C.】循环波动【D.】不规则变动

答案是：A

要通过某超市历史1年的客流量数据预测未来的客流量，通常采用( ) 【A.】分类【B.】时间序列模型【C.】关联分析【D.】聚类分析

答案是：B

事物或现象在一年内随着季节更换而形成的有规律变动，称为( B ) 【A.】长期趋势【B.】季节变动【C.】循环波动【D.】不规则变动

答案是：B

要通过某气象站历史10年的逐日降水数据预测未来的降水量，通常采用( ) 【A.】时间序列模型【B.】分类【C.】关联分析【D.】聚类分析

答案是：A

数据反映若干事物或现象在同一时刻或时间上所处的状态或特征，或者反映其与时间无关的特征，这些数据反映了事物或现象之间存在内在数值联系，称为（）。【A.】横截面数据【B.】时间序列数据【C.】虚拟变量数据【D.】随机数据

答案是：A

事物或现象在不同时刻或时期所形成的数据，称为（）。【A.】横截面数据【B.】时间序列数据【C.】虚拟变量数据【D.】随机数据

答案是：B

要通过某城市历史10年的用电量数据预测未来的用电量，通常采用( ) 【A.】分类【B.】聚类分析【C.】关联分析【D.】时间序列模型

答案是：D

指事物或现象呈周而复始的变动，且是无固定规律的交替波动，称为( ) 【A.】长期趋势【B.】季节变动【C.】循环波动【D.】不规则变动

答案是：C

无法用组成部分解释或不可控的随机变动，称为( )。【A.】长期趋势【B.】季节变动【C.】循环波动【D.】不规则变动

答案是：D

时间序列的组成部分包括（）。【A.】长期趋势【B.】季节变动【C.】循环波动【D.】不规则变动

答案是：ABCD

空调销售量随着季节不同而发生较大变动，夏季的销售量一般高于冬季的销售量。空调销售量数据的这种变动称为季节波动。【A.】√ 【B.】×

答案是：A

数据是随时间变化而变化，反映了事物、现象在时间上的发展变动情况，称为横截面数据。【A.】√ 【B.】×

答案是：B

数据反映了事物或现象之间存在内在数值联系，称为横截面数据。【A.】√ 【B.】×

答案是：A

由于受到各种偶然因素的影响，时间序列往往表现出某种随机性，彼此之间存在着统计上的依赖关系。【A.】√ 【B.】×

答案是：A

1880年1月到2010年8月每月的全球温度异常值有一种无固定规律的交替波动，这种变动被称为循环波动。【A.】√ 【B.】×

答案是：A

数据反映了事物或现象之间存在内在数值联系，称为时间序列数据。【A.】√ 【B.】×

答案是：B

数据是随时间变化而变化，反映了事物、现象在时间上的发展变动情况，称为时间序列数据。【A.】√ 【B.】×

答案是：A