国家开放大学大数据技术导论复习题_国家开放大学系统成人高考函授考试答案

对数转换适用于泊松分布数据。（）【A.】√ 【B.】 ×

答案是：B

对数转换是将原始数据的自然对数值作为分析数据，如果原始数据中有零，可以在底数中加上一个小数值。（）【A.】√ 【B.】 ×

答案是：A

数据转换可将原始数据转换成适合数据分析的形式，如果数据转换处理不当，将严重扭曲数据本身的内涵，改变数据原本的形态。（）【A.】√ 【B.】 ×

答案是：A

聚类就是将数据集分组为多个类或簇，在同一个簇中的数据对象（记录）之间具有较高的相似度，而不同簇中的对象差别不大。（）【A.】√ 【B.】 ×

答案是：B

k-NN近邻缺失数据填充算法是一种简单快速的算法，它利用本身具有完整记录的属性值实现对缺失属性值的估计。（）【A.】√ 【B.】 ×

答案是：A

数据清洗的标准只包含返回率和精确度两个方面。（）【A.】√ 【B.】 ×

答案是：B

数据清洗的过程是指通过分析脏数据产生的原因和存在形式，构建数据清洗的模型和算法来完成对脏数据的清除，进而实现将不符合要求的数据转化成满足数据应用要求的数据，为数据分析与建模建立基础。（）【A.】√ 【B.】 ×

答案是：A

数据清洗的目的是消除脏数据，主要消除异常数据、清除重复数据、保证数据的完整性等，进而提高数据的可利用性。（）【A.】√ 【B.】 ×

答案是：A

准确性、完整性、一致性和及时性称为数据质量的四要素。（）【A.】√ 【B.】 ×

答案是：A

数据清洗是数据预处理的重要部分，其主要工作是检查数据的完整性及数据的一致性，对其中的噪声数据进行平滑，对丢失的数据进行填补，以及对重复的数据进行消除等。（）【A.】√ 【B.】 ×

答案是：A

时间戳方式的优点是性能优异，系统设计清晰，数据抽取相对复杂，可以实现数据的递增加载。（）【A.】√ 【B.】 ×

答案是：B

使用基于时间戳的增量数据抽取方式进行数据抽取时，系统通过比较上次抽取时间与时间戳字段的值来决定抽取的数据。（）【A.】√ 【B.】 ×

答案是：A

时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的一个数据，其通常是一个字符序列，唯一标识某一刻的时间。（）【A.】√ 【B.】 ×

答案是：A

增量数据抽取机制能够将业务系统中的变化数据按一定的频率准确地捕获到，同时不能对业务系统造成太大的压力，也不能影响现有业务。相对全量数据抽取，增量数据抽取的设计更简单。（）【A.】√ 【B.】 ×

答案是：B

在大数据抽取之前，无需清楚数据源的类型和数据的类型，可直接抽取。（）【A.】√ 【B.】 ×

答案是：B

NewSQL数据库是指各种新型的可扩展／高性能数据库，这类数据库不仅具有 NoSQL数据库对海量数据的存储管理能力，还保持了传统数据库的 ACID和 SQL等特性。（）【A.】√ 【B.】 ×

答案是：A

NoSQL数据库与 SQL数据库显著的区别是 NoSQL数据库不使用 SQL作为查询语言，其数据存储不使用固定的表格模式，具有横向可扩展性的特征。（）【A.】√ 【B.】 ×

答案是：A

NoSQL数据库代表了一系列的、不同类型的相互关联的数据存储与处理的技术的集合。（）【A.】√ 【B.】 ×

答案是：A

NoSQL主要指非关系型、分布式、不提供 ACID 特性的数据库设计模式。（）【A.】√ 【B.】 ×

答案是：A

大数据可视分析通过交互可视界面来进行分析、推理和决策，可视分析与各个领域的数据形态、大小及其应用密切相关。（）【A.】√ 【B.】 ×

答案是：A

OldSQL数据库适用于数据分析应用，NewSQL数据库适用于事务处理应用，NoSQL数据库适用于互联网应用。（）【A.】√ 【B.】 ×

答案是：B

OldSQL数据库是指传统的关系数据库，NoSQL数据库是指非结构化数据库，而 NewSQL数据库是介于 OldSQL数据库和 NoSQL数据库两者之间的数据库。（）【A.】√ 【B.】 ×

答案是：A

从应用的构建架构角度出发，我们可以将数据库归纳为 OldSQL数据库、NoSQL数据库和 NewSQL数据库。（）【A.】√ 【B.】 ×

答案是：A

网络拓补分析算法是基于网页之间的链接，通过已知的网页或数据对与其有直接或间接链接关系的对象作出评价的算法，其又分为网页粒度、网站粒度两种算法。（）【A.】√ 【B.】 ×

答案是：B

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。（）【A.】√ 【B.】 ×

答案是：A

聚焦网络爬虫与通用网络爬虫的区别之处在于聚焦网络爬虫在实施网页抓取时要进行主题筛选，尽量保证只抓取与主题相关的网页信息。（）【A.】√ 【B.】 ×

答案是：A

聚焦网络爬虫又称为主题爬虫，是面向特定主题的一种网络爬虫程序。（）【A.】√ 【B.】 ×

答案是：A

网页的爬行策略可以分为深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略和反向链接数搜索策略，其中深度优先搜索策略是最常使用的方法。（）【A.】√ 【B.】 ×

答案是：B

通用网络爬虫又称为全网爬虫，其可将爬行对象从一些种子 URL扩充到整个 Web，主要为门户站点搜索引擎和大型 Web服务采集数据。（）【A.】√ 【B.】 ×

答案是：A

网络爬虫从一个或若干初始网页的 URL开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL放入队列，直到满足系统的停止条件为止。（）【A.】√ 【B.】 ×

答案是：A

网络爬虫可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。（）【A.】√ 【B.】 ×

答案是：A

网络爬虫的过程主要分为获取网页、解析网页和存储数据三部分，其是按照一定的获取网页规则，自动地抓取互联网数据的软件。（）【A.】√ 【B.】 ×

答案是：A

网站数据采集只是将网站上的结构化数据从网页中提取出来，并将其存储到统一的本地数据文件中。（）【A.】√ 【B.】 ×

答案是：B

网站内部数据是网站最容易获取的数据，其通常存放在网站的文件系统或数据库中，也是与网站自身最为密切相关的数据，是网站分析最常用的数据来源。（）【A.】√ 【B.】 ×

答案是：A

空间数据的获取不包括对多媒体数据进行获取。（）【A.】√ 【B.】 ×

答案是：B

空间数据是一种用点、线、面以及实体等基本空间数据结构来表示自然世界的数据。（）【A.】√ 【B.】 ×

答案是：A

图形数字化是将图形的连续模拟量转换成离散的数字量的过程。（）【A.】√ 【B.】 ×

答案是：A

图像信息获取的方法只有扫描技术。（）【A.】√ 【B.】 ×

答案是：B

图像数字化是将连续色调的模拟图像经采样量化后转换成数字影像的过程。（）【A.】√ 【B.】 ×

答案是：A

图像数字化是进行数字图像处理的前提。（）【A.】√ 【B.】 ×

答案是：A

在互联网营销中，用户反馈承担的核心任务是为产品收集用户舆情信息。（）【A.】√ 【B.】 ×

答案是：A

大数据的获取要避免重复数据。（）【A.】√ 【B.】 ×

答案是：A

获取的数据是指已被转换为电信号的各种物理量，如温度、水位、风速、压力等。（）【A.】√ 【B.】 ×

答案是：A

由于集群模式和单节点模式运行 Hadoop系统都需要使用 SSH登录，因此在安装 Hadoop 系统之前，首先需要安装配置 SSH协议。（）【A.】√ 【B.】 ×

答案是：A

通常情况下如果集群的规模在百个节点以上，MapReduce的速度可以和节点的数目成正比。（）【A.】√ 【B.】 ×

答案是：A

MapReduce模型中，Map针对每一个输入元素都要生成一个输出元素，Reduce针对每一个输入列表都要生成一个输出元素。（）【A.】√ 【B.】 ×

答案是：A

MapReduce的基本原理就是将大数据分成小块逐个分析，最后将提取出来的数据汇总分析，进而获得需要的结果。（）【A.】√ 【B.】 ×

答案是：A

MapReduce模型通过将数据集的大规模操作分发给网络上的各节点，每个节点将已完成的工作和状态更新，周期性地报告给 Worker。（）【A.】√ 【B.】 ×

答案是：B

在MapReduce程序执行过程中，Map和Reduce函数接收的都是键值对。（）【A.】√ 【B.】 ×

答案是：A

网站外部数据主要包括互联网环境数据、竞争对手数据、合作伙伴数据和用户数据等。（）【A.】√ 【B.】 ×

答案是：A

在MapReduce程序执行过程中，由Master负责分配任务，分配的原则是 Master选择空闲的 Worker并为其分配一个 Map任务或一个 Reduce任务（）【A.】√ 【B.】 ×

答案是：A

在MapReduce程序执行过程中，用户程序中的MapReduce类库首先将输入文档进行分割，用户也可以通过设置参数对其大小进行控制（）【A.】√ 【B.】 ×

答案是：A

WordCount完成的功能是统计输入文件中的每个单词出现的频率（）【A.】√ 【B.】 ×

答案是：B

在单词计数中，Reduce方法的输入参数 key为单个单词，而 value是由各 Mapper类上对应单词的计数值所组成的列表，所以只要遍历 value并求和，即可得到某个单词出现的总次数。（）【A.】√ 【B.】 ×

答案是：A

在单词计数的Map过程中需要将文件进行按列分割。（）【A.】√ 【B.】 ×

答案是：B

可视分析是一种独立式的图形用户界面模型。（）【A.】√ 【B.】 ×

答案是：B

MapReduce模型适用场景的特点是任务可被分解成相互联系的子问题。（）【A.】√ 【B.】 ×

答案是：B

Reduce任务与 Map任务的最大不同是 Map任务的文件都存储于本地，而 Reduce任务需要到多处采集。（）【A.】√ 【B.】 ×

答案是：A

通常一个作业的输入都是基于分布式文件系统的文件，而对于一个 Map任务而言，它的输入是输入文件的一个数据块，或者是数据块的一部分，也可跨越数据块。（）【A.】√ 【B.】 ×

答案是：B

与分布式文件系统相比，MapReduce框架可定制性强。（）【A.】√ 【B.】 ×

答案是：A

在Hadoop中，将每一次计算请求称为一个作业。（）【A.】√ 【B.】 ×

答案是：A

Map相对独立且并行运行，对存储系统中的文件按列处理，并产生键值对。（）【A.】√ 【B.】 ×

答案是：B

MapReduce由 Map和 Reduce两个阶段组成,用户只需要编写 Map和 Reduce两个函数就可以完成简单的分布式程序的设计。（）【A.】√ 【B.】 ×

答案是：A

大数据的无序性是指各数据流之间无序，而同一数据流内部各数据元素之间是有序的。（）【A.】√ 【B.】 ×

答案是：B

为了更有效地处理数据，应该尽可能地限制静态数据。（）【A.】√ 【B.】 ×

答案是：A

流式计算不宜用持久稳定关系建模，而适用瞬态数据流建模。（）【A.】√ 【B.】 ×

答案是：A

流式数据的处理是批量处理。（）【A.】√ 【B.】 ×

答案是：B

流式查询主要有两种方式，一种是指定查询，另一种是即席查询。（）【A.】√ 【B.】 ×

答案是：A

实时计算系统的设计需要考虑高延迟、高性能、分布式、可扩展、高容错。（）【A.】√ 【B.】 ×

答案是：B

流式计算适用于无须先存储，可以直接进行数据计算，实时性要求很严格，但对数据的精确度要求较宽松的应用场景。（）【A.】√ 【B.】 ×

答案是：A

静态数据是流式数据。（）【A.】√ 【B.】 ×

答案是：B

批量计算是一种在线计算，支持海量作业并发规模，系统自动完成资源管理、作业调度和数据加载，并按实际使用量计费。（）【A.】√ 【B.】 ×

答案是：B

网页数据是一种半结构化数据。（）【A.】√ 【B.】 ×

答案是：A

数据类型包括结构化数据、非结构化数据和半结构化数据。（）【A.】√ 【B.】 ×

答案是：A

大数据只来自互联网世界。（）【A.】√ 【B.】 ×

答案是：B

数据加工与传统数据处理的不同之处在于，其更加强调数据处理中的增值过程。（）【A.】√ 【B.】 ×

答案是：A

研究数据仅仅包括数据采集和数据分析。（）【A.】√ 【B.】 ×

答案是：B

数据能够记录人类的行为，包括工作、生活和社会的发展。（）【A.】√ 【B.】 ×

答案是：A

Cyber空间是指以计算机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础，以知识和信息为内容的新型空间。（）【A.】√ 【B.】 ×

答案是：A

数据科学家不需要具备计算机科学、统计学的知识和应用领域的行业经验。（）【A.】√ 【B.】 ×

答案是：B

数据科学的发展不仅可以推动学科的发展，而且能够助推相关产业的发展与进步。（）【A.】√ 【B.】 ×

答案是：A

数据科学是通过科学方法探索数据，以获得有价值的发现。（）【A.】√ 【B.】 ×

答案是：A

计算机科学是算法与算法变换的科学。（）【A.】√ 【B.】 ×

答案是：A

下列不属于确定样本子集大小的因素的是（）？【A.】计算成本【B.】存储要求【C.】估计量的范围【D.】估计量的精度

答案是：C

Z分数规范化方法中，下列可以替换标准差的是（）？【A.】均值【B.】方差【C.】极差【D.】平均值绝对偏差

答案是：D

下列不属于判别方法的是（）？【A.】最大似然法【B.】最小二乘法【C.】距离判别法【D.】贝叶斯判别法

答案是：B

下列不属于判别分析的类别的是（）？【A.】两组判别法【B.】多组判别法【C.】逐步判别法【D.】面积判别法

答案是：D

下列不属于回归分析的类别的是（）？【A.】一元回归分析【B.】二元回归分析【C.】多元回归分析【D.】线性回归分析

答案是：B

下列不属于回归分析的步骤的是（）？【A.】确定自变量与因变量【B.】对变量进行分类【C.】根据变量进行回归建模【D.】模型检验

答案是：B

下列不属于相关分析的是（）？【A.】线性相关分析【B.】复相关分析【C.】偏相关分析【D.】距离分析

答案是：B

下列不属于相关系数的是（）？【A.】简单相关系数【B.】复相关系数【C.】典型相关系数【D.】常态相关系数

答案是：D

下列不属于模型的组成的是（）？【A.】目标【B.】数据【C.】变量【D.】关系

答案是：B

统计的基础是（）？【A.】统计工作【B.】计算数据【C.】统计数据【D.】统计科学

答案是：A

统计学是收集、分析、表述和（）的科学？【A.】整理数据【B.】计算数据【C.】填补数据【D.】解释数据

答案是：D

下列不属于数据分散性特征的是（）？【A.】均值【B.】极差【C.】方差【D.】变异系数

答案是：A

下列不属于数据位置特征的是（）？【A.】均值【B.】中位数【C.】方差【D.】四分位数

答案是：C

下列不属于探索性数据分析的内容的是（）？【A.】检查数据错误【B.】填补数据缺失【C.】获取数据分布特征【D.】观察数据规律

答案是：B

下列不属于探索性数据分析的特点的是（）？【A.】分离出数据的模式【B.】分离出数据的特点【C.】揭示数据对模型的偏离【D.】计算模型对数据的拟合度

答案是：D

探索性数据分析是基于什么角度来说明数据分析方法的（）？【A.】数据本身【B.】数据范围【C.】模型假设【D.】统计推断

答案是：A

从分析方式上看，大数据分析主要分为（）？【A.】在线数据分析、离线数据分析、交互式数据分析【B.】交互式数据分析、在线数据分析、定性数据分析【C.】定性数据分析、离线数据分析、交互式数据分析【D.】离线数据分析、在线数据分析

答案是：A

从分析的结果上看，大数据分析主要分为（）？【A.】探索性数据分析、证实性数据分析、定性数据分析【B.】证实性数据分析、定性数据分析、离线数据分析【C.】探索性数据分析、定性数据分析、离线数据分析【D.】探索性数据分析、证实性

答案是：A

下列属于数据分析的特点的是（）？【A.】数据量大【B.】目标不清晰【C.】处理不同类型的数据【D.】结果不易解释

答案是：A

下列不属于数据挖掘的特点的是（）？【A.】数据量大【B.】目标清晰【C.】处理不同类型的数据【D.】结果不易解释

答案是：B

大数据分析的核心是（）？【A.】数据收集【B.】数据管理【C.】数据挖掘【D.】数据交易

答案是：C

大数据需要分析的是（）？【A.】发展趋势【B.】发展现状【C.】发展模式【D.】发展制度

答案是：A

下列不属于数据集成的构成方式的是（）？【A.】联邦数据库集成模式【B.】中间件集成模式【C.】数据仓库集成模式【D.】地区数据库集成模式

答案是：D

下列不属于数据集成的核心问题是（）？【A.】有效性【B.】异构性【C.】分布性【D.】自治性

答案是：A

数据集成最复杂和困难的任务是（）？【A.】数据插补【B.】数据格式转换【C.】数据修改【D.】冗余数据处理

答案是：B

下列不属于信息孤岛带来的问题的是（）？【A.】数据不能共享【B.】冗余数据【C.】数据优化【D.】垃圾数据

答案是：C

下列不属于无参数值约简技术的是（）？【A.】直方图【B.】聚类【C.】选择【D.】线性回归模型

答案是：D

下列不属于数据约简中有无监督信息分类的是（）？【A.】监督式维数约简【B.】半监督式维数约简【C.】非监督式维数约简【D.】混合式维数约简

答案是：D

下列不属于数据约简的分类基准的是（）？【A.】约简维数的大小【B.】成本的大小【C.】数据时序【D.】有无监督信息

答案是：B

下列不属于数据约简的特点（）？【A.】计算量巨大【B.】成本降低【C.】较少存储量【D.】方便分类

答案是：A

下列不属于维数灾难问题的特点（）？【A.】计算量巨大【B.】成本降低【C.】结果不理想【D.】无法反映数据的本质特征

答案是：B

维数灾难通常是指在涉及（）计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。【A.】数字【B.】文本【C.】向量【D.】矩阵

答案是：C

三维的数据立方体看作是一组类似的互相叠加起来的（）？【A.】一维表格【B.】二维表格【C.】三维表格【D.】四维表格

答案是：B

数据立方体是一类多维矩阵，让用户从多个角度探索和分析数据集，通常是一次同时考虑几个维度（）？【A.】一个【B.】两个【C.】三个【D.】四个

答案是：C

分层抽样又称之为（）？【A.】随机抽样【B.】等距抽样【C.】系统抽样【D.】类型抽样

答案是：D

下列不属于检验假设方法的是（）？【A.】提出假设【B.】选择统计量【C.】修正统计量【D.】根据显著性水平进行判断

答案是：C

下列不属于影响突出对比的可视化展现是（）？【A.】比例选择【B.】颜色使用【C.】图形形状【D.】图形内容

答案是：D