
一、单选题(每题2分,共60分。)
1. 《数据分析报告》[附录]涉及到的内容不包括( ).
A、专业名词解释
B、重要原始数据
C、数据分析的算法伪代码
D、计算方法
2. 数据分析工具不包括以下( )选项。
A、SPSS Statistics
B、Matlab 2014b
C、OFFICE Powerpoint
D、Style Intelligence
3. 以下分析图表中,( )可以用于表示对比分析法的数据分析结果。
A、柱形图
B、折线图
C、散点图
D、条形图
4. 时间序列预测,简单地说,是根据事件发展来预测未来发展。关于该方法的说法中,不正确的是它( )。
A、假设事物发展趋势会延伸到未来
B、预测所依据的数据具有不规则性
C、不考虑事物发展之间的因果关系
D、不考虑社会因素和突发事件
5. 以下说法中,不正确的是( )。
A、对比分析法,又叫比较分析法,通过对比数据指标,分析认识事物本质和规律,并做出正确评价。
B、对比分析法以同样对比标准或指标进行对比相关客观事物,展示其大小、水平、速度.
C、对比分析法指标的标准可以相同,也可以不同,对结果不会有影响。
D、对比分析法中,如果指标的标准不同,就失去了对比意义(例如,美国GDP为26亿美元,而当年中国GDP仅为41亿人民币)。
6. 做大数据分析前的数据准备工作时,工作原则不包括( )。
A、加班加点时,能戒骄戒躁
B、多使用数据挖掘工具,对分析结果多次详加检查
C、找不出问题,不敷衍伪造
D、权威压力下,不人云亦云
7. 一所大学过去70年的所有高等数学考试成绩分析中,描述统计参数中的偏度skewness为2.15,则证明这组数据属于( )。
A、中等偏态分布
B、高度偏态分布
C、负偏态分布
D、正态分布
8. 抽样调查是从调查对象总体中用不同方式选取部分对象作为典型,进行调查分析来推论总体。其中,抽样调查的抽样方式不包括以下( )种类。
A、随机抽样
B、周期抽样
C、等距抽样
D、等频抽样
9. 1%错误=100%失败!1个数字影响1个结果、1个结果影响1个决策,1个错误决策能毁掉一个企业。因此,数据分析准备的数据必须有一个错误率阈值,该值为( )
A、0.01
B、0.1
C、0.0010
D、1.0E-4
10. 指数平滑法中选择加权的平滑系数需要根据一定经验,做出范围选择,因此,当面对的时间数据序列曲线波动非常大时,应选择平滑系数区间为( )更合适。
A、[0.05~0.2]
B、[0.3~0.5]
C、[0.6~0.8]
D、[0.8~0.95]
11. 以下有关数据透视表的说法中,不正确的是( )。
A、数据透视表是一种交互式报表,是最常用、功能最全的分析工具之一。
B、透视数据是对数据表个字段进行快速分类汇总的分析工具,可变换出各种类型的分析报表。
C、数据透视表仅仅具有行、列两个维度分组管理能力,可以从行字段、列字段两个个维度分别进行分组统计。
D、数据透视表具备综合排序、筛选、分类汇总等分析功能,方便地调整分类汇总方式,灵活展示数据特征。
12. 国际连锁百货零售企业大数据挖掘中,使用( )能找出如何通过交叉销售得到更大收入。
A、回归分析
B、描述性分析
C、抽样调查
D、关联分析
13. 大数据分析结果的表现形式中,直观描述3个变量的分布情况应该选择( )。
A、散点图
B、气泡图
C、柱形图
D、曲面图
14. 以下说法中,不正确的是( )选项。
A、数据库是按照数据结构来组织、存储和管理数据的仓库,利用数据库中的各种对象、记录、处理和分析各种数据。
B、一手数据的保存可以选择数据管理文件形式(如Excel工作簿),也可以使用数据库形式。
C、大数据可以来自数据库,也可以来自数据文件;既可以从私有服务器获得,也可以从公共信息服务中获得。
D、大数据的捕获,必然是在数据获取时,实施收集的大量数据,不存在历史数据的收集。
15. 某《调查问卷》采集的数据可能存在各被调查者输入选项不符合要求种问题,那么检测数据逻辑错误的原因不可能是()。
A、信息录入错误
B、被调查者填写不符合要求
C、数字化过程设计缺陷
D、传输产生的信号损失导致数据无法验证错误
16. 2017年北京、上海和深圳的轿车销售数据显示,紧凑型轿车在一线城市的轿车销售额中占比最高,达到33.5%,该分析属于( )。
A、横向比较
B、纵向比较
C、动态分析
D、结构分析
17. 使用数据库的现有资源,用( )为当地银行预测,可以安全地贷给贷款人的贷款量。
A、相关分析
B、回归分析
C、描述统计分析
D、对比分析
18. Excel数据管理中,标记关键数据的方法中能够替代柱形图的是( )。
A、色阶区分数据
B、条件格式突出
C、图标集区分数据
D、数据条区分数据
19. 一个数据分布的锋度系数为( )时,该数据分布曲线分布显得最瘦高、尖削。
A、-1.05
B、-0.5
C、0
D、2
20. 为了调研商品毛重量A、运输距离B和运输成本C的关系,分析数据确定三者的具体关系,遵循一定变化规律,三者属于( )关系。
A、函数相关
B、复相关
C、线性相关
D、非线性相关
21. 公务员考试成绩分布的直方图分析中,正偏态分布意味着( )。
A、成绩过于集中
B、成绩过于分散
C、多数人成绩过低
D、多数人成绩过高
22. 2016年3月,特朗普在阿拉巴马、阿肯色、乔治亚、马萨诸塞、田纳西、佛蒙特和维吉尼亚这7个州得票领先,但在得克萨斯、科罗拉多和俄克拉荷马败给克鲁兹,在明尼苏达州落后于卢比奥,得票率在共和党内处于领先地位,这样的数据分析方法称为( )。
A、横向比较
B、纵向比较
C、分组分析
D、结构分析
23. 以下关于时间序列预测的移动平均方法的说法中,不正确的是( )。
A、移动平均法是一种时间序列预测方法,根据时间序列逐期推移,依次计算包含一定间隔期数的平均值,形成平均值时间序列来反映事物发展趋势,从趋势的延续预测未来数据值。
B、移动平均法求的是最近几个月平均数,能更好地适应预测临近数据受偶然性因素干扰而产生的随机变动影响。因此它更适合短期预测,而非长期预测。
C、移动平均法的间隔期数数量没有限制,预测值不会产生明显的滞后偏差。
D、移动平均法的间隔期数过大时,预测值将带有明显的滞后偏差。
24. 以下关于描述分析中方差的说法中,不正确的是( )。
A、概率论中,“方差”度量随机变量和其数学期望(即平均值)间的偏离程度,衡量源数据和平均值相差多少。
B、方差是反映该偏离的数字特征,方差越大则偏离程度越大。
C、方差是反映该偏离的数字特征,方差越小则偏离程度越大。
D、经过X,Y两次测量,X测量结果偏离程度稍大与Y,则Y的测量性能更好。
25. “质量”和“用户满意度”等商品销售大数据中,得知“质量”和“用户满意度”密切相关,且质量受满意度影响巨大,通过( )可以自动自算出精确数学模型来拟合实测数据,进而从改进产品的“质量”推测“用户满意度”。
A、动态分析
B、相关分析
C、比较分析
D、回归分析
26. 以下关于回归分析的说法中,不正确的是( )。
A、回归分析基于观测数据,建立变量间适当的依赖关系,以分析数据内在规律,主要用于预报、控制等实际问题。
B、归分析是确定两种及两种以上变量间相互依赖的定量关系的一种统计分析方法
C、回归分析研究现象间是否存在依存关系,并探讨依存关系的相关方向和相关程度。
D、回归分析能分析出多个变量之间的关系,从而分析目标变量未来的发展变化趋势。
27. 某新产品的推广费用和销售额的相关系数=0.8413,则该商品的广告和销售的关系属于( )。
A、不相关 B、强正相关 C、弱正相关 D、强负相关
28. 指数平滑法中选择加权的平滑系数需要根据一定经验,做出范围选择,因此,当面对的时间数据序列曲线波动较小时,应选择平滑系数区间为( )更合适。
A、[0.05~0.2]
B、[0.3~0.5]
C、[0.6~0.8]
D、[0.8~0.95]
29. 数据清洗过程中,去除数据脏点不包括以下选项中的( )的操作。
A、清除不必要的重复数据
B、修改逻辑错误的数据
C、填充缺失数据
D、检测逻辑错误的数据
30. 数据分析直方图客观地展示公务员选拔考试成绩数据分布情况,因此如果数据分布比起正态分布严重偏向左侧(成绩低的一侧),且峰度较高属于典型的尖削峰,则体现在直方图上的效果证明( )分析结论。
A、试题可能存在泄露
B、考题偏难
C、试题没有能够拉开考生水平层次,无助于选拔人才
D、无法形成有效的参考结果
二、是非题(每题0.5分,共10分。)
1. 峰态系数,是数据分布曲线在平均值处峰顶高低的特征指标,当数据呈现均匀分布,其峰态系数为1.8-3=-1.2,代表最平阔的峰度。
2. PowerPivot数据多表关联分析是建立在来自不同数据源的数据间建立好数据关联后,具有一定逻辑关联的数据,可自由地在数据透视表/图或任意 Excel数据表示对象中使用。
3.
指数分析法主要用于分析一组大数据中数量的相对变化程度,其中众数代表该组数据中出现最频繁的数值,代表分布中的高峰。
4. 偏度是数据分布曲线在平均值处峰顶高低的特征指标,直观来看,它反映峰顶尖削程度。
5. 回归分析挖掘出的数学模型中,如果自变量和因变量的关系可用一条直线近似表示,则称为线性回归分析。
6. 高考考生不用抹黑碰运气,可以根据全国各大学、专业的报考热度、报考难度等关注度排行数据,从现有高校、考生等大数据来预测高考不同学校、“热门易考”、“冷门易考”等指标,报考更加有的放矢。
7. 对全部对象进行观察、访问和记录,普查确定资料既耗时又耗力、更耗钱;抽样从对象总体中选取部分样本分析,以此推论总体状况,节约了人力、物力和财力限制,因此使用较广泛。
8. 数据分析方法归纳起来主要分成两大类:呈现现状的描述性分析和展望未来的预测性分析。
9. 如果大数据中蕴含着相关关系,数据间存在依存关系,那么,对某变量每个数值,都有另一变量值与之对应,能用数学表达式精确反映这个关系。
10. 《数据分析报告》通过对事物数据全方位的科学分析来评估其环境及发展情况,为决策者提供科学严谨的依据,降低风险。
11. Excel图表对象的数据系列可以在数据行方向上产生,也可以在列方向上产生。
12. 指数分析法主要用于分析数量的相对变化程度,其中众数代表一组数据中出现次数最多的数值。围绕众数的数据越多,则这组大数据的集中程度越高;反之,围绕众数的数据点越少,大数据集中程度越低。这种集中程度的度量可以使用峰度这个统计参数来度量。
13. 大数据分析预测时,选择好自变量和因变量后,二者关系可用一条直线近似表示,则称为线性回归分析。
14. 结构分析是种静态分析,分析一个完整系统中各组成部分及其对比关系之间规律,关注贡献情况,贡献指某一因素的影响占总变动的比重。
15. 现象之间存在的依存关系,对于某一变量的每一个数值,都有另一变量值与之对应,该关系能用一个数学表达式精确反映出来,这种关系称为相关关系。
16. 数据预测性分析通过分析现有数据间的相关性,探寻数据间存在的联系,并进一步通过建立相关回归模型的方式对未来进行合理的预测,因此,预测性分析属于展望未来的数据分析方式。
17. 三次移动平均法是在完成一次移动平均后,将其数据结果作基础再进行一次移动平均,形成二次移动平均预测结果,同样依次为基础数据再移动平均而形成的结果。
18. 任何大数据经过清洗都可以进行数据分析,从中寻找关联,获取其中隐含的模式,启发未来更有效的决策。
19. 三维曲面图在连续曲面上跨两维显示数值的趋势,图中的颜色并代表数值间的差别。
20. 数据中重复、错误、空白和遗失等问题需要在初期统一处理,使用自动化的方法进行数据准备不仅效率高,而且自动检索的处理保证的进入分析阶段的数据质量比较高。
三、问答题(每题15分,共30分。)
1. 《数据分析报告》结论和建议部分编写的注意事项是什么?
2. 对数据进行回归分析需要哪些步骤?
购买专栏解锁剩余1%