下栽の地止https://www.itwangzi.cn/4653.html
千峰-Java就业班一、什么是数据分析
是指运用专业的统计分析方法,对大量数据进行分析,进行详细的研究和总结,提取有价值的信息,形成有效的分析结论,从而影响经营决策
2.数据分析的重要性
凡事,能量化,就不能真正理解; 如果我们不能理解它,我们就无法真正控制它; 如果我们无法控制它,我们就无法真正改变它。
大数据时代,人脑无法理解复杂,但数据分析可以解读意义; 面对难以控制的未知因素,数据分析可以预测规律。
数据分析可以弥补我们对直觉的过度自信,思考问题和决策更加科学理性。

3、数据分析的作用
现状分析,过去发生了什么? 诊断业务状况,例如通过描述性统计
原因分析,为什么会这样? 例如通过维度拆解、索引拆解等分析方法,结合实际业务,发现业务异常点
预测分析,未来会发生什么? 例如,基于用户行为数据,预测他们是否即将流失,并采取措施留住即将流失的用户
4、如何分析数据?
1、明确分析的目的和思路
思维决定结果,要明确数据分析的目的,形成清晰的思维框架,避免为分析而分析
2. 数据收集
基于分析目的收集相关数据集,大部分为公司内部数据,也可能涉及外部数据
关系管理数据库(RMDB,使用SQL语言取数据),数据仓库(WareHouse,使用HiveSQL取数据)
文件:excel、csv、txt等
系统/平台:手动导出,selenium等python自动化脚本
互联网:网络爬虫
API:requests请求库,解析json文件等。
3、数据清洗
将数据组织成整洁干净的结构和格式,有利于后续分析。 数据可能是分散的,需要整合各种数据集
异常值、错误值和缺失值的处理
字段拆分、合并、信息抽取、格式转换等
表关联:左、右、外(全)、内连接、笛卡尔积表等(左半、左反连接等)
表结构转换:行转列(长表转宽表)、列转行(宽表转长表等)、行列转置、数据透视(reverse pivot)