整理了下数据分析师技能树,会进行填充更新。

MySQL

  • 基础查询语句:查询语句 select、表来源 from、条件语句 where、数据分组 group by、数据过滤 having、数据排序 order by、限制行数 limit ;
  • 多表查询语句:内连接(join/inner join)、左连接(left join) 、右连接(right join) ;
  • 条件函数:case when、if;
  • 聚合函数:求和 sum()、均值 avg()、计数 count()、最大值 max()、最小值 min();
  • 窗口函数:
    • 累计计算窗口函数:sum()over(partition by … order by …)、avg()over(partition by … order by …);
    • 分区排序窗口函数:row_number()over()、rank()over()、dense_rank()over();
    • 分组排序窗口函数:ntile()over();
    • 偏移分析窗口函数:lag()over()、lead()over();
  • SQL定义与操作语言:创建表 create 、插入语句 insert into 、更新语句 update 、删除语句 delete。

Python

  • NumPy、Pandas、matplotlib库;
  • sklearn 库。

机器学习

  • 算法模型:决策树、随机森林、回归模型、K-Means聚类、K近邻、贝叶斯、支持向量机、Apriori关联规则等;
  • 特征工程:特征缩放/归一化,分类变量,数据降维,特征选择。

统计学

  • 描述统计:频数分析、集中趋势、离散程度、数据分布;
  • 参数估计:总体、个体、样本;点估计和区间估计;中心极限定理;正态分布;
  • 假设检验:双边检验、单边检验;Z检验、t检验、卡方检验、F检验;
  • 线性回归:一元线性回归、多元线性回归、损失函数;
  • 时间序列分析:AR、MA、ARMA、ARIMA模型。

思维

  • 思维:PEST、5W2H、SWOT、4P理论、用户行为理论、波士顿矩阵、二八原则、AARRR、LTV、产品生命周期、用户生命周期、漏斗分析;
  • 工具:A/B Test、数据埋点平台。

Tableau

  • 工作表、仪表盘和故事;
  • 可视化:柱状图和条形图、折线图和面积图、饼图和环形图、散点图和气泡图、箱线图。

数学

  • 线性代数
  • 微积分
  • 概率论

大数据

  • 开发:Java,Linux,Hadoop,Spark,Hive,ETL,Flink。

其他技能

  • SPSS、Excel;