与大数据相关的工作职位有哪些?
在回答文章标题问题之前,还是让我们先看一段对话:
小袁:我是一只苦逼的程序猿,俗称技术屌丝男,还属于码农阶段,起早贪黑不分时间,没房没车没对象,每天除了代码,就是BUG,觉得暗无天日,没有钱途,现在想换相关的职业,不知道DOCTOR V有什么可以介绍的?
Doctor V:云计算的实现,咱们迎来了大数据时代,而基于数据处理和开发,有几个职位想必你会感兴趣,且也是现在大数据时代 背景下所需求的。插一句,且这个行业工资还很高,绝对让你以后在技术行业有傲娇的资本…….^_^
小袁:那大数据行业职位都跟我说说呗?
Doctor V:大数据行业最主要的是数据分析师和大数据工程师,下面是它的职位体系架构
小袁:数据分析师和大数据工程师主要是做什么?
DoctorV:大数据工程师主要是偏开发层面,指的是围绕大数据系平台系统级的研发人员, 熟练Hadoop大数据平台的核心框架,能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
小袁:学习这个需要什么基础吗?
Doctor V:java你肯定要很熟练, linux 这个也需要了解一些,当然hadoop本身入门不难,但是你想看懂源代码,想深入的理解,你要对多线程,并行化等概念都要了解,本身hadoop是一个框架,你把他了解透彻了也等于你对java技术已经有了一个系统的掌握了。
小袁:能简单跟我说说hadoop的学习路径吗?
DoctorV:简单来说就是,首先了解Hadoop原理和用途,了解什么是hdfs和mapreduce;其次,开始搭个环境跑一个wordcount;再次,跑完wordcount,你就可以改代码了;最后测试独立完成一个业务场景…..
小袁:嗯,了解,更多的还是偏技术,写代码。
那你还是跟我说说数据分析师这个职位吧,貌似跟数据打交道,挺有挑战性的!?
Doctor V:数据分析师是指基于大数据进行数据处理分析的人员,能熟练的用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
小袁:这个听起来跟数据打交道,需要做决策分析的啊,好像挺有发展前途啊,有技术基础的能学吗,薪资怎么样啊?
Doctor V:数据分析师在企业中发挥的价值在于能够利用已有的数据资料(一手或二手的)进行观测,实验,研究分析出背后的一套规律为企业进行优化决策。业务层面的员工需要写出数据报告给老板看,如果你的分析结果对企业决策(如营销计划)有改善从而提高了业绩,那么待遇肯定是意想不到的。
数据分析师这个行业入门要求比较低,需要懂一些数据统计、ETL等知识,这些对于学技术的你来说,应该是小菜一碟。
小袁:这个职位,以后的职业路线是怎样的啊?
Doctor V:在职业发展方面,最初可能会是数据分析员从基层开始做起,有团队有人带,到后面逐渐上升为分析师,资深分析师、数据分析专家,数据架构师;其中数据架构师 要求比较高,既要精通数据分析师的业务决策层面,也要会使用Hadoop开发和使用运算模型,我觉得这个可以作为你未来的发展方向,因为你比纯粹的数据分析师有技术基础。
小袁:那么数据分析师和数据挖掘(算法)工程师又有什么区别呢?
Doctor V:数据挖掘(算法)工程师需要较强的编程能力,需要通过语言进行模型算法优化和相关数据产品的开发,而数据分析师需要更多的是业务理解和数据分析能力,一般是业务背景,对编程能力也没有严格的要求。
小袁:OK,got it!
现在,让我们在回到开头那个问题。在美国,与大数据相关的职位主要有:
- 数据科学家
- 数据分析师
- 数据架构师
- 数据工程师
- 统计学家
- 数据库管理员
- 业务数据分析师
- 数据产品经理
顶尖的数据人才甚至被冠以“数据科学家”的头衔。(详见《数据科学领域的职位划分以及职责技能》一文)
而在国内,与大数据相关的岗位主要分为以下几类:
数据分析师:
运用工具,提取、分析、呈现数据,实现数据的商业意义,需要业务理解和工具应用能力
数据挖掘师/算法工程师:
数据建模、机器学习和算法实现,需要业务理解、熟悉算法和精通计算机编程
大数据工程师:
运用编程语言实现数据平台和数据管道开发,需要计算机编程能力
数据架构师:
高级算法设计与优化;数据相关系统设计与优化,有垂直行业经验最佳,需要平台级开发和架构设计能力
在工资待遇上,不管是在国内还是国外,都是:
数据科学家->数据架构师==算法工程师>大数据工程师>数据分析师。
数据分析师的职业通道是:
数据分析师-》算法工程师/建模分析师-》数据科学家/CIO
大数据工程师的职业通道是:
大数据工程师-》算法工程师/架构工程师-》数据科学家/CTO
通常情况下,有计算机专业背景和编程基础的可以选择后者。
在职位选择上,条条大路通罗马,选择适合自己的才是最重要的
《大数据-机器学习脱产就业班》第6期已开班 ,第7期2018年5月预报名!
大数据相关常见的职位有三种:
数据分析师:
基本是写写sql,用大数据平台工具,用数据抽象业务问题,代码写的少,但是需要了解R语言,Python语言等
基本要求如下:
- 能够独立清晰的识别问题;
- 明确范围并做好分析规划和思路;
- 熟练使用大数据平台提取数据、了解DW底层结构、对数据模型合理规划;
- 熟练和正确应用分析方法、准确高效;
- 项目展现的条理、逻辑、表达清晰;
- 提出建议、推动建议被采纳
大数据工程师:
需要写代码,需要熟悉spark,hadoop,hive等各种大数据平台和框架
基本要求如下:
1.熟悉大数据架构知识,精通大数据开发语言;
2.独立设计复杂数据系统、能进行可用性设计、能独立定位问题并调优;
3.具备专业技术攻关能力;独立完成集成、系统测试,指导低级别工程师测试;
4.能快速定位和修复bug;
数据产品经理:
相对于一般的产品经理,大数据产品经理更强调数据敏感度,数据分析和数据评估能力
据我接触到的有四类:
- 数据分析师, data analyst。有比较好的统计知识,对行业有比较好的理解。需要能够定义metrics,从数据库抓数据(sql),分析和简单建模(R或者python),和把结果有效递交给决策人员。
- 数据科学家,data scientist。主要是模型研发。有偏分析和偏模型的区别。
- 数据工程师,data engineer。主要就是建立维护数据库,有时候需要帮助初步处理数据。
- 机器学习工程师,machine learning engineer。这算是最新的一个职位,需要编程比较强,而且理解模型和算法,能够保证的模型的效率。
最近有朋友在找工作,目标岗位正是数据相关的岗位
刚好我在日常工作中每天都要和数据打交道,趁机也算做个阶段性总结
近些年,数据分析的岗位一年比一年火爆
没办法,互联网的流量增长放缓,闭着眼睛就能实现两位数用户增长的时代已经过去
摆在所有平台面前有一个共同的难题,如何服务好现有的用户,如何深入挖掘他们的需求
单凭直觉来做判断,很容易被带偏而不自知
个人的抉择凭直觉影响不大,但是数十亿的平台任何行为都要禁得起推敲
数据是验证效果和方向的绝佳方法
有需求才有当下数据岗位的热门景象
很多人被招聘网站上各种高大上的title搞得晕头转向,总觉得只要带有“数据分析”的字样,都是同样的工作内容
但是,就我在实际业务中接触到的内容,数据的岗位都可以归为以下三类:
1. 商业数据分析师
2. 数据产品经理
3. 数据科学家
「商业数据分析师」
商业数据分析师往往和产品、运营搭配组团
日常主要职责是提供数据支持,比如有新功能上线,为评估效果,调取使用量、计算客单价、评估有效率
更进一步是根据现有的业务流程,列出数据核心指标,并且对几个核心指标进行更细致的拆解,供团队制定后续发展计划
玩的转Excel,写的了SQL是基础的要求
这里很多人都存在一个认知误区——只用到Excel、SQL的数据分析没技术含量
千万别有这个不成熟的想法!
商业数据分析的能力高低不在于工具的酷炫程度,而是取决于对业务的了解程度,能否定义关键指标,搭建分析体系,甚至有预见性的制定监控指标
干巴巴的数字毫无意义,能不能把结果提炼,去推动业务优化才是商业数据分析的精髓
商业数据分析师的能力模型
- 常用分析方法
- 细分:分地点,分人群,分时间,分产品,分渠道
- 对比: 根据细分的维度,不断组合,进行对比
- 漏斗: 业务流程分几步,每一步的转化率, 清晰有层次
- RFM: R最近消费日期, F消费频次, M消费金额. 这个可用来粗暴的进行用户分层,已经被广泛用在各个行业
- 业务是核心,数据围绕业务展开
- 整个业务的流程,明确衡量的核心指标
- 对比同行业指标,挖掘隐藏的提升空间
- 拆解关键指标,合理设置运营方法来观察效果
- 争对核心用户,单独进行产品用研与需求挖掘
数据必须和业务结合才有效果,不一定要用到很高深的编程方法,或者复杂的统计公式
「数据产品经理」
由于数据报表展示能力过于苍白、可视化能力有限
直接从数据库中抓取数据更适合于专业的数据分析师而非业务或运营人员
同时并非每个团队都配备有自己的数据分析师,可小团队内部的数据需求又是真实存在
所以上了一定规模的公司,都选择搭建公司内部的数据平台
比如一些可视化的数据平台,只要有对应的权限,使用者可以快速在页面上进行勾选就能得到半定制化的结果
既然是搭建平台,那就需要团队作战,囊括了:开发、测试、产品,还有部分运营
这里面的产品,就是我们要说的数据产品经理
对数据产品经理要求的能力已经不再局限于数据分析能力,也不再局限了解某一块业务逻辑
因为一个公共平台,面对的使用者不再是一小撮人,单单权限划分就能拉出来说几个小时
作为规划者的数据产品经理,数据分析仅是核心能力之一,更重要的是具备产品规划能力
也就是:了解用户,需求调研,方案设计,协调技术、测试、设计等
这些属于产品岗位的内容,今天不做过多涉及,只围绕数据产品涉及的特点来展开
作为公共的数据平台,用户对数据的要求不一样,但需要满足的基础功能多是包含以下:
- 灵活的权限管理:涉密数据不能随意被浏览
- 容易操作:支持傻瓜式操作
- 维护历史数据:日常的数据会在半年内进行归档,但是这些历史数据不可能被删除,会存在公司的数据库房里,等待有需要时拉出来
- 支持半定制化服务:方便对部分项目,做特定的数据分析
以上都属于基础的内容,可是独立的数据平台,归根结底是一种辅助决策的分析类产品,又大概分成:
流量分析产品:统计浏览、跳转、转发、点击;为后页面设计、功能改进和改版评估等提供数据支持
销售分析产品:统计销售量、客单价、利润,做用户分析、活动分析,也能在市场投放分析中大展身手
如果公司某一块业务比较重要,又有专门的部门负责时,还能分成:「供应商分析系统」、「客服分析系统」、「会员分析系统」
甚至做到一定的程度,可以作为公司一项服务对外提供
比如大家熟知的淘宝数据魔方、百度指数、高德地图的城市拥堵指数
「算法数据科学家」
说起算法模型,已经自带了一层神秘感
实际上,我们日常生活里接触了不少算法
比如,抖音的推荐、百度的检索、微信的朋友圈广告、网易云音乐的歌单
统统都靠算法进行分发
这些都是作为用户在日常生活中能接触到的算法模型,但是在公司里因为业务的演进,也会发展出新的需求
比如:库存管理的软件,可能最开始只是用Excel做了一个库存分析的报表而已
后来,逐步增加补货预警、成本分析等功能,就开始变的复杂,已经是独立的系统
再后来,选品和采购预测,库存积压时间的优化都是需要较强的算法支持,就变成了一个算法类产品
毫不夸张地说,算法模型优化的数据科学家对从业者的要求最高,起码是硕士毕业,对博士的要求也很大,而且大多要求有数学背景,
为什么会有这么高的要求?
作为一个数据科学家,要求不仅会使用模型,还能改造模型
掌握了一堆模型并且会跑,其实并没有什么卵用
就像再好的司机,也没法去做汽车研发工程师
而且模型是死的,但是实际场景下的数据分布,各有各的特点
数据科学家的真正价值,就是洞察问题的数据先验特点,把他们表达在模型中,而这个就很考究从业者的水平了
无论paper上的模型怎么美妙,都是基于当时观察到的数据特征而设计的
而为了寻找数据特征,常用的加减乘除肯定是不够看的
微积分、线性代数、条件概率、贝叶斯公式、多元函数的极值判别、最优化方法自然少不了
讲了这么多,从技术的角度来说,算法相关的数据专家要求最高
但是不要仅凭此就认为,数据科学家已经站在鄙视链的顶点
从业务开展的角度来评判,三者做出的贡献不相上下
所以当你决定去从事数据相关的工作时,还是要根据自己的特点来
就像我,凭我的脑子,这辈子和数据科学家应该是say goodbye了