数据(資料),Data (Datum 的复数)经常和「信息」「資訊」可以互用。
人类每天都会生产出大量的数据,不仅人类,各种各样的检测仪器都会产生数据。数据可以是数字,文本,图片,图像等各种可以被数字化的信息。
数据工程,就是用工程的手段来处理数据。数据工程基本会涉及下面几个方面:
一个运用数据处理的例子:
上面的例子用到了一个 IT 工具:浏览器。而数据工程师处理的问题经常是这样的:
要处理这个问题,需要掌握更多更强大的工具,并对数据有更深刻的认识。
初级入门:
- 有一定的英文基础
- 掌握编程技能(如 Python, R, SAS 等)
- 学习统计学和回归分析(需要一定的概率论和微积分基础)
- 掌握 SQL 查询语言和数据库
- 学习爬虫,日志收集,Analytics 等采集数据的手段
- 会搭建简单的 web 服务和编写网页
- 学习搜索引擎的原理
为了让你的程序变得更快更智能:
- 学习算法,计算机网络基础
- 学习 Linux 系统管理
- 学习机器学习和数据挖掘
- 学习自然语言处理和图像模式识别
当数据来源和种类都变得越来越多,变成了大数据:
- 学习数据仓库,ETL
- 学习算法基础,计算机网络基础
- 学习分布式系统,安装和使用大数据处理框架
- 掌握深度学习,用大数据训练更复杂的神经网络
- 设计数据产品,思考从数据中可以挖掘的价值
冰冻三尺非一日之寒,但是专注和努力进入了状态就会越学越快。
如果没有学校的条件,还可以参加很多优秀的网络课程 https://www.coursera.org/specializations/jhu-data-science
- 业务分析员 - 用技术提升业务效率和产出
- 数据分析师 - 运用数据模型解决问题
- 数据科学家 - 数据分析师的进阶,往往包括设计专用的数据分析模型
- 数据工程师 - 运用数据采集和分析工具,实现算法
- 数据架构师 - 统筹整合数据资源,架构数据平台
- 市场分析师 - 研究市场数据,帮助营销决策
- 量化分析师 - 运用数据工程进行量化交易,自动交易
- 统计专员 - 应用统计学知识分析数据,设计和制作报表
- ……
参考 https://www.mastersindatascience.org/careers/data-analyst/
Q: 我想成为数据工程师,数学不好怎么办?
A: 第一,很多分析工具不需要完整的数学知识就能使用。第二,掌握一些编程思维后,对学习数学会有不少启示和帮助。
Q: 我并不想成为数据工程师,了解这些有用吗?
A: 工程思维、编程思维对其他行业和学科也有意义。甚至能做点有趣的事情。


