前言
之前一直做大数据方向的工作,用spark、flink、hive等等处理数据居多,语言方面一般使用scala、java很少用到python,但是不得不说如果想要从事算法方向的工作还是必须得把python用熟练了。下面整理一下学习的流程。
Python基础
这个很简单,但很重要,推荐看一下这本书的基础部分
主要掌握知识点:
- 常用的数据结构及对应方法
- 三种控制流的使用
- 字符串的常用处理方法
- 正则表达式的使用
- 函数的编写
Python数值计算工具Numpy
尽管在python基础中学了有关存储数据的列表对象,但是其无法直接参与数值运算(虽然可以使用加法和乘法,但分别代表列表元素的增加和重复)。所以必须得熟练掌握另一种非常有用的数据结构,那就是数组,通过数组可以
实现各种常见的数学运算
,而且基于数组的运算,也是非常高效的。
主要掌握知识点:
- 数组的创建与操作
- 数组的基本数学运算
- 常用数学和统计函数
- 线性代数求解
Python数据处理工具Pandas
通过numpy模块可以非常方便地调用各种常用的数学和统计函数。而数据处理模块Pandas可以帮助数据分析师轻松地解决
数据的预处理问题
,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。
主要掌握知识点
- 两种重要的数据结构,即序列和数据框
- 如何读取外部数据(如文本文件、电子表格或数据库中的数据)
- 数据类型转换及描述性统计分析; 字符型与日期型数据的处理
- 常见的数据清洗方法
- 如何应用iloc、loc、与ix完成数据子集的生成
- 实现Excel中的透视表操作
- 多表之间的合并与连接
- 数据集的分组聚合操作
Python数据可视化
利用Python绘制常见的统计图形,例如条形图、饼图、直方图、折线图、散点图等,通过这些常用图形的展现,将复杂的数据简单化。这些图形的绘制可以通过matplotlib模块、pandas模块或者seaborn模块实现。
主要掌握知识点:
- 离散型数据都有哪些可用的可视化方法
- 数值型的单变量可用哪些图形展现
- 多维数值之间的关系表达
- 如何将多个图形绘制到一个画框内
上面的知识墙裂推荐利用Python进行数据分析(第二版)这本书
机器学习、深度学习
- 机器学习(周志华)
- 统计学习方法(李航)
- 深度学习( 【美】伊恩·古德费洛 【加】约书亚·本吉奥 【加】亚伦·库维尔)
后记
按理来说学习是一件值得兴奋和快乐的事情,但是对于我们大部分人来说学习是为了带来更好的生活条件,这个时候学习可能就并不那么快乐,有时候甚至有些痛苦,不过凡是坚持下来的人,一定能笑到最后。