如何学习Python进行数据分析

系统 1572 0

前言

之前一直做大数据方向的工作,用spark、flink、hive等等处理数据居多,语言方面一般使用scala、java很少用到python,但是不得不说如果想要从事算法方向的工作还是必须得把python用熟练了。下面整理一下学习的流程。

Python基础

这个很简单,但很重要,推荐看一下这本书的基础部分
主要掌握知识点:

  • 常用的数据结构及对应方法
  • 三种控制流的使用
  • 字符串的常用处理方法
  • 正则表达式的使用
  • 函数的编写

Python数值计算工具Numpy

尽管在python基础中学了有关存储数据的列表对象,但是其无法直接参与数值运算(虽然可以使用加法和乘法,但分别代表列表元素的增加和重复)。所以必须得熟练掌握另一种非常有用的数据结构,那就是数组,通过数组可以 实现各种常见的数学运算 ,而且基于数组的运算,也是非常高效的。
主要掌握知识点:

  • 数组的创建与操作
  • 数组的基本数学运算
  • 常用数学和统计函数
  • 线性代数求解

Python数据处理工具Pandas

通过numpy模块可以非常方便地调用各种常用的数学和统计函数。而数据处理模块Pandas可以帮助数据分析师轻松地解决 数据的预处理问题 ,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。
主要掌握知识点

  • 两种重要的数据结构,即序列和数据框
  • 如何读取外部数据(如文本文件、电子表格或数据库中的数据)
  • 数据类型转换及描述性统计分析; 字符型与日期型数据的处理
  • 常见的数据清洗方法
  • 如何应用iloc、loc、与ix完成数据子集的生成
  • 实现Excel中的透视表操作
  • 多表之间的合并与连接
  • 数据集的分组聚合操作

Python数据可视化

利用Python绘制常见的统计图形,例如条形图、饼图、直方图、折线图、散点图等,通过这些常用图形的展现,将复杂的数据简单化。这些图形的绘制可以通过matplotlib模块、pandas模块或者seaborn模块实现。
主要掌握知识点:

  • 离散型数据都有哪些可用的可视化方法
  • 数值型的单变量可用哪些图形展现
  • 多维数值之间的关系表达
  • 如何将多个图形绘制到一个画框内

上面的知识墙裂推荐利用Python进行数据分析(第二版)这本书

机器学习、深度学习

  • 机器学习(周志华)
  • 统计学习方法(李航)
  • 深度学习( 【美】伊恩·古德费洛 【加】约书亚·本吉奥 【加】亚伦·库维尔)

后记

按理来说学习是一件值得兴奋和快乐的事情,但是对于我们大部分人来说学习是为了带来更好的生活条件,这个时候学习可能就并不那么快乐,有时候甚至有些痛苦,不过凡是坚持下来的人,一定能笑到最后。


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论