Python+sklearn机器学习应该了解的33个基本概念

系统 1433 0

机器学习(Machine Learning)根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。

目前机器学习已经有了十分广泛的应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

总体上说,机器学习算法和问题可以分为有监督学习和无监督学习两大类。

在有监督学习中,数据带有额外的属性(例如每个样本所属的类别),必须同时包含输入和输出(也就是特征和目标),通过大量已知的数据不断训练和减少错误来提高认知能力,最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。在分类算法中,样本属于两个或多个离散的类别之一,我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。如果预期的输出是一个或多个连续变量,则分类问题变为回归问题。

在无监督学习算法中,训练数据包含一组输入向量而没有任何相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合(称作聚类),或者确定数据的分布(称作密度估计),或者把数据从高维空间投影到二维或三维空间(称作降维)以便进行可视化。

一般地,不会把给定的整个数据集都用来训练模型,而是将其分成训练集和测试集两部分,模型使用训练集进行训练(或学习),然后把测试集输入训练好的模型并评估其表现。另外,大多数模型都有若干参数可以设置,例如支持向量机模型的gamma参数,这些参数可以手动设置,也可以使用网格搜索(grid search)和交叉验证(cross validation)寻找合适的值。

接下来,我们一起了解一下机器学习中常见的几个概念。

阅读原文


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论