基于sklearn的线性分类器logistics（对数几率回归）Python实现

声明：本人小白，文章作为自己的学习参考资料，供大家学习交流
本文章 refer to

作者：月见樽链接：https://www.jianshu.com/p/f9cb59dc99ec 来源：简书
作者：周志华书名：《机器学习》出版社：清华大学出版社

感谢此文章及书籍原创者
如有侵犯您的知识产权和版权问题，请通知本人，本人会即时做出处理并删除文章

Email：louhergetup@gmail.com

理论部分

线性分类器

特征与分类结果存在线性关系的模型为线性分类器，模型通过累积特征和对应权值的方式决策，几何学上可看成一个n维空间中的超平面，学习的过程就是不断调整超平面的位置与倾斜程度，使该超平面可以最完美的将属于不同类别的特征点区分开，公式为： $f(w,x,b) = w^{T}x+b$

logistic 函数

线性分类器输出的是一个数，我们希望这个数在区间[0,1]之间，需要一个映射关系，这个映射关系就是logistic函数 $\cfrac{1}{1 + e^{-x}}$ 下面使用numpy和matplot绘制该函数的图像

            
              x = np.linspace(start=-10,stop=10,num=1000)
y = 1 / (1 + np.exp(-x))
plt.plot(x,y)
plt.show()

将线性分类器公式带入logistics函数后，可得logistics回归模型 $\cfrac{1}{1 + e{-(w{T}x+b)}}$

对数几率回归

对数几率回归实际上是在用线性回归模型的预测结果去逼近真实的对数几率，特别需要注意的是虽然他的名字是“回归”，但实际上却是一种分类学习的方法，这种方法的优点有很多，例如：

它是直接对分类可能性进行建模，无需事先假设数据分布，这样就避免了假设分布不准所带来的问题；
它不是仅预测“类别”，而是可得到近似概率预测，这对许多需利用概率辅助决策的任务很有用；
对率回归求解的目标函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值化算法都可直接用于求解最优解。

使用python实现logistics

实验环境

操作系统：win10 64
编程语言：Python3.7.3

导入Python库

            
              import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import re
import csv
from sklearn.feature_extraction import DictVectorizer

数据源

我们用买电脑的例子作为数据源

将这些数据记录保存成 .csv 文件：

            
              RID,age,income,student,credit_rating,class:buys_computer
1,youth,hight,no,fair,no
2,youth,hight,no,excellent,no
3,middle_aged,hight,no,fair,yes
4,senior,medium,no,fair,yes
5,senior,low,yes,fair,yes
6,senior,low,yes,excellent,no
7,middle_aged,low,yes,excellent,yes
8,youth,medium,no,fair,no
9,youth,low,yes,fair,yes
10,senior,medium,yes,fair,yes
11,youth,medium,yes,excellent,yes
12,middle_aged,medium,no,excellent,yes
13,middle_aged,hight,yes,fair,yes
14,senior,medium,no,excellent,no

这些数据即我们这次应用的数据源

数据整理

利用python标准库中 csv 对这个数据源进行读取
整理原始数据集，把随机变量放在一个数组，分类结果放到另一个数组，形如：

            
              future_list = [
    {
        "age"   : "youth",
        "income": "hight",
        ...
    }
    ...
]

answer_list = ["no", "no", "yes", ...]

按照这个思路我们构造一下：

            
              data_file = open("computer_buy.csv", "r")
reader = csv.reader(data_file)
headers = next(reader)

future_list = []
label_list = []

for row in reader:
    label_list.append(row[-1])
    row_dict = {}
    for i in range(1, len(row) - 1):
        row_dict[headers[i]] = row[i]
    future_list.append(row_dict)
data_file.close()

随机变量向量化

在 sklearn 提供的库中，对输入的特征有一定的要求，所有特征和分类都要是数值型的值，不能是例子中的类别的值。

怎么转化呢？ 比方说 age 这个特征，它有三个值: youth , middle_aged , senior 。有一条记录的 age=youth 针对这个特征我们就变成：

youth	middle_aged	senior
1	0	0

那么第一条记录 youth,hight,no,fair 转化为：

age=middle_aged	age=senior	age=youth	credit_rating=excellent	credit_rating=fair	credit_rating=fair	income=low	income=medium	student=no	student=yes
0	0	1	0	1	1	0	0	1	0

特征向量化

            
              vec = DictVectorizer()
dummy_x = vec.fit_transform(future_list).toarray()

print("dummy_x:", dummy_x)
print("vec.get_feature_names()", vec.get_feature_names())

特征向量化结果

            
              dummy_x: [[0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]
 [0. 0. 1. 1. 0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 1. 0.]
 [0. 1. 0. 0. 1. 0. 0. 1. 1. 0.]
 [0. 1. 0. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 1. 0. 0. 1.]
 [1. 0. 0. 1. 0. 0. 1. 0. 0. 1.]
 [0. 0. 1. 0. 1. 0. 0. 1. 1. 0.]
 [0. 0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 0. 1. 0. 0. 1. 0. 1.]
 [0. 0. 1. 1. 0. 0. 0. 1. 0. 1.]
 [1. 0. 0. 1. 0. 0. 0. 1. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

分类结果向量化

            
              from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
dummy_y = lb.fit_transform(label_list)

模型建立

            
              from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

模型训练

            
              lr.fit(dummy_x, dummy_y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

模型测试

            
              from sklearn.metrics import classification_report
#测试数据
first_row = dummy_x[0, :]
new_row = list(first_row)
new_row[0] = 1
new_row[2] = 0

print(lr.score(dummy_x,dummy_y))
y_result = lr.predict(dummy_x)
print(classification_report(dummy_y, y_result, target_names=['NO', 'YES']))

            
              0.8571428571428571
              precision    recall  f1-score   support

          NO       1.00      0.60      0.75         5
         YES       0.82      1.00      0.90         9

   micro avg       0.86      0.86      0.86        14
   macro avg       0.91      0.80      0.82        14
weighted avg       0.88      0.86      0.85        14

classification_report()用于测试准确率，精确率和召回率
.score()用于评估本模型的准确率

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义