Python数据导入 - 军军小站|张军博客

一：从各种不同的格式文件中导入数据,总结目前最常用的文件格式导入数据的一些方法:

            
              # -*- coding:utf-8 -*-
from numpy import *

def loadDataSet(fileName):
    '''导入数据'''
    numFeat = len(open(fileName).readline().split('\t')) - 1
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat, labelMat

# def loadDataSet(fileName):
#     numFeat = len(open(fileName).readline().split('\t'))    # 计算有多少列
#     dataMat = []
#     labelMat = []
#     fr = open(fileName)
#     for line in fr.readlines():        #  遍历原始数据集每一行
#         lineArr =[]
#         curLine = line.strip().split('\t')      # 是一列表类型
#         for i in range(numFeat-1):     # numFeat - 1的原因：因为原始数据的最后一列是类别，不是属性数据
#             lineArr.append(float(curLine[i]))  # 一个一个传进lineArr列表向量
#         dataMat.append(lineArr)     # 再传进dataMat列表向量
#         labelMat.append(float(curLine[-1]))  # 写进标签列表
#     return dataMat, labelMat

if __name__ == "__main__":
    '''线性回归'''
    datafile = u'E:\\learningnotes\\programing\\big data\\MLaction_master\\Ch08_LinearRegression\\ex0.txt'
    #datafile = 'ex0.txt'
    xArr, yArr = loadDataSet(datafile)
    #xArr, yArr = loadDataSet('ex0.txt')
    print('xArr= \n', yArr)
    print('yArr= \n',  yArr)

注意事项：
（1）该函数块主要用于从原始数据文件（.txt,.data等）读取数据，用于机器学习算法的训练和测试应用
（2）labelMat是一列表，表示标签/类别
（3）dataMat也是列表类型
（4）当原始数据文件间的数据是空格隔开，则使用.split('\t')
若是逗号隔开，则使用.split(',')

二：其他总结

            
              # 从CSV文件导入数据
'''
步骤：
1. 打开文件
2.读取文件头
3.读取剩余行
4当发生错误时抛出异常
'''

import csv
import sys
filename = 'ex5.csv'
data = []
try:
    with open(filename) as f:
        reader = csv.reader(f)
        header = reader.next()
        data = [row for row in reader]
except csv.Error as e:
    print "Error reading CSV file at line %s : %s" % (reader.line_num, e)
    sys.exit(-1)
if header:
    print header
    print "=========="
for datarow in data:
    print datarow


# 从Excel文件中导入数据
'''
步骤：
1. 打开文件的工作簿。
2. 根据名称找到工作表。根据行数（nrows）和列数（ncols）读取单元格的内容。
3. 打印出数据集合。
'''
import xlrd
file = 'output.xls'
wb = xlrd.open_workbook(file)
ws = wb.sheet_by_name("sheet1")
dataset = []
for r in xrange(ws.nrows):
    col = []
    for c in range(ws.ncols):
        col.append(ws.cell(r, c).value)
    dataset.append(col)
# 美化打印
from pprint import pprint
pprint(dataset)

# 从定宽数据文件导入数据
'''
步骤：
1.指定要读取的数据文件。
2.定义数据读取的方式。
3.逐行读取文件并根据格式把每一行解析成单独的数据字段。
4.按单独数据字段的形式打印每一行。
'''
import struct
datafile = 'fix-width.data'
# 掩码定义为5s10s5s，表示为9个字符的字符串，跟一个10个字符的字符串，再跟一个5个字符的字符串（包括空格）。
mask = '5s10s5s'
results = []
with open(datafile, 'r') as f:
    for line in f:
        # 用格式解析的unpack_from方法。
        fields = struct.Struct(mask).unpack_from(line)
        results.append([field.strip() for field in fields])
from pprint import pprint
pprint(results)


# 从制表符分隔的文件中读取数据
'''
制表符分隔的文件大部分是可以用CSV文件导入的方法，除了一些不正常的文件。这时就需要在切分前对特殊行的数据进行单独清理。
'''

from pandas import DataFrame
lines = []
datafile = 'data_dirty.tab'
with open(datafile, "r") as f:
    for line in f:
        line = line.strip().split("\t")
        lines.append(line)
        results = DataFrame(lines[1:], columns=[lines[0]])
print results


# 从JSON数据源导入数据
'''
步骤：
1.指定URL读取JSON格式数据
2.使用requests模块访问指定的URL，并获取内容
3.读取内容并将转化为JSON格式的对象
4.迭代访问JSON对象，读取每一个代码库的URL值
'''
import requests
url = 'https://github.com/timeline.json'
r = requests.get(url)
json_obj = r.json()
repos = set()
for entry in json_obj:
    print entry

    try:
        repos.add(entry['repository']['url'])
    except KeyError as e:
        print "No key %s Skipping..." % (e)
from pprint import pprint
pprint(repos)

# 从HTML中导入数据
from lxml.html import parse
from urllib2 import urlopen
parsed = parse(urlopen("https://finance.yahoo.com/q/op?s=AAPL+Options"))
# 找到文档中的表格，并将其导入。
doc = parsed.getroot()
table = doc.findall(".//table")
# 然后选择一个表格做测试。
put = table[1]
# 对于一个表格来说，有一个标题和数据。在HTML中th单元格就表示标题行，td则表示数据行。
def _unpack(row, kind="td"):
    elts = row.findall(".//%s" % kind)
    return [val.text_content() for val in elts]
# 同时，在导入数据表格时，应该考虑到文本类型。我们使用pandas中的TextParser类自动类型转换。
from pandas.io.parsers import TextParser
def parse_options_data(table):
    rows = table.findall(".//tr")
    header = _unpack(rows[0], kind="th")
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk()
# 最后对这个表格调用该解析函数
put_data = parse_options_data(put)
print put_data[:10]
# 同时，我们也可以获取文档的全部URL
# 链接的标签是a。
links = doc.findall(".//a")
# print links[15:20]
# 得到一个链接的URL和文本内容分别使用，get()和text_content()方法
urls = [lnk.get("href") for lnk in links]
text = [lnk.text_content() for lnk in links]
from pprint import pprint
pprint(urls[:10])
print “============”

            
              pprint(text[:10])

三：实际案例导入代码

            
              # -*- coding:utf-8 -*-
sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import DataFrame,Series
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

#读取文件
datafile = u'E:\\learningnotes\\PycharmProjects\\untitled\\data_mining\\input\\datadata.xls'#文件所在位置，u为防止路径中有中文名称，此处没有，可以省略
data = pd.read_excel(datafile)#datafile是excel文件，所以用read_excel,如果是csv文件则用read_csv
examDf = DataFrame(data)
print('examDf=\n',examDf.head())
print('data=\n',data)

四：实际案例代码

            
              # -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#1获取数据
#1.1 数据来源二：导入文件数据
path = "../input/"
train = pd.read_csv(path+"train.csv")
train.columns=['q','w','e','r','label']
test = pd.read_csv(path+"data_iris_test.csv", header=-1) #header=-1为增加列名序号
test.columns=['q','w','e','r'] #列名修改
print("数据来源二：train集显示前十个--->\n",train.head(10))#显示前十个
print("test集显示前十个--->\n",test.head(10))
print("train集常用计算值描述--->\n",train.describe()) #描述

#1.2 数据来源一：导入sklearn里面的例子数据集
def load_data_iris():
    from sklearn import datasets
    iris=datasets.load_iris()#导入分类算法花数据集（load_boston()波士顿房价回归集；load_digits()手写数字分类集）
    x=iris.data #获取特征向量
    y=iris.target #获取样本label
    '''
    #查看数据集长什么样：
    print("数据来源一：iris--->\n",iris)
    print("x--->\n",x)
    print("y--->\n",y)
    print("iris.target_names--->\n",iris.target_names)
    print("DESCR--->\n",iris.DESCR)
    input()
    '''
#1.3 数据来源三：sklearn.datasets创建数据
def load_data_datasets():
    from sklearn.datasets.samples_generator import make_classification
    X,Y=make_classification(n_samples=6,n_features=5,n_informative=2,n_redundant=2,n_classes=2,n_clusters_per_class=2,scale=1.0,random_state=20)
    '''
    #n_samples:制定样本数
    #n_features:指定特征数
    #n_classes:指定几分类
    #random_state:随机种子，使得随机状可重
    for x_,y_ in zip(X,Y):
        print("数据来源三：y_:\n",y_)
        print("数据来源三：x_:\n",x_)
    input()
    '''

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义