美文网首页
随机采样接口(子函数)

随机采样接口(子函数)

作者: mrlevo520 | 来源:发表于2016-10-31 22:04 被阅读187次

Python 2.7
IDE Pycharm 5.0.3
sklearn 0.17.


目前接口库

@MrLevo520--数据转化接口

仍在不断更新


目的

将一堆数据中随机或者按比例抽取部分作为训练样本并保存txt/csv


准备工作

请先安装相关科学计数包,numpy,sklearn等,具体看包导入情况进行相应安装


接口代码1-按数量随机抽样

首先新建一个py文件,我以demo.py为例这个名字随便取,只要调用时候用到就可以了),输入以下内容:

import numpy as np
from sklearn import cross_validation
import random
import string

def SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000):

    dataMat=[]
    fr = open(ReadPath,"r")
    for line in fr.readlines():
        curLine = str(line.strip())
        dataMat.append(curLine)
    fr.close()
    try:
        slice = random.sample(dataMat,SelectNum)

    except Exception as ex:
        print ex

    fw = open(SavePath,"a")
    for newline in slice:
        fw.write(str(newline).strip())
        fw.write("\n")
    fw.close()

# test
if __name__ == '__main__':
    
    SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

接口说明

SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# SelectNum是txt中的需要随机采样的个数。

接口(函数)调用实例

在同一工程目录下的另一个py文件中只需要操作如下

import demo
demo.SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

执行效果

左边是原始数据集,右边是随机抽取的1500个样本

这里写图片描述

接口代码2-按比例随机抽样

在刚才demo.py继续 输入以下内容(单独的话需要再重复导入包):

def SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1):

    dataCombineLabel =np.genfromtxt(ReadPath,delimiter=delimiter,dtype=None)
    selected,others = cross_validation.train_test_split(dataCombineLabel,test_size=1-SelectPrerc,random_state=randomState)
    fw = open(SavePath,"a")
    for line in selected:
        linelist = list(line)
        print linelist
        linestr = ",".join(map(str,linelist))
        fw.write(linestr)
        fw.write("\n")
    fw.close()

接口说明

SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# delimiter是制表分隔符,就是你的txt中是如何存储数据的具体而定,默认","
# SelectPrerc是需要随机采样的比例,默认20%
# randomState是随机数种子,随机数种子一样的话每次随机出来结果都一样

接口(函数)调用实例

import demo
demo.SelectPercSamping2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",",",0.2,1)


执行效果

左边是原始数据集,右边是随机按比例抽取的12830x0.2=2566个样本

这里写图片描述

Pay Attention

1.使用genfromtxt时,产生字符串读取为nan情况,参考官方文档,将其参数dtype=None设置即输出字符串和数字组合形式的元组类型,这时候如果要以csv这个格式输入txt,则需要先转换为list,使用list(tuple),转化为list之后,再使用map函数,map(str,list),可以把list中元素全部转化为str类型,再使用",".join(list)方式转化为可以写入txt的字符串形式,具体的可以看个例子:

>>list1 = ['a', 'b', 'c', 'd', 'e']
>>str_convert = ','.join(list1)
>>str_convert

输出形式

"a,b,c,d,e"

ok,这样就可以组成新的str然后写入txt了。

2.对于list写入txt,还有一个笨方法,限用于数量少的list,使用格式化字符串,举个例子

>>list1 = ['a', 3, 4.556]
>>str1 = "%s,%d,%.2f"%(list1[0],list1[1],list1[2])
>>print str1

输出

"a,3,4.56"
#适用于list小,而且定制化程度较高的例子

最后

有些接口经常用到,自己写了对以后帮助还是蛮大的,直接调用即可,等接口够多了,我整理一下写个小库出来,可以方便调用。


致谢

@CC要当程序猿--Numpy学习笔记1--genfromtxt
@pizi06--python string与list互转
@李博Garvin--【机器学习算法-python实现】采样算法的简单实现

相关文章

  • 随机采样接口(子函数)

    Python 2.7IDE Pycharm 5.0.3sklearn 0.17. 目前接口库 @MrLevo520...

  • 【SQL】抽样

    随机采样 分层采样 hash 版 非hash 版

  • 15. 随机森林

    Bootstraping: 有放回的采样 Bagging: 无放回采样n个样本一起建立分类器 随机森林 随机森林:...

  • SMOTE过采样

    SMOTE(合成少数类过采样),是基于随机过采样方法的一种改机方案。随机过采样通过简单复制样本的方式来增加少数样本...

  • hive随机采样

    数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢? 假设有一...

  • 点云采样

    原文链接 点云采样分类 点云采样的方法有很多种,常见的有均匀采样,几何采样,随机采样,格点采样等。下面介绍一些常见...

  • 概率简要学习记录

    随机数问题 构造均匀的随机数发生器 要等概率才可以丢掉 不均匀的随机数产生器 采样问题 水库采样利用数组和随机数取...

  • 机器学习intuitions

    一、随机森林随机森林先对数据集做采样,这个过程中很多可能会出现重复采样。随机森林就是多个决策树的组合,但每棵树采用...

  • 采样的作用

    定义:采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样可以让人们对随机事件及其...

  • Python 使用和高性能技巧总结

    1. 易混淆操作 本节对一些 Python 易混淆的操作进行对比。 1.1 有放回随机采样和无放回随机采样 imp...

网友评论

      本文标题:随机采样接口(子函数)

      本文链接:https://www.haomeiwen.com/subject/ijgputtx.html