连续数据离散化

在工作中经常会有对连续数据进行分级的工作。我们可以构造一个这样的实例：

import numpy as np from numpy.random import randomimport matplotlib.pyplot as plt %matplotlib inlinex = [a + 0.5*random() for i in range(20) for a in [1,2,2.5,3.5,4,5,6]]y = [3*random() for j in range(140)]plt.scatter(x,y,color = 'r')df = pd.DataFrame({'x':x,'y':y})

原始数据

人工分级 Artificial Division

对于少量数据来说，最准确的方法当然是人工分级。

scales = [0,1.8,3.2,4.6,5.6,7]colors = ['r','g','orange','b','pink']for i in range(len(scales)-1):    plt.scatter(df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['x'],df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['y'],color = colors[i])"plt.plot((1.8,1.8),(0,3.0),color = 'g')\nplt.plot((3.2,3.2),(0,3.0),color = 'g')\nplt.plot((4.6,4.6),(0,3.0),color = 'g')\nplt.plot((5.6,5.6),(0,3.0),color = 'g')"

人工分级

人工分级结果，各类数据分割清晰。

等间隔分级 Equal Interval Division

数据量增大之后，难以通过肉眼观察到分界点，可以采用等间隔分级的方式进行粗暴的分级，但是通常效果不好：

x_max = max(x)x_min = min(x)scale = (x_max - x_min)/5scales = [x_min + n * scale for n in range(1,5)]scales.insert(0,x_min)scales.append(x_max)for i in range(len(scales)-1):    plt.scatter(df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['x'],df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['y'],color = colors[i])

等间隔分级

等百分比分级 Equal Percentage Division

等间隔分级常常会导致各个级别中包含的数据量悬殊，为了避免这种情况，可以将绝对间隔改为相对间隔，即采用等百分比间隔分级

x = np.array(x)scales = [np.percentile(x,20*i) for i in range(1,5)]scales.insert(0,x_min)scales.append(x_max)for i in range(len(scales)-1):    plt.scatter(df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['x'],df[(df['x']>=scales[i])&(df['x']<=scales[i+1])]['y'],color = colors[i])

等百分比分级

K均值分级 K_Means Division

分级其实是一种聚类问题，自然可以使用聚类算法，我们可以尝试用最简单的聚类算法K均值聚类来进行分级实验：

from sklearn.cluster import KMeansx = x.reshape(-1,1)km = KMeans(n_clusters=5)km.fit(x)km.labels_

output:array([3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3,       1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1,       1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1,       2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2,       2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2,       4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4, 0, 3, 1, 1, 2, 2, 4,       0, 3, 1, 1, 2, 2, 4, 0])

import pandas as pd # x = np.squeeze(x)df['l'] = km.labels_colors = ['r','g','orange','b','pink']for i in range(5):    plt.scatter(df[df['l']==i]['x'],df[df['l']==i]['y'],color = colors[i])

K_means分级

如上图所示，K均值分级的效果堪比人工分级。

对机器学习和算法感兴趣的朋友可以加群交流：

机器学习-菜鸡互啄

文章链接：https://www.sbkko.com/ganhuo-183.html
文章标题：连续数据离散化
文章版权：SBKKO 所发布的内容，部分为原创文章，转载请注明来源，网络转载文章如有侵权请联系我们！

{{userData.name}}已认证

用Electron创建跨平台应用(第二弹)开启多窗口

python3测试工具开发快速入门教程1 turtle绘图-2函数

继续分享一波4K超高清壁纸合集共28.5GB

精选4K 8K超清游戏卡通动漫图库壁纸10G 2000多张素材

正能量励志唯美精选背景视频小短片素材打包下载

9G高清高质量的特效游戏动画短视频剪辑素材

采集的1743张 Bing 壁纸分享1920x1080

关于我们

免责声明

用户协议

提交建议

开通会员

积分专区

本站商城

在线留言

申请友链

广告合作

文章创作

推广中心

{{userData.name}}已认证

相关文章:

用Electron创建跨平台应用(第二弹)开启多窗口

python3测试工具开发快速入门教程1 turtle绘图-2函数

程序员必读：教你如何摸清哈希表（hash）的脾气

这2个多月，我报了文案和新媒体课，究竟学了些啥

hive+sublime操蛋问题高效率解决指南

超赞！不容错过的5款实用网页开发和设计工具

继续分享一波4K超高清壁纸合集 共28.5GB

精选4K 8K超清游戏卡通动漫图库壁纸10G 2000多张素材

正能量励志唯美 精选背景视频 小短片素材打包下载

9G高清高质量的特效游戏动画短视频剪辑素材

采集的1743张 Bing 壁纸分享1920x1080

关于我们

免责声明

用户协议

提交建议

开通会员

积分专区

本站商城

在线留言

申请友链

广告合作

文章创作

推广中心

继续分享一波4K超高清壁纸合集共28.5GB

正能量励志唯美精选背景视频小短片素材打包下载