当前位置: 代码迷 >> 综合 >> 分析pandas的数据,分析某一列数据的长度分布等等
  详细解决方案

分析pandas的数据,分析某一列数据的长度分布等等

热度:86   发布时间:2024-03-08 14:59:46.0

"""

分析数据

————如分析sku的长度

"""

import pandas as pd

import numpy as np

 

data_file='./data/data_zh/sku_80k.csv' #待分析的文件

 

def ana_len(file,key=None):

    """

    分析某一字段的长度分布

    :param file: 要分析的文件

    :param key: 要分析的字段

    :return:

    """

    key_len=key+"_len"

    data=pd.read_csv(data_file,nrows=None)

    data[key_len]=data[key].apply(len)

    #percentiles指定排前%的取值,默认值是25 45 75

    print( data[key_len].describe(percentiles=[0.1,0.25,0.75,0.8,0.9,0.95,0.999]))

    # 中位数

    print(data[key_len].median())

 

    print(data[key_len].value_counts()) #

    return 0

 

if __name__=="__main__":

    ana_len(data_file,key="k_text")

  相关解决方案