Breaking News: Grepper is joining You.com. Read the official announcement!

pandas df describe()

Add Answer

Piotr Adaszewski answered on April 16, 2022 Popularity 10/10 Helpfulness 3/10

answer pandas df describe()

related pandas describe

pandas df describe()

Comment

Tip Piotr Adaszewski 1 GREPCC

df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),
...                    'numeric': [1, 2, 3],
...                    'object': ['a', 'b', 'c']
...                   })
>>> df.describe()
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

xxxxxxxxxx

df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),

...                    'numeric': [1, 2, 3],

...                    'object': ['a', 'b', 'c']

...                   })

>>> df.describe()

       numeric

count      3.0

mean       2.0

std        1.0

min        1.0

25%        1.5

50%        2.0

75%        2.5

max        3.0

Popularity 10/10 Helpfulness 3/10 Language python

Source: pandas.pydata.org

Tags: pandas python

Link to this answer
Share Copy Link

Contributed on Apr 16 2022

Piotr Adaszewski

0 Answers Avg Quality 2/10

Closely Related Answers

pandas describe

Comment

Tip Tired Trout 1 GREPCC

df.describe() #when df is a Pandas dataframe

xxxxxxxxxx

df.describe() #when df is a Pandas dataframe

Popularity 10/10 Helpfulness 2/10 Language python

Source: Grepper

Tags: describe describ

Link to this answer
Share Copy Link

Contributed on Apr 25 2022

Tired Trout

0 Answers Avg Quality 2/10

pandas describe

Comment

Tip Homely Herring 1 GREPCC

pandas describe without outliers

def drop_series_outliers(serie):
    """
    Drop outliers from a pandas series.

    Args:
        serie (pd.Series): Series to drop outliers from.

    Returns:
        pd.Series: Series without outliers in it
    """
    q_1 = serie.quantile(0.25)
    q_3 = serie.quantile(0.75)
    iqr = q_3 - q_1  # Interquartile range
    low = q_1 - 1.5 * iqr
    high = q_3 + 1.5 * iqr

    return serie.loc[(serie > low) & (serie < high)]


def describe(data, *args, drop_outliers=True, **kwargs):
    """
    Describe a pd.DataFrame with some useful information.

    Args:
        data (pd.DataFrame): DataFrame to describe.
        *args: Arguments to pass to pd.DataFrame.describe.
        **kwargs: Keyword arguments to pass to pd.DataFrame.describe.

    Returns:
        pd.DataFrame: DataFrame with the description.
    """
    desc = data.describe(*args, **kwargs).T
    cols = [
        "count",
        "nulls",
        "nulls%",
        "unique",
        "unique%",
        "mean",
        "std",
        "min",
        "25%",
        "50%",
        "75%",
        "max",
        "dtype",
        "memory",
        "memory%",
    ]

    # if data should be cleaned from outliers
    if drop_outliers:
        wo_outliers = pd.DataFrame(
            {
                name: values.pipe(drop_series_outliers).describe(*args, **kwargs).values
                for name, values in data.iteritems()
            },
            index=["count", "mean", "std", "min", "25%", "50%", "75%", "max"],
        ).T
        desc["outliers"] = desc["count"] - wo_outliers["count"]
        desc["outliers%"] = desc.outliers / desc["count"]
        desc["ovr_min"] = desc["min"]
        desc["ovr_max"] = desc["max"]
        desc["mean"] = wo_outliers["mean"]
        desc["std"] = wo_outliers["std"]
        desc["min"] = wo_outliers["min"]
        desc["25%"] = wo_outliers["25%"]
        desc["50%"] = wo_outliers["50%"]
        desc["75%"] = wo_outliers["75%"]
        desc["max"] = wo_outliers["max"]
        cols = [
            "count",
            "nulls",
            "nulls%",
            "outliers",
            "outliers%",
            "unique",
            "unique%",
            "mean",
            "std",
            "ovr_min",
            "min",
            "25%",
            "50%",
            "75%",
            "ovr_max",
            "max",
            "dtype",
            "memory",
            "memory%",
        ]

    desc["nulls"] = data.isnull().sum()
    desc["nulls%"] = desc["nulls"] / len(data)
    desc["unique"] = data.nunique()
    desc["unique%"] = desc["unique"] / len(data)
    desc["dtype"] = data.dtypes
    desc["memory"] = data.memory_usage(deep=True)
    desc["memory%"] = desc["memory"] / desc["memory"].sum()

    return desc[cols]
  
df.pipe(describe)

xxxxxxxxxx

def drop_series_outliers(serie):

"""

    Drop outliers from a pandas series.

    Args:

        serie (pd.Series): Series to drop outliers from.

    Returns:

        pd.Series: Series without outliers in it

"""

    q_1 = serie.quantile(0.25)

    q_3 = serie.quantile(0.75)

    iqr = q_3 - q_1  # Interquartile range

    low = q_1 - 1.5 * iqr

    high = q_3 + 1.5 * iqr

    return serie.loc[(serie > low) & (serie < high)]

def describe(data, *args, drop_outliers=True, **kwargs):

"""

    Describe a pd.DataFrame with some useful information.

    Args:

        data (pd.DataFrame): DataFrame to describe.

        *args: Arguments to pass to pd.DataFrame.describe.

        **kwargs: Keyword arguments to pass to pd.DataFrame.describe.

    Returns:

        pd.DataFrame: DataFrame with the description.

"""

    desc = data.describe(*args, **kwargs).T

    cols = [

        "count",

        "nulls",

        "nulls%",

        "unique",

        "unique%",

        "mean",

        "std",

        "min",

        "25%",

        "50%",

        "75%",

        "max",

        "dtype",

        "memory",

        "memory%",

    # if data should be cleaned from outliers

    if drop_outliers:

        wo_outliers = pd.DataFrame(

                name: values.pipe(drop_series_outliers).describe(*args, **kwargs).values

                for name, values in data.iteritems()

},

            index=["count", "mean", "std", "min", "25%", "50%", "75%", "max"],

).T

        desc["outliers"] = desc["count"] - wo_outliers["count"]

        desc["outliers%"] = desc.outliers / desc["count"]

        desc["ovr_min"] = desc["min"]

        desc["ovr_max"] = desc["max"]

        desc["mean"] = wo_outliers["mean"]

        desc["std"] = wo_outliers["std"]

        desc["min"] = wo_outliers["min"]

        desc["25%"] = wo_outliers["25%"]

        desc["50%"] = wo_outliers["50%"]

        desc["75%"] = wo_outliers["75%"]

        desc["max"] = wo_outliers["max"]

        cols = [

            "count",

            "nulls",

            "nulls%",

            "outliers",

            "outliers%",

            "unique",

            "unique%",

            "mean",

            "std",

            "ovr_min",

            "min",

            "25%",

            "50%",

            "75%",

            "ovr_max",

            "max",

            "dtype",

            "memory",

            "memory%",

    desc["nulls"] = data.isnull().sum()

    desc["nulls%"] = desc["nulls"] / len(data)

    desc["unique"] = data.nunique()

    desc["unique%"] = desc["unique"] / len(data)

    desc["dtype"] = data.dtypes

    desc["memory"] = data.memory_usage(deep=True)

    desc["memory%"] = desc["memory"] / desc["memory"].sum()

    return desc[cols]

df.pipe(describe)

An enhanced describe function without outliers for pandas

Popularity 10/10 Helpfulness 2/10 Language javascript

Source: Grepper

Tags: describe describ

Link to this answer
Share Copy Link

Contributed on Jan 06 2023

Homely Herring

0 Answers Avg Quality 2/10

pandas df describe()

Contents

More Related Answers

pandas df describe()

Closely Related Answers

pandas describe

pandas describe

Grepper

Documentation

Social

Legal

Contact

Oops, You will need to install Grepper and log-in to perform this action.