Analisis Descriptivo de Datos

Herramientas

  • Lenguaje de Programación: Python 3.8.x
  • Framework de trabajo: Jupiter Lab 2.1.x
  • Librerías
    • Pandas
    • Pandas Profiling

Bibliotecas de Python

In [1]:
import pandas as pd
import pandas_profiling
import warnings
warnings.filterwarnings('ignore')

Extracción de datos

In [2]:
url = 'https://cloud.minsa.gob.pe/s/Y8w3wHsEdYQSZRp/download'
df = pd.read_csv(url, encoding='ISO-8859-1')

Estructura de datos

In [3]:
df.head()
Out[3]:
UUID DEPARTAMENTO PROVINCIA DISTRITO METODODX EDAD SEXO FECHA_RESULTADO
0 7320cabdc1aaca6c59014cae76a134e6 LIMA LIMA VILLA MARIA DEL TRIUNFO PCR 30.0 FEMENINO 4/05/2020
1 e81602051997ace8340bb8c18fe24c65 LIMA CANTA SANTA ROSA DE QUIVES PCR 41.0 FEMENINO 1/05/2020
2 cecdbf10074dbc011ae05b3cbd320a6f LIMA LIMA ATE PCR 32.0 MASCULINO 30/04/2020
3 71ecb6bccb248b0bb2ac72ed51b5e979 ANCASH SANTA NUEVO CHIMBOTE PCR 59.0 FEMENINO 16/05/2020
4 566af4276cbe9359abe93f9aa86396c3 LIMA LIMA SURQUILLO PCR 59.0 MASCULINO 2/05/2020
In [4]:
df.shape
Out[4]:
(254936, 8)
In [5]:
df.dtypes
Out[5]:
UUID                object
DEPARTAMENTO        object
PROVINCIA           object
DISTRITO            object
METODODX            object
EDAD               float64
SEXO                object
FECHA_RESULTADO     object
dtype: object
In [6]:
df.DEPARTAMENTO.value_counts()
# df.DEPARTAMENTO.value_counts()['ANCASH']
Out[6]:
LIMA             144623
CALLAO            16986
PIURA             15389
LAMBAYEQUE        12315
LA LIBERTAD        8381
LORETO             8335
ANCASH             7133
UCAYALI            6989
ICA                6176
AREQUIPA           5744
SAN MARTIN         3553
JUNIN              3117
TUMBES             2288
HUANUCO            1818
AMAZONAS           1595
CAJAMARCA          1568
CUSCO              1561
AYACUCHO           1522
MADRE DE DIOS      1346
PASCO               866
MOQUEGUA            851
HUANCAVELICA        810
PUNO                766
TACNA               747
APURIMAC            457
Name: DEPARTAMENTO, dtype: int64

Limpieza previa de datos

  • Filtrado de datos - Departemaneto de Ancash
In [7]:
df_ancash = df[df.DEPARTAMENTO == 'ANCASH']
df_ancash.reset_index(drop=True, inplace=True)
df_ancash.shape
Out[7]:
(7133, 8)
  • Convirtiendo el tipo de dato de FECHA_RESULTADO a datetime y EDAD a int
In [8]:
df_ancash.FECHA_RESULTADO = pd.to_datetime(df_ancash.FECHA_RESULTADO, errors='coerce')
df_ancash.EDAD = df_ancash.EDAD.fillna(0.0).astype(int)
df_ancash.dtypes
Out[8]:
UUID                       object
DEPARTAMENTO               object
PROVINCIA                  object
DISTRITO                   object
METODODX                   object
EDAD                        int64
SEXO                       object
FECHA_RESULTADO    datetime64[ns]
dtype: object
  • Eliminando campos innecesarios
In [9]:
df_ancash.drop('UUID', axis=1, inplace=True)
df_ancash.head()
Out[9]:
DEPARTAMENTO PROVINCIA DISTRITO METODODX EDAD SEXO FECHA_RESULTADO
0 ANCASH SANTA NUEVO CHIMBOTE PCR 59 FEMENINO 2020-05-16
1 ANCASH SANTA NUEVO CHIMBOTE PCR 42 MASCULINO 2020-06-05
2 ANCASH HUARAZ HUARAZ PCR 38 FEMENINO 2020-05-28
3 ANCASH HUARAZ HUARAZ PCR 69 MASCULINO 2020-03-06
4 ANCASH HUARAZ HUARAZ PCR 40 FEMENINO 2020-03-06
  • Eliminando datos redundantes
In [10]:
df_ancash.drop('DEPARTAMENTO', axis=1, inplace=True)
  • Verificando datos
In [11]:
df_ancash.head()
Out[11]:
PROVINCIA DISTRITO METODODX EDAD SEXO FECHA_RESULTADO
0 SANTA NUEVO CHIMBOTE PCR 59 FEMENINO 2020-05-16
1 SANTA NUEVO CHIMBOTE PCR 42 MASCULINO 2020-06-05
2 HUARAZ HUARAZ PCR 38 FEMENINO 2020-05-28
3 HUARAZ HUARAZ PCR 69 MASCULINO 2020-03-06
4 HUARAZ HUARAZ PCR 40 FEMENINO 2020-03-06
In [12]:
df_ancash.shape
Out[12]:
(7133, 6)
In [13]:
df_ancash.dtypes
Out[13]:
PROVINCIA                  object
DISTRITO                   object
METODODX                   object
EDAD                        int64
SEXO                       object
FECHA_RESULTADO    datetime64[ns]
dtype: object

Analítica descriptiva

  • Vista General
  • Variables
    • Datos Categóricos
    • Datos Cuantitativos (numéricos)
      • Tipo
        • Discretos
        • Continuos
      • Estadisticos
        • Tendencia central
          • Media
          • Mediana
          • Moda
        • Dispersión
          • Desviación estandard
          • Coeficiente de Variación
          • Mínimo
          • Máximo
          • Rango
        • Distribución
          • Simétrica
          • Asimétrica
            • Positiva
            • negativa
    • Correlatividad
    • Pérdida de datos
In [14]:
df_ancash.profile_report()



Out[14]:

FIN

  • Javier Aquino - Junio - 2020