Analisis Descriptivo de Datos¶

Datos: Casos positivos por COVID-19 en Perú
Departamento: Ancash
Fuente: [Ministerio de Salud - MINSA] - minsa.gob.pe
URL: https://cloud.minsa.gob.pe/s/Y8w3wHsEdYQSZRp/download
Video: https://youtu.be/E6_rqWMxXDQ
Repositorio: https://github.com/jaquino/ia_add
Vista previa: https://jaquino.github.io/ia_add/

Herramientas¶

Lenguaje de Programación: Python 3.8.x
Framework de trabajo: Jupiter Lab 2.1.x
Librerías
- Pandas
- Pandas Profiling

Bibliotecas de Python¶

import pandas as pd
import pandas_profiling
import warnings
warnings.filterwarnings('ignore')

Extracción de datos¶

url = 'https://cloud.minsa.gob.pe/s/Y8w3wHsEdYQSZRp/download'
df = pd.read_csv(url, encoding='ISO-8859-1')

Estructura de datos¶

df.head()

df.shape

(254936, 8)

df.dtypes

UUID                object
DEPARTAMENTO        object
PROVINCIA           object
DISTRITO            object
METODODX            object
EDAD               float64
SEXO                object
FECHA_RESULTADO     object
dtype: object

df.DEPARTAMENTO.value_counts()
# df.DEPARTAMENTO.value_counts()['ANCASH']

LIMA             144623
CALLAO            16986
PIURA             15389
LAMBAYEQUE        12315
LA LIBERTAD        8381
LORETO             8335
ANCASH             7133
UCAYALI            6989
ICA                6176
AREQUIPA           5744
SAN MARTIN         3553
JUNIN              3117
TUMBES             2288
HUANUCO            1818
AMAZONAS           1595
CAJAMARCA          1568
CUSCO              1561
AYACUCHO           1522
MADRE DE DIOS      1346
PASCO               866
MOQUEGUA            851
HUANCAVELICA        810
PUNO                766
TACNA               747
APURIMAC            457
Name: DEPARTAMENTO, dtype: int64

Limpieza previa de datos¶

Filtrado de datos - Departemaneto de Ancash

df_ancash = df[df.DEPARTAMENTO == 'ANCASH']
df_ancash.reset_index(drop=True, inplace=True)
df_ancash.shape

(7133, 8)

Convirtiendo el tipo de dato de FECHA_RESULTADO a datetime y EDAD a int

df_ancash.FECHA_RESULTADO = pd.to_datetime(df_ancash.FECHA_RESULTADO, errors='coerce')
df_ancash.EDAD = df_ancash.EDAD.fillna(0.0).astype(int)
df_ancash.dtypes

UUID                       object
DEPARTAMENTO               object
PROVINCIA                  object
DISTRITO                   object
METODODX                   object
EDAD                        int64
SEXO                       object
FECHA_RESULTADO    datetime64[ns]
dtype: object

Eliminando campos innecesarios

df_ancash.drop('UUID', axis=1, inplace=True)
df_ancash.head()

Eliminando datos redundantes

df_ancash.drop('DEPARTAMENTO', axis=1, inplace=True)

Verificando datos

df_ancash.head()

df_ancash.shape

(7133, 6)

df_ancash.dtypes

PROVINCIA                  object
DISTRITO                   object
METODODX                   object
EDAD                        int64
SEXO                       object
FECHA_RESULTADO    datetime64[ns]
dtype: object

Analítica descriptiva¶

Vista General
Variables
- Datos Categóricos
- Datos Cuantitativos (numéricos)
  - Tipo
    - Discretos
    - Continuos
  - Estadisticos
    - Tendencia central
      - Media
      - Mediana
      - Moda
    - Dispersión
      - Desviación estandard
      - Coeficiente de Variación
      - Mínimo
      - Máximo
      - Rango
    - Distribución
      - Simétrica
      - Asimétrica
        
        Positiva
        
        negativa
- Correlatividad
- Pérdida de datos

df_ancash.profile_report()

FIN¶

Javier Aquino - Junio - 2020

	UUID	DEPARTAMENTO	PROVINCIA	DISTRITO	METODODX	EDAD	SEXO	FECHA_RESULTADO
0	7320cabdc1aaca6c59014cae76a134e6	LIMA	LIMA	VILLA MARIA DEL TRIUNFO	PCR	30.0	FEMENINO	4/05/2020
1	e81602051997ace8340bb8c18fe24c65	LIMA	CANTA	SANTA ROSA DE QUIVES	PCR	41.0	FEMENINO	1/05/2020
2	cecdbf10074dbc011ae05b3cbd320a6f	LIMA	LIMA	ATE	PCR	32.0	MASCULINO	30/04/2020
3	71ecb6bccb248b0bb2ac72ed51b5e979	ANCASH	SANTA	NUEVO CHIMBOTE	PCR	59.0	FEMENINO	16/05/2020
4	566af4276cbe9359abe93f9aa86396c3	LIMA	LIMA	SURQUILLO	PCR	59.0	MASCULINO	2/05/2020

	DEPARTAMENTO	PROVINCIA	DISTRITO	METODODX	EDAD	SEXO	FECHA_RESULTADO
0	ANCASH	SANTA	NUEVO CHIMBOTE	PCR	59	FEMENINO	2020-05-16
1	ANCASH	SANTA	NUEVO CHIMBOTE	PCR	42	MASCULINO	2020-06-05
2	ANCASH	HUARAZ	HUARAZ	PCR	38	FEMENINO	2020-05-28
3	ANCASH	HUARAZ	HUARAZ	PCR	69	MASCULINO	2020-03-06
4	ANCASH	HUARAZ	HUARAZ	PCR	40	FEMENINO	2020-03-06

	PROVINCIA	DISTRITO	METODODX	EDAD	SEXO	FECHA_RESULTADO
0	SANTA	NUEVO CHIMBOTE	PCR	59	FEMENINO	2020-05-16
1	SANTA	NUEVO CHIMBOTE	PCR	42	MASCULINO	2020-06-05
2	HUARAZ	HUARAZ	PCR	38	FEMENINO	2020-05-28
3	HUARAZ	HUARAZ	PCR	69	MASCULINO	2020-03-06
4	HUARAZ	HUARAZ	PCR	40	FEMENINO	2020-03-06