# Manipulación de Datos

El principal objetivo de esta clase es introducir la biblioteca de análisis de datos __pandas__, la cual agrega mayor flexibilidad y opciones que Numpy, sin embargo el costo de esto se traduce en pérdida de rendimiento y eficiencia. Conocer los elemnos básicos pandas permite manejar desde pocos dados en un arhivo _excel_ hasta miles y millones de registros de una base de datos.

## Introducción a pandas

Desde de la [página oficial](https://pandas.pydata.org/) Pandas se introduce de la siguiente forma:

_pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language._

Mientras que su [misión](https://pandas.pydata.org/about/):

_pandas aims to be the fundamental high-level building block for doing practical, real world data analysis in Python. Additionally, it has the broader goal of becoming the most powerful and flexible open source data analysis / manipulation tool available in any language._

### Principales Características

* A fast and efficient __DataFrame__ object for data manipulation with integrated indexing;
* Tools for __reading and writing data__ between in-memory data structures and different formats: CSV and text files, Microsoft Excel, SQL databases, and the fast HDF5 format;
* Intelligent __data alignment__ and integrated handling of __missing data__: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form;
* Flexible __reshaping__ and pivoting of data sets;
* Intelligent label-based __slicing__, __fancy indexing__, and __subsetting__ of large data sets;
* Columns can be inserted and deleted from data structures for __size mutability__;
* Aggregating or transforming data with a powerful __group by__ engine allowing split-apply-combine operations on data sets;
* High performance __merging and joining__ of data sets;
* __Hierarchical axis indexing__ provides an intuitive way of working with high-dimensional data in a lower-dimensional data structure;
* __Time series__-functionality: date range generation and frequency conversion, moving window statistics, date shifting and lagging. Even create domain-specific time offsets and join time series without losing data;
* Highly __optimized for performance__, with critical code paths written in Cython or C.
* Python with pandas is in use in a wide variety of __academic and commercial__ domains, including Finance, Neuroscience, Economics, * Statistics, Advertising, Web Analytics, and more.

In [1]:
import pandas as pd

In [2]:
pd.__version__

'1.1.2'

<a id='series'></a>
## Series

Arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python.

In [3]:
# Descomenta y ejecuta para ver la documentación sobre pd.Series
# pd.Series?

Para crear una instancia de una serie existen muchas opciones, las más comunes son:

* A partir de una lista.
* A partir de un _numpy.array_.
* A partir de un diccionario.
* A partir de un archivo (por ejemplo un csv).

In [4]:
my_serie = pd.Series(range(3, 33, 3))
my_serie

0     3
1     6
2     9
3    12
4    15
5    18
6    21
7    24
8    27
9    30
dtype: int64

In [5]:
type(my_serie)

pandas.core.series.Series

In [6]:
# Presiona TAB y sorpréndete con la cantidad de métodos y atributos que poseen!
# my_serie.

Las series son arreglos unidemensionales que constan de _data_ e _index_.

In [7]:
# Data
my_serie.values

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30])

In [8]:
type(my_serie.values)

numpy.ndarray

In [9]:
# Index
my_serie.index

RangeIndex(start=0, stop=10, step=1)

In [10]:
type(my_serie.index)

pandas.core.indexes.range.RangeIndex

¿Te fijaste que el index es de otra clase?

A diferencia de Numpy, pandas ofrece más flexibilidad para los valores e índices.

In [11]:
my_serie_2 = pd.Series(range(3, 33, 3), index=list('abcdefghij'))
my_serie_2

a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

### Acceder a los valores de una

In [12]:
my_serie_2['b']

6

In [13]:
my_serie_2.loc['b']

6

In [14]:
my_serie_2.iloc[1]

6

```loc```?? ```iloc```?? ¿Qué es eso?

A modo de resumen:

* ```loc``` es un método que hace referencia a las etiquetas (*labels*) del objeto .
* ```iloc``` es un método que hace referencia posicional del objeto.

**Consejo**: Si quieres editar valores siempre utiliza ```loc``` y/o ```iloc```.

In [15]:
my_serie_2.loc['d'] = 1000

In [16]:
my_serie_2

a       3
b       6
c       9
d    1000
e      15
f      18
g      21
h      24
i      27
j      30
dtype: int64

¿Y si quiero escoger más de un valor?

In [17]:
my_serie_2.loc["b":"e"]  # Incluso retorna el último valor!

b       6
c       9
d    1000
e      15
dtype: int64

In [18]:
my_serie_2.iloc[1:5]  # Incluso retorna el último valor!

b       6
c       9
d    1000
e      15
dtype: int64

Sorpresa! También puedes filtrar según condiciones!

En la mayoría de los tutoriales en internet encontrarás algo como lo siguiente:

In [19]:
my_serie_2[my_serie_2 % 2 == 0]

b       6
d    1000
f      18
h      24
j      30
dtype: int64

Lo siguiente se conoce como _mask_, y se basa en el siguiente hecho:

In [20]:
my_serie_2 % 2 == 0  # Retorna una serie con valores booleanos pero los mismos index!

a    False
b     True
c    False
d     True
e    False
f     True
g    False
h     True
i    False
j     True
dtype: bool

Si es una serie resultante de otra operación, tendrás que guardarla en una variable para así tener el nombre y luego acceder a ella. La siguiente manera puede qeu sea un poco más verboso, pero te otorga más flexibilidad.

In [21]:
my_serie_2.loc[lambda s: s % 2 == 0]

b       6
d    1000
f      18
h      24
j      30
dtype: int64

Una función lambda es una función pequeña y anónima. Pueden tomar cualquer número de argumentos pero solo tienen una expresión.

### Trabajar con fechas

Pandas incluso permite que los index sean fechas! Por ejemplo, a continuación se crea una serie con fechas y valores de temperatura.

In [23]:
temperature = pd.read_csv(
    "https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv",
    index_col="Date",
    squeeze=True
)

In [24]:
temperature.head(10)

Date
1981-01-01    20.7
1981-01-02    17.9
1981-01-03    18.8
1981-01-04    14.6
1981-01-05    15.8
1981-01-06    15.8
1981-01-07    15.8
1981-01-08    17.4
1981-01-09    21.8
1981-01-10    20.0
Name: Temp, dtype: float64

In [25]:
temperature.tail(10)

Date
1990-12-22    13.2
1990-12-23    13.9
1990-12-24    10.0
1990-12-25    12.9
1990-12-26    14.6
1990-12-27    14.0
1990-12-28    13.6
1990-12-29    13.5
1990-12-30    15.7
1990-12-31    13.0
Name: Temp, dtype: float64

In [26]:
temperature.dtype

dtype('float64')

In [27]:
temperature.index

Index(['1981-01-01', '1981-01-02', '1981-01-03', '1981-01-04', '1981-01-05',
       '1981-01-06', '1981-01-07', '1981-01-08', '1981-01-09', '1981-01-10',
       ...
       '1990-12-22', '1990-12-23', '1990-12-24', '1990-12-25', '1990-12-26',
       '1990-12-27', '1990-12-28', '1990-12-29', '1990-12-30', '1990-12-31'],
      dtype='object', name='Date', length=3650)

**OJO!** Los valores del Index son _strings_ (_object_ es una generalización). 

**Solución:** _Parsear_ a elementos de fecha con la función ```pd.to_datetime()```.

In [28]:
# pd.to_datetime?

In [32]:
temperature.index = pd.to_datetime(temperature.index, format='%Y-%m-%d')

In [33]:
temperature.index

DatetimeIndex(['1981-01-01', '1981-01-02', '1981-01-03', '1981-01-04',
               '1981-01-05', '1981-01-06', '1981-01-07', '1981-01-08',
               '1981-01-09', '1981-01-10',
               ...
               '1990-12-22', '1990-12-23', '1990-12-24', '1990-12-25',
               '1990-12-26', '1990-12-27', '1990-12-28', '1990-12-29',
               '1990-12-30', '1990-12-31'],
              dtype='datetime64[ns]', name='Date', length=3650, freq=None)

Para otros tipos de _parse_ puedes visitar la documentación [aquí](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).


La idea de los elementos de fecha es poder realizar operaciones que resulten naturales para el ser humano. Por ejemplo:

In [34]:
temperature.index.min()

Timestamp('1981-01-01 00:00:00')

In [35]:
temperature.index.max()

Timestamp('1990-12-31 00:00:00')

In [37]:
temperature.index.max() - temperature.index.min()

Timedelta('3651 days 00:00:00')

Volviendo a la Serie, podemos trabajar con todos sus elementos, por ejemplo, determinar rápidamente la máxima tendencia.

In [38]:
max_temperature = temperature.max()
max_temperature

26.3

Para determinar el _index_ correspondiente al valor máximo usualmente se utilizan dos formas:

* Utilizar una máscara (*mask*)
* Utilizar métodos ya implementados

In [39]:
# Mask
temperature[temperature == max_temperature]

Date
1982-02-15    26.3
Name: Temp, dtype: float64

In [40]:
# Built-in method
temperature.idxmax()

Timestamp('1982-02-15 00:00:00')

<a id='dataframes'></a>
## DataFrames

Arreglo bidimensional y extensión natural de una serie. Podemos pensarlo como la generalización de un numpy.array.

Para motivar utilizaremos los datos de COVID-19 disponibilizados por el Ministerio de Ciencias, Tecnología, Conocimiento e Innovación de Chile. En particular, los casos totales por comuna, puedes leer más detalles en el [repositorio oficial](https://github.com/MinCiencia/Datos-COVID19/tree/master/output/producto1).

In [46]:
covid = pd.read_csv("https://raw.githubusercontent.com/MinCiencia/Datos-COVID19/master/output/producto1/Covid-19_std.csv")
covid.head()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,2020-03-30,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,2020-03-30,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,2020-03-30,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,2020-03-30,0.0
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,2020-03-30,


In [56]:
covid.tail()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
19543,Magallanes,12,Rio Verde,12103.0,211.0,2020-09-25,1.0
19544,Magallanes,12,San Gregorio,12104.0,681.0,2020-09-25,2.0
19545,Magallanes,12,Timaukel,12303.0,282.0,2020-09-25,1.0
19546,Magallanes,12,Torres del Paine,12402.0,1021.0,2020-09-25,0.0
19547,Magallanes,12,Desconocido Magallanes,,,2020-09-25,29.0


In [61]:
covid.query("Region == 'Valparaíso'")

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
49,Valparaíso,5,Algarrobo,5602.0,15174.0,2020-03-30,7.0
50,Valparaíso,5,Cabildo,5402.0,20663.0,2020-03-30,0.0
51,Valparaíso,5,Calera,5502.0,53591.0,2020-03-30,6.0
52,Valparaíso,5,Calle Larga,5302.0,16482.0,2020-03-30,0.0
53,Valparaíso,5,Cartagena,5603.0,25357.0,2020-03-30,0.0
...,...,...,...,...,...,...,...
19269,Valparaíso,5,Valparaiso,5101.0,315732.0,2020-09-25,6890.0
19270,Valparaíso,5,Villa Alemana,5804.0,139310.0,2020-09-25,2518.0
19271,Valparaíso,5,Vina del Mar,5109.0,361371.0,2020-09-25,6556.0
19272,Valparaíso,5,Zapallar,5405.0,7994.0,2020-09-25,138.0


In [47]:
type(covid)

pandas.core.frame.DataFrame

In [48]:
covid.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19548 entries, 0 to 19547
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Region             19548 non-null  object 
 1   Codigo region      19548 non-null  int64  
 2   Comuna             19548 non-null  object 
 3   Codigo comuna      18684 non-null  float64
 4   Poblacion          18684 non-null  float64
 5   Fecha              19548 non-null  object 
 6   Casos confirmados  19129 non-null  float64
dtypes: float64(3), int64(1), object(3)
memory usage: 1.0+ MB


In [49]:
covid.dtypes

Region                object
Codigo region          int64
Comuna                object
Codigo comuna        float64
Poblacion            float64
Fecha                 object
Casos confirmados    float64
dtype: object

Puedes pensar que un dataframe es una colección de series

In [50]:
covid['Casos confirmados'].head()

0    6.0
1    0.0
2    0.0
3    0.0
4    NaN
Name: Casos confirmados, dtype: float64

In [52]:
type(covid['Casos confirmados'])

pandas.core.series.Series

### Exploración 

In [53]:
covid.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Codigo region,19548.0,8.78453,3.879209,1.0,6.0,8.0,13.0,16.0
Codigo comuna,18684.0,9034.99711,3812.727918,1101.0,6109.0,8313.5,13103.0,16305.0
Poblacion,18684.0,56237.890173,88819.716373,137.0,9546.0,19770.0,56058.0,645909.0
Casos confirmados,19129.0,659.288776,2033.571904,0.0,5.0,46.0,236.0,25779.0


In [54]:
covid.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Region,19548,16.0,Metropolitana,2862.0,,,,,,,
Codigo region,19548,,,,8.78453,3.87921,1.0,6.0,8.0,13.0,16.0
Comuna,19548,362.0,Paillaco,54.0,,,,,,,
Codigo comuna,18684,,,,9035.0,3812.73,1101.0,6109.0,8313.5,13103.0,16305.0
Poblacion,18684,,,,56237.9,88819.7,137.0,9546.0,19770.0,56058.0,645909.0
Fecha,19548,54.0,2020-05-08,362.0,,,,,,,
Casos confirmados,19129,,,,659.289,2033.57,0.0,5.0,46.0,236.0,25779.0


In [55]:
covid.max()

Region                    Ñuble
Codigo region                16
Comuna                 Zapallar
Codigo comuna             16305
Poblacion                645909
Fecha                2020-09-25
Casos confirmados         25779
dtype: object

Para extraer elementos lo más recomendable es el método loc.

In [62]:
covid.loc[19271, 'Region']

'Valparaíso'

Evita acceder con doble corchete

In [63]:
covid[19271]['Region']

KeyError: 19271

Aunque en ocasiones funcione, no se asegura que sea siempre así. [Más info aquí.](https://pandas.pydata.org/pandas-docs/stable/indexing.html#why-does-assignment-fail-when-using-chained-indexing)

In [64]:
covid['Region'].value_counts()

Metropolitana         2862
Valparaíso            2106
O’Higgins             1836
Biobío                1836
Araucanía             1782
Maule                 1674
Los Lagos             1674
Ñuble                 1188
Coquimbo               864
Los Ríos               702
Magallanes             648
Aysén                  594
Atacama                540
Antofagasta            540
Tarapacá               432
Arica y Parinacota     270
Name: Region, dtype: int64

### Valores perdidos/nulos

Pandas ofrece herramientas para trabajar con valors nulos, pero es necesario conocerlas y saber aplicarlas. Por ejemplo, el método ```isnull()``` entrega un booleano si algún valor es nulo.

__Ejemplo:__ ¿Qué registros tienen casos confirmados nulos?

In [65]:
covid.index.shape

(19548,)

In [68]:
covid.loc[lambda x: x['Casos confirmados'].isnull()]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,2020-03-30,
12,Tarapacá,1,Desconocido Tarapaca,,,2020-03-30,
22,Antofagasta,2,Desconocido Antofagasta,,,2020-03-30,
32,Atacama,3,Desconocido Atacama,,,2020-03-30,
48,Coquimbo,4,Desconocido Coquimbo,,,2020-03-30,
...,...,...,...,...,...,...,...
9344,Araucanía,9,Desconocido Araucania,,,2020-06-15,
9357,Los Ríos,14,Desconocido Los Rios,,,2020-06-15,
9388,Los Lagos,10,Desconocido Los Lagos,,,2020-06-15,
9399,Aysén,11,Desconocido Aysen,,,2020-06-15,


Si deseamos encontrar todas las filas que contengan por lo menos un valor nulo.

In [69]:
covid.isnull()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,True,True,False,True
...,...,...,...,...,...,...,...
19543,False,False,False,False,False,False,False
19544,False,False,False,False,False,False,False
19545,False,False,False,False,False,False,False
19546,False,False,False,False,False,False,False


In [70]:
rows_null_mask = covid.isnull().any(axis=1)  # axis=1 hace referencia a las filas.
rows_null_mask.head()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [71]:
covid[rows_null_mask].head()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,2020-03-30,
12,Tarapacá,1,Desconocido Tarapaca,,,2020-03-30,
22,Antofagasta,2,Desconocido Antofagasta,,,2020-03-30,
32,Atacama,3,Desconocido Atacama,,,2020-03-30,
48,Coquimbo,4,Desconocido Coquimbo,,,2020-03-30,


In [72]:
covid[rows_null_mask].shape

(867, 7)

Para determinar aquellos que no tienen valors nulos el procedimiento es similar.

In [73]:
covid.loc[lambda x: x.notnull().all(axis=1)].head()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,2020-03-30,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,2020-03-30,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,2020-03-30,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,2020-03-30,0.0
5,Tarapacá,1,Alto Hospicio,1107.0,129999.0,2020-03-30,0.0


Pandas incluso ofrece opciones para eliminar elementos nulos!

In [75]:
# Cualquier registro con null
print(covid.dropna().shape)
# Filas con elementos nulos
print(covid.dropna(axis=0).shape)
# Columnas con elementos nulos
print(covid.dropna(axis=1).shape)

(18681, 7)
(18681, 7)
(19548, 4)


## Resumen
* Pandas posee una infinidad de herramientas para trabajar con datos, incluyendo la carga, manipulación, operaciones y filtrado de datos.
* La documentación oficial (y StackOverflow) son tus mejores amigos.
* La importancia está en darle sentido a los datos, no solo a coleccionarlos.