# Introducción al Cálculo Científico

En esta clase introduciremos algunos conceptos de computación cientifica en Python, principalmente utilizando la biblioteca `NumPy`, piedra angular de otras librerías científicas.

## SciPy.org

**SciPy** es un ecosistema de software _open-source_ para matemática, ciencia y engeniería. Las principales bibliotecas son:

* NumPy: Arrays N-dimensionales. Librería base, integración con C/C++ y Fortran.
* SciPy library: Computación científica (integración, optimización, estadística, etc.)
* Matplotlib: Visualización 2D:
* IPython: Interactividad (Project Jupyter).
* SimPy: Matemática Simbólica.
* Pandas: Estructura y análisis de datos.

## Numpy

NumPy es el paquete fundamental para la computación científica en Python. Proporciona un objeto de matriz multidimensional, varios objetos derivados (como matrices y arreglos) y una variedad de rutinas para operaciones rápidas en matrices, incluida la manipulación matemática, lógica, de formas, clasificación, selección, I/O, transformadas discretas de Fourier, álgebra lineal básica, operaciones estadísticas básicas, simulación y mucho más. [Fuente.](https://numpy.org/devdocs/user/whatisnumpy.html)

Para comenzar, la forma usual de importar `NumPy` es utilizando el alias `np`. Lo verás así en una infinidad de ejmplos, libros, blogs, etc.

In [1]:
import numpy as np

### Lo básico

Los objetos principales de Numpy son los comúnmente conocidos como NumPy Arrays (la clase se llama `ndarray`), corresponden a una tabla de elementos, todos del mismo tipo, indexados por una tupla de enternos no-negativos. En NumPy, las dimensiones son llamadas `axes` (ejes) y su singular `axis` (eje), similar a un plano cartesiano generalizado. Esta parte de la clase está basada en el _Quickstart tutorial_ en la página oficial ([link](https://numpy.org/devdocs/user/quickstart.html)).

Instanciar un NumPy Array es simple es utilizando el constructor propio de la biblioteca.

In [2]:
a = np.array(
    [
        [ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]
    ]
)

In [3]:
type(a)

numpy.ndarray

Los atributos más importantes de un `ndarray` son:

In [4]:
a.shape  # the dimensions of the array.

(3, 5)

In [5]:
a.ndim  # the number of axes (dimensions) of the array.

2

In [6]:
a.size  # the total number of elements of the array.

15

In [7]:
a.dtype  # an object describing the type of the elements in the array. 

dtype('int64')

In [8]:
a.itemsize  # the size in bytes of each element of the array.

8

### Crear Numpy Arrays

Hay varias formas de crear arrays, el constructor básico es el que se utilizó hace unos momentos, `np.array`. El _type_ del array resultante es inferido de los datos proporcionados. 

In [9]:
a_int = np.array([2, 6, 10])
a_float = np.array([2.1, 6.1, 10.1])  

print(f"a_int: {a_int.dtype.name}")
print(f"a_float: {a_float.dtype.name}")

a_int: int64
a_float: float64


También es posible utilizar otras estructuras de Python, como listas o tuplas.

In [10]:
a_list = [1, 1, 2, 3, 5]
np.array(a_list)

array([1, 1, 2, 3, 5])

In [11]:
a_tuple = (1, 1, 1, 3, 5, 9)
np.array(a_tuple)

array([1, 1, 1, 3, 5, 9])

__¡Cuidado!__ Es fácil confundirse con las dimensiones o el tipo de argumento en los contructores de NumPy, por ejemplo, utilizando una lista podríamos crear un arreglo de una o dos dimensiones si no tenemos cuidado.

In [12]:
one_dim_array = np.array(a_list)
two_dim_array = np.array([a_list])
print(f"np.array(a_list) = {one_dim_array} tiene shape: {one_dim_array.shape}, es decir, {one_dim_array.ndim} dimensión(es).")
print(f"np.array([a_list]) = {two_dim_array} tiene shape: {two_dim_array.shape}, es decir, {two_dim_array.ndim} dimensión(es).")

np.array(a_list) = [1 1 2 3 5] tiene shape: (5,), es decir, 1 dimensión(es).
np.array([a_list]) = [[1 1 2 3 5]] tiene shape: (1, 5), es decir, 2 dimensión(es).


Una funcionalidad útil son los constructores especiales a partir de constantes.

In [13]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [14]:
np.ones((2, 3, 4), dtype=np.int)  # dtype can also be specified

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [15]:
np.identity(4)  # Identity matrix

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

Por otro lado, NumPy proporciona una función análoga a `range`.

In [16]:
range(10)

range(0, 10)

In [17]:
type(range(10))

range

In [18]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
type(np.arange(10))

numpy.ndarray

In [20]:
np.arange(3, 10)

array([3, 4, 5, 6, 7, 8, 9])

In [21]:
np.arange(2, 20, 3, dtype=np.float)

array([ 2.,  5.,  8., 11., 14., 17.])

In [22]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

__Bonus:__ Utilizar `np.arange` tiene como _"ingredientes"_ el inicio (_start_), fin (_stop_) y el tamaño del espacio entre valores (_step_) y el largo (`len`) depende estos argumentos. Sin embargo, existe la función `np.linspace` que construye un `np.array` con un inicio y un fin, pero indicando la cantidad de elementos (y por lo tanto, el espaciado depende es este).

In [23]:
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

Esto puede causar confusiones en ocasiones, pues recuerda que la indexación de Python (y por lo tanto NumPy) comienza en cero, por lo que si quieres replicar el `np.array` anterior con `np.arange` debes tener esto en consideración. Es decir:

In [24]:
np.arange(start=0, stop=100, step=25)  # stop = 100

array([ 0, 25, 50, 75])

In [25]:
np.arange(start=0, stop=101, step=25)  # stop = 101

array([  0,  25,  50,  75, 100])

No podía faltar la instanciación a través de elementos aleatorios

In [26]:
np.random.random(size=3)  # Elementos entre 0 y 1

array([0.32731854, 0.93479434, 0.94007496])

In [27]:
np.random.uniform(low=3, high=7, size=5)  # Desde una distribución uniforme

array([5.32270468, 3.60527105, 3.92195641, 5.06818868, 3.18427198])

In [28]:
np.random.normal(loc=100, scale=10, size=(2, 3))   # Desde una distribución normal indicando media y desviación estándar

array([[115.12796277,  90.04180939,  87.12345232],
       [106.67999907,  91.10215876,  66.25344135]])

### Acceder a los elementos de un array

Es muy probable que necesites acceder a elementos o porciones de un array, para ello NumPy tiene una sintáxis consistente con Python.

In [29]:
x1 = np.arange(0, 30, 4)
x2 = np.arange(0, 60, 3).reshape(4, 5)
print("x1:")
print(x1)
print("\nx2:")
print(x2)

x1:
[ 0  4  8 12 16 20 24 28]

x2:
[[ 0  3  6  9 12]
 [15 18 21 24 27]
 [30 33 36 39 42]
 [45 48 51 54 57]]


In [30]:
x1[1]  # Un elemento de un array 1D

4

In [31]:
x1[:3]  # Los tres primeros elementos

array([0, 4, 8])

In [32]:
x2[0, 2]  # Un elemento de un array 2D

6

In [33]:
x2[0]  # La primera fila

array([ 0,  3,  6,  9, 12])

In [34]:
x2[:, 1]  # Todas las filas y la segunda columna

array([ 3, 18, 33, 48])

In [35]:
x2[:, 1:3]  # Todas las filas y de la segunda a la tercera columna

array([[ 3,  6],
       [18, 21],
       [33, 36],
       [48, 51]])

Nuevamente, recordar que Python tiene indexación partiendo desde cero. Además, la dimensión del arreglo también depende de la forma en que se haga la selección. 

In [36]:
x2[:, 2]

array([ 6, 21, 36, 51])

In [37]:
x2[:, 2:3]  # What?!

array([[ 6],
       [21],
       [36],
       [51]])

En el ejemplo anterior los valores son los mismos, pero las dimensiones no. En el primero se utiliza `indexing` para acceder a la tercera columna, mientras que en el segundo `slicing` para acceder desde la tercera columna a la tercera columna.

In [38]:
print(x2[:, 2].shape)
print(x2[:, 2:3].shape)

(4,)
(4, 1)


### Operaciones Básias

Numpy provee operaciones vectorizadas, con tal de mejorar el rendimiento de la ejecución.

Por ejemplo, pensemos en la suma de dos arreglos 2D.

In [39]:
A = np.random.random((5,5))
B = np.random.random((5,5))

Con los conocimientos de la clase pasada, podríamos pensar en iterar a través de dos `for`, con tal de llenar el arreglo resultando. algo así:

In [40]:
def my_sum(A, B):
    n, m = A.shape
    C = np.empty(shape=(n, m))
    for i in range(n):
        for j in range(m):
            C[i, j] = A[i, j] + B[i, j]
    return C

In [41]:
%timeit my_sum(A, B)

16.7 µs ± 1.12 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Pero la suma de `ndarray`s es simplemente con el signo de suma (`+`):

In [42]:
%timeit A + B 

499 ns ± 38.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Para dos arrays tan pequeños la diferencia de tiempo es considerable, ¡Imagina con millones de datos!

Los clásicos de clásicos:

In [43]:
x = np.arange(5)
print(f"x      = {x}")
print(f"x + 5  = {x + 5}")
print(f"x - 5  = {x - 5}")
print(f"x * 2  = {x * 2}")
print(f"x / 2  = {x / 2}")
print(f"x // 2 = {x // 2}")
print(f"x ** 2 = {x ** 2}")
print(f"x % 2  = {x % 2}")

x      = [0 1 2 3 4]
x + 5  = [5 6 7 8 9]
x - 5  = [-5 -4 -3 -2 -1]
x * 2  = [0 2 4 6 8]
x / 2  = [0.  0.5 1.  1.5 2. ]
x // 2 = [0 0 1 1 2]
x ** 2 = [ 0  1  4  9 16]
x % 2  = [0 1 0 1 0]


¡Júntalos como quieras!

In [44]:
-(0.5 + x + 3) ** 2

array([-12.25, -20.25, -30.25, -42.25, -56.25])

Al final del día, estos son alias para funciones de Numpy, por ejemplo, la operación suma (`+`) es un _wrapper_ de la función `np.add`

In [45]:
np.add(x, 5)

array([5, 6, 7, 8, 9])

Podríamos estar todo el día hablando de operaciones, pero básicamente, si piensas en alguna operación lo suficientemente común, es que la puedes encontrar implementada en Numpy. Por ejemplo:

In [46]:
np.abs(-(0.5 + x + 3) ** 2)

array([12.25, 20.25, 30.25, 42.25, 56.25])

In [47]:
np.log(x + 5)

array([1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])

In [48]:
np.exp(x)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [49]:
np.sin(x)

array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

Para dimensiones mayores la idea es la misma, pero siempre hay que tener cuidado con las dimensiones y `shape` de los arrays.

In [50]:
print("A + B: \n")
print(A + B)
print("\n" + "-" * 80 + "\n")
print("A - B: \n")
print(A - B)
print("\n" + "-" * 80 + "\n")
print("A * B: \n")
print(A * B)  # Producto elemento a elemento
print("\n" + "-" * 80 + "\n")
print("A / B: \n")
print(A / B)  # División elemento a elemento
print("\n" + "-" * 80 + "\n")
print("A @ B: \n")
print(A @ B)  # Producto matricial

A + B: 

[[1.21509356 0.59518078 1.42079575 0.43453175 0.58500921]
 [0.72750061 1.01231789 1.51268736 1.03240811 0.8743873 ]
 [1.00803624 0.53602051 0.61394761 0.83902264 0.62669605]
 [0.94645907 1.78080346 1.7047011  0.62049143 1.09499148]
 [1.26387033 0.25961887 1.35454549 0.76623696 0.43789076]]

--------------------------------------------------------------------------------

A - B: 

[[ 0.56072363 -0.51866509  0.41299329 -0.06888284  0.28152413]
 [-0.30934089  0.46217101 -0.30398011 -0.63744487 -0.39585782]
 [-0.76826049 -0.06102782 -0.23787406 -0.69972293  0.0174535 ]
 [-0.28024107 -0.04843902 -0.05630471 -0.5487833  -0.37170522]
 [ 0.17512514 -0.17150236 -0.51970924  0.41950627 -0.35636741]]

--------------------------------------------------------------------------------

A * B: 

[[0.29051034 0.02130667 0.46202428 0.04601825 0.06574498]
 [0.10839134 0.20279637 0.54895478 0.16488264 0.15196243]
 [0.10647822 0.0708984  0.0800869  0.0535867  0.09811083]
 [0.20431243 0.79222866 0.

### Operaciones Booleanas

In [51]:
print(f"x      = {x}")
print(f"x > 2  = {x > 2}")
print(f"x == 2 = {x == 2}")
print(f"x == 2 = {x == 2}")

x      = [0 1 2 3 4]
x > 2  = [False False False  True  True]
x == 2 = [False False  True False False]
x == 2 = [False False  True False False]


In [52]:
aux1 = np.array([[1, 2, 3], [2, 3, 5], [1, 9, 6]])
aux2 = np.array([[1, 2, 3], [3, 5, 5], [0, 8, 5]])

B1 = aux1 == aux2
B2 = aux1 > aux2

print("B1: \n")
print(B1)
print("\n" + "-" * 80 + "\n")
print("B2: \n")
print(B2)
print("\n" + "-" * 80 + "\n")
print("~B1: \n")
print(~B1)  # También puede ser np.logical_not(B1)
print("\n" + "-" * 80 + "\n")
print("B1 | B2 : \n")
print(B1 | B2)
print("\n" + "-" * 80 + "\n")
print("B1 & B2 : \n")
print(B1 & B2)

B1: 

[[ True  True  True]
 [False False  True]
 [False False False]]

--------------------------------------------------------------------------------

B2: 

[[False False False]
 [False False False]
 [ True  True  True]]

--------------------------------------------------------------------------------

~B1: 

[[False False False]
 [ True  True False]
 [ True  True  True]]

--------------------------------------------------------------------------------

B1 | B2 : 

[[ True  True  True]
 [False False  True]
 [ True  True  True]]

--------------------------------------------------------------------------------

B1 & B2 : 

[[False False False]
 [False False False]
 [False False False]]


### Broadcasting

¿Qué pasa si las dimensiones no coinciden? Observemos lo siguiente:

In [53]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

array([5, 6, 7])

Todo bien, dos arrays 1D de 3 elementos, la suma retorna un array de 3 elementos. 

In [54]:
a + 3

array([3, 4, 5])

Sigue pareciendo normal, un array 1D de 3 elementos, se suma con un `int`, lo que retorna un array 1D de tres elementos.

In [55]:
M = np.ones((3, 3))
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [56]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

Magia! Esto es _broadcasting_. Una pequeña infografía para digerirlo:

![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

Resumen: A lo menos los dos arrays deben coincidir en una dimensión. Luego, el array de dimensión menor se extiende con tal de ajustarse a las dimensiones del otro.

La documentación oficial de estas reglas la puedes encontrar [aquí](https://numpy.org/devdocs/user/basics.broadcasting.html).