Python Pandas es una bi­blio­te­ca de código abierto de­sa­rro­lla­da es­pe­cí­fi­ca­me­n­te para el análisis y la ma­ni­pu­la­ción de datos, ofrece a los pro­gra­ma­do­res es­tru­c­tu­ras de datos y funciones que si­m­pli­fi­can co­n­si­de­ra­ble­me­n­te el manejo de tablas numéricas y series te­m­po­ra­les.

Dominios web
Compra y registra tu dominio ideal
  • Gratis SSL Wildcard para tra­n­s­fe­re­n­cias de datos más seguras
  • Gratis registro privado para más pri­va­ci­dad

¿Para qué se utiliza Python Pandas?

La bi­blio­te­ca Pandas se utiliza en diversas áreas del pro­ce­sa­mie­n­to de datos. Gracias a su amplia gama de funciones, puedes cubrir un gran espectro de apli­ca­cio­nes con Python Pandas:

  • Análisis Ex­plo­ra­to­rio de Datos (EDA): Python Pandas facilita la ex­plo­ra­ción y co­m­pre­n­sión de conjuntos de datos. Con funciones como describe(), head() o info(), los de­sa­rro­lla­do­res pueden obtener rá­pi­da­me­n­te in­fo­r­ma­ción sobre los conjuntos de datos e ide­n­ti­fi­car co­rre­la­cio­nes es­ta­dí­s­ti­cas.
  • Limpieza y pre­pro­ce­sa­mie­n­to de datos: antes de poder analizar los datos pro­ce­de­n­tes de distintas fuentes, debes li­m­piar­los y ada­p­tar­los a un formato coherente. Pandas ofrece diversas funciones para filtrar y tra­n­s­fo­r­mar los datos.
  • Ma­ni­pu­la­ción y tra­n­s­fo­r­ma­ción de datos: la tarea principal de Pandas es manipular, analizar y tra­n­s­fo­r­mar conjuntos de datos. Funciones como merge() o groupby() permiten realizar ope­ra­cio­nes complejas con los datos.
  • Vi­sua­li­za­ción de datos: también puedes utilizar Pandas para vi­sua­li­zar datos, co­m­bi­ná­n­do­lo con bi­blio­te­cas como Ma­t­plotlib o Seaborn. De esta manera, los Da­ta­Fra­mes de Pandas se pueden vi­sua­li­zar o convertir di­re­c­ta­me­n­te en gráficos re­pre­se­n­ta­ti­vos.

Ventajas de Python Pandas

Python Pandas ofrece numerosas ventajas que la co­n­vie­r­ten en una he­rra­mie­n­ta in­di­s­pe­n­sa­ble para analistas de datos e in­ve­s­ti­ga­do­res. Su API es intuitiva y fácil de entender, lo que garantiza una gran facilidad de uso. Dado que las es­tru­c­tu­ras de datos centrales de Python Pandas, DataFrame y Series, son similares a las hojas de cálculo, aprender a usarlas resulta sencillo.

Otra ventaja clave de Python Pandas es su re­n­di­mie­n­to. Aunque Python se considera un lenguaje de pro­gra­ma­ción re­la­ti­va­me­n­te lento, Pandas puede procesar efi­cie­n­te­me­n­te grandes conjuntos de datos. Esto es posible porque la bi­blio­te­ca está escrita en C y utiliza al­go­ri­t­mos op­ti­mi­za­dos.

Python Pandas admite una amplia variedad de formatos de datos, como CSV, Excel y bases de datos SQL, lo que permite importar y exportar datos de diversas fuentes, ofre­cie­n­do una fle­xi­bi­li­dad im­pre­sio­na­n­te. Además, su in­te­gra­ción con otras bi­blio­te­cas del eco­si­s­te­ma Python, como NumPy o Ma­t­plotlib, aumenta la fle­xi­bi­li­dad y permite un análisis y modelado exhau­s­ti­vo de datos.

Nota

Si tienes ex­pe­rie­n­cia en otros lenguajes de pro­gra­ma­ción, como R, o en lenguajes de bases de datos, como SQL, en­co­n­tra­rás muchos conceptos fa­mi­lia­res cuando trabajes con Pandas.

La sintaxis de Pandas con un ejemplo práctico

Para ilustrar la sintaxis básica de Pandas, veamos un ejemplo sencillo. Su­po­n­ga­mos que tenemos un conjunto de datos CSV que contiene in­fo­r­ma­ción sobre ventas. Ca­r­ga­re­mos este conjunto de datos, lo ana­li­za­re­mos y rea­li­za­re­mos algunas ma­ni­pu­la­cio­nes básicas de los datos. El conjunto de datos tiene la siguiente es­tru­c­tu­ra:

Date,Product,Quantity,Price
2024-01-01,Product A,10,20.00
2024-01-02,Product B,5,30.00
2024-01-03,Product C,7,25.00
2024-01-04,Product A,3,20.00
2024-01-05,Product B,6,30.00
2024-01-06,Product C,2,25.00
2024-01-07,Product A,8,20.00
2024-01-08,Product B,4,30.00
2024-01-09,Product C,10,25.00

Paso 1. Importar Pandas y cargar el conjunto de datos

Después de importar Python Pandas, puedes crear un DataFrame a partir de los datos CSV uti­li­za­n­do la función read_csv().

import pandas as pd
# Cargar el conjunto de datos desde un archivo CSV llamado sales_data.csv
df = pd.read_csv('sales_data.csv')
python

Paso 2. Analizar el conjunto de datos

Puedes obtener una visión general de los datos ob­se­r­va­n­do las primeras líneas y un resumen es­ta­dí­s­ti­co del conjunto de datos. Utiliza las funciones head() y describe() para ello. Esta última función pro­po­r­cio­na una visión general de los in­di­ca­do­res es­ta­dí­s­ti­cos clave, como el valor mínimo y máximo, la de­s­via­ción estándar y la media.

# Mostrar las primeras cinco filas del DataFrame
print(df.head())
# Mostrar un resumen estadístico
print(df.describe())
python

Paso 3. Ma­ni­pu­la­ción de datos

Python Pandas también facilita la ma­ni­pu­la­ción de datos. En el siguiente fragmento de código, añadimos los datos de ventas por producto y mes:

# Convertir la columna “Date” en un objeto de tipo datetime para que las fechas sean reconocidas como tales
df['Date'] = pd.to_datetime(df['Date'])
# Extraer el mes de la columna “Date” y guardarlo en una nueva columna llamada “Month”
df['Month'] = df['Date'].dt.month
# Calcular los ingresos (Quantity * Price) y guardarlos en una columna llamada “Revenue”
df['Revenue'] = df['Quantity'] * df['Price']
# Agregar los datos de ventas por producto y mes
sales_summary = df.groupby(['Product', 'Month'])['Revenue'].sum().reset_index()
# Mostrar los datos agregados
print(sales_summary)
python

Paso 4. Vi­sua­li­za­ción de datos

Fi­na­l­me­n­te, puedes vi­sua­li­zar las cifras de ventas mensuales de un producto uti­li­za­n­do la bi­blio­te­ca adicional de Python Ma­t­plotlib.

import matplotlib.pyplot as plt
# Filtrar los datos para un producto específico
product_sales = sales_summary[sales_summary['Product'] == 'Product A']
# Crear un gráfico de líneas
plt.plot(product_sales['Month'], product_sales['Revenue'], marker='o')
plt.xlabel('Mes')
plt.gca().set_xticks(product_sales['Month'])
plt.ylabel('Ingresos')
plt.title('Ingresos mensuales del Producto A')
plt.grid(True)
plt.show()
python

El gráfico vi­sua­li­za­do muestra que en el primer mes del año se generaron 940 dólares en ingresos con el Producto A. El gráfico tiene el siguiente aspecto:

Imagen: Trazar datos de Python Pandas
Los datos de Python Pandas se pueden trazar fá­ci­l­me­n­te en co­m­bi­na­ción con otras bi­blio­te­cas.
Ir al menú principal