Python multiprocessing: ejecución de procesos en paralelo

Índice

Python multiprocessing te permite dividir la carga de trabajo en varios procesos y reducir así el tiempo total de ejecución. Esto supone una gran ventaja, especialmente cuando deben realizarse muchos cálculos o cuando hay grandes conjuntos de datos.

¿Qué es Python multiprocessing?

El multiprocesamiento en Python se refiere a la capacidad de ejecutar varios procesos a la vez para aprovechar al máximo el rendimiento de los sistemas de núcleo múltiple. A diferencia de los sistemas de un solo hilo, en los que las tareas se ejecutan de forma secuencial, el multiprocesamiento permite que diferentes partes del programa se ejecuten en paralelo e independientemente. Cada proceso tiene su propio espacio de memoria y se puede procesar en núcleos de procesador separados, lo que reduce significativamente el tiempo de ejecución para operaciones que requieren muchos cálculos o tienen requisitos de tiempo estrictos.

El Python multiprocessing puede utilizarse en el procesamiento y análisis de datos, por ejemplo, para procesar grandes conjuntos de datos de manera más rápida. También puede emplearse en simulaciones y cálculos de modelado, como en aplicaciones científicas, para reducir los tiempos de ejecución de cálculos complejos. Además, el multiprocesamiento se utiliza en el ámbito del web scraping para recopilar datos de varias páginas web simultáneamente, así como en el procesamiento de imágenes y visión por computadora para mejorar la eficiencia de las operaciones de análisis.

¿Dónde se puede implementar el multiprocesamiento en Python?

Python ofrece varias posibilidades de implementar el multiprocesamiento. A continuación, te presentamos tres herramientas habituales: el módulo multiprocessing, la biblioteca concurrent.futures y el paquete joblib.

El módulo `multiprocessing`

Multiprocessing es el módulo estándar para el multiprocesamiento de Python. Con él es posible crear procesos, intercambiar datos entre esos procesos y realizar sincronizaciones mediante bloqueos, colas y otros mecanismos.

import multiprocessing
def task(n):
    result = n * n
    print(f"Result: {result}")
if __name__ == "__main__":
    processes = []
    for i in range(1, 6):
        process = multiprocessing.Process(target=task, args=(i,))
        processes.append(process)
        process.start()
    for process in processes:
        process.join()

python

En el anterior ejemplo se ha utilizado la clase multiprocessing.Process para crear e iniciar procesos que ejecutan la función task(). Esta función toma el número transferido y lo eleva al cuadrado. Después, se inicia cada proceso y se espera a que terminen antes de continuar con el programa principal. El resultado se obtiene con un f-string, que es un método de Python string format para enlazar expresiones. La secuencia de salida de los resultados no sigue un orden específico y puede variar en cada ejecución.

También puedes crear un pool de procesos con Python multiprocessing de la siguiente manera:

import multiprocessing
def task(n):
    return n * n
if __name__ == "__main__":
    with multiprocessing.Pool() as pool:
        results = pool.map(task, range(1, 6))
        print(results)  # Output: [1, 4, 9, 16, 25]

python

Con pool.map() se aplica la función task() a una secuencia de datos, y se recopilan y devuelven los resultados.

La biblioteca `concurrent.futures`

El módulo concurrent.futures proporciona una interfaz de alto nivel para la ejecución asíncrona y el procesamiento en paralelo de tareas. Utiliza el Pool Executor para ejecutar tareas en un pool de procesos o hilos. Este módulo ofrece una manera más sencilla de manejar tareas asíncronas y, en muchos casos, es más fácil de usar que el módulo multiprocessing de Python.

import concurrent.futures
def task(n):
    return n * n
with concurrent.futures.ProcessPoolExecutor() as executor:
    futures = [executor.submit(task, i) for i in range(1, 6)]
    for future in concurrent.futures.as_completed(futures):
        print(future.result()) # result in random order

python

El código utiliza el módulo concurrent.futures para procesar tareas en paralelo con el ProcessPoolExecutor. La función task(n) se transfiere para números del 1 al 5. El método as_completed() espera a que se completen las tareas y devuelve los resultados en un orden aleatorio.

`joblib`

joblib es una biblioteca externa de Python diseñada para simplificar el procesamiento en paralelo, por ejemplo, para tareas repetitivas como ejecutar funciones con diferentes parámetros de entrada o trabajar con grandes cantidades de datos. Las principales funciones de joblib son paralelizar tareas, almacenar en caché los resultados de las funciones y optimizar los recursos de memoria y computación.

from joblib import Parallel, delayed
def task(n):
    return n * n
results = Parallel(n_jobs=4)(delayed(task)(i) for i in range(1, 11))
print(results) # Output: Results of the function for numbers from 1 to 10

python

Con la expresión Parallel(n_jobs=4)(delayed(task)(i) for i in range(1, 11)) se inicia la ejecución en paralelo de la función task() para los números del 1 al 10. Parallel está configurado con el argumento n_jobs=4, lo que indica que se pueden procesar hasta cuatro trabajos en paralelo. Al llamar a delayed(task)(i), se crea la tarea que debe ejecutarse en paralelo para cada número i en el rango del 1 al 10. Es decir, se llama a la función task() simultáneamente para cada uno de esos números. El resultado para los números del 1 al 10 se almacena en results y se imprime.

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Comparamos 5 alternativas a Nextcloud

¿Buscas alternativas a Nextcloud y quieres saber si están a su nivel? Te ofrecemos un…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

GaudiLabShutterstock

Python: la función type()

La función type() de Python forma parte del ámbito básico de este lenguaje de programación dinámico. Si se compara con otras funciones, type() cuenta con dos aplicaciones que difieren en gran medida. Te explicamos de forma clara de qué se trata type() de Python. Además, podrás…

Tutoriales
Python

REDPIXEL.PLShutterstock

Append de Python: amplía listas fácilmente

La gestión de listas se considera una parte importante de muchos programas Python. Por lo tanto, no es de extrañar que ya existan algunos métodos que faciliten esta tarea. Uno de estos métodos es append, con el que es posible añadir un elemento al final de una lista. Te…

Tutoriales
Python

REDPIXEL.PLShutterstock

Python operators para modificar y vincular valores

Conocemos los operadores aritméticos del colegio: sumas, restas, multiplicaciones, divisiones. Todos ellos símbolos de operaciones matemáticas. Los lenguajes de programación como Python disponen de una multitud de operadores, con los que no solo pueden ampliarse números, sino…

Tutoriales
Python

Python mu­l­ti­pro­ce­s­si­ng: ejecución de procesos en paralelo

¿Qué es Python mu­l­ti­pro­ce­s­si­ng?

¿Dónde se puede im­ple­me­n­tar el mu­l­ti­pro­ce­sa­mie­n­to en Python?

El módulo multiprocessing

La bi­blio­te­ca concurrent.futures

joblib

Python multiprocessing: ejecución de procesos en paralelo

¿Qué es Python multiprocessing?

¿Dónde se puede implementar el multiprocesamiento en Python?

El módulo `multiprocessing`

La biblioteca `concurrent.futures`

`joblib`