Ir al contenido principal

Java Tip 29: Parallel Stream


Los Parallel Streams en Java son una extensión de la API de Streams introducida en Java 8 que permiten procesar colecciones de datos en paralelo, aprovechando múltiples núcleos del procesador.

Son útiles para operaciones intensivas en grandes volúmenes de datos, pero requieren cuidado porque no siempre ofrecen mejoras de rendimiento.

Dividen el trabajo en múltiples tareas que se ejecutan en paralelo usando el ForkJoinPool común de Java.

Su objetivo es mejorar el rendimiento en operaciones sobre grandes colecciones, especialmente cuando las operaciones son independientes y no dependen del orden.

Veamos el siguiente ejemplo con listas.

ParallelStreamTest.java

package main;

import java.util.List;
import java.util.Arrays;

public class ParallelStreamTest{

   public static void main(String[] args){

       List<Integer> numeros = Arrays.asList(1,2,3,4,5,6,7,8,9,10);
        numeros.parallelStream()
       .filter(n -> n % 2 == 0)
       .forEach(System.out::println);
   }

}

Este código filtra números pares y los procesa en paralelo

Compilamos:

$ javac ParallelStreamTest.java

Ejecutamos:

$ java ParallelStreamTest

Salida:

6
10
8
4
2

¿Cómo funcionan?

  • Internamente usan el Fork/Join Framework, que divide la colección en sub-tareas. 
  • Cada sub-tarea se ejecuta en un hilo distinto del common pool
  • Los resultados se combinan al final.

Entre las ventajas encontramos que aprovechan múltiples núcleos, dando mejor rendimiento en operaciones pesadas. No necesitas gestionar hilos manualmente y se integran directamernte con la API de Streams.

Entre las desventajas encontramos que no siempre son más rápidos para colecciones pequeñas, el overhead de dividir/combinar puede ser mayor que el beneficio. No tiene un orden garantizado, así que el resultado puede llegar en orden distinto al original. Además de presentar ciertos problemas de concurrencia si las operaciones no son thread-safe, pueden aparecer errores.

Si tu aplicación ya usa intensivamente el ForkJoinPool, los Parallel Streams pueden competir por recursos.

Veamos otro ejemplo. Compararemos un rendimiento secuencial contra uno en paralelo.

ParallelStreamTestTwo.java

package main;

import java.util.List;
import java.util.Arrays;
import java.util.stream.IntStream;

public class ParallelStreamTestTwo{

   public static void main(String[] args){

       List<Integer> lista = IntStream.rangeClosed(1, 1_000_000).boxed().toList();
       // Secuencial
       long inicio = System.currentTimeMillis();
       lista.stream().reduce(0, Integer::sum);
       long fin = System.currentTimeMillis();
       System.out.println("Secuencial: " + (fin - inicio) + " ms");

       // Paralelo
       inicio = System.currentTimeMillis();
       lista.parallelStream().reduce(0, Integer::sum);
       fin = System.currentTimeMillis();
       System.out.println("Paralelo: " + (fin - inicio) + " ms");



   }

}

Compilamos:

$ javac ParallelStreamTestTwo.java

Ejecutamos:

$ java ParallelStreamTestTwo

Salida:

Secuencial: 108 ms
Paralelo: 69 ms

Como se puede ver, el rendimiento en paralelo fue mejor que el secuencial.

Los Parallel Streams son una herramienta poderosa en Java para aprovechar múltiples núcleos, pero deben usarse con criterio.

Enlaces:

https://www.arquitecturajava.com/java-parallel-stream-y-rendimiento/
https://www.oracle.com/latam/technical-resources/articles/java/processing-streams-java-se8.html



Comentarios

Entradas populares de este blog

Java Tip 1: Importaciones por default

Tip 1 : Todas las clases del paquete java.lang se importan por defecto. Podríamos hacer algo como esto: import java.lang.System ; import java.lang.String ; import java.lang.Boolean ; import java.lang.Integer ; import java.lang.Short ; import java.lang.StringBuilder ; import java.lang.StringBuffer ; O cosas (aberrantes) como: //Traernos todas las clases del paquete java.lang import java.lang.* ; Sin embargo, no es necesario. Repitamos esto como un mantra: Todas las clases del paquete  java.lang  se importan por defecto, no es necesario escribir de más .

Java Tip 28: hilos virtuales en Java

Con Java 21 entra un nuevo concepto: hilos virtuales java ( Java Virtual Threads ).  La cual es una nueva característica que nos permite crear miles o millones de hilos (tareas en paralelo). Los cuales se diferencian de los hilos comunes ( Platform Threads ) al no depender del sistema operativo , puesto que son virtuales. De estos se encargará la JVM. Al usar hilos virtuales ahorramos recursos del procesador y de memoria del sistema , sin importar si estamos creando y/o usando miles o millones. Los hilos virtuales son ideales para aplicaciones modernas donde se requiere esperar y recibir respuestas o acceder a bases de datos remotas, entre otras cosas. Además no impide usar los hilos comunes que dependen del sistema operativo. Observemos un ejemplo de uso de hilos virtuales. VirtualThreadsDemo.java package com.comunidad.demo; public class VirtualThreadsDemo { public static void main (String [] args) throws InterruptedException { // Crear un Virtual Th...

Java Tip 20: JDBC (2da parte)

Continuamos con esta serie sobre JDBC . Como dijimos la vez anterior JDBC( Java Database Connectivity ) es el estándar de conectividad de bases de datos de Java y proporciona un mecanismo para que los programas Java se conecten a las bases de datos. En este post veremos ejemplos de su uso. Requisitos: Tener nociones de Java.  Tener nociones de SQL (usaremos H2). Tener nociones de Maven. Creando una aplicación JDBC Crearemos una sencilla aplicación que se conecte a una BD H2 (ver  tutorial ). Pasos: Crearemos una tabla a la que llamaremos Cursos. La cual tendrá los siguientes campos: id, titulo, materia, instructor, fecha y hora. Crear la aplicación Java usando Maven. Crearemos instrucciones SQL para consultar la información, ingresar nuevos cursos, actualizar y eliminar registros. Ejecutar la aplicación con Maven. 1. Creamos la tabla con sus seis campos (agregaremos los datos con la aplicación Java): CREATE OR REPLACE TABLE CURSOS( id bigint ...