Innovando para el futuro que nunca ha visto: arquitectura de sistemas distribuidos y la red
HogarHogar > Blog > Innovando para el futuro que nunca ha visto: arquitectura de sistemas distribuidos y la red

Innovando para el futuro que nunca ha visto: arquitectura de sistemas distribuidos y la red

Sep 03, 2023

Presentaciones de la página de inicio de InfoQ Innovación para el futuro que nunca ha visto: arquitectura de sistemas distribuidos y la red

Astrid Atkinson habla sobre llevar la innovación de software a la infraestructura y aprovechar la experiencia con la innovación en confiabilidad en la gran tecnología para transformar nuestro sistema energético y descarbonizar la red.

Astrid Atkinson es directora ejecutiva y cofundadora de Camus Energy, una empresa dedicada a descarbonizar la red mediante un enfoque centrado en el software y una gran experiencia en sistemas distribuidos. Anteriormente dirigió equipos de software y sistemas en Google, donde fue una de las primeras líderes en el equipo de ingeniería de confiabilidad del sitio, y pasó a liderar equipos de infraestructura en la nube, búsqueda e infraestructura de productos.

QCon Plus es una conferencia virtual para ingenieros y arquitectos de software sénior que cubre las tendencias, las mejores prácticas y las soluciones aprovechadas por las organizaciones de software más innovadoras del mundo.

Resuelva sus desafíos con información valiosa de desarrolladores de software sénior que aplican las últimas tendencias y prácticas. ¡Regístrate ahora!

Tome las decisiones correctas al descubrir cómo los desarrolladores de software sénior de las empresas pioneras están adoptando las tendencias emergentes. ¡Regístrate ahora!

Atkinson: Soy Astrid Atkinson. Hablaré sobre la aplicación de la tecnología a lo que, en mi opinión, es el mayor problema de nuestra generación y del mundo actual. Algunos de ustedes pueden haber oído hablar del cambio climático. Se ha vuelto más popular en las noticias. Creo que en los últimos 5 o 10 años, realmente hemos visto una transición de una concepción general del cambio climático de ser un problema que podría afectar potencialmente a nuestros nietos, tal vez dentro de 50 o 100 años, a uno que está afectando de inmediato a nuestros abuelos. , sucediendo hoy. Provocando impactos cada vez más dramáticos en la vida cotidiana. Esto es obviamente un gran problema. Hablo mucho con personas que buscan descubrir cómo dirigir sus carreras y su trabajo para tratar de abordarlo. También hablo mucho con personas que prácticamente ya se han dado por vencidas. Creo que es fácil mirar un problema de esta magnitud, y uno en el que claramente aún no estamos en el camino correcto, mover la cabeza y decir, tal vez ya sea demasiado tarde. Tal vez el cambio ya esté asegurado. En mi opinión, hay básicamente dos futuros por delante. En uno de ellos, lo acertamos. Hacemos el trabajo. Averiguamos lo que se requiere. es tecnología es política. es la política Su gente. Ponemos en la tecnología, y la política, y la inversión política y económica que se requiere para doblar efectivamente la curva del cambio climático y mantener nuestro calentamiento dentro de aproximadamente 2 grados, que es un límite generalmente acordado para un planeta habitable.

Nuestro futuro quizás no sea el mismo que nuestro pasado, pero no sustancialmente peor, es un mundo reconocible. Puedo pasar el rato con mis nietos, tal vez incluso podamos ir a esquiar. La mayor parte del mundo puede continuar con algo que se parece a la vida actual. En la otra versión del futuro, no hacemos eso. Dejamos de actuar. No logramos hacerlo mejor de lo que lo estamos haciendo actualmente. Decimos que el cambio de política que está en marcha será lo suficientemente bueno. Seguimos con la vida como de costumbre, y obtenemos los 3 o 4 grados o más de cambio que están bloqueados para los planes tal como están hoy. Eso es potencialmente catastrófico. No necesariamente mantenemos la civilización que tenemos en este modelo. Tal vez algunos de nosotros lo hacemos, pero definitivamente no todos nosotros, y no se ve muy bien. Cuando pienso en esto, personalmente, preferiría pasar toda mi vida y toda mi carrera trabajando para la primera versión del futuro. Porque si no elegimos hacer eso, lo segundo es inevitable. Ahí es donde estoy. Es por eso que estoy frente a ustedes aquí hablando sobre el uso de aplicaciones tecnológicas y el talento tecnológico para tratar de abordar este problema existencial.

Cuando pensamos en la descarbonización, alrededor del 60%, alrededor de dos tercios del problema es nuestro sistema energético. El otro 30% son cosas como el uso de la tierra, el uso industrial, ese tipo de cosas. Esos también son importantes. La energía es un muy buen lugar para concentrarse, porque es un problema realmente grande. La versión realmente simplificada de 2 pasos de cómo descarbonizamos nuestro sistema energético es el paso 1, electrificamos todo, para que podamos usar fuentes de energía que sean limpias y eficientes. Paso 2, descarbonizamos la red, que es nuestro sistema de suministro de electricidad. Ahora tenemos dos problemas. Hablando sobre el cambio que se requerirá muy rápido. Esta es una visión más antigua de la energía que fluye solo a través de los sistemas de energía de los EE. UU. Puede ver que tenemos energía proveniente de varias fuentes limpias. En términos generales, todo lo que actualmente es una fuente fósil debe trasladarse a esa caja naranja de ahí arriba. Ese es un cambio bastante grande.

En cualquier versión de cómo funciona esto, la cuadrícula necesita hacer mucho más trabajo. Necesitamos distribuir mucha más energía alrededor. También hay muchas versiones de esto en las que hay mucha más generación desconectada, etc. Sólo para poner un marco alrededor de este problema. Estoy usando dos conjuntos de números en esta diapositiva. Uno es del plan Net Zero by 2050 de la Agencia Internacional de Energía, que es efectivamente un plan internacional de registro. Una cosa a tener en cuenta en ese plan para 2050 es que enterrada en los detalles está la nota sorprendente de que las naciones industrializadas, EE. en la medida en que debe ser hoy. El otro conjunto de números aquí es de un estudio de NREL sobre lo que se necesitaría para descarbonizar nuestro sistema eléctrico y, por lo tanto, el sistema energético para 2035, solo mirando a los EE. UU. Por supuesto, este es un problema nacional, pero estos números están bien contenidos y relacionados de esa manera.

Tienen múltiples escenarios en esta visión de cómo podría ser el futuro, que van desde alta energía nuclear hasta tecnologías completamente nuevas. Cualquier versión de este conjunto de soluciones significa que necesitamos muchas más energías renovables. Potencialmente, necesitamos un par de tecnologías de carga base nuevas o ampliadas. Necesitamos mucha carga para ser flexibles. Necesitamos mucha interconexión entre los lugares donde puede ocurrir la generación y los lugares donde se produce la energía. Es este último el que es realmente complicado, porque cualquier versión de este plan se basa en un aumento de entre 2x y 5x de nuestra capacidad de red de transmisión existente. Hablaré un poco sobre la red de transmisión y la red de distribución en un momento. De hecho, podría pensar en la red de transmisión como la red troncal de Internet de la red. Son los grandes cables de larga distancia los que se conectan a través de distancias muy largas. En general, es el principal responsable de transportar la energía desde los lugares donde se genera desde los grandes generadores hasta las regiones locales. Hablaré un poco sobre las diferentes partes de la red en un momento. Cualquier versión de esto requiere una expansión muy grande en esa capacidad. Ese es un problema realmente grande, porque generalmente toma 5, 10, 15, 30 años construir una nueva línea. Ese es un gran obstáculo oculto en cualquier plan de transición de este tipo. Hace que el papel de la red en su forma actual sea cada vez más importante.

Ahora, también, cualquier versión de ese plan implica reunir muchos tipos diferentes de tecnologías. Hay múltiples tipos de tecnologías de generación. Hay solar. Hay viento. Hay hidroeléctrica, nuclear, geotérmica, biomasa. También hay muchas tecnologías del lado de la demanda, y cualquier breve encuentro con las tecnologías de red le mostrará un montón de ellas. En general, todas estas tecnologías del lado de la demanda, desde bombas de calor internas controlables hasta cargadores de vehículos eléctricos y baterías, caen bajo el título general de recursos energéticos distribuidos. Todo lo que realmente significa es solo los recursos energéticos que se encuentran en su hogar o negocio. Están en los bordes de la cuadrícula. Están ubicados muy cerca de una parte del tejido de demanda de la red. Hay algo que está creciendo en importancia en la red de hoy y será la piedra angular de la red del futuro. Porque la red necesita hacer un trabajo ligeramente diferente al que hace hoy. La red de hoy es básicamente responsable de entregar energía desde los lugares lejanos donde se genera a los lugares donde se utiliza, siempre debe estar completamente equilibrada en tiempo real para la oferta y la demanda. La red del futuro, todas esas cosas son ciertas, pero también necesitamos usarla para equilibrar y mover la energía a lo largo del tiempo. Necesitamos poder obtener energía desde el momento y el lugar donde se produce hasta el momento y el lugar donde se necesita. Eso significa mover la oferta y la demanda. Eso significa almacenamiento. También significa gestión. Voy a hablar sobre cómo se ven las aplicaciones tecnológicas en torno a eso.

El gran inconveniente de todo esto es que la tecnología en el panorama de la red está bastante desactualizada. Hay algunas razones para esto. Una es que cuando usted es responsable de mantener las cosas en funcionamiento, manteniendo las luces encendidas, como muchas personas tendrán experiencia, hay un conservadurismo innato en eso. No quieres meterte con eso. Otra es simplemente que esta es una vertical heredada de movimiento lento con mucho dinero y mucha presión sobre ella. Por varias razones, muchas de ellas por el conservadurismo en torno a cosas como la ciberseguridad, casi toda la tecnología de red actual es local. Eso significa que no tienen acceso a la escala informática que necesitaría para manejar datos en tiempo real de la cuadrícula. Piensan que los datos que salen de la red de algo así como una lectura de 15 minutos en un medidor inteligente es mucho. Cualquiera sabe que ese no es realmente el caso. Es quizás datos medios, en el mejor de los casos. Realmente no es una gran cantidad de datos para los estándares de sistemas distribuidos. Si está ejecutando en las instalaciones con una sola computadora, puede haber muchas.

El estado actual del arte en el espacio de la cuadrícula es básicamente bastante escaso de datos, no fácilmente en tiempo real para la mayoría de las fuentes de datos. Realmente depende de la idea de alimentar datos de un pequeño conjunto de fuentes a un modelo de física que emula la cuadrícula y luego resuelve para decirle qué está sucediendo en cualquier punto particular de la misma. Esto está bien, pero no es lo mismo que el monitoreo en tiempo real. No es la base para impulsar un cambio masivo, porque lo único que puedes saber de eso es el modelo. No puedes conocer el sistema. Como sabe cualquiera que haya trabajado con un sistema distribuido, los datos sobre el sistema en tiempo real son la base de todo lo demás que hacemos. Así es como sabes si las cosas están funcionando. Así es como sabes cómo funcionan las cosas. Es cómo planifica para el futuro de una manera adaptativa.

Esa fue realmente la génesis para mí de fundar mi empresa actual, que crea software de administración de redes para personas que operan redes, y eso es típicamente servicios públicos. Baste decir que creo que hay una aplicación realmente importante y, de hecho, urgente de tecnologías de sistemas distribuidos en este espacio, porque necesitamos que estos sistemas sean nativos de la nube y lo necesitamos para ayer. No lo necesitamos porque la nube sea la computadora de otra persona, lo necesitamos porque la nube es computación a escala global o hiperescala. Necesitamos poder procesar grandes cantidades de datos en tiempo real. Necesitamos ser capaces de resolver problemas complejos de optimización de equilibrio en tiempo real, aprendizaje automático tipo IA. Tenemos que ser capaces de hacer eso a gran escala y de una manera muy rápida. Esa es la razón. Ese es el cambio tecnológico que debe ocurrir en el espacio de la red.

Voy a hablar un poco sobre cierta confusión de terminología aquí. Me considero un ingeniero de sistemas distribuidos, o mi trabajo es ingeniería de sistemas distribuidos. Esto es muy confuso en el espacio de la red, porque las personas que trabajan en la red están acostumbradas a pensar en el sistema de distribución, que es la parte de la red que se conecta a tu casa, tu negocio o lo que sea. Los servicios públicos como PG&E, ComEd, ConEd, SDG&E son principalmente servicios de distribución. Cada vez que dices la palabra distribuir o distribuir, todo lo que piensan es en un montón de cables que se conectan a tu casa. Por eso, comenzamos a referirnos a lo que hacemos en el espacio del software como computación a hiperescala o computación en la nube, simplemente porque es confuso. En su base, el cambio tecnológico y la transición que necesitamos hacer para la red es realmente pasar de un modelo centralizado de cómo se opera y diseña la red, a un modelo distribuido en el que una gran cantidad de pequeños recursos juegan un papel fundamental. Realmente, de lo que estamos hablando aquí es de hacer un sistema distribuido para el sistema de distribución. De nuevo, confuso, pero aquí estamos. De hecho, mucha de la terminología, muchos de los conceptos, etc., son sorprendentemente comunes. Eso es realmente de lo que voy a hablar, son las formas en que podemos aplicar las lecciones que hemos aprendido del diseño, la arquitectura y la ingeniería de sistemas distribuidos, y llevar eso al espacio de la red para acelerar el ritmo del cambio.

Estuve en Google desde aproximadamente 2004. Ese fue un momento realmente importante y crítico tanto para Google como para la industria. Originalmente me contrataron para trabajar en la plataforma en la nube de Google unos dos años antes de que existiera la plataforma en la nube. Según Wikipedia, el término nube fue utilizado por primera vez por Eric Schmidt en una conferencia pública en 2006. En 2004, Google estaba implementando su nube interna y haciendo una transición realmente significativa de ese modelo informático centralizado con unos pocos recursos grandes a uno altamente modelo distribuido de distribuir el trabajo entre millones de computadoras. Esto era algo que era muy nuevo en la industria. No podíamos contratar a nadie que lo hubiera hecho antes. Estábamos aprendiendo sobre la marcha. Ese fue un momento realmente emocionante. Este meme siempre me hace sonreír, porque es de mi época en Google. Además, porque puse los flamencos en el dinosaurio alrededor de 2007 con otras personas que también están trabajando en esta transición de sistemas distribuidos a gran escala. En realidad, estaba destinado a ser una broma de sistemas distribuidos. En realidad, era como todos los pequeños sistemas que venían a comerse el sistema de los dinosaurios. Era una broma del Día de los Inocentes. Fue uno que terminó teniendo piernas bastante significativas. Años más tarde, vería a alguien venir trayendo flamencos al dinosaurio y como si apareciera otro flamenco. Me encanta porque creo que también es como una buena metáfora de cómo los sistemas se vuelven autosuficientes y evolucionan con el tiempo, una vez que ves estos cambios de paradigma realmente grandes.

La historia de cómo pasas de unos pocos servidores grandes a un montón de servidores pequeños está bastante bien contada. Baste decir que en cualquier modelo, estamos pasando de una pequeña cantidad de servidores confiables a una gran cantidad de servidores distribuidos. Este tejido del sistema que distribuye el trabajo entre esas máquinas, se ocupa de las fallas, le permite mover el trabajo de una manera que es consciente de cómo funciona dentro del sistema como un todo y le permite mover el trabajo bajo el control simple del operador. ¿Es la estructura de este sistema la que le permite obtener una mejor confiabilidad del sistema que la que puede obtener de cualquier pieza individual del mismo? En el contexto de los sistemas distribuidos de Google, y esto es generalmente cierto para la mayoría de la computación en la nube, existe este conjunto de capacidades de red troncal. Pienso en el monitoreo como la base de todos ellos, porque siempre es la base de cómo construir un sistema confiable. También hay ideas en torno a la orquestación, como llevar el trabajo a las máquinas o llevar el trabajo a lugares donde se puede realizar el trabajo en términos de asignación de carga, gestión del ciclo de vida, gestión de flotas. Ese sería un sistema de tipo de orquestación de contenedores hoy. Para Google fue Borg, pero un Kubernetes o una tecnología equivalente, creo, encaja en ese cubo. El equilibrio de carga, la capacidad de enrutar el trabajo a realizar a las ubicaciones de capacidad donde se puede ejecutar el trabajo, es una tecnología de unión fundamental de todos los sistemas distribuidos. A medida que avanza en sistemas más grandes, encontrar formas de introducir flexibilidad en esa distribución del trabajo realmente aumenta la confiabilidad del sistema en general.

Mientras atravesábamos este proceso para Google, mantener la confiabilidad de Google en el grado de utilidad, cinco nueves o mejor, fue un requisito de diseño central de todos los cambios que hicimos. Pensar en cómo cambia cuidadosamente una pieza a la vez en un sistema que tiene decenas de miles de tipos de microservicios, no solo microservicios o instancias, y de millones a miles de millones de instancias, es un proceso de alta demanda y en el que necesita buenos cimientos, y necesita muy buena visibilidad. No se trata sólo de la tecnología. También se trata de las herramientas que mantienen el sistema como un todo comprensible y simple para los operadores, y permiten que un pequeño grupo de operadores se involucre con él de manera significativa.

Antes de continuar hablando sobre la red, solo quiero hablar sobre los patrones de cómo se construye la infraestructura de manera generalizable en este tipo de entorno. Esto es importante para la red, porque en realidad es muy difícil construir sistemas sin una utilidad. También es muy difícil construir sistemas con una utilidad. En general, cada vez que esté construyendo un sistema de infraestructura a gran escala, estará trabajando con clientes reales. Desea comenzar con más de uno, menos de cinco. Muy temprano en el ciclo de vida de un proyecto de desarrollo de infraestructura, desea llegar tan lejos como sea posible. Porque si no lo haces muy pronto, nunca llegarás a esa escala. Ese fue el patrón repetible exitoso que vi a medida que avanzamos en el desarrollo de docenas a cientos de servicios de infraestructura en Google. También es el que estamos usando en el panorama de la cuadrícula hoy.

Hablemos de la rejilla. El monitoreo es una parte bastante fundamental, creo, de cualquier sistema distribuido confiable y en evolución. De hecho, esa es una de las cosas que son realmente desafiantes en el panorama de la red actual. Voy a repasar cómo se ve eso en la práctica de hoy. Aquí hay una red de distribución de ejemplo. Tenemos básicamente una red radial que llega hasta los bordes. Hay algunos tipos diferentes de topologías de cuadrícula, pero esta es común y la más cliché y complicada. Cuando observamos las partes de la red, está la red de transmisión, que es la columna vertebral de Internet de la red actual. Una red de transmisión es en realidad bastante simple, es una red de malla, no tiene muchos nodos. Tiene miles, no cientos de miles. Está muy bien instrumentado. Tiene visibilidad en tiempo real. Hoy se opera en tiempo real. Los operadores de sistemas independientes de hoy en día, como CAISO, MISO o cualquiera, tienen una visibilidad bastante buena de lo que sucede con las subestaciones de gran escala en una red de gran escala. Aquí, en los bordes, hay algunos recursos que participan en ese ecosistema y esos mercados hoy, pero tienden a ser solo unos pocos. Son clientes realmente grandes, típicamente comerciales e industriales. También están obligados a proporcionar visibilidad en tiempo real a escala completa a la red de transmisión para poder participar.

A medida que avanzamos, existe el objetivo de que estos recursos de energía distribuida que se encuentran en las ubicaciones de los clientes se conviertan en parte de esta infraestructura. Aún no hay requisitos de telemetría, por lo que es difícil ver exactamente lo que podría estar sucediendo. Es difícil decir desde la perspectiva de alguien lo que sucede cuando hacen esto. Este es el siguiente paso desde la perspectiva de la red de transmisión. La reciente Orden 2222 de la Comisión Reguladora de Energía Federal exige que esto sea obligatorio, pero no dice cómo. No dice nada sobre telemetría, gestión de red, integración. Es un muy buen paso, porque forzar el resultado ayuda a obligar a todos a pensar en el mecanismo.

Por el lado de la distribución, la historia de los datos es menos buena. Para la mayoría de los operadores de distribución de hoy, aunque en su mayoría tienen medidores inteligentes, por lo general pueden ver lo que está sucediendo en cualquier medidor en particular, hace 2 a 24 horas. Esto se debe a la lentitud de la recopilación de datos. Por lo general, no tienen instrumentación directa en ninguna parte de la línea debajo de la subestación. Tampoco necesariamente tienen modelos precisos de conectividad para los medidores a transformadores, alimentadores, fases. Ejecutar ese modelo que mencioné es bastante difícil si no tiene los datos o el modelo. Este es un bloqueador realmente grande para agregar más cosas a los bordes de la cuadrícula. Hace que sea muy difícil sentirse seguro acerca de cualquier cambio que pueda hacer, porque no puede ver lo que está pasando.

Hay muchas preguntas. ¿Todo está bien? ¿Qué está pasando ahí fuera? Hasta los últimos 5 o 10 años, probablemente, la planificación y las operaciones en la red de distribución pronosticaban literalmente el crecimiento de la carga para los próximos 10 años. Luego, sobreconstruir el equipo físico de la red por 10x. Luego esperar a que alguien lo llame, si algo se incendió o no hubo electricidad. Eso fue literalmente operaciones de distribución. Obviamente, si tienes muchas cosas sucediendo en los bordes, eso no es tan bueno. Eso no es necesariamente suficiente. Ese no es el modelo que necesitamos si queremos poder agregar mucha energía solar, agregar mucha batería, agregar muchos vehículos eléctricos, lo que sea, pero es lo que hemos tenido. El primer paso para poder realizar cambios significativos es básicamente tomar los datos que tenemos y comenzar a descubrir qué podemos hacer con ellos. Este es el primer lugar donde ese enfoque de computación distribuida hiperescala y escala de la nube se vuelve realmente relevante. Este también es el primer lugar donde voy a hablar sobre el aprendizaje automático.

Hay una gran cantidad de datos por ahí, sólo que no es muy en tiempo real. No es muy completo. Para la mayoría de los servicios públicos de hoy, tampoco está correlacionado. Cuando observamos la cuadrícula, poder tomar los datos que están ahí y obtener algo como en tiempo real es en realidad una muy buena aplicación para las tecnologías de aprendizaje automático. Hay un montón de cosas que podemos hacer. Podemos pronosticar y obtener un pronóstico inmediato de lo que sucede en cualquier medidor individual, tanto la demanda como la generación solar. Una vez que tengamos un modelo preciso de las cargas finales, podemos calcular las cargas en la línea media. Podemos obtener telemetría de terceros de los dispositivos que existen. Tesla tiene muy buena telemetría en sus dispositivos y la capacidad de administrarlos a gran escala.

Entonces podemos hacer mucho para juntar algo utilizable a partir de la tela que existe hoy. A medida que avanzamos, tenemos que hacerlo mejor. Necesitamos llevar la instrumentación de hardware hasta el límite. Necesitamos datos en tiempo real de los medidores. Necesitamos muchas cosas. Si tenemos que empezar por ahí, estamos jodidos porque cualquier proyecto como ese para una empresa de servicios públicos lleva de 5 a 10 años. Necesitamos comenzar con los datos que tenemos mientras ponemos las otras cosas en su lugar. Cuando hablo de aplicaciones tecnológicas, sí, todas serán mejores con mejores datos. Tenemos que empezar con lo que tenemos. Descubrir cómo comenzar con lo que tenemos para la red de hoy y ayudar a dar los pasos que nos lleven a la red de mañana es casi el 100 % del trabajo porque, una vez más, queremos poder hacer este trabajo en el red tal como está para 2035. En lo que respecta a la tecnología de red, eso es mañana.

¿Hacia qué estamos construyendo? La red de distribución actual tiene un poco de dinamismo. El factor más importante que está impulsando el cambio en los últimos 5 a 10 años es el papel de la energía solar. La generación solar no es necesariamente una gran parte de la mayoría de las redes hoy en día, pero sí en algunos lugares como Australia y Hawái, entre otros. Australia es en realidad el líder mundial en esto, junto con Alemania, sorprendentemente, donde tienen realmente una gran cantidad de energía solar en los techos. El suministro de energía proporcionado por la energía solar local en los techos a veces es más del 50 % de lo que se usa durante el día, a veces hasta el 80 % o el 90 %. En ese punto, causa problemas realmente significativos. Lo breve es que tan pronto como superas el 10 % más o menos, comienzas a ver esta curva y la línea rosa aquí, esto se llama la curva de pato. Cuanto más energía solar consuma en la parte diurna de esta curva, más profunda será la espalda del pato. En Australia lo llaman curva Emu porque los Emus son pájaros con cuellos muy largos, también se escucha que se llama curva de dinosaurio. Esta es la cuadrícula tal como está hoy. Cuanto más empinadas sean esas rampas, por la mañana y por la noche, mayor será el problema de subir y bajar la generación tradicional para llenar esos vacíos. Porque, si bien esas plantas se consideran una carga base confiable y, en teoría, son manejables, etc., también pueden tardar un día en aumentar y disminuir, por lo que no son muy flexibles. La otra cosa es que empiezas a mover cosas como el voltaje y la frecuencia, etc., a medida que obtienes más de este presente solar. La respuesta de la mayoría de las empresas de servicios públicos hoy en día ha sido, más despacio. Tenemos cola de interconexión, haremos un estudio, o alguna versión de no.

La parrilla del mañana debe verse bastante diferente. Necesitamos estar suministrando alrededor de tres veces la demanda. Necesitamos mucha de esa carga para ser flexibles. Necesitamos un gran papel para la batería. Necesitamos mucha generación local, porque vamos a tener problemas para construir toda la transmisión que necesitamos. Cuantas más cosas sucedan localmente, mejor estaremos. Necesitamos que sea manejable. Necesitamos que sea visible. Necesitamos que sea controlable. Este es un gran paso adelante de donde estamos hoy. Si estamos hablando de, ¿cómo tomamos medidas para pasar de la cuadrícula tal como está a la cuadrícula como debe ser? Puede comenzar con algunas preguntas como, ¿qué hay ahí fuera? ¿Qué pasa? Hoy en día, no hay mucho. Eso se debe en gran parte a que este cambio aún está comenzando a ocurrir, porque muchas empresas de servicios públicos han rechazado la adición de una gran cantidad de energía solar en los techos, baterías o tecnología de usuario final. También se debe a que uno de los grandes factores que impulsarán este cambio serán los vehículos eléctricos, y eso realmente está comenzando a ser algo importante. Para la red tal como está hoy, en realidad no hay tantos problemas de red. Todos han tenido mucho éxito en construir la red en exceso, planificar de manera realmente efectiva, mantener el cambio lo suficientemente lento como para que el ritmo de cambio dentro de la empresa de servicios públicos pueda seguirlo.

A medida que comienza a obtener un poco más, comienza a ver lugares donde las partes individuales de la red se estresan. En esta imagen, este pequeño triángulo rojo es un transformador que conecta un par de lugares diferentes donde hay dispositivos inteligentes, digamos servicios EV, y a veces ese transformador se sobrecarga. Podemos reemplazarlo. Todo está bien. Cuantos más dispositivos sacamos, más cosas empiezan a suceder. Es muy probable que esto sea impulsado por vehículos eléctricos, pero las baterías son suficientes. La mayoría de las casas funcionan con una carga máxima de 6 kilovatios en la actualidad. La carga máxima de kilovatios de un cargador bidireccional Ford F-150 Lightning es de 19 kilovatios, lo que equivale a una carga de aproximadamente 3 a 4 casas a la vez. Esto es suficiente para expulsar el humo de los transformadores y prenderles fuego.

Ahora tenemos esta pregunta que las empresas de servicios públicos están empezando a hacer, que es, ¿cómo puedo evitar que eso suceda? Eso es lo primero a lo que suelen acudir. Luego está, ¿cómo puedo saber acerca de esto? ¿Cómo lo trato? Luego tienes todas estas compañías de software, como la mía, que dicen: "Este es un problema fácil para el software, puede manejarlo por completo. Simplemente programaremos la carga del vehículo, estará bien". Un operador de servicios públicos o un ingeniero mira esto y hace esta pregunta: "El software es excelente para el software, pero estos transformadores pueden explotar. Si explotan, prenden fuego". Esto es cierto todo el camino hacia arriba y hacia abajo de la cuadrícula. Lo que tiene aquí no es necesariamente solo un problema de software, sino que ahora tiene un problema de sistemas, un problema de cultura, uno que será familiar para cualquiera que haya trabajado en transiciones de sistemas a gran escala. Esto también es un problema de confianza.

Una vez que sabes lo que hay ahí fuera, empiezas a tener más preguntas, como, ¿puedo administrar esos recursos? ¿Puedo programar la carga de ese vehículo eléctrico? ¿Podría conseguir que me presten servicios? ¿Pueden ayudarme con el equilibrio o la frecuencia o los problemas de voltaje que pueda tener? ¿Cuál es el valor de esos servicios? Porque lo sé por pensarlo por mí, si instalo algunas baterías, y PG&E llama a la puerta y dicen, quiero administrar sus baterías. Estoy como, sal. Si aparecen y dicen: "Tengo un programa en el que podemos pagarle automáticamente por el uso de esas baterías, a veces de una manera que no interrumpe el uso de esa batería", y tengo un buen presentimiento acerca de PG&E. , que es una pregunta aparte. Podría decir que sí a eso. Eso no es algo irrazonable. Las baterías son caras, es posible que desee sufragar el costo. Cualquier modelo, cuando hablo de control, tenga en cuenta que probablemente una gran parte de esto también se deba a la señal del precio. O, en última instancia, ofrecerá dinero a los propietarios de los recursos oa los agregadores de recursos para obtener servicios de esos recursos. Es un poco una señal operativa secundaria o indirecta. No obstante, una parte del tejido de la red del futuro.

Tenemos un problema de confianza. Me gusta pensar en la confianza como una escalera. He realizado mucha automatización de procesos impulsados ​​por humanos. Esto es algo que tuvimos muchas oportunidades de hacer en Google, ya que las cosas crecían 10x, 100x, 1000x, un millón de x, porque la complejidad del sistema sigue escalando por delante de la capacidad de los humanos para razonar al respecto. Tiene mucho valor tener algunos controles simples en los que un operador puede confiar, puede usar de una manera predecible, entiende los resultados. Cada vez que agregas algo a eso o automatizas algo que ya hacen, no es algo en lo que simplemente ingresas y dices: "Lo resolví por ti. Automaticé totalmente ese problema". Si alguien aquí ha hecho eso, sabe qué respuesta obtiene del equipo de operaciones, es como, lárguese. Tienes que venir en una pieza a la vez. Necesitas mantenerlo simple. Necesitas mantenerlo predecible. Cada paso debe ser comprensible y debe ser confiable.

Volviendo a nuestro pequeño modelo de la red, si sabemos un poco sobre lo que está pasando, tenemos algo con lo que podemos empezar a trabajar. Como, ¿sé lo que está pasando en ese transformador? ¿Sé lo que sucede en los puntos de carga que están causando los problemas? ¿Cuánto de eso es controlable? ¿Tengo algunas palancas? Esto es algo con lo que podemos empezar a trabajar. Solo tenga en cuenta que a medida que avanzamos en esto, el objetivo de la automatización no es necesariamente solo automatizar cosas, o escribir software, o lo que sea. El objetivo es ayudar a los humanos a comprender el sistema y seguir siendo capaces de comprender el sistema a medida que cambia. Agregar automatización en capas y principios también tiende a mapear realmente a las capas de abstracción, o puede mapear a capas de abstracción que también ayudan a construir sistemas comprensibles. La automatización siempre es mejor cuando está haciendo eso.

Podemos ascender en esta escalera de automatización o escalera de confianza para un dispositivo individual. Puedo decir, ok, batería, confío en que harás tu trabajo local y respaldarás la red aquí. La forma más fácil y confiable de que eso suceda es decir que hice un estudio de interconexión para esta batería y sé que no es capaz de expulsar más energía a la vez de la que puede manejar ese transformador. Eso es lo que hacen la mayoría de las empresas de servicios públicos hoy en día para controlarlo. Esa es una configuración de seguridad predeterminada. Sin embargo, a medida que comenzamos a obtener más de esos, y esas actualizaciones se vuelven muy costosas, debe comenzar a hacer algo un poco más inteligente que eso. Necesita saber cuál es su asignación de capacidad disponible en cualquier punto particular de la red. Esto puede ser muy simple. Esto puede ser como, sumé el tamaño de todas esas baterías y sé que me queda esta cantidad. También puede ser algo más sofisticado, y aquí es donde se vuelve importante poder procesar nuestros datos en tiempo real. Porque si puedo obtener datos en tiempo real sobre el transformador o sintetizarlos, puedo tener una idea de la asignación de capacidad que generalmente es segura, fuera de las horas pico, y luego puedo comenzar a dividirla entre las personas que necesitan usar él. Ahora puedo brindarles a los operadores la capacidad de llamar a estos dispositivos de manera segura, además del trabajo diario que realizan los dispositivos. El modelo más simple para esto es simplemente poder sacar o poner energía en un momento determinado. Sería como, cargue durante el pico solar, descargue por la noche durante el pico de carga. Una vez que tenga una suposición segura predeterminada de que el dispositivo, cuando lo llame, no explotará nada, comenzará a tener la capacidad de hacer que haga otras cosas por usted. Ahora es más confiable.

Eso le permite comenzar a verlo no solo a nivel de dispositivo, sino también a nivel de sistema. Ahora sabemos cuál es mi capacidad en toda la línea ascendente, desde el transformador hasta el conductor, que es la línea, hasta los transformadores ascendentes, hasta el alimentador, hasta la subestación. Puedo proporcionar una asignación dinámica que básicamente me permite comenzar a virtualizar la capacidad de mi red. Esto no es lo que hacemos en la grilla hoy, pero es mucho lo que esperamos hacer en un futuro cercano. Este es el siguiente paso, poder administrar esos dispositivos y llamarlos de una manera respetuosa con los límites en toda la línea. Luego, poder hacerlo de una manera que gestione la capacidad colectiva de la red y al mismo tiempo llamar a los servicios. Aquí es cuando podemos empezar a hacer cosas como la orquestación. Realmente pienso en la orquestación como una gestión colectiva para lograr una meta. No es solo, ¿puedo encender y apagar un dispositivo, o puedo evitar que explote un transformador? Es realmente, ¿puedo mirar colectivamente este conjunto de activos y llamarlo de una manera que optimice algo sobre el sistema que quiero optimizar, costo, carbono, en estos casos particulares, mientras mantengo la confiabilidad? Esta es la unidad fundamental de automatización que necesitamos para la futura red.

Volviendo a nuestra pregunta, sí, por supuesto que el software puede ser confiable. Hacemos esto todos los días. Este es el trabajo de la mayoría de las personas en esta sala. Sabemos que puede ser con salvedades. Simplemente significa hacer el trabajo. Sin embargo, no se trata solo de hacer el trabajo técnico, y esa es la parte realmente importante aquí. También significa hacer que los sistemas funcionen. Una nota al margen importante es que cada vez que realiza un trabajo de nivel de sistemas en sistemas que tienen una tolerancia muy baja a fallas, y esto es cierto para cosas como automóviles autónomos, para aplicaciones aeroespaciales, cohetes de aterrizaje automático, todo este tipo de las cosas, el papel del entorno de simulación aumenta en importancia. Si no puede probar de forma segura en la naturaleza, debe probar en sim. Esto es algo que fue una gran lección en la transición de un entorno como Google, donde, en general, puedes probar en la naturaleza, a algo como los cohetes o la cuadrícula. De hecho, pasé mucho tiempo hablando con un amigo que trabajaba en aplicaciones aeroespaciales para comprender el papel apropiado de la simulación y garantizar la seguridad en un sistema físico peligroso.

Una vez que tenga eso, el proceso de implementar cambios en un sistema físico a gran escala como la red, es muy similar a implementar cambios en cualquier entorno de software de sistema distribuido. Vas a probarlo. Lo vas a canario. Vas a desplegarlo lentamente. Vas a monitorearlo. Ahora tiene un patrón repetible que le permite comenzar a involucrarse con el cambio a gran escala, en un entorno de administración de red impulsado por software. Si tiene curiosidad sobre dónde estamos con esto, tenemos varias cuadrículas que están en funcionamiento con el control que se encuentra en este modelo. Esto ha demostrado ser realmente útil en el panorama de la red, y algo que creo que es un aprendizaje muy importante que trajimos con nosotros desde el espacio del sistema distribuido.

Lo que esto abre es la oportunidad de realmente comenzar a observar la automatización a gran escala. En última instancia, esto será grande. No es hoy, pero debe serlo para resolver el problema que tenemos por delante. Necesitamos millones de dispositivos. Necesitamos mucho crecimiento de la carga. Necesitamos mucha flexibilidad. Necesitamos que sea sencillo. A medida que comenzamos a ver eso, pensando en los tipos de patrones que hacen que la escala sea predecible, confiable, manejable y, en última instancia, simple para los sistemas distribuidos, está viendo la unidad de una implementación de clúster o un centro de datos o una región, o un servicio repartido en varias regiones. Estás empezando a pensar en cuáles son esas unidades de autogestión o resiliencia que te permiten empezar a pensar en esto, no como un montón de piezas chatarra, sino como un sistema sobre el que puedes razonar. Donde básicamente podría configurar algunas piezas y esperar que se ejecuten de una manera más o menos autosuficiente durante un período de tiempo que solo requiera la intervención ocasional del operador. Comenzar a pensar en las regiones dentro de la cuadrícula como si fueran efectivamente como una implementación a nivel de clúster de un servicio. Donde pueden operar bajo una política consistente dentro del conjunto local de recursos, es una forma de pensar sobre la escala de la red, que creo que se mapea bastante bien desde el entorno de sistemas distribuidos hasta el entorno de red completo. Esto no es sólo yo, tampoco. Esta es una línea de investigación bastante activa entre los investigadores de redes y las empresas de servicios públicos. Este es el modelo que creemos que puede y funcionará, es esta idea de una cuadrícula fractal o una cuadrícula jerárquica.

Sin embargo, para tener la flexibilidad necesaria para obtener resultados útiles de todos estos servicios dispares, es fundamental algún recurso de flexibilidad fácilmente controlable por el operador. Aquí es donde quiero volver a la idea del almacenamiento en caché. A medida que observamos lo que se necesitó para ampliar nuestros sistemas distribuidos en los servicios web o el espacio de servicios de Internet, comenzamos con un modelo muy centralizado de asignación de capacidad o capacidad de servicio. Tienes un gran centro de datos, pones toda la carga allí. Es posible que tenga una segunda como respaldo. Cuando comienza a pensar en múltiples ubicaciones de centros de datos, también está pensando en cosas como capacidad n más 1, capacidad de conmutación por error. Al principio, vas a empezar con algo relativamente simple. Aquí es básicamente donde está la red hoy. Unos cuantos generadores grandes, n más 1. La planificación de n más 1 y n más 2 es algo realmente importante en la red, como lo es para los sistemas distribuidos. Hoy pronosticará la carga en la red y aumentará o disminuirá la generación según sea necesario.

Volviendo a nuestro ejemplo de sistemas distribuidos, a medida que aumenta la demanda, el primer paso es agregar más ubicaciones de capacidad, más centros de datos, más computadoras. El siguiente paso, casi inmediatamente después de eso, o junto con eso, es la idea del almacenamiento en caché, poder tener algunos recursos de cómputo livianos y rentables que pueden atender una fracción de su tráfico. En el punto donde la restricción no es la CPU o el recurso de servicio, sino la red misma, el rol de la caché cambia. Aquí es donde en Google, en nuestros primeros días, cuando buscábamos problemas de escalado, realmente estábamos lidiando con escalamiento limitado por capacidad, porque el recurso restringido era el cálculo para la búsqueda web. La parte del ancho de banda es muy pequeña, una solicitud o respuesta de búsqueda web no es terriblemente grande. Tan pronto como apareció YouTube, de repente, tuvimos un problema diferente. Ahora es un problema de costos de red. Para Google, esto se debió en un 100 % a la publicación confiable de videos de gatos, lo cual es muy importante para todos nosotros. También me gustan los videos de perros.

Este es el punto en el que comenzamos a necesitar mirar una capa de almacenamiento en caché perimetral distribuida. Lo que esto le dio a Google fue básicamente la capacidad de no solo usar el almacenamiento en caché para sufragar los costos de la red, para evitar que esa solicitud atraviese toda la red. Además, comenzar a utilizar el almacenamiento en caché como un punto de flexibilidad que aumentó la confiabilidad del sistema desde la perspectiva del usuario. Si lo piensa desde la perspectiva del usuario, su conexión a la red a veces puede fallar, pero puede obtener un resultado de la memoria caché de su navegador. La conexión de su ISP a la red puede estar inactiva, o Google puede estar inactivo o parpadeando por un segundo o algo así, podría suceder ocasionalmente, pero puede obtener una respuesta de un caché local si hay una respuesta disponible allí. No es algo que reemplace la confiabilidad de los recursos centrales, pero es algo que la aumenta sustancialmente. Comenzando a colocar estas capas de almacenamiento en caché perimetral, pasemos a un punto en Google en el que manteníamos básicamente un sistema de servicio central en cinco nueves, incluida la red. En última instancia, el sistema fue mejor que seis nueves confiable y efectivo al 100% desde la perspectiva del usuario. No hay ninguna razón por la que deba permanecer así, pero ese fue el resultado de este sistema.

Si comenzamos a ver esto desde la perspectiva de la cuadrícula, ¿qué es un caché? Una batería es un caché. Pensando en el papel de las baterías en la futura red, no se trata solo del almacenamiento de energía y poder almacenar esa energía solar y usarla nuevamente más tarde. También se trata de brindar la flexibilidad que nos permite usar la red de manera mucho más eficiente y también brindar mucho más control y mucho más margen de error para el control que brindamos. Esto es algo que creo que será realmente transformador para recursos sorprendentes. Esto es algo que comenzamos a ver en el campo hoy. En el límite, comenzamos a tener un modelo de la red futura que parece familiar. Tenemos un montón de ubicaciones de servicio independientes, que potencialmente están recibiendo políticas o actualizaciones o lo que sea, para proporcionar una gestión colectiva efectiva a nivel del sistema. Tal vez incluso puedan aislarse por completo a veces o la mayor parte del tiempo. Con suerte, también pueden proporcionar servicios de red, si se les paga para hacerlo.

Digo, con suerte, porque hay un modelo en el que todo esto también se desmorona, y la economía de la red colectiva queda aplastada por el deseo de la gente de ir y simplemente desertar y construir sus propias plantas de energía localmente. Eso sería malo, desde la perspectiva de la tragedia de los bienes comunes, porque cuando miras un modelo de la red que no proporciona ninguna forma de conectividad central económica, tienes un montón de personas que ya no están conectadas y ya no puede recibir servicios de manera efectiva. Nos gusta que el modelo de la grilla esté disponible, porque nos permite optimizar muchas cosas. Optimiza el uso de la red. Optimiza el uso de los recursos. Nos permite mover energía de lugares donde sopla el viento a donde no lo hace, donde el sol brilla a donde no lo hace. Movamos los recursos y proporcionemos un aumento sustancial de la eficiencia para la generación y los recursos de la red. No es un resultado predeterminado, tenemos que construir esto si queremos que suceda.

Solo traerlo de vuelta para que me guste, ¿por qué estamos hablando de esto en primer lugar? Esto no es un ejercicio académico. No es solo porque queremos que las personas puedan recibir un pago por el uso de sus baterías. Ni siquiera es solo porque queremos que los transformadores no exploten. Es porque realmente necesitamos la flexibilidad que brindan los clientes y usuarios finales para ser el último 20 % de la descarbonización de la red y aumentar nuestro suministro de energía. Si podemos hacer eso, tenemos una muy buena oportunidad de cumplir con nuestros plazos. Podríamos lograrlo para 2035. Podríamos lograrlo para 2040. 2040 no está mal. 2030 sería el mejor. Cada día que lo hacemos es otro día que no estamos emitiendo el carbono que hemos emitido en el pasado, y es un paso hacia un futuro mejor.

Como pensamiento final, solo voy a mencionar si eventualmente tendremos o no una IA gigante para operar la red. Mi respuesta corta a eso no es una IA gigante, probablemente, por un par de razones. Una es que la previsibilidad y la transparencia son realmente importantes en un sistema como este, donde hay muchos participantes. Tiene que ser comprensible, predecible, y también tiene que ser algo en lo que las implicaciones financieras de cualquier acción tomada sean particularmente claras. Dicho esto, es un problema muy complejo. Hay muchas oportunidades para que ML y AI lo mejoren. En el límite, espero un papel muy importante para la IA en la optimización y la programación, y continuar entendiendo y siendo capaz de administrar de manera efectiva los patrones cambiantes del uso de energía, para hacer todas las cosas que están en esta diapositiva. Mi mensaje feliz es que eso es algo que podemos evolucionar a medida que avanzamos. Podemos partir de las herramientas que tenemos. Existe una oportunidad para todos de encontrar trabajo técnico realmente interesante en los campos en los que está interesado en participar con la red, ya sea simplemente desde una perspectiva de sistemas y operaciones, o si es un investigador de IA y ML, y ve formas de mejorar realmente dramáticamente las operaciones de estos sistemas.

Hay un par de otros recursos que son realmente útiles para los ingenieros que buscan hacer un cambio en el espacio climático. No somos la única empresa que trabaja en este espacio, hay varias muy buenas. Realmente lo alentaría a considerar moverse en la dirección del clima y la tecnología limpia mientras piensa hacia dónde irá su carrera en el futuro. Porque no hay trabajo más importante que podamos estar haciendo hoy.

Ver más presentaciones con transcripciones

Grabado en:

12 de mayo de 2023

por

Astrid Atkinson

Descubra las tendencias y prácticas emergentes de los expertos en el campo. ¡Sube de nivel tus habilidades en QCon New York (del 13 al 15 de junio de 2023)!

Ver más presentaciones con transcripciones