DataOps: una nueva esperanza para capitalizar nuestros datos

RTM / Febrero 2022

DataOps: una nueva esperanza para capitalizar nuestros datos

Francisco Cavero, Gerente Asociado de Tecnología

Si bien todos compramos el mensaje de que los datos son un activo valiosísimo para las empresas, la realidad es que casi ninguna empresa que conozca en Perú lo pone en práctica. En mi búsqueda de descubrir cómo explotar este “nuevo petróleo”, encontré un paper publicado el 2019, por O’Reilly Media titulado “Getting DataOps Right” (Palmer, A., Stonebraker, M., Bates-Haus, N. & otros), que me ha dado una nueva esperanza de poder sacarle provecho a nuestros datos a través de los “DataOps”. En los párrafos siguientes, sintetizaré las principales ideas y propuestas para comprender este marco de trabajo, que sin duda nos ayudará a explotar mejor la data.

Primero se debe tener claro: ¿Qué es DevOps?

Antes de pasar a la introducción de DataOps, tenemos que entender que son los DevOps. En las últimas tres décadas, como gerente de sistemas y proveedor de servicios de software empresarial, he sido testigo de una serie de transformaciones en las tecnologías de la información, incluyendo cliente/servidor, Web 1.0, Web 2.0, Cloud y Big Data. No obstante, una de las transformaciones más importantes ha sido la aparición de los DevOps.

DevOps (Development+Operations) es la aplicación de métodos ágiles que a través de técnicos especializados (llamados también DevOps), logra la automatización de los procesos de Integración, Control de Calidad y Deployment, y la integración de sus áreas operativas (Desarrollo, Control de Calidad y Operaciones).

Esto ayuda a acelerar el lanzamiento de nuevos productos y servicios tecnológicos, que generen ventajas competitivas para el negocio a la velocidad que lo hacen empresas nativas digitales, como es el caso de Amazon, Google, etc. Esto ha hecho realidad el presagio de Marc Andreessen de que “el software se está comiendo el mundo”.

Desarrollo de software

Desarrollo de Software

DevOps creó el marco de ingeniería que sirve de preparación para DataOps. Al igual que las empresas de Internet necesitaban DevOps para proporcionar un marco coherente y de alta calidad para el desarrollo de sistemas, las empresas necesitan un marco coherente y de alta calidad para la ingeniería de datos y la analítica. DataOps permitirá que las empresas provean datos, provenientes de todas las fuentes, de manera rápida y asegurando que estén listos para su uso. La necesidad de DataOps surge porque grandes empresas tradicionales caen en cuenta de la necesidad de uso de casi todos sus datos como activo estratégico para la toma de mejores decisiones.

Entonces, ¿Qué es DataOps?

DataOps es la consecuencia lógica de tres tendencias claves ocurridas en las empresas:

  1. La iniciativa de automatización de procesos de negocio, de los últimos 30 años, que empezó con la automatización de sistemas back-office (eg. contabilidad, finanzas, fabricación, etc.), continuó con aplicaciones front (eg. ventas, marketing, etc.) y causó la creación de cientos de silos de datos en las grandes empresas.
  2. La presión competitiva de las empresas nativas digitales en las Industrias.
  3. La oportunidad que se presenta ante la “democratización de las analíticas de datos”, que permitieron un amplio uso de herramientas analíticas y de visualización como Spotfire, Tableau, BusinessObjects, Power BI, entre

Como respuesta, se tienen brechas por entornos de datos intensamente fracturados y silos de datos. En el tiempo, ha habido muchas promesas para cubrir estas brechas, comenzando con el uso de data warehousing (1990), data lakes (2000) y otras promesas de hegemonía de datos con un solo proveedor como SAP, Oracle, Teradata o IBM. Sin embargo, se ha mantenido la realidad sombría de datos fracturados. Ya es hora de hacer frente a estas brechas como un imperativo competitivo estratégico pues como Tom Davenport describe en su libro “Competing on Analytics”, aquellas organizaciones que son capaces de tomar mejores decisiones más rápidas [usando datos] sobrevivirán y prosperarán. Para las organizaciones que reconocen la gravedad del problema y determinan abordarlo, DataOps les permite cubrir sus brechas de forma rápida y lograr una entrega continua de datos unificados de alta calidad.

¿Cómo comenzar a emplear DataOps?

Entonces, DataOps es el marco de referencia que permitirá a estas empresas comenzar su camino hacia el tratamiento de sus datos como un activo y cerrar la brecha de datos.

¿Cómo empezar?

En los mejores proyectos que participé, los participantes caen en cuenta de que su primer objetivo es organizar sus datos en entidades lógicas empresariales clave, como: Cliente, Proveedores, Productos, Instalaciones y Empleados. Por supuesto, cada empresa e industria tiene su propia colección de entidades clave. Los bancos podrían tener entidades que permitan hacer detección de fraude; empresas agrícolas podrían preocuparse más por el clima y datos de cultivo. Para cada empresa, entender estas entidades lógicas es clave para garantizar un análisis fiable. Muchos proyectos DataOps comienzan con una sola entidad para un solo caso de uso y luego se expanden. Una vez identificada la entidad clave, el director de datos debe responder: ¿qué datos tenemos?, ¿de dónde provienen los datos? y ¿dónde se consumen estos datos?

¿Qué más debemos considerar?

Había mencionado que DataOps comparte principios básicos de DevOps. A continuación, tres de los principios que hacen de DevOps una disciplina:

  • Principio 1 “Piensa en servicios, no en servidores”: Cuando se trata de disponibilidad, hay muchas más opciones para tener un servicio disponible que para tener un servidor disponible, como: replicación, elasticidad, conmutación por error y mucho más.
  • Principio 2 “Infraestructura como código”: Con “Infrastructure as Code” (IaC), la implementación de servidores adicionales es un tema de ejecutar el código adecuado, reduciendo drásticamente el tiempo de implementación y la posibilidad de error humano.
  • Principio 3 “Automatice todo”: Muchas de las técnicas disponibles para mantener los servicios disponibles no funcionan si requieren un humano en el bucle.
Control de datos con DataOps

Control de los datos con DataOps

¿Cuáles son las buenas prácticas de DataOps que puedo ejecutar para cerrar la brecha de datos?

  1. Aplicar proceso ágil: Corto tiempo de entrega y capacidad de respuesta al cambio son mandatorios para que el equipo de DataOps apoye eficazmente a otros equipos ágiles.
  2. Integrarse con su cliente: El equipo de DataOps tiene la ventaja de que los clientes (el equipo de ingeniería que apoyan) son internos, y por lo tanto están disponibles para la interacción diaria.
  3. Implementar todo en el código: Todo tiene que ser código: incluye configuración de host y red, automatización, recopilación y publicación de resultados de pruebas, instalación de servicios y su arranque, manejo de errores, etc.
  4. Aplicar las mejores prácticas de ingeniería de software: El valor total de IaC (Infrastructure as Code) se alcanza cuando se desarrolla ese código utilizando las mejores prácticas de ingeniería de software. Eg. Control de versiones con branching y merge, pruebas automatizadas de regresión, diseño y factorización de código, etc.
  5. Mantener múltiples entornos: Mantenga en los entornos de desarrollo, pruebas de aceptación y producción Nunca pruebe en producción, y nunca ejecute producción desde desarrollo.
  6. Poner a prueba todo: Nunca implementar datos si no pasaron pruebas de calidad. Nunca implementar un servicio si no ha pasado pruebas de regresión. Las pruebas automatizadas son las que permiten hacer cambios rápidos, porque brinda confianza en que los problemas se detectan antes de llegar a producción.

¿Qué nuevas capacidades obtendrá la empresa si emplea DataOps?

Por otra parte, si juntamos DataOps con “Agile Data Engineering”, creamos una organización de ingeniería de datos de próxima generación. Este equipo multifuncional debe ser capaz de entregar varias capacidades clave para la empresa. En las siguientes líneas, algunas de estas capacidades:

  1. Inventario de datos de origen: Los consumidores de datos necesitan saber a qué materia prima está disponible para trabajar. Para ello, responder a ¿cuáles son los conjuntos de datos y qué atributos contienen?, ¿en qué horario se actualiza la fuente de datos?, ¿a qué políticas de gobernanza están sujetas? y ¿quién es responsable de manejar los asuntos que se presentan?
  2. Movimiento y conformación de datos: Los datos se deben obtener de la fuente de origen y llevarse de forma rápida y limpia al usuario final. Esto requiere conectividad, movimiento y transformación.
  3. Modelos lógicos de datos unificados: Las operaciones deben ejecutarse en modelos de datos de entidades vinculadas al negocio que son bien entendidos. Estos modelos deben ser concretos, de uso práctico, manteniendo flexibilidad para adaptarse al cambio en la disponibilidad y necesidades de datos.
  4. Centro de datos unificados: Se debe contar con una ubicación central donde los usuarios pueden encontrar, acceder y curar los datos relacionados con entidades clave: proveedores, clientes, productos y más—que impulsan a toda la organización.
  5. Retroalimentación: En el momento de su uso, los problemas de calidad de los datos se vuelven extremadamente transparentes, por lo que capturar comentarios en el momento de uso es fundamental para permitir datos de la más alta calidad.
Buenas prácticas DataOps

Nuevas capacidades para la empresa con DataOps

Llegar al Ecosistema DataOps

En un siguiente nivel, una moderna infraestructura de data,  opera como un Ecosistema DataOps.

¿Cuáles son los principios clave de este Ecosistema?

  1. Altamente automatizado: Automatizar su infraestructura de datos y utilizar los principios de sistemas (diseño para operaciones, repetibilidad, pruebas y liberación de datos automatizadas) es fundamental para mantenerse al día con el ritmo dramático del cambio en los datos empresariales.
  2. Abierto: La primera característica de un ecosistema DataOps moderno es que no es un solo artefacto de software propietario, ni una colección de artefactos de un solo proveedor. El ecosistema de DataOps debe parecerse a los ecosistemas de los DevOps en los que hay muchos componentes de software libre, de código abierto (FOSS) y herramientas patentadas que se espera que interoperen a través de APIs.
  3. Tabla(s) In/Tabla(s) Out Protocol: En mi experiencia, la forma de compartir información más difundida y simple y que es usada por la mayoría de herramientas es usar tablas.

El equipo perfecto de DataOps posiblemente ya está en tu empresa

Finalmente, para abrazar realmente la adopción de DataOps, ¿cómo construimos un equipo DataOps, ¿dónde empezamos y así cómo nos preparamos para las tendencias futuras?

La tecnología es innegablemente importante, pero las personas son la piedra angular vital de la ecuación DataOps. Un equipo DataOps de alto rendimiento produce rápidamente nuevas analíticas y responde de manera flexible a las demandas del mercado. Unifican los datos de diversas fuentes anteriormente fragmentadas y los transforman en un recurso de alta calidad que crea valor y permite a los usuarios obtener información que les permite tomar acción.

Un aspecto clave de la adopción de una mentalidad DataOps, es que los equipos de ingeniería de datos deben empezar a pensar en sí mismos, no como técnicos que mueven datos de la fuente A al informe B. Sino más bien como desarrolladores de software que emplean prácticas de desarrollo ágiles para crear rápidamente aplicaciones de datos. Esto requiere una combinación de habilidades que podrían o no existir ya dentro de su organización, y requiere una estructura organizacional que formalice algunas nuevas funciones y recursos en consecuencia.

Para poder comprender qué miembros, roles y funciones se requieren en un equipo DataOps, se verán a manera de ejemplo tres funciones de un proveedor de data:

  1. Suministro de datos: ¿Quién es el propietario de sus sistemas internos de gestión de proveedores? ¿Quién es el dueño de los datos de proveedores? En un mundo DataOps, estos propietarios de fuentes deben trabajar juntos con ingenieros de datos para construir la infraestructura necesaria para que el resto del negocio pueda aprovechar todos los datos.
  2. Preparación de datos: DataOps amplía la preparación tradicional de data más allá de ingenieros de datos que mueven y transforman data de fuentes crudas a data lakes para incluir a administradores de datos y curadores responsables, para garantizar la calidad y gobernanza de las fuentes de datos críticas.
  3. Consumo de datos: En la “última milla” de la cadena de suministro de datos, tenemos analistas/científicos de datos construyendo paneles de control o modelos de optimización. Ellos deben trabajar en estrecha colaboración con los equipos que les proporcionan los datos. Con ello, se puede brindar retroalimentación directa, así para los datos problemas que se encuentran, estos no se corregirán en un solo panel, sino en la causa raíz real de la cual se desprende toda la comunidad de datos.
El equipo perfecto de DataOps posiblemente ya está en tu empresa

El equipo perfecto de DataOps posiblemente ya está en tu empresa

Ahora, ¿dónde encontramos a la gente correcta?

Esto requerirá una combinación de talento interno y externo. Es importante tener en cuenta que algunos de estos papeles todavía están evolucionando, por lo que no hay descripciones de trabajo que puedan servir como directrices.

  1. Suministro de datos: Los candidatos ya están en la empresa; sólo se tiene que deliberar y comunicar que un catálogo de datos tendrá un único usuario responsable de proporcionar acceso a cada fuente y quién debe ser el punto principal de contacto para los problemas de la calidad de cada fuente.
  2. Preparación de datos: Implica un desafío mayor porque es raro que una sola persona combine habilidades técnicas con la gestión de datos y una comprensión clara de los requerimientos empresariales. En algunos casos, se podrá buscar en los miembros más expertos en negocios de sus equipos de ingeniería de datos/ETL y los miembros más expertos en tecnología de sus equipos de negocio y ayudarlos a cubrir las brechas.
  3. Consumo de datos: Al igual que (2) podría estar en las empresas si es que se están explotando los datos. El objetivo de DataOps es garantizar que estos consumidores de datos puedan concentrarse en los problemas analíticos y operativos que quieren resolver, sin obstáculos por el difícil trabajo de conseguir los datos útiles que necesitan.

En pocas cuentas, el reto para la gran empresa con DataOps es que, si no adoptan esta nueva capacidad rápidamente, corren el riesgo de quedarse viendo sólo el polvo de sus competidores.

Si deseas saber más, no dudes en escribirnos. También, te invitamos a consultar el artículo “El Proceso de Business Intelligence” de Martín Valdez, Consultor RTM

Francisco CaveroGerente Asociado de Tecnología
Francisco Cavero

Te podría interesar…

2022-03-03T13:27:41-05:00

Dejanos Un Comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Go to Top