McKinsey presenta Kedro, su primera herramienta de código abierto

Kedro es la primera herramienta de código abierto de la consultora McKinsey

Página en GitHub del proyecto Kedro

Kedro es la primera herramienta de código abierto desarrollada por una división de la consultora McKinsey. Se creó para ser usada por científicos e ingenieros de datos. Es una librería de código que puede ser usada para crear datos y tuberías, los componentes básicos de un proyecto de aprendizaje automático.

McKinsey & Company es una empresa estadounidense de consultoría de gestión a nivel mundial. Realiza análisis cualitativos y cuantitativos para evaluar las decisiones de gestión en los sectores público y privado. Sus clientes incluyen al 80% de las corporaciones más grandes del mundo.

Primera herramienta de código abierto

La empresa nunca antes había publicado una de las herramientas desarrolladas internamente bajo una licencia de código abierto. De hecho, Kedro nació como software propietario. Sin embargo, cuando la relación con la empresa terminaba, los clientes ya no tenían acceso al programa.

El nombre Kedro deriva de la palabra griega para centro o núcleo. Se eligió porque esta herramienta de código abierto proporciona un código crucial para producir proyectos de análisis avanzados.

Kedro tiene dos ventajas principales:

  • Permite a los equipos colaborar más fácilmente estructurando el código analítico de forma uniforme.
  • Permite que todos los componentes fluyan sin problemas en todas las etapas de un proyecto.

Esto incluye

  • Consolidación de fuentes de datos,
  • Limpieza de datos
  • Creación de características
  • Alimentación de los datos en modelos de aprendizaje automático para análisis explicativos o predictivos.

Kedro también ayuda a entregar código listo para ser utilizado. Esto lo hace realmente útil para los científicos de datos que no suelen ser expertos en creación de software.

¿Por qué es útil Kedro?

Herramientas de código abierto como Kedro permiten reducir en semanas el tiempo necesario para transformar un prototipo en código de producción. Los analistas pueden dedicar menos tiempo al código y más tiempo a resolver los problemas de sus clientes.

Kedro ayuda a los equipos a crear canales de datos modulares, probados, reproducibles en cualquier entorno y versionados, lo que permite a los usuarios acceder a estados de datos anteriores. Ese mismo código puede pasar desde el ordenador portátil de un solo desarrollador a un proyecto de nivel empresarial que utilice el cloud computing. También puede utilizarse con todas las industrias, modelos y fuentes de datos.

McKinsey ya utilizó Kedro en más de 50 proyectos hasta la fecha. Según un ejecutivo, a los clientes les gusta especialmente la visualización de las tuberías. Ellos ven inmediatamente las diferentes etapas de transformación, los tipos de modelos implicados y pueden rastrear los resultados hasta la fuente de datos sin procesar.

McKinsey no es la primera empresa no directamente relacionada con la tecnología que publica herramientas de código abierto. Ya lo habían hecho Uber y Airbnb.

Características e instalación de Kendro

Kedro es una herramienta de desarrollo de flujos de trabajo para la creación de canales de datos robustos, escalables, desplegables, reproducibles y versionados.

¿Cuáles son las principales características de Kedro?

1. Plantilla de proyecto y estándares de codificación

  • Una plantilla de proyecto estándar y fácil de usar
  • Configuración para credenciales, registro, carga de datos y Jupyter Notebooks / Lab.
  • Desarrollo basado en pruebas utilizando pytest
  • Integración de Sphinx para producir un código bien documentado

2. Extracción y versionado de datos

  • Separación de la capa de computación de la capa de manejo de datos, incluyendo soporte para diferentes formatos de datos y opciones de almacenamiento.
  • Versiones para sus conjuntos de datos y modelos de aprendizaje de máquinas

3. Modularidad y abstracción de tuberías

  • Soporte para funciones Python puras, nodos, para dividir grandes trozos de código en pequeñas secciones independientes.
  • Resolución automática de dependencias entre nodos

4. Extensibilidad de las características

  • Un sistema de plugins que inyecta comandos en la interfaz de línea de comandos (CLI) de Kedro: Kedro-Airflow, lo que facilita la creación de prototipos de su canal de datos en Kedro antes de desplegarlo en Airflow, un programador de flujos de trabajo. Kedro-Docker, una herramienta para el embalaje y envío de proyectos Kedro en contenedores
  • Kedro puede desplegarse localmente, en las instalaciones y en la nube (AWS, Azure y GCP) o en clústeres (EMR, Azure HDinsight, GCP y Databricks).

Podemos instalar Kedro en nuestra distribución Linux prerefida haciendo:

sudo apt install python3-pip
pip install kedro

Para actualizar:
pip3 install kedro -U

Podemos ver la documentación con:
kedro docs
Encontramos más información en la página del proyecto

Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.