McKinsey giới thiệu Kedro, Công cụ nguồn mở đầu tiên của nó

Kedro là công cụ mã nguồn mở đầu tiên của công ty tư vấn McKinsey

Trang GitHub của dự án Kedro

Kedro là công cụ mã nguồn mở đầu tiên được phát triển bởi một bộ phận của công ty tư vấn McKinsey. Nó được tạo ra để sử dụng bởi các nhà khoa học và kỹ sư dữ liệu. Là một thư viện mã có thể được sử dụng để tạo dữ liệu và đường dẫn, các khối xây dựng của một dự án học máy.

McKinsey & Company là một công ty tư vấn quản lý toàn cầu của Mỹ. Thực hiện các phân tích định tính và định lượng để đánh giá các quyết định quản lý trong khu vực công và tư nhân. Khách hàng của ông bao gồm 80% các tập đoàn lớn nhất thế giới.

Công cụ mã nguồn mở đầu tiên

Trước đó, công ty chưa bao giờ phát hành một trong những công cụ được phát triển nội bộ theo giấy phép nguồn mở. Trên thực tế, Kedro được sinh ra như một phần mềm độc quyền. Tuy nhiên, khi mối quan hệ với công ty chấm dứt, khách hàng không còn quyền truy cập vào chương trình.

Tên Kedro bắt nguồn từ từ tiếng Hy Lạp có nghĩa là trung tâm hoặc cốt lõi. Nó được chọn vì công cụ mã nguồn mở này cung cấp mã quan trọng để tạo ra các dự án phân tích nâng cao.

Kedro có hai ưu điểm chính:

  • Nó cho phép các nhóm cộng tác dễ dàng hơn bằng cách cấu trúc mã phân tích theo một cách thống nhất.
  • Nó cho phép tất cả các thành phần trôi chảy liên tục qua tất cả các giai đoạn của một dự án.

Điều này bao gồm

  • Hợp nhất các nguồn dữ liệu,
  • Dọn dẹp dữ liệu
  • Tạo tính năng
  • Cung cấp dữ liệu vào các mô hình học máy để phân tích giải thích hoặc dự đoán.

Kedro cũng vậy giúp cung cấp mã sẵn sàng sử dụng. Điều này làm cho nó thực sự hữu ích cho các nhà khoa học dữ liệu, những người thường không phải là chuyên gia trong việc tạo ra phần mềm.

Tại sao Kedro lại hữu ích?

Các công cụ mã nguồn mở như Kedro cho phép giảm thời gian chuyển đổi nguyên mẫu thành mã sản xuất theo tuần. Các nhà phân tích có thể dành ít thời gian hơn cho việc viết mã và nhiều thời gian hơn để khắc phục sự cố cho khách hàng của họ.

Kedro giúp các nhóm tạo các kênh dữ liệu mô-đun, được thử nghiệm, tái tạo trong mọi môi trường và được tạo phiên bản, cho phép người dùng truy cập các trạng thái dữ liệu trước đó. Cùng một đoạn mã đó có thể chuyển từ máy tính xách tay của một nhà phát triển đến một dự án cấp doanh nghiệp sử dụng điện toán đám mây. Nó cũng có thể được sử dụng với tất cả các ngành, mô hình và nguồn dữ liệu.

McKinsey đã sử dụng Kedro cho hơn 50 dự án cho đến nay. Theo một giám đốc điều hành, khách hàng đặc biệt thích hình ảnh của các đường ống. Họ ngay lập tức thấy các giai đoạn chuyển đổi khác nhau, các loại mô hình liên quan và có thể truy tìm kết quả trở lại nguồn dữ liệu thô.

McKinsey nó không phải là công ty đầu tiên không liên quan trực tiếp đến công nghệ nơi xuất bản các công cụ mã nguồn mở. Uber và Airbnb đã làm được điều đó.

Các tính năng và cài đặt của Kendro

Kedro là một công cụ phát triển quy trình làm việc cho tạo ra các kênh dữ liệu mạnh mẽ, có thể mở rộng, có thể triển khai, có thể tái tạo và được tạo phiên bản.

Các đặc điểm chính của Kedro là gì?

1. Mẫu dự án và các tiêu chuẩn mã hóa

  • Mẫu dự án tiêu chuẩn, dễ sử dụng
  • Cài đặt cho thông tin xác thực, đăng ký, tải lên dữ liệu và Máy tính xách tay / Phòng thí nghiệm Jupyter.
  • Phát triển theo hướng thử nghiệm bằng cách sử dụng pytest
  • Tích hợp Sphinx để tạo ra mã được ghi chép đầy đủ

2. Trích xuất dữ liệu và lập phiên bản

  • Tách lớp điện toán khỏi lớp quản lý dữ liệu, bao gồm hỗ trợ các định dạng dữ liệu khác nhau và các tùy chọn lưu trữ.
  • Các phiên bản cho tập dữ liệu và mô hình học máy của bạn

3. Tính mô đun và tính trừu tượng của đường ống

  • Hỗ trợ các chức năng, nút Python thuần túy, để chia các đoạn mã lớn thành các phần nhỏ độc lập.
  • Tự động giải quyết các phụ thuộc giữa các nút

4. Khả năng mở rộng của các tính năng

  • Một hệ thống plugin đưa các lệnh vào giao diện dòng lệnh (CLI) của Kedro: Kedro-Airflow, giúp bạn dễ dàng tạo nguyên mẫu đường ống dữ liệu của bạn trong Kedro trước khi triển khai nó lên Airflow, một bộ lập lịch quy trình làm việc. Kedro-Docker, một công cụ để đóng gói và vận chuyển các dự án Kedro trong container
  • Kedro có thể được triển khai cục bộ, tại chỗ và trên đám mây (AWS, Azure và GCP) hoặc theo cụm (EMR, Azure HDinsight, GCP và Databricks).

Chúng tôi có thể cài đặt Kedro trên bản phân phối Linux được tham chiếu trước của chúng tôi bằng cách thực hiện:

sudo apt install python3-pip
pip install kedro

Để hiện thực hóa:
pip3 install kedro -U

Chúng ta có thể xem tài liệu với:
kedro docs
Thông tin thêm có thể được tìm thấy tại trang dự án


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.