Η McKinsey παρουσιάζει το Kedro, το πρώτο εργαλείο ανοιχτού κώδικα

Το Kedro είναι το πρώτο εργαλείο ανοιχτού κώδικα από την εταιρεία συμβούλων McKinsey

Σελίδα GitHub του έργου Kedro

Το Kedro είναι το πρώτο εργαλείο ανοιχτού κώδικα που αναπτύχθηκε από ένα τμήμα της McKinsey. Δημιουργήθηκε για να χρησιμοποιείται από επιστήμονες δεδομένων και μηχανικούς δεδομένων. Είναι ένα βιβλιοθήκη κωδικών που μπορεί να χρησιμοποιηθεί για τη δημιουργία δεδομένων και αγωγών, τα δομικά στοιχεία ενός έργου μηχανικής μάθησης.

Η McKinsey & Company είναι μια αμερικανική παγκόσμια εταιρεία συμβούλων διαχείρισης. Πραγματοποιεί ποιοτικές και ποσοτικές αναλύσεις για την αξιολόγηση των διοικητικών αποφάσεων στον δημόσιο και ιδιωτικό τομέα. Οι πελάτες του περιλαμβάνουν το 80% των μεγαλύτερων εταιρειών του κόσμου.

Πρώτο εργαλείο ανοιχτού κώδικα

Η εταιρεία ποτέ πριν δεν είχε κυκλοφορήσει ένα από τα εσωτερικά αναπτυγμένα εργαλεία με άδεια ανοιχτού κώδικα. Στην πραγματικότητα, ο Kedro γεννήθηκε ως ιδιόκτητο λογισμικό. Ωστόσο, όταν έληξε η σχέση με την εταιρεία, οι πελάτες δεν είχαν πλέον πρόσβαση στο πρόγραμμα.

Το όνομα Kedro προέρχεται από η ελληνική λέξη για το κέντρο ή τον πυρήνα. Επιλέχθηκε επειδή αυτό το εργαλείο ανοιχτού κώδικα παρέχει κρίσιμο κώδικα για την παραγωγή έργων προηγμένης ανάλυσης.

Το Kedro έχει δύο βασικά πλεονεκτήματα:

  • Επιτρέψτε στις ομάδες να συνεργάζονται πιο εύκολα, δομώντας τον κώδικα αναλυτικών στοιχείων με συνεπή τρόπο.
  • Επιτρέπει σε όλα τα στοιχεία να ρέουν απρόσκοπτα σε όλα τα στάδια ενός έργου.

Αυτό περιλαμβάνει

  • Ενοποίηση πηγών δεδομένων,
  • καθαρισμός δεδομένων
  • Δημιουργία χαρακτηριστικών
  • Τροφοδοσία των δεδομένων σε μοντέλα μηχανικής μάθησης για επεξηγηματική ή προγνωστική ανάλυση.

κέδρο επίσης βοηθά στην παράδοση έτοιμου προς χρήση κώδικα. Αυτό το καθιστά πολύ χρήσιμο για επιστήμονες δεδομένων που δεν είναι συνήθως ειδικοί στην κατασκευή λογισμικού.

Γιατί είναι χρήσιμο το Kedro;

Τα εργαλεία ανοιχτού κώδικα όπως το Kedro επιτρέπουν μείωση του χρόνου που απαιτείται για τη μετατροπή ενός πρωτοτύπου σε κώδικα παραγωγής κατά εβδομάδες. Οι αναλυτές μπορούν να αφιερώσουν λιγότερο χρόνο στην κωδικοποίηση και περισσότερο χρόνο στην επίλυση προβλημάτων για τους πελάτες τους.

Το Kedro βοηθά τις ομάδες να δημιουργήσουν αγωγούς δεδομένων που είναι αρθρωτές, δοκιμασμένες, αναπαραγώγιμες σε οποιοδήποτε περιβάλλον και εκδόσεις, επιτρέποντας στους χρήστες να έχουν πρόσβαση σε προηγούμενες καταστάσεις δεδομένων. Ο ίδιος κώδικας μπορεί να ρέει από τον φορητό υπολογιστή ενός μόνο προγραμματιστή σε ένα έργο σε επίπεδο επιχείρησης χρησιμοποιώντας υπολογιστικό νέφος. Μπορεί επίσης να χρησιμοποιηθεί με όλους τους κλάδους, τα μοντέλα και τις πηγές δεδομένων.

Η McKinsey έχει ήδη χρησιμοποιήσει το Kedro σε περισσότερα από 50 έργα μέχρι σήμερα. Σύμφωνα με στέλεχος, στους πελάτες αρέσει ιδιαίτερα η οπτικοποίηση των αγωγών. Βλέπουν αμέσως τα διαφορετικά στάδια του μετασχηματισμού, τους τύπους μοντέλων που εμπλέκονται και μπορούν να εντοπίσουν τα αποτελέσματα πίσω στην πηγή μη επεξεργασμένων δεδομένων.

McKinsey Δεν είναι η πρώτη εταιρεία που δεν σχετίζεται άμεσα με την τεχνολογία που δημοσιεύει εργαλεία ανοιχτού κώδικα. Η Uber και η Airbnb το είχαν ήδη κάνει.

Λειτουργίες Kendro και εγκατάσταση

Το Kedro είναι ένα εργαλείο ανάπτυξης ροής εργασιών για δημιουργώντας ισχυρές, επεκτάσιμες, αναπτύξιμες, αναπαραγώγιμες και εκδόσεις αγωγών δεδομένων.

Ποια είναι τα κύρια χαρακτηριστικά του Kedro;

1. Πρότυπο έργου και πρότυπα κωδικοποίησης

  • Ένα τυπικό, εύχρηστο πρότυπο έργου
  • Ρυθμίσεις για διαπιστευτήρια, εγγραφή, μεταφόρτωση δεδομένων και Σημειωματάρια/Εργαστήριο Jupyter.
  • Δοκιμαστική ανάπτυξη με χρήση Pytest
  • Ενσωμάτωση Sphinx για την παραγωγή καλά τεκμηριωμένου κώδικα

2. Εξαγωγή και έκδοση δεδομένων

  • Διαχωρισμός του επιπέδου υπολογιστών από το επίπεδο διαχείρισης δεδομένων, συμπεριλαμβανομένης της υποστήριξης για διαφορετικές μορφές δεδομένων και επιλογές αποθήκευσης.
  • Εκδόσεις για τα σύνολα δεδομένων σας και τα μοντέλα μηχανικής εκμάθησης

3. Αρθρωτότητα και άντληση αγωγών

  • Υποστήριξη καθαρών συναρτήσεων Python, κόμβων, για τη διάσπαση μεγάλων τμημάτων κώδικα σε μικρά, αυτοτελή τμήματα.
  • Αυτόματη επίλυση εξαρτήσεων μεταξύ κόμβων

4. Επεκτασιμότητα χαρακτηριστικών

  • Ένα σύστημα πρόσθετων που εισάγει εντολές στο Kedro CLI: Kedro-Airflow, καθιστώντας εύκολο να δημιουργήσετε πρωτότυπα τη γραμμή δεδομένων σας στο Kedro πριν την αναπτύξετε στο Airflow, έναν προγραμματιστή ροής εργασιών . Kedro-Docker, ένα εργαλείο για τη συσκευασία και την αποστολή έργων Kedro σε κοντέινερ
  • Το Kedro μπορεί να αναπτυχθεί στις εγκαταστάσεις, στις εγκαταστάσεις και στο cloud (AWS, Azure και GCP) ή σε συμπλέγματα (EMR, Azure HDinsight, GCP και Databricks).

Μπορούμε να εγκαταστήσουμε το Kedro στην προεπιλεγμένη διανομή Linux μας κάνοντας:

sudo apt install python3-pip
pip install kedro

Για την πραγματοποίηση:
pip3 install kedro -U

Μπορούμε να δούμε την τεκμηρίωση με:
kedro docs
Βρίσκουμε περισσότερες πληροφορίες στο τη σελίδα του έργου


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.