Kedro เป็นเครื่องมือโอเพ่นซอร์สตัวแรกที่พัฒนาโดยแผนก บริษัท ที่ปรึกษา McKinsey ถูกสร้างขึ้นเพื่อใช้โดยนักวิทยาศาสตร์ข้อมูลและวิศวกร คือ ไลบรารีรหัสที่สามารถใช้ในการสร้างข้อมูลและท่อโครงสร้างพื้นฐานของโครงการแมชชีนเลิร์นนิง
McKinsey & Company เป็น บริษัท ที่ปรึกษาด้านการจัดการระดับโลกของอเมริกา ทำการวิเคราะห์เชิงคุณภาพและเชิงปริมาณเพื่อประเมินการตัดสินใจของฝ่ายบริหารในภาครัฐและเอกชน ลูกค้าของเขารวมถึง 80% ของ บริษัท ที่ใหญ่ที่สุดในโลก
เครื่องมือโอเพ่นซอร์สตัวแรก
บริษัท ไม่เคยเปิดตัวหนึ่งในเครื่องมือที่พัฒนาขึ้นเองภายใต้ใบอนุญาตโอเพนซอร์สมาก่อน ในความเป็นจริง Kedro เกิดมาเพื่อเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์ อย่างไรก็ตามเมื่อความสัมพันธ์กับ บริษัท สิ้นสุดลงลูกค้าจะไม่สามารถเข้าถึงโปรแกรมได้อีกต่อไป
ชื่อ Kedro มาจาก คำภาษากรีกสำหรับศูนย์กลางหรือแกนกลาง. ได้รับเลือกเนื่องจากเครื่องมือโอเพนซอร์สนี้มีรหัสที่สำคัญสำหรับการสร้างโครงการวิเคราะห์ขั้นสูง
Kedro มีข้อดีสองประการ:
- ช่วยให้ทีมสามารถทำงานร่วมกันได้ง่ายขึ้นโดยการจัดโครงสร้างโค้ดการวิเคราะห์ในลักษณะเดียวกัน
- ช่วยให้ส่วนประกอบทั้งหมดไหลลื่นผ่านทุกขั้นตอนของโครงการได้อย่างราบรื่น
ซึ่งรวมถึง
- การรวมแหล่งข้อมูล
- การล้างข้อมูล
- การสร้างคุณลักษณะ
- ป้อนข้อมูลลงในแบบจำลองการเรียนรู้ของเครื่องเพื่อการวิเคราะห์เชิงอธิบายหรือเชิงคาดการณ์
เคโดรด้วย ช่วยส่งมอบรหัสที่พร้อมใช้งาน. สิ่งนี้ทำให้มีประโยชน์มากสำหรับนักวิทยาศาสตร์ข้อมูลที่มักไม่เชี่ยวชาญในการสร้างซอฟต์แวร์
ทำไม Kedro ถึงมีประโยชน์?
เครื่องมือโอเพนซอร์สเช่น Kedro อนุญาต ลดเวลาที่ต้องใช้ในการแปลงต้นแบบเป็นรหัสการผลิตเป็นสัปดาห์ ๆ นักวิเคราะห์สามารถใช้เวลาในการเขียนโค้ดน้อยลงและใช้เวลาในการแก้ไขปัญหากับลูกค้าได้มากขึ้น
Kedro ช่วยทีมสร้างช่องข้อมูลแบบโมดูลาร์ทดสอบทำซ้ำได้ในทุกสภาพแวดล้อมและกำหนดเวอร์ชันเพื่อให้ผู้ใช้เข้าถึงสถานะข้อมูลก่อนหน้านี้ รหัสเดียวกันนี้สามารถเปลี่ยนจากแล็ปท็อปของนักพัฒนาเครื่องเดียวไปยังโครงการระดับองค์กรโดยใช้ระบบคลาวด์คอมพิวติ้ง นอกจากนี้ยังสามารถใช้ได้กับทุกอุตสาหกรรมโมเดลและแหล่งข้อมูล
McKinsey ใช้ Kedro ในโครงการมากกว่า 50 โครงการแล้ว ตามที่ผู้บริหารคนหนึ่งลูกค้าชอบการสร้างภาพท่อเป็นพิเศษ พวกเขาจะเห็นขั้นตอนต่างๆของการเปลี่ยนแปลงทันทีประเภทของโมเดลที่เกี่ยวข้องและสามารถติดตามผลลัพธ์กลับไปยังแหล่งข้อมูลดิบได้
McKinsey ไม่ใช่ บริษัท แรกที่ไม่เกี่ยวข้องกับเทคโนโลยีโดยตรง ซึ่งเผยแพร่เครื่องมือโอเพนซอร์ส Uber และ Airbnb ได้ทำสำเร็จแล้ว
คุณสมบัติและการติดตั้ง Kendro
Kedro เป็นเครื่องมือในการพัฒนาเวิร์กโฟลว์สำหรับ การสร้างช่องข้อมูลที่แข็งแกร่งปรับขนาดปรับใช้ทำซ้ำได้และมีเวอร์ชัน
ลักษณะสำคัญของ Kedro คืออะไร?
1. เทมเพลตโครงการและมาตรฐานการเข้ารหัส
- เทมเพลตโครงการมาตรฐานที่ใช้งานง่าย
- การตั้งค่าสำหรับหนังสือรับรองการลงทะเบียนการอัพโหลดข้อมูลและ Jupyter Notebooks / Lab
- ทดสอบขับเคลื่อนการพัฒนาโดยใช้ pytest
- การรวมสฟิงซ์เพื่อสร้างรหัสที่มีเอกสารอย่างดี
2. การแยกข้อมูลและการกำหนดเวอร์ชัน
- การแยกชั้นคอมพิวเตอร์ออกจากชั้นการจัดการข้อมูลรวมถึงการรองรับรูปแบบข้อมูลและตัวเลือกการจัดเก็บข้อมูลที่แตกต่างกัน
- เวอร์ชันสำหรับชุดข้อมูลและโมเดลแมชชีนเลิร์นนิงของคุณ
3. ความเป็นโมดูลาร์และความเป็นนามธรรมของท่อ
- รองรับฟังก์ชัน Python บริสุทธิ์โหนดเพื่อแบ่งโค้ดส่วนใหญ่ออกเป็นส่วนเล็ก ๆ ที่เป็นอิสระ
- ความละเอียดอัตโนมัติของการอ้างอิงระหว่างโหนด
4. ความสามารถในการขยายคุณสมบัติ
- ระบบปลั๊กอินที่ฉีดคำสั่งลงในอินเทอร์เฟซบรรทัดคำสั่ง (CLI) ของ Kedro: Kedro-Airflow ทำให้ง่ายต่อการสร้างต้นแบบไปป์ไลน์ข้อมูลของคุณใน Kedro ก่อนที่จะปรับใช้กับ Airflow ซึ่งเป็นตัวกำหนดตารางเวิร์กโฟลว์ Kedro-Docker เครื่องมือสำหรับบรรจุและจัดส่งโครงการ Kedro ในตู้คอนเทนเนอร์
- Kedro สามารถใช้งานได้ทั้งในพื้นที่ในสถานที่และในระบบคลาวด์ (AWS, Azure และ GCP) หรือในคลัสเตอร์ (EMR, Azure HDinsight, GCP และ Databricks)
เราสามารถติดตั้ง Kedro บนการแจกจ่าย Linux ที่อ้างอิงไว้ล่วงหน้าได้โดยทำ:
sudo apt install python3-pip
pip install kedro
ในการทำให้เป็นจริง:
pip3 install kedro -U
ดูเอกสารประกอบได้ดังนี้
kedro docs
สามารถดูข้อมูลเพิ่มเติมได้ที่ หน้าโครงการ