Kedro是由諮詢公司麥肯錫的一個部門開發的第一個開源工具。 它是為供數據科學家和工程師使用而創建的。 是一個 可用於創建數據和管道的代碼庫,這是機器學習項目的基礎。
麥肯錫公司是一家美國全球管理諮詢公司。 進行定性和定量分析,以評估公共部門和私營部門的管理決策。 他的客戶包括全球80%的大型公司。
第一個開源工具
該公司以前從未發布過在開放源代碼許可下內部開發的一種工具。 實際上,Kedro是作為專有軟件誕生的。 但是,當與公司的關係終止時,客戶將無法再訪問該程序。
凱德羅(Kedro)這個名字源於 中心或核心的希臘詞。 選擇該文件是因為該開源工具提供了用於生成高級分析項目的關鍵代碼。
Kedro具有兩個主要優點:
- 通過以統一的方式構造分析代碼,它使團隊可以更輕鬆地協作。
- 它允許所有組件無縫地貫穿項目的所有階段。
這包括
- 合併數據源,
- 數據清理
- 特徵創建
- 將數據輸入機器學習模型以進行解釋性或預測性分析。
凱德羅 幫助交付即用型代碼。 這對於通常不是軟件創建專家的數據科學家來說確實很有用。
為什麼Kedro有用?
像Kedro這樣的開源工具允許 將原型轉換為生產代碼所需的時間減少了數週。 分析師可以花更少的時間在編碼上,而將更多的時間花在對客戶進行故障排除上。
Kedro幫助團隊創建模塊化的數據通道,這些通道在任何環境中都經過測試,可複制和版本化,從而允許用戶訪問以前的數據狀態。 相同的代碼可以使用雲計算從單個開發人員的筆記本電腦轉到企業級項目。 它也可以用於所有行業,模型和數據源。
迄今為止,麥肯錫已經在超過50個項目中使用了Kedro。 一位高管表示,客戶特別喜歡管道的可視化。 他們可以立即看到轉換的不同階段,涉及的模型類型,並且可以將結果追溯到原始數據源。
麥肯錫 它不是第一家與技術沒有直接關係的公司 發布了開源工具。 Uber和Airbnb已經做到了。
Kendro功能和安裝
Kedro是用於 創建健壯,可伸縮,可部署,可複制和版本化的數據通道。
Kedro的主要特點是什麼?
1.項目模板和編碼標準
- 易於使用的標準項目模板
- 憑據,註冊,數據上傳和Jupyter Notebooks / Lab的設置。
- 使用pytest進行測試驅動的開發
- Sphinx集成以生成有據可查的代碼
2.數據提取和版本控制
- 計算層與數據管理層的分離,包括對不同數據格式和存儲選項的支持。
- 數據集和機器學習模型的版本
3.管道的模塊化和抽象化
- 支持純Python函數,節點,可將大塊代碼分成小塊獨立的部分。
- 自動解決節點之間的依賴關係
4.功能的可擴展性
- 一個將命令注入Kedro的命令行界面(CLI)的插件系統:Kedro-Airflow,可以輕鬆地在Kedro中對數據管道進行原型設計,然後再將其部署到工作流調度程序Airflow。 Kedro-Docker,用於在容器中打包和運輸Kedro項目的工具
- Kedro可以在本地,內部和雲(AWS,Azure和GCP)或群集(EMR,Azure HDinsight,GCP和Databricks)中本地部署。
我們可以通過以下操作將Kedro安裝在我們預先定義的Linux發行版上:
sudo apt install python3-pip
pip install kedro
要實現:
pip3 install kedro -U
我們可以通過以下方式查看文檔:
kedro docs
可以在以下位置找到更多信息 項目頁面