การเปิดตัว TileDB 2.0 เวอร์ชันใหม่เพิ่งประกาศเมื่อไม่นานมานี้ เพิ่มการผสานรวมเพื่อทำงานกับบริการคลาวด์ที่แตกต่างกัน, ความสามารถในการใช้อัลกอริทึมที่แตกต่างกัน, การปรับปรุงด้วยเครื่องมือจัดเก็บข้อมูลที่แตกต่างกันและสิ่งอื่น
สำหรับผู้ที่ไม่คุ้นเคยกับ TileDB ควรทราบว่าสิ่งนี้ เป็นฐานข้อมูลที่ออกแบบมาเพื่อช่วยทีมวิทยาศาสตร์ข้อมูล เพื่อให้การค้นพบเร็วขึ้นโดยมอบวิธีที่มีประสิทธิภาพมากขึ้นในการจัดเก็บอัปเดตวิเคราะห์และแบ่งปันข้อมูลที่หลากหลายจำนวนมาก
เกี่ยวกับ TileDB
TileDB ประกอบด้วยรูปแบบข้อมูลอาร์เรย์หลายมิติใหม่ เครื่องมือจัดเก็บข้อมูล C ++ แบบโอเพนซอร์สที่รวดเร็วฝังได้พร้อมการผสานรวมเครื่องมือวิทยาศาสตร์ข้อมูลและบริการคลาวด์เพื่อการคำนวณและการจัดการข้อมูลแบบไม่ใช้เซิร์ฟเวอร์
ไทล์ดีบี ได้รับการปรับให้เหมาะสมเพื่อจัดเก็บเมทริกซ์และข้อมูลที่ใช้ในการคำนวณทางวิทยาศาสตร์หลายมิติเช่นระบบต่าง ๆ สำหรับการประมวลผลข้อมูลทางพันธุกรรมข้อมูลเชิงพื้นที่และการเงินนั่นคือระบบที่ทำงานกับเมทริกซ์หลายมิติที่กระจัดกระจายหรือเต็มไปอย่างต่อเนื่อง
TileDB นำเสนอไลบรารี C ++ แบบสแตนด์อโลนและแบบฝัง ซึ่งมาพร้อมกับ API ใน C, C ++, Python, R, Java และ Go และคุณสามารถเข้าถึงอาร์เรย์ TileDB ได้โดยตรง
ไลบรารีนี้รวมเข้ากับ Spark, Dask, PrestoDB, MariaDB, Arrow และไลบรารีภูมิสารสนเทศเช่น PDAL, GDAL และ Rasterio TileDB ผลักดันการประมวลผลไปยังที่จัดเก็บข้อมูลให้มากที่สุดเช่นเงื่อนไขตัวกรองเครื่องยนต์ SQL และการคำนวณเฟรมข้อมูล Dask และ Spark
นอกจากฐานข้อมูลแล้วยังมี TileDB Cloud ซึ่งเป็นบริการแบบจ่ายตามการใช้งานที่คุณสามารถใช้เพื่อแชร์อาร์เรย์ TileDB ในระบบคลาวด์กับผู้ใช้รายอื่นและทำการคำนวณแบบไม่ใช้เซิร์ฟเวอร์
คุณสมบัติที่สำคัญของ TileDB สิ่งต่อไปนี้โดดเด่น:
- วิธีการที่มีประสิทธิภาพในการจัดเก็บอาร์เรย์แบบกระจัดกระจายซึ่งข้อมูลไม่ได้ติดตามอย่างต่อเนื่องอาร์เรย์เต็มไปด้วยชิ้นส่วนและองค์ประกอบส่วนใหญ่ยังคงว่างเปล่าหรือใช้ค่าเดียวกัน
- ความสามารถในการเข้าถึงข้อมูลในรูปแบบคีย์ค่าหรือชุดของคอลัมน์ (DataFrame)
- รองรับการทำงานร่วมกับ AWS S3, Google Cloud Storage และ Azure Blob Storage
- TileDB รองรับการกำหนดเวอร์ชันข้อมูลที่ฝังอยู่ในรูปแบบและเอ็นจิ้นการจัดเก็บข้อมูลได้อย่างมีประสิทธิภาพ
- มีการเพิ่มประสิทธิภาพที่หลากหลายเกี่ยวกับ I / O แบบขนานในที่เก็บอ็อบเจ็กต์ระบบคลาวด์และการคำนวณแบบมัลติเธรด (เช่นการจัดประเภทการบีบอัด ฯลฯ )
- ความสามารถในการใช้อัลกอริธึมการบีบอัดข้อมูลและการเข้ารหัสที่แตกต่างกัน
- รองรับความสมบูรณ์ของการตรวจสอบ
- ทำงานในโหมดมัลติเธรดที่มีการขนานอินพุต / เอาต์พุต
- รองรับการกำหนดเวอร์ชันของข้อมูลที่จัดเก็บไว้แม้กระทั่งการเรียกคืนสถานะ ณ จุดหนึ่งในอดีตหรือสำหรับการอัปเดตอะตอมของชุดจำนวนเต็มขนาดใหญ่
- ความสามารถในการเชื่อมโยงข้อมูลเมตา
- การสนับสนุนการจัดกลุ่มข้อมูล
- โมดูลการผสานรวมที่จะใช้เป็นเครื่องมือจัดเก็บข้อมูลระดับต่ำใน Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF และ PrestoDB
- ไลบรารีการผูก C ++ API สำหรับภาษา Python, R, Java และ Go
รหัสโครงการเขียนด้วยภาษา C ++ และเผยแพร่ภายใต้ลิขสิทธิ์ MIT และเข้ากันได้กับ Linux, macOS และ Windows
เกี่ยวกับเวอร์ชัน 2.0
เวอร์ชัน 2.0 โดดเด่นในเรื่องความเข้ากันได้กับแนวคิด« DataFrame » นี้ ช่วยให้คุณจัดเก็บข้อมูลในรูปแบบของคอลัมน์ค่า ความยาวโดยพลการผูกไว้กับคุณลักษณะเฉพาะและ API ที่ออกแบบใหม่สำหรับ R
พื้นที่จัดเก็บยังได้รับการปรับให้เหมาะสมสำหรับการประมวลผลเมทริกซ์แบบเบาบาง ขนาดที่แตกต่างกัน (สามารถจัดเก็บข้อมูลประเภทต่างๆไว้ในเซลล์และสามารถรวมคอลัมน์ประเภทต่างๆเข้าด้วยกันตัวอย่างเช่นซึ่งเก็บชื่อเวลาและราคา)
เพิ่มการรองรับคอลัมน์ที่มีข้อมูลสตริงเช่นเดียวกับ มีการเพิ่มโมดูลสำหรับการรวมเข้ากับ Google Cloud Storage และ Azure Blob Storage
สุดท้ายนี้หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับเวอร์ชันใหม่นี้โปรดดูที่คุณสามารถตรวจสอบบันทึกประจำรุ่นได้ที่ ลิงค์ต่อไปนี้
Y หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการติดตั้ง การใช้งานและเอกสารคุณสามารถทำได้ในไฟล์ ลิงค์ต่อไปนี้