ทำไม BizOne ถึงเลือกใช้ Databricks

BizOne เราได้ใช้เวลาหลายพันชั่วโมงในการสร้างโซลูชันวิเคราะห์ข้อมูลบนแพลตฟอร์ม Databricks และ Databricks ยังถูกเลือกเป็นเครื่องมือหลักที่เราใช้ในการพัฒนา Modern Data Lake Solution จากความเชี่ยวชาญในการใช้งานเครื่องมือตลอดหลายปีที่ผ่านมาและจากประสบการณ์กว่า 20 ปี ในเทคโนโลยีด้านข้อมูลเราได้พัฒนาเฟรมเวิร์ก (Framework) ของตนเองภายใต้ชื่อ Velocity ซึ่งไม่เพียงแต่ใช้ประโยชน์จากความสามารถของ Databricks เท่านั้น แต่ผนวกการสร้างกระบวนที่สามารถช่วยเร่งการพัฒนาด้วยการจัดหาส่วนประกอบที่นำกลับมาใช้ใหม่ได้ ซึ่งส่งผลต่อการลดต้นทุนกสนพัฒนาและลดค่าใช้จ่ายในการบำรุงรักษา .

ในบทความนี้ เราจะอธิบายรายละเอียดว่า Databricks คืออะไร และเหตุใดเราจึงเลือก Databricks เป็นเครื่องมือหลักสำหรับพัฒนาโซลูชันการวิเคราะห์ข้อมูลของเรา

Databricks คืออะไร?

Databricks ได้รับการพัฒนาโดยผู้สร้าง Apache Spark ซึ่งก่อนที่เราจะเจาะลึกในรายละเอียดของ Databricks สิ่งสำคัญที่ขาดไม่ได้ที่ต้องการถึงคือ Apache Spark

Apache Spark เป็นเฟรมเวิร์กการประมวลผลข้อมูล (data processing framework) ที่สามารถดำเนินการประมวลผลบนชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว และยังสามารถกระจายงานการประมวลผลข้อมูลไปยังคอมพิวเตอร์หลายเครื่องได้ ไม่ว่าจะทำงานด้วยตัวเองเพียงเครื่องเดียวหรือทำงานร่วมกันแบบคู่ขนาน คุณสมบัติทั้งสองนี้ทำให้เป็นรากฐานที่สำคัญของการจัดการข้อมูลบน Big Data และกระบวนการ Machine learning ซึ่งต้องใช้การประสานพลังการประมวลผลเพื่อประมวลผลข้อมูลจำนวนมากเป็นหนึ่งพื้นฐานความสามารถหลักของ Databricks

อีกทั้ง Databricks ยังสามารถรอบรับการใช้งานบนหลากหลายวิธี ทำให้นักพัฒนาสามารถใช้ภาษาโปรแกรมได้อย่างหลากหลาย เช่น Java, Scala, Python และ R รวมถึงรองรับภาษา SQL, การจัดการข้อมูลแบบ Streaming, การพัฒนาMachine learning และการประมวลผลแบบ Graph จึงทำให้ได้รับความนิยมอย่างแพร่หลายและคุณสามารถพบการใช้งาน Databricks ในหลากหลายอุตสาหกรรม เช่น ธนาคาร บริษัทโทรคมนาคม บริษัทเกม รัฐบาล และในบริษัทขนาดใหญ่ที่อันดับต้นๆของโลก

สิ่งที่ทำให้เทคโลโลยีนี้โดดเด่นกว่าเทคโนโลยี MapReduce แบบดั้งเดิมที่ใช้ใน Hadoop คือ Spark ที่ใช้เอ็นจิ้นข้อมูลในหน่วยความจำ (in-memory data engine) ซึ่งทำให้สามารถทำงานได้เร็วขึ้นมากในหลายสถานการณ์ และช่วยสามารถสามารถกระจายการประมวลผลได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

อีกหนึ่งความมหัศจรรย์ของ Databricks คือเป็นแพลตฟอร์มบนเว็บที่รองรับการใช้งานบนทุกผู้ให้บริการ Cloud ชั้นนำทั้ง Microsoft Azure, Amazon Web Services และ Google Cloud Platform เพื่อให้วิศวกรข้อมูล (Data Engineers) นักวิทยาศาสตร์ข้อมูล ( Data Scientists) และผู้ใช้งานจากฝั่งธุรกิจ สามารถทำงานร่วมกันและทำงานอย่างใกล้ชิดผ่าน Databricks notebooks, Experiments, Models, Data, libraries และ Jobs

แนวทางการรวมการใช้งานข้อมูลจากที่เดียวนี้ช่วยลดความยุ่งยากในการใช้งานข้อมูลโดยกำจัดไซโลข้อมูลที่แยกจากกันและมีความซับซ้อนในระบบรูปแบบเก่า (traditionally) ตามความต้องการและการใช้งานของวิศวกรรมข้อมูล นักวิเคราะห์, ฝ่ายพัฒนา BI, data science และ Machine learning นอกจากนี้เนื่องจากได้รับการพัฒนาบนเทคโนโลยีโอเพ่นซอร์ส (open source) และมีมาตรฐานเทคโนโลยีแบบเปิด (Open standard) จึงเพิ่มความยืดหยุ่น ความปลอดภัย และการกำกับดูแลสูงสุด ซึ่งช่วยให้องค์กรทำงานได้อย่างมีประสิทธิภาพมากขึ้นและสร้างสรรค์นวัตกรรมได้เร็วยิ่งขึ้น

นอกจากนี้ เนื่องจากการจัดการแพลตฟอร์มในระบบคลาวด์ (Cloud-based platform) จึงสามารถตั้งค่าการใช้งานได้อย่างรวดเร็วและมีความหยืดหยุ่นจากความสามารถในการปรับเปลี่ยนขนาดการใช้งานได้โดยง่าย แต่ประหยัดต้นทุนกว่าเนื่องจากระบบจะคิดค่าใช้จ่ายเฉพาะส่วนที่คุณใช้งานจริงเท่านั้น รวมถึงการลบต้นทุนในส่วน Hardware ที่ต้องนำมาติดตั้งภายในองค์กร อีกทั้งลดการตั้งค่าที่ซับซ้อนซึ่งเป็นกระบวนการจำเป็นต่อการใช้งาน Apache Spark

คุณสมบัติที่สำคัญอีกประการของ Databricks ซึ่งมีรายละเอียดอยู่นอกขอบเขตของบทความนี้ คือการรองรับรูปแบบการจัดเก็บข้อมูลแบบ Delta Lake ซึ่งรองรับ ACID transactions, streaming และ batch data sources, schema enforcement และtime travel.

ตอนนี้คุณได้ทราบข้อมูลเบื้องต้นเกี่ยวกับแพลตฟอร์ม Databricks แล้ว หัวข้อมต่อไปจะกล่าวคุณลักษณะที่ทำให้ Databricks เป็นเครื่องมือที่ BizOne แนะนำสำหรับการสร้าง  modern cloud data solutions และเนื่องจากเราเป็นผู้เชี่ยวชาญของ Microsoft รายละเอียดจึงอ้างอิงจาก Azure Databricks เป็นหลัก:

1. Data sources

Databricks runtime รองรับรูปแบบไฟล์และแหล่งข้อมูลมากมาย เช่น Avro, รูปภาพ, JSON, Parquet, XML, ไฟล์ Zip และอื่นๆ อีกมากมาย นอกจากนี้ยังมีตัวเชื่อมต่อสำหรับเชื่อมต่อกับยูทิลิตี้จัดเก็บข้อมูลที่หลากหลาย เช่น Azure Storage, AWS S3, Cassandra, MongoDB, Snowflake และฐานข้อมูล SQL สามารถคลิกเพื่อดูรายการแหล่งข้อมูลทั้งหมด

นอกจากนี้ สำหรับการสตรีมแหล่งข้อมูล Databricks ยังรองรับ Apache Kafka, Amazon Kinesis, Azure Event Hubs และอีกมากมาย! คลิกเพื่อดูรายละเอียดแหล่งข้อมูลสตรีมมิ่งและซิงก์

2. Languages and environment

ดังที่กล่าวถึงก่อนหน้านี้ Databicks รองรับการใช้ภาษาโปรแกรมที่ใช้กันทั่วไปได้อย่างหลากหลาย เช่น Python, R, Scala และ SQL โดยคำสั่งที่เขียนในภาษาต่างๆจะถูกแปลงผ่าน API เพื่อใช้งานกับ Spark ซึ่งมีประโยชน์อย่างมากหากคุณมีทีมที่มีความเชี่ยวชาญและใช้ภาษาโปรแกรมในการทำงานที่แตกต่างกัน

หมายเหตุ: แม้ว่าภาษาโปรแกรมมากมายจะสามารถใช้งานได้บน Databricks แต่สำหรับการใช้งานจริง แนะนำให้เลือกหนึ่งมาตรฐานสำหรับองค์กรของคุณ อย่างไรก็ตามหรับการวิเคราะห์เฉพาะกิจ หรือการใชงานเฉพาะด้านคุณสามารถมีความยืดหยุ่นในการเลือกใช้งานภาษาที่แตกต่างกันได้ 

3. Cloud Integration

เมื่อรวมเข้ากับ Microsoft Azure ทำให้ Databircks มีความสามารถและประโยชน์ที่เพิ่มขึ้น ดังนี้:

  • ความสามารถในการจัดเก็บ เรียกค้น และอัปเดตข้อมูลบน Azure Data Lake และ Blob storage
  • การกำกับการทำงาน (Orchestration) และการจัดกำหนดการ (scheduling) /การเรียกใช้ (triggering) งานและโน้ตบุ๊กโดย Azure Data Factory
  • ความปลอดภัยด้วย Azure Active Directory
  • การปรับใช้ (Deployments) และการควบคุมเวอร์ชันด้วย Azure DevOps

4. การสนับสนุน

เนื่องจากความพร้อมใช้งานบนแพลตฟอร์มคลาวด์ขนาดใหญ่ 3 แห่ง และความจริงที่ว่า Databricks มีรากฐานจา open-source framework ซึ่งหมายถึงการสนับสนุนจากชุมชนขนาดใหญ่ของวิศวกร Apache Spark เอกสารและการสนับสนุนที่กว้างขวางยังมีให้ในทุกแง่มุมของ Databricks รวมถึงข้อมูลภาษาโปรแกรมต่างๆ ที่จำเป็น

5. Productivity and Collaboration

ผ่านสภาพแวดล้อมออกแบบมาเพื่อการทำงานร่วมกันและผสานการบูรณาการ Databricks สามารถปรับปรุงกระบวนการสำรวจข้อมูล สร้างต้นแบบ และเรียกใช้แอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูลใน Spark ซึ่งช่วยให้การสำรวจข้อมูลเพื่อกำหนดวิธีใช้ข้อมูลที่ถูกจัดเก็บไว้ใน Data Lake ของเราโดยผู้ใช้หลายคนสามารถบันทึกความคืบหน้าใน Databricks Notebooks ได้แบบเรียลไทม์และสร้าง visualize ได้ด้วยการคลิกเพียงไม่กี่ครั้ง

6. Machine Learning

Databricks ยังจัดเตรียมแพลตฟอร์ม Machine learningแบบ end-to-end ที่ครบวงจรโดยรวบรวมบริการที่มีการจัดการสำหรับการ experiment tracking, model training, feature development and management, และ feature and model serving.

โมเดลสามารถฝึกได้ด้วยตนเองหรือด้วย AutoML สามารถติดตามพารามิเตอร์และแบบจำลองการฝึกอบรมด้วย MLFlow tracking สามารถสร้างตารางคุณลักษณะและเข้าถึงได้โดย model training และ inference สุดท้ายการใช้ Model Registry สามารถแชร์ จัดการ และให้บริการโมเดลร่วมกับผู้อื่นได้

ดูรายละเอียดเพิ่มเติมเกี่ยวกับได้ที่นี่ Databricks Machine Learning

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ Databricks หรือ Velocity framework ติดต่อเราวันนี้เพื่อขอรับการสาธิตได้ฟรี (จำกัดจำนวน) รวมถึงสามารถรับคำปรึกษาเบื้องต้นเพื่อช่วยคุณในการเริ่มต้นใช้งาน Databricks และแนะนำวิธีที่ Velocity สามารถช่วยคุณเร่งความเร็วบนเส้นทางการวิเคราะห์ของคุณหรือในองค์กรของคุณโดยไม่มีค่าใช้จ่าย

Share this article on social media!