Share

Data science toolkits : รวมเครื่องมือ Data science ที่ธุรกิจต้องรู้จัก

AIGEN เราเป็นบริษัทผู้บุกเบิกในการพัฒนาโซลูชัน AI ที่ก่อตั้งขึ้นตั้งแต่ปี 2019 โดยในปัจจุบันเราได้พัฒนาโซลูชัน AI ที่ตอบโจทย์ธุรกิจได้หลากหลายรูปแบบ ตั้งแต่ AI สำหรับประมวลผลเอกสาร AI สำหรับการยืนยันตัวตนด้วยใบหน้า AI สำหรับการจัดการความรู้ภายในองค์กร จนถึง AI สำหรับการวิเคราะห์ข้อมูล และตัดสินใจทางธุรกิจ ทำให้ AIGEN ได้รับความไว้วางใจจากธุรกิจชั้นนำในหลากหลายอุตสาหกรรม

แน่นอนว่าการที่จะพัฒนาโซลูชัน AI ให้ประสบผลสำเร็จได้นั้น เริ่มต้นจากการบริหารจัดการข้อมูลที่ดี เนื่องจากโมเดล AI จะทำงานได้ดีก็ต่อเมื่อได้นำข้อมูลที่มีประสิทธิภาพมาใช้ในการเทรนโมเดล AI จึงทำให้ AIGEN แตกต่างจากบริษัทซอฟต์แวร์อื่นๆ ทั่วไป เนื่องจากเรามีทีม Data science ที่เป็นผู้เชี่ยวชาญเรื่องการจัดการข้อมูล และนำข้อมูลมาใช้ในการต่อยอดเพื่อพัฒนาโมเดล AI ให้ทำงานได้ดียิ่งขึ้น 

โดยที่ทีม Data science ของเรานั้นสามารถทำงานได้หลากหลายประเภท เนื่องจากแต่ละธุรกิจจะมีโจทย์ หรือความต้องการด้านข้อมูลที่แตกต่างกันออกไป และเพื่อให้มั่นใจได้ว่าเราจะสามารถส่งมอบงานให้กับลูกค้าได้อย่างตรงจุดมากที่สุด ทีม Data science จึงได้มีมาตรฐาน และเครื่องมือกลางที่ให้คนในทีมใช้งานร่วมกันในขั้นตอนต่างๆ ในบทความนี้เราจะพาไปรู้จักกับ Data science toolkits ที่ทีม Data science เราใช้ในแต่ละขั้นตอนเพื่อสร้างเป็นโมเดลข้อมูลที่ตอบโจทย์กับธุรกิจได้เป็นอย่างดี

การทำ Data science สำหรับธุรกิจ

รวม Data science toolkits สำหรับธุรกิจ

เนื่องจากงานทางด้าน Data science นั้นโจทย์แต่ละงานมีความท้าทายที่แตกต่างกันออกไป โดยในทีม Data science เองนั้นจะเป็นความเชี่ยวชาญที่แตกต่างกันออกไป จึงทำให้การทำ Data science จำเป็นต้องมีมาตราฐาน และ tools หรือเครื่องมือกลางที่คนในทีมจะต้องเรียนรู้ และใช้ร่วมกัน โดยTools ต่าง ๆ จะครอบคลุมขั้นตอนการทำงานของ Data science ตั้งแต่การทำ Coding การทำ Data pipeline ไปจนถึงขั้นตอนการทำ Modeling

1. เครื่องมือ Data science สำหรับการ Coding

ในการทำงานร่วมกันของ Developer หลาย ๆ คน แต่ละคนมีโอกาสที่จะเขียนโค้ดตามใจตัวเอง รวมถึง Data scientist ที่ AIGEN เองนั้นในบางครั้งจะไม่ได้ทำแต่การพัฒนาโมเดล AI แต่บางครั้งจะต้องเขียน API ได้ด้วย (สวมหมวกเป็น Machine learning engineer ด้วยเลย) ทำให้ต้องมีเครื่องมือที่จะมาการันตีคุณภาพของโค้ด ( ทำให้ Reviewer ทำงานต่อได้ง่ายมากขึ้น) โดย Tools ที่ใช้มีดังต่อไปนี้

  • Pre-commit: ทีมได้ใช้ Pre-commit เพื่อให้ Developer ทุกคนต้องเขียนโค้ดให้มีคุณภาพได้ตามมาตราฐานที่ทีมตั้งไว้ ไม่งั้นจะไม่สามารถ commit code ได้ hooks ที่ทีมใช้มีหลายตัว ตัวเช่น ruff, mypy และ pytest เพื่อการันตีคุณภาพของงานที่ทำออกมา และป้องกันปัญหาที่อาจจะเกิดขึ้นได้ในอนาคตด้วย
  • Poetry: ใช้ในการจัดการ Python dependencies เพื่อให้เวลาที่มีคนในทีม clone repository ไปใช้ จะมั่นใจได้ว่าทุกคนจะใช้งานได้เหมือนกันหมด โดยที่ไม่ต้องมาคอยถามว่าต้องลงอะไร set version อย่างไร จะ train model หรือจะ inference ก็ใช้ version เดียวกันทุกคน

2. เครื่องมือ Data science สำหรับการทำ Data pipeline

กว่าที่เราจะได้ Data มาใช้ในการเทรนโมเดล AI หรือใช้ทำรายงานต่างๆ เราจำเป็นต้องมี Data pipeline ที่เตรียมข้อมูลเพื่อให้คนในทีมใช้ทำงานต่อได้ ทั้ง Data scientist และ Data engineer โดยหลัก ๆ ทีมได้ใช้ Tools บน AWS และ Open Source ทำ Data pipeline และเครื่องมือที่ใช้ทำ Data pipeline มีดังต่อไปนี้

  • Data Lake : AWS S3, Athena
  • Orchestration : AWS StepFunctions คู่กับ EventBridge, Airflow, Dagster
  • ETL : AWS Glue, Python Scripts (Pandas กับ Polars), DBT, Kedro
  • Database : PostgreSQL

3. เครื่องมือ Data science สำหรับการทำ Modeling

ปัจจุบันงานด้าน Data science นั้นมีหลากหลายรูปแบบ งานแต่ละแบบก็ต้องใช้กันคนละเครื่องมือ ถ้างานไหนยังคงเป็นแนว Tabular data ทีมจะใช้พวก Machine learning libraries หรือถ้า Deep learning หลัก ๆ ทีมก็ใช้ Pytorch ถ้า Model ในกลุ่ม LLM ก็จะใช้ API เป็นหลัก โดยสรุป Tools และ Libraries ที่ทีมใช้ทำโมเดล AI มีดังต่อไปนี้

  • Machine Learning : LightGBM, XGBoost, CatBoost, Scikit learn
  • Deep Learning : Pytorch
  • LLM : เราใช้ API ของ LLM Provider ทั้ง Anthropic และ OpenAI ในการทำงาน รวมถึง LLaMA ที่ Host บน Server ของเราเอง
รวมเครื่องมือการทำ Data science สำหรับธุรกิจ
สรุปเครื่องมือที่ใช้ในการทำ Data science สำหรับธุรกิจ

กำลังมองหาบริการ Data science ไปใช้งานสำหรับธุรกิจ

ในยุคที่ธุรกิจขับเคลื่อน และแข่งขันกันด้วยข้อมูล หากธุรกิจไหนไม่สามารถนำข้อมูลที่มีอยู่มาต่อยอดเพื่อใช้ยกระดับขั้นตอนการทำงาน และเพิ่มประสิทธิภาพในการตัดสินใจได้อาจทำให้ก้าวไม่ทันกับการแข่งขัน และความต้องการของลูกค้าได้ AIGEN เรามีทีมผู้เชี่ยวชาญด้าน AI และ Data science ที่มีประสบการณ์ในการทำงานกับธุรกิจชั้นนำจากหลากหลายอุตสากรรมที่พร้อมให้คำปรึกษากับธุรกิจที่ต้องการนำข้อมูลมาใช้ต่อยอดเพื่อเพิ่มขีดความสามารถในการแข่งขันให้กับธุรกิจ พูดคุย และปรึกษากับผู้เชี่ยวชาญของเราได้ที่นี่

AIGEN Live chat