Diary of AI CEO [EP.5] : ปรากฏการณ์ DeepSeek
เป็นอีกครั้งที่มีห้องแล็บหนึ่งที่สามารถสร้างโมเดล Generative AI ใหม่ที่สามารถเอาชนะ Generative AI ชั้นนำในปัจจุบันในการวัดผลโดยใช้ตัววัดผลที่นิยมบางตัว (ขอย้ำว่าบางอันเท่านั้น) แต่ครั้งนี้สร้างความสั่นสะเทือนแรงมาก ถึงขั้นทำให้ตลาดหุ้น NASDAQ โดยเฉพาะหุ้นผู้นำตลาดอย่างผู้ผลิต AI chip อย่าง NVIDIA ตกฮวบ เป็นเพราะอะไรผมจะพาไปหาคำตอบจากบทความนี้!

ก่อนอื่นต้องทำความเข้าใจว่ามีส่วนประกอบของบริบทเบื้องหลังของเรื่องที่ทำให้มันเป็นข่าวใหญ่ได้มากขึ้น
- OpenAI กับการลงทุนมหาศาลในการพัฒนา AI
OpenAI ทุ่มเงินมหาศาลเพื่อพัฒนา AI ของพวกเขา ทั้งในด้านโครงสร้างพื้นฐาน การวิจัย และโมเดลขั้นสูง เพื่อให้สามารถแข่งขันและคงความเป็นผู้นำในอุตสาหกรรม AI ที่กำลังเติบโตอย่างรวดเร็ว - การแข่งขันด้าน AI ระหว่างสหรัฐฯ และจีน
การแข่งขันเพื่อความเป็นผู้นำด้าน AI ระหว่างสหรัฐอเมริกาและจีนยังคงเข้มข้นขึ้นเรื่อยๆ ทั้งสองประเทศต่างเร่งพัฒนาเทคโนโลยี AI ขั้นสูง ไม่ว่าจะเป็นด้านโมเดล AI, โครงสร้างพื้นฐานคอมพิวติ้ง และการใช้งานในเชิงพาณิชย์ ซึ่งเป็นปัจจัยสำคัญที่อาจกำหนดทิศทางเศรษฐกิจและอำนาจทางเทคโนโลยีในอนาคต - NVIDIA กับความเป็นผู้นำด้านชิป AI
NVIDIA ยังคงครองความเป็นผู้นำในอุตสาหกรรมชิป AI ด้วยผลิตภัณฑ์ที่ล้ำหน้า เช่น GPU ตระกูล H100 และชิปสำหรับศูนย์ข้อมูลที่ถูกใช้ในการฝึกและรันโมเดล AI ชั้นนำของโลก ความก้าวหน้าของ NVIDIA ทำให้บริษัทกลายเป็นหัวใจสำคัญของอุตสาหกรรม AI และมีบทบาทสำคัญในการขับเคลื่อนนวัตกรรมด้านปัญญาประดิษฐ์ในระดับโลก

ประเด็นสำคัญที่สุดเรื่อง DeepSeek คือ
- สามารถเอาชนะหรืออย่างน้อยก็ทำผลงานใกล้เคียงกับโมเดลแบบปิด โดยใช้ทรัพยากรการคำนวณในการสร้างหรือเทรนที่น้อยกว่า 100-1,000 เท่า แปลว่าไม่จำเป็นต้องใช้ชิประดับสูงสุดก็ทำได้ ประเด็นนี้ทำให้หุ้น NVIDIA ตกกว่า 16% ซึ่งเป็นการสูญเสียมูลค่าครั้งใหญ่ที่สุดในประวัติศาสตร์ แต่อย่างไรก็ตาม NVIDIA ยังคงเติบโตต่อไปได้ ในทางกลับกัน นี่เปิดโอกาสให้เกิดความต้องการในตลาดระดับล่างหาก NVIDIA ต้องการจะเข้าไปจับส่วนแบ่งตลาดนี้มากขึ้น ในขณะเดียวกัน ก็หมายความว่าถ้าคุณมีชิประดับสูงสุด AI ของคุณก็สามารถพัฒนาให้ดีขึ้นได้อีกตามที่ DeepSeek ได้แสดงให้เห็น! ถ้าผมเป็นบริษัทใหญ่ จะยิ่งทุ่มงบประมาณให้สุดกำลัง AGI จะมาเร็วขึ้นแน่นอนถ้าเป็นเช่นนี้ ประเด็นเกี่ยวกับราคาหุ้นน่าจะเป็นเพราะบางครั้งมันยากที่จะประเมินค่าตัวคูณ (multiple) ที่ตลาดให้กับหุ้น NVIDIA ซึ่งเรื่องนี้คงเป็นสาเหตุที่ทำให้หุ้นตกมากที่สุด แต่พื้นฐานของ NVIDIA ยังคงแข็งแกร่งไม่เปลี่ยนแปลง)
- เป็นแบบ Open Source หมายความว่าคนอื่นๆ สามารถนำไปพัฒนาต่อยอดได้ แถมทำได้ด้วยต้นทุนที่ต่ำกว่าที่เคยคิดกันมาก่อน น่าจะทำให้การพัฒนาต่อยอดทำได้แพร่หลายมากขึ้น Yan LeCun อีกหนึ่งในเจ้าพ่อ AI มองในมุมนี้ แม้ว่า Llama จากห้องแล็บของเขาจะถูกเอาชนะไปในครั้งนี้ แต่เขาถือว่าเป็นชัยชนะของชุมชน Open Source
- เรื่อง Distill model สำหรับคนที่มองข้ามความสำคัญของเรื่องนี้จะบอกว่า การ distill เปิดโอกาสมากขึ้นสำหรับโมเดลขนาดเล็ก ซึ่งจะทำให้การมี AI model ฝังอยู่ในอุปกรณ์ขนาดเล็กเป็นไปได้มากขึ้น
- DeepSeek สามารถใช้ MoE (Mixture of Expert) Architecture ต่างจากผู้นำวงการอย่าง OpenAI ที่เทรนค่อนข้างยาก และเพิ่มประสิทธิภาพได้อีก ทำให้ได้ประสิทธิภาพต่อต้นทุนที่ดี* (Note: Qwen 2.5-Max ของค่าย Alibaba ที่ปล่อยตามมาหลังข่าวจาก DeepSeek ที่บอกว่าเอาชนะ DeepSeek ได้ ก็เลือกแนวทาง MoE นี้)
- เรื่องการพัฒนาที่เร็วกว่าอาจไม่ใช่ประเด็นสำคัญนัก เพราะถ้าเริ่มจาก Open Source base model ตัวอื่นและใช้งานวิจัยที่มีอยู่แล้วเป็นฐาน ก็น่าจะเร็วกว่าอยู่แล้ว
จริงๆ แล้วแค่สองประเด็นแรกนี่แหละที่ทำให้โลกสั่นสะเทือน!
ประเด็นที่โต้แย้ง
- MoE เป็นเทคนิคที่มีมานานแล้ว เป็นที่น่าสนใจเพราะใช้ทรัพยากรฮาร์ดแวร์น้อยกว่า อาจเป็นเหตุผลที่ DeepSeek เลือกใช้เป็นสถาปัตยกรรมพื้นฐาน
- Distill หรือการนำ AI model ที่ใหญ่และฉลาดกว่ามาช่วยเทรนโมเดลเล็กให้เก่งขึ้นก็มีมานานแล้ว
- ต้นทุนการพัฒนาไม่ได้รวมการทำ pre-training ไม่เหมือน OpenAI GPT ที่เทรนตั้งแต่เริ่มต้นและเป็นผู้บุกเบิก (ผู้บุกเบิกย่อมลงทุนมากกว่าเป็นธรรมดา) มุมมองจาก Founder ของ Anthropic ก็กล่าวไว้ว่า อาจไม่เป็นการยุติธรรมที่จะเทียบ เพราะบริษัทเจ้าของ DeepSeek เอง ก็ลงทุนกับ GPU ไปมาก เพียงแค่สำหรับการสร้าง DeepSeek ตรงๆ ใช้ resource น้อย และถ้ามองจากอัตราการลดลงของการพัฒนา AI model รุ่นใหม่ๆ ซึ่งลดลง 4x อยู่แล้วในแต่ละรุ่น ความถูกของ DeepSeek ก็อาจจะไม่ได้มองว่าน่าช็อคขนาดนั้น แต่ก็นั่นแหละ DeepSeek ลดต้นทุนลงไปอีกจากเทคนิคที่นำมาใช้ ก็ต้องให้เครดิตพวกเขา
- ประสิทธิภาพจริงๆ ก็ไม่ได้ดีกว่า GPT ไม่ว่าจะเป็นความสามารถด้านภาษาหรือการเขียนโค้ด OpenAI GPT ก็ยังเก่งกว่า แต่คราวนี้ Open Source เริ่มตามทันใกล้เคียง และใช้งบประมาณต่ำกว่าจริง
- อาจมีการใช้ Model ที่ฉลาดกว่า แม้แต่ตัว ChatGPT เอง ในการช่วยเทรน DeepSeek-r1 แต่ข้อมูลนี้ไม่ได้พิสูจน์ได้ชัดเจน แต่การใช้ Model ที่ฉลาดกว่าช่วยเทรน ก็ไม่ใช่เรื่องแปลกหรือผิดอีกเช่นกัน

ความก้าวหน้าของ DeepSeek สามารถมองได้ว่าเป็นเพียงการตีพิมพ์งานวิจัยที่สร้างความก้าวหน้าอีกชิ้นหนึ่ง เหมือนตอนที่ Mistral ออกมา แต่ครั้งนี้ เนื่องจากมาจากประเทศจีนในช่วงที่มีความตึงเครียดทางภูมิรัฐศาสตร์ จึงเป็นข่าวใหญ่กว่า แต่ความสำคัญของ Open Source และการใช้งบประมาณต่ำไม่ควรถูกมองข้ามในแง่ผลกระทบในอนาคต ไม่ว่าจะให้เครดิต DeepSeek หรือไม่ก็ตาม เพราะเราทุกคนต่างยืนบนบ่าของยักษ์ ความสำคัญของปรากฏการณ์ DeepSeek ตรงนี้ก็ยังคงอยู่
ผลกระทบและการคาดการณ์ NVIDIA ยังคงเป็นผู้นำในด้านชิป AI ความต้องการชิปของพวกเขาน่าจะไม่เปลี่ยนแปลง ภายใต้สมมติฐานที่ว่าบริษัท AI ชั้นนำของสหรัฐฯ ยังคงลงทุนในชิประดับสูงเพื่อให้ได้ AI ที่ดีขึ้นแบบก้าวกระโดด หลังจากที่รู้ว่าสามารถทำได้ดีขึ้น และในขณะเดียวกัน ตลาดระดับกลางหรือระดับล่างก็จะกระตือรือร้นมากขึ้น และผู้เล่นหรือผู้ซื้อรายใหม่จะเข้ามาในตลาดส่วนนี้ เช่น กลุ่มที่เคยไม่มั่นใจกับแนวทางการเป็นเจ้าของ LLM ส่วนตัวขององค์กรก็จะมีความเป็นไปได้และจับต้องได้มากขึ้น
ติดตามเรื่องราวเกี่ยวกับการพัฒนา AI ในมุมมองที่คุณยังไม่เคยพบที่ไหนมาก่อน จากมุมมองของผู้พัฒนา AI ได้ใหม่ใน DIARY OF AI CEO Episode หน้าได้ในเร็วๆ นี้ หรือหากต้องการให้ผมแชร์เรื่องราวเกี่ยวกับการพัฒนา AI ในหัวข้อใด สามารถแจ้งมาได้ที่อีเมล [email protected] แล้วพบกันใหม่ใน Episode หน้าครับ

CEO บริษัท ไอเจ็น จำกัด-ผู้เชี่ยวชาญด้าน AI และ Machine learning ทั้งในไทยและต่างประเทศมามากกว่า 10 ปี