Deepseek เจ๋งตรงไหน & อวยเกินตัวไหม?
ดร. บุญธรรม รจิตภิญโญเลิศ, CFP
MacroViewBlog.com
ก่อนที่เราจะไปตอบคำถามดังกล่าวของ Deepseek ขอพามาทำความเข้าใจ 3 ช่องทางในทางเทคนิคสำหรับการพัฒนาโมเดลของ AI ซึ่งถือเป็นพลวัตเบื้องหลังการพัฒนาความสามารถต่างๆของโมเดล AI ให้บังเกิดขึ้น เพื่อจะมาดูว่าโมเดล AI ของ Deepseek เมื่อเปรียบเทียบกับโมเดล AI ชั้นนำอื่นๆของสหรัฐ ได้เดินทางไปถึงจุดไหนแล้ว ดังนี้
ช่องทางในการพัฒนาแรก: Scaling laws
นั่นคือ ยิ่งลงทุนในการ training ระบบ AI มากขึ้นมากแค่ไหน ผลลัพธ์ในส่วนของงานด้านความชาญฉลาดด้านประสาทสัมผัส อาทิ การ coding ที่ AI จะประมวลให้เรา ก็จะยิ่งดีขึ้นไปในทุกมิติ ยกตัวอย่างเช่น โมเดลที่ใช้เงินลงทุน $1 ล้าน อาจจะช่วยแก้ปัญหางาน coding ที่สำคัญได้ 20% ของทั้งหมด เมื่อเพิ่มเป็น $10 ล้าน อาจจะช่วยแก้ปัญหางาน coding ที่สำคัญได้ 40% และ เมื่อเพิ่มเป็น $100 ล้าน อาจจะช่วยแก้ปัญหางาน coding ที่สำคัญได้ 60% เป็นเช่นนี้ไปเรื่อยๆ โดยความแตกต่างดังกล่าวมักจะได้ผลงานที่แตกต่างกันมากในทางปฏิบัติ อาทิ การเพิ่มเงินลงทุนเป็น 10 เท่าอาจจะสามารถสร้างความแตกต่างของความชำนาญถึงขนาดเด็กป.ตรี กับ Ph.D. ดังนั้น บริษัทจึงลงทุนอย่างเข้มข้นในการ traing แบบจำลอง AI
ช่องทางพัฒนาที่สอง: Shifting the curve
โดยสาขาการพัฒนาด้าน AI มักจะมีการก่อเกิดไอเดียใหม่ๆ ไม่ว่าจะยิ่งใหญ่หรือเพียงเล็กน้อย ซึ่งจะทำให้การสร้างสรรค์งานต่างๆมีประสิทธิผลและประสิทธิภาพมากยิ่งขึ้น อาทิ การปรับปรุงสถาปัตยกรรมที่ใช้ในการทำงานของแบบจำลอง AI จากปัจจุบันที่เป็นแบบ Transformer architecture ให้ดีขึ้นในบางมุมของการทำงาน หรือเพียงแค่ประมวลผลแบบจำลองให้มีประสิทธิภาพมากยิ่งขึ้นบนฮาร์ดแวร์พื้นฐานเดิม โดยสิ่งนี้เราเรียกมันว่า Shift the curve หากขยับนวัตกรรมให้ดีขึ้น 2x ซึ่งมีหน่วยเป็น "compute multiplier" (CM) จะสามารถทำให้ทำงาน coding ได้สำเร็จ 40% ของเนื้องานทั้งหมด ด้วยเงิน $5M แทนที่จะเป็น $10M หรือ 60% ของเนื้องานทั้งหมด ด้วยเงิน $50M แทนที่จะเป็น $100M
โดยทั่วไป บริษัทด้าน AI มักจะสามารถมีขนาดของการ Shift the curve หรือ CM ด้วยขนาดเล็ก (~1.2x) บางครั้งจะเป็นขนาดกลาง (~2x) และนานๆที จะได้ CM แบบใหญ่มาก (~10x) ทั้งนี้ จากการที่คุณค่าแห่งการมีระบบที่มีความฉลาดมากขึ้นถือว่าสูงมากในวงการ AI การลงทุนเพื่อให้เกิดการ Shift the curve ให้มีประสิทธิผลสูงขึ้นจึงมีมากขึ้นเรื่อยๆ ที่สำคัญ ไม่เพียงแต่ทำให้ได้งานเดียวกันด้วยต้นทุนที่ถูกลงเมื่อลงทุนแบบเล่นใหญ่ในครั้งแรกไปแล้ว จริงฟแล้ว ในการ scaling curve เมื่อเกิดการ Shift ยังช่วยทำให้เห็นความล้ำหน้าของงานเป็นอย่างมากในช่วงปลายๆของ Curve
ช่องทางพัฒนาที่สาม: Shifting the paradigm
โดยที่ผ่านมา นานๆครั้ง กระบวนการในการทำให้เกิดการ scaling จะเปลี่ยนแปลง นั่นคือ การ scaling ชนิดใหม่ๆจะถูกเพิ่มเติมเข้ามาในกระบวนการ training โดยในช่วงเวลาระหว่างปี 2020-2023 กระบวนการของโมเดลที่สำคัญได้แก่ pretrained models ซึ่งเป็นการเพิ่มปริมาณของข้อมูล text ในอินเตอร์เน็ตพร้อมกับมีวิธีการ training อื่นบนส่วนหัวของข้อมูลประกอบเข้าไป
และในปี 2024 แนวทางความคิดในการใช้ reinforcement learning (RL) เพื่อใช้ในการ train แบบจำลองเพื่อที่จะสร้าง chains of thought ได้กลายเป็นโฟกัสใหม่ของการ Scaling โดยไม่ว่าจะเป็น Deepseek-R1 ในช่วงล่าสุด หรือ OpenAI ซึ่งปล่อยตัว o1-preview model ในเดือนกันยายนที่ผ่านมา ได้ทำให้เห็นว่าการ training มีประสิทธิภาพเพิ่มขึ้นอย่างเห็นได้ชัดในงานที่สามารถวัดผลได้ชัดเจน อาทิ คณิตศาสตร์, การ coding และงานเกี่ยวกับการใช้ตรรกะหรือเหตุผล
โดย paradigm ใหม่นี้ ขั้นตอนการทำงานเริ่มต้นด้วย pretrained models แบบธรรมดา จากนั้น ใน Stage ที่สอง มีการใช้ RL เพิ่มความชำนาญด้านเหตุผลใส่เข้าไป ที่สำคัญ ด้วยความที่ RL เป็นไอเดียใหม่ที่เพิ่มใช้ใน AI เราจึงยังอยู่ในช่วงต้นๆของ Scaling Curve หรือ crossover point ทำให้เม็ดเงินที่ลงทุนใน Stage ที่สองของ RL ยังไม่สูงมากสำหรับผู้เล่นทุกราย โดยลงทุนด้วยมูลค่าที่ไม่มากก็ได้ผลตอบแทนในส่วนผลงานที่เพิ่มเติมค่อนข้างมากอย่างรวดเร็ว
ทีนี้ มาพิจารณาโมเดล AI ของ Deepseek กัน เริ่มจากในช่วงปลายปีที่แล้ว Deepseek ได้ปล่อยโมเดลที่มีชื่อว่า Deepseek-V3 ซึ่งเป็น pretrained model ล้วนๆ ซึ่งถือเป็น Stage แรกของช่องทางพัฒนาที่สามดังกล่าวข้างต้น และเมื่อต้นๆสัปดาห์ที่แล้ว ที่ฮือฮากัน คือได้ออก Release “R1” ซึ่งได้เพิ่ม Stage ที่สอง หรือ RL เข้าไปด้วย
โดย DeepSeek-V3 ถือเป็นนวัตกรรมใหม่ที่ออกมาเมื่อปลายปีก่อน ด้วยการมี performance ที่ใกล้เคียงกับ AI ตัวชั้นนำของสหรัฐด้วยต้นทุนการ train โมเดลที่ต่ำกว่า ผ่านนวัตกรรมด้านวิศวกรรมที่มีประสิทธิภาพสูงขึ้น โดยเฉพาะอย่างยิ่งเทคนิคการบริหารข้อมูลที่เรียกว่า "Key-Value cache” และวิธีการจัดการข้อมูลที่มีชื่อว่า "mixture of experts” ซึ่งเป็นความใหม่ในทางเทคโนโลยีจาก Deepseek เอง
อย่างไรก็ดี ก็มีบางประเด็นที่ Deepseek อาจจะไม่ได้มีความมหัศจรรย์แบบสุดๆอย่างที่หลายคนคิด ดังนี้
- จากความเห็นของผู้เชี่ยวชาญในวงการ AI ส่วนใหญ่ยังยอม รับว่า AI ของจนแม้ว่าการพัฒนาจะถือว่ามีความใกล้เคียงกับของสหรัฐมากแล้วนั้น ก็ยังถือว่าตามหลังอยู่เล็กน้อย ทว่าน่าจะสามารถกวดทันได้ในอนาคต โดยประเมินว่า AI ของ Deepseek ยังตามหลัง AI ชั้นนำของสหรัฐอยู่ราว 7-10 เดือน ในมุมรายละเอียดเล็กๆน้อยๆของแบบจำลอง
จากข้อมูลในอดีต ด้วยต้นทุน Cost curve การพัฒนาแบบจำลองในอุตสาหกรรม AI ที่ลดลง ~4x ต่อปี ดังนั้นช่วงเวลาระหว่างปี 2023-2024 ซึ่งเป็นช่องว่างของระยะเวลาระหว่าง บริษัท AI ของสหรัฐ กับ Deepseek พร้อมๆกับการตามหลังของประสิทธิภาพโมเดล AI ของสหรัฐ น่าจะราว ~2x จึงทำให้ต้นทุนในการพัฒนาของ Deepseek ที่ถูกกว่าแบบจำลองของสหรัฐเมื่อ 2 ปีก่อนราว ~8x จึงน่าจะดูมีความเป็นไปได้อยู่ เนื่องจาก Deepseek ก็มี Hopper generation chips ของ Nvidia น่าจะเป็นหลักราว 20,000 - 30,000 หน่วยอยู่ ดังนั้น AI ของ Deepseek จึงน่าจะไม่ได้มีต้นทุนที่ถูกกว่าของ ChatGPT จาก OpenAI แบบขาดลอยอย่างที่ได้พูดกันโดยทั่วไป
ท้ายสุด ความเซอร์ไพร์สของ Deepseek จริงๆ อาจไม่ใช่เป็นประเด็นของขนาดการลดลงของต้นทุนใการพัฒนาแบบจำลองเท่ากับผู้ที่สามารถทำได้ในครั้งนี้มาจากบริษัทของประเทศจีนไม่ใช่สหรัฐ