เหลียงเหวินเฟิง นักธุรกิจการเงินที่ไต่เต้าสู่ผู้สร้าง ‘DeepSeek’ AI สัญชาติจีน...

ข่าวใหญ่สัปดาห์นี้ของอุตสาหกรรมเทคโนโลยีคงหนีไม่พ้นการเปิดตัวของ DeepSeek-R1 โมเดล AI สัญชาติจีนที่ถือเป็นการเขย่าวงการเทคโนโลยีทั่วโลก โดยเฉพาะกับสหรัฐฯ ที่ถูกมองว่าเป็นประเทศหัวแถวด้านความล้ำหน้าของปัญญาประดิษฐ์ เพราะโมเดล DeepSeek-R1 ผ่านการทดสอบและได้ผลลัพธ์ที่มีความฉลาดทัดเทียมกับโมเดลชั้นนำของบริษัทบิ๊กเทคในอเมริกาอย่างเช่น OpenAI แต่ DeepSeek กลับใช้ต้นทุนเพื่อพัฒนาโมเดลต่ำกว่าประมาณ 20 เท่าเป็นอย่างน้อย หรือเพียงแค่เศษเสี้ยวของเงินทุนเมื่อเทียบกับคู่แข่งฝั่งตะวันตก

และชายผู้อยู่เบื้องหลังนวัตกรรมช็อกโลกนี้ก็คือ เหลียงเหวินเฟิง (Liang Wenfeng) อดีตนักธุรกิจสายการเงินที่ผันตัวเข้าสู่วงการ AI ด้วยการก่อตั้ง ‘DeepSeek’ บริษัทสตาร์ทอัพ AI สัญชาติจีน

เหลียงเหวินเฟิง คือใคร เขาวางกลยุทธ์ในเกม AI อย่างไรจึงสามารถพา DeepSeek ผงาดขึ้นมาบนเวทีโลกจนสหรัฐฯ ต้องปาดเหงื่อ?

เปิดประวัติ เหลียงเหวินเฟิง ชายผู้สร้าง AI จีน เขย่าบัลลังก์อเมริกา

เหลียงเหวินเฟิง เกิดเมื่อปี 1985 ในมณฑลกวางตุ้ง ประเทศจีน ซึ่ง ณ เวลานั้นถือเป็นมณฑลที่เรียกได้ว่าอยู่ ‘ท้ายแถว’ ของประเทศในแง่ของรายได้ ประชากร และความเจริญ แต่เหลียงก็ฝ่าฟันอุปสรรคด้วยความรู้จนสามารถนำพาตนเองเข้าสู่สถาบันการศึกษาชั้นนำของประเทศอย่างมหาวิทยาลัยเจ้อเจียง (Zhejiang University) และสำเร็จการศึกษาในสาขาวิศวกรรมไฟฟ้าและสารสนเทศ

ระหว่างการศึกษาในระดับปริญญาโท เหลียงทำงานวิจัยเรื่อง ‘target Tracking Algorithm Based on Low-Cost Ptz Camera’ หรืออธิบายง่ายๆ คือการทำระบบอัลกอริทึมที่ใช้กล้องในการติดตามวัตถุที่เคลื่อนที่ด้วยต้นทุนที่ต่ำ โดยคีย์เวิร์ดสำคัญในที่นี้ก็คือ ‘ต้นทุนต่ำ’ ซึ่งฉายแววของเหลียงในการหาทางสร้างเทคโนโลยีให้เกิดประสิทธิภาพสูงสุดภายใต้ข้อจำกัดด้านทรัพยากร

ต่อมาในปี 2015 เหลียงเริ่มต้นชีวิตการทำงานด้วยการก่อตั้ง High-Flyer กองทุนเฮดจ์ฟันด์ ร่วมกับเพื่อนที่รู้จักจากมหาวิทยาลัยเจ้อเจียงอีกสองคน และด้วยการนำกลยุทธ์การเทรดที่ใช้ AI ทำให้กองทุน High-Flyer ได้รับการยอมรับอย่างรวดเร็ว โดยภายในปี 2019 บริษัทมีมูลค่าทรัพย์สินภายใต้การจัดการ (AUM) มากกว่า 1 หมื่นล้านดอลลาร์สหรัฐ

ประสบการณ์ที่ High-Flyer กลายมาเป็นส่วนสำคัญในการเปลี่ยนทิศทางอาชีพของนักธุรกิจชาวจีนคนนี้เข้าสู่โลก AI โดยในปี 2021 ทาง Financial Times รายงานว่า เหลียงเริ่มเข้าซื้อ GPUs ของ NVIDIA และได้รวบรวมชิป A100 มากถึง 10,000 เครื่อง เพื่อใช้เป็นโครงสร้างพื้นฐานขนาดใหญ่สำหรับการฝึกโมเดล AI ซึ่งกลายเป็นปัจจัยสำคัญในพัฒนาการของ DeepSeek ในเวลาต่อมา

ด้วยทรัพยากรที่มีผนวกกับแรงผลักดันที่ต้องการจะพัฒนา AI เหลียงจึงก่อตั้ง DeepSeek ในเดือนพฤษภาคมปี 2023 เป็นอีกหนึ่งธุรกิจย่อยของ High-Flyer โดยเป้าหมายของ DeepSeek คือการพัฒนาโมเดล AI ขั้นพื้นฐานเพื่อต่อยอดไปสู่ Artificial General Intelligence หรือ AGI ในที่สุด

DeepSeek ผงาด: เคล็ดลับสร้างนวัตกรรมภายใต้ข้อจำกัด

หลังจากการเปิดตัวโมเดล AI เพียงสัปดาห์เศษๆ ในวันที่ 20 มกราคม 2025 ชื่อของบริษัท DeepSeek ก็เป็นที่จับตาของคนทั่วโลก รวมถึงประเทศไทยด้วยที่ยอดค้นหาคำว่า ‘DeepSeek’ ติดเทรนด์อันดับ 1 ของประเทศใน 7 วันที่ผ่านมา โดยอัตราการค้นหาเพิ่มขึ้นมากกว่า 10 เท่าตัว

แต่การผงาดขึ้นของ DeepSeek ทำให้เกิดคำถามที่ว่า สตาร์ทอัพสัญชาติจีนรายนี้แก้เกมในสมรภูมิที่ตนเป็นรองผู้คุมเกมอย่างสหรัฐฯ ที่พยายามกีดกันการเข้าถึงเทคโนโลยีโครงสร้างพื้นฐานล้ำสมัยได้อย่างไร

นิตยสาร Forbes ได้รวบรวม 4 กลยุทธ์หลักที่ DeepSeek ใช้เพื่อประดิษฐ์โมเดลที่หลายคนมองว่ากำลังจะเข้ามาพลิกเกมธุรกิจ AI โลกดังนี้

Reinforcement Learning (RL): DeepSeek ใช้เทคนิค RL ในการฝึกโมเดลให้สามารถเรียนรู้ได้ด้วยตนเองผ่านการลองผิดลองถูก คล้ายกับกระบวนการเรียนรู้ของมนุษย์ผ่านประสบการณ์ ซึ่งทำให้การใช้ทรัพยากรที่มีอยู่อย่างจำกัดเกิดประสิทธิภาพสูงสุด อีกทั้งยังนำไปสู่โมเดลที่ยืดหยุ่นและปรับตัวได้มากกว่า

Mixture of Experts (MoE): กลยุทธ์ที่เลือกใช้ทรัพยากรบางส่วนของโมเดลที่มีความเชี่ยวชาญในเรื่องนั้นๆ โดยการเลือกเฉพาะส่วนที่เหมาะกับงานประเภทใดประเภทหนึ่งทำให้ต้นทุนต่ำลงและประสิทธิภาพเพิ่มขึ้น หากจะอธิบายให้เห็นภาพ การใช้ MoE เหมือนกับการมีทีมทำงานใหญ่หนึ่งทีม โดยแต่ละทีมย่อยก็จะมีความชำนาญในแต่ละด้านแตกต่างกันไป เมื่อมีโปรเจกต์หรืองานเข้ามาผู้จัดการจะเป็นฝ่ายเลือกผู้ที่มีส่วนเกี่ยวข้องเข้าไปทำงานเท่านั้น หรือในบริบทของ DeepSeek เรียกว่ากลไก ‘Gating’ ทำให้ต้นทุนที่ต้องใช้มีน้อยลง

Multi-Head Latent Attention: กลยุทธ์ที่ทำให้โมเดลสามารถวิเคราะห์ข้อมูลในแต่ละส่วนไปพร้อมๆ กัน ก่อนที่จะนำการวิเคราะห์มารวมเป็นหนึ่งเดียว เหมือนกับว่าแทนที่คนคนหนึ่งจะต้องอ่านหนังสือด้วยตัวเอง เขามีทีมหลายคนที่แยกไปโฟกัสส่วนต่างๆ ของหนังสือ เช่น พัฒนาการของตัวละคร พล็อตเรื่อง และสำนวนของผู้เขียน ซึ่งแต่ละคนในทีมก็จะนำข้อมูลการวิเคราะห์ที่ตนเองได้มาให้กับผู้อ่าน เพื่อความเข้าใจที่ลึกซึ้งมากขึ้น โดยกลยุทธ์ดังกล่าวถูกใช้ใน DeepSeek-V3 (หนึ่งในโมเดลของบริษัท) ที่ช่วยให้โมเดลมีความฉลาดไม่แพ้ AI จากฝั่งสหรัฐฯ

Distillation: เทคนิคถ่ายทอดความรู้และความสามารถจากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็ก เปรียบเสมือนการที่อาจารย์ถ่ายทอดความรู้ให้กับนักเรียน ทำให้นักเรียนทำงานได้ใกล้เคียงกับอาจารย์ แม้ประสบการณ์จะน้อยกว่าก็ตาม ซึ่งวิธีนี้ทำให้โมเดลขนาดเล็กไม่จำเป็นต้องเข้าใจทุกรายละเอียด แต่เข้าใจสิ่งสำคัญเพื่อไขคำตอบบางส่วนได้

บทวิเคราะห์ของ Financial Times แชร์มุมมองการปรับตัวของธุรกิจ AI จีนอย่าง DeepSeek ว่าการมีข้อจำกัดด้านทรัพยากรเป็นตัวตั้งเป็นเหตุผลหลักที่ทำให้พวกเขาต้องคิดหาวิธีใหม่ จนสามารถสร้างนวัตกรรมที่โลกเทคโนโลยีต้องตะลึง ซึ่งทั้งหมดนี้อาจไม่เกิดขึ้นเลยก็ได้หากสหรัฐฯ ไม่ออกนโยบายกีดกันการส่งออกชิปเซมิคอนดักเตอร์ให้กับจีน

ย้อนกลับมาที่ตัวของเหลียงเหวินเฟิง ทักษะและกระบวนการคิดที่เขาได้สัมผัสจากโปรเจกต์ในสมัยที่เหลียงศึกษาอยู่ในระดับปริญญาโท น่าจะเป็นส่วนสำคัญที่กระตุ้นให้ตนเองต้องลองหาวิธีสร้างนวัตกรรมที่ใช้ ‘ต้นทุนต่ำ’ แต่ให้ผลลัพธ์ ‘มูลค่าสูง’

อย่างไรก็ตาม ความท้าทายที่รอ DeepSeek อยู่ในอนาคตคือการสร้างความเชื่อมั่นในตลาด โดยเฉพาะการมีรัฐบาลจีนเป็นผู้กำกับดูแล ซึ่งยังเป็นอุปสรรคต่อการยอมรับในระดับสากล รวมถึงการโต้กลับของสหรัฐฯ ที่คงจะไม่ยอมนิ่งนอนใจและปล่อยให้จีนนำหน้าไปได้ง่ายๆ แน่นอน

แต่สิ่งที่ค่อนข้างชัดเจนในวันนี้คือ AI จากฝั่งของจีนไม่ใช่สิ่งที่คู่แข่งระดับโลกเพิกเฉยได้อีกต่อไป และ DeepSeek ของเหลียงเหวินเฟิงก็พิสูจน์ให้ทุกคนรับรู้แล้ว

อ้างอิง: