From Innovation to Deployment Ready: AMD Advances AI Networking at Scale with MRC

ต้องใช้อะไรบ้างในการขับเคลื่อนโมเดล AI ที่ต้องการพละกำลังในการประมวลผลสูงที่สุดในโลก อย่างเช่นโมเดลที่อยู่เบื้องหลัง ChatGPT?

ในระดับพื้นฐานที่สุด โมเดล AI ขนาดใหญ่เหล่านี้ต้องพึ่งพาพลังประมวลผลจาก GPU จำนวนมหาศาลที่ทำงานประสานกันอย่างแม่นยำ และเมื่อระบบ AI มีขนาดใหญ่ขึ้น การเชื่อมโยงพลังประมวลผลเหล่านั้นเข้าด้วยกันอย่างมีประสิทธิภาพ ก็ยิ่งขึ้นอยู่กับ “เครือข่าย” ที่เชื่อมต่อระบบทั้งหมดเข้าไว้ด้วยกันมากขึ้นเรื่อย ๆ GPU หลายแสนตัวต้องสามารถทำงานประสานกัน แลกเปลี่ยนข้อมูล และฟื้นตัวจากความผิดพลาดที่เกิดขึ้นได้อย่างรวดเร็วอยู่ตลอดเวลา

ระบบในขนาดระดับนี้ เครือข่ายเป็นปัจจัยสำคัญที่กำหนดโดยตรงว่าพลังประมวลผลที่มีอยู่จะถูกนำมาใช้ได้อย่างเต็มประสิทธิภาพเพียงใด

ปัจจุบัน AMD ร่วมกับ OpenAI, Microsoft และผู้นำอุตสาหกรรมรายอื่น ได้ประกาศนำเทคโนโลยี Multipath Reliable Connection (MRC) เข้าสู่ Open Compute Project (OCP) เพื่อเปิดให้โปรโตคอลเครือข่ายรูปแบบใหม่นี้สามารถใช้งานได้ในระบบนิเวศที่กว้างขึ้น ในฐานะผู้สนับสนุนระบบนิเวศแบบเปิดมาอย่างยาวนาน AMD กำลังช่วยผลักดันให้เครือข่าย Ethernet ก้าวเข้าสู่ยุค AI และเปลี่ยนเครือข่าย AI ให้กลายเป็นรากฐานแบบเปิด สามารถโปรแกรมได้ และพร้อมใช้งานจริงสำหรับลูกค้าที่กำลังสร้างโครงสร้างพื้นฐาน AI

สำหรับ AMD และอุตสาหกรรมในภาพรวมแล้ว MRC เป็นมากกว่าแค่โปรโตคอลระบบเครือข่ายใหม่สำหรับซูเปอร์คอมพิวเตอร์ระดับแนวหน้า แต่มันคือสิ่งสำคัญที่นำไปสู่รากฐานที่เปิดกว้างมากขึ้น สามารถตั้งค่าโปรแกรมได้ มีความยืดหยุ่นทนทาน สำหรับโครงสร้างพื้นฐานของ AI และในขณะที่ลูกค้ากำลังสร้างคลัสเตอร์ AI ขนาดใหญ่ขึ้นเรื่อย ๆ ทั้งบนระบบคลาวด์, องค์กรธุรกิจ, งานวิจัย และสภาพแวดล้อม AI ภายใต้อธิปไตยทางดิจิทัล อุตสาหกรรมนี้จึงจำเป็นต้องมีระบบเครือข่ายที่ไม่เพียงแต่เร็วในสภาวะที่เหมาะสมเท่านั้น แต่ยังต้องมีความสม่ำเสมอ สามารถปรับตัวได้ และนำไปใช้งานจริงได้อย่างมีประสิทธิภาพในโลกความเป็นจริงด้วย

MRC: สร้างขึ้นเพื่อเครือข่าย AI ขนาดใหญ่

MRC ถูกออกแบบมาโดยเฉพาะสำหรับสภาพแวดล้อมการเทรน AI ขนาดใหญ่ ซึ่งระบบเครือข่ายแบบเส้นทางเดียวแบบดั้งเดิมเริ่มมีข้อจำกัด เวิร์กโหลดเหล่านี้ต้องการการสื่อสารความเร็วสูงอย่างต่อเนื่อง และแม้แต่การสะดุดเพียงช่วงสั้น ๆ ก็อาจส่งผลกระทบต่อความคืบหน้าของระบบทั้งหมดได้

แทนที่จะส่งข้อมูลผ่านเส้นทางเดียว MRC จะกระจายแพ็กเก็ตข้อมูลไปตามหลายเส้นทางพร้อมกัน ช่วยลดปัญหาคอขวดของเครือข่าย และลดความหน่วงในการรับส่งข้อมูล ที่อาจทำให้การเทรนแบบประสานการทำงานช้าลง เมื่อเกิดความผิดพลาดขึ้น ซึ่งเป็นสิ่งที่หลีกเลี่ยงไม่ได้ MRC จะสามารถปรับตัวและเปลี่ยนเส้นทางข้อมูลได้เกือบแบบเรียลไทม์ ช่วยหลีกเลี่ยงความล่าช้าที่มักเกิดขึ้นในระบบกู้คืนเครือข่ายแบบเดิม

ในทางปฏิบัติ MRC เปรียบเสมือนโช้คอัพ สำหรับโครงสร้างพื้นฐาน AI เพราะแทนที่ทุกเหตุการณ์ผิดปกติจะกลายเป็นการหยุดชะงักของระบบ แต่ MRC สามารถช่วยให้เครือข่ายสามารถปรับตัวเฉพาะจุดได้อย่างรวดเร็ว ทำให้ เวิร์กโหลดสามารถทำงานต่อไปได้ และสิ่งนี้สำคัญมาก เพราะประสิทธิภาพของ AI ระดับขนาดใหญ่ไม่ได้วัดจาก แบนด์วิดท์สูงสุดเพียงอย่างเดียว แต่ถูกวัดจาก ระดับความสามารถของตัวเร่งการประมวลผลว่ายังสามารถทำงานได้อย่างมีประสิทธิภาพภายใต้สภาพจริงมากแค่ไหน

การมีส่วนร่วมของ AMD: จากการพัฒนาสู่การใช้งานจริง

AMD มีบทบาทสำคัญในการกำหนดรูปแบบการทำงานของ MRC ในปัจจุบัน AMD ร่วมเป็นผู้นำในการจัดทำข้อกำหนดมาตรฐานของ MRC ซึ่งเป็นมาตรฐานสำหรับเครือข่าย AI ยุคใหม่ และยังสนับสนุนเทคโนโลยีการควบคุมความแออัดของเครือข่ายขั้นสูง เพื่อเพิ่มประสิทธิภาพการทำงานภายใต้สภาพแวดล้อมจริง

ที่สำคัญกว่านั้น นี่ไม่ใช่เพียงแนวคิดในเชิงทฤษฎี AMD ได้ทำการพัฒนาและติดตั้ง MRC ร่วมกับเทคโนโลยีเครือข่ายของ AMD ในคลัสเตอร์ทดสอบระดับขนาดใหญ่ร่วมกับผู้ให้บริการคราว์นชั้นนำ ซึ่งการทดสอบเหล่านี้ช่วยยืนยันว่า MRC ถูกออกแบบจากพฤติกรรมการทำงานจริงของเครือข่ายภายใต้เวิร์กโหลดของ AI ที่ต่อเนื่องได้อย่างแท้จริง

“แม้ GPU และ CPU จะยังคงเป็นหัวใจของการประมวลผล แต่คอขวดที่แท้จริงของการขยาย AI คือระบบเครือข่าย การที่ AMD ร่วมกับ OpenAI และ Microsoft เปิดตัว MRC ถือเป็นก้าวสำคัญของความสามารถในการตั้งโปรแกรมและปรับแต่งได้ของ AMD ช่วยให้เราสามารถนำเทคโนโลยีนวัตกรรมอย่าง MRC ไปต่อยอดเป็นประสิทธิภาพการทำงานจริงในระดับขนาดใหญ่ได้อย่างรวดเร็ว ซึ่งในสภาพแวดล้อมเช่นนี้ ความสามารถในการรับส่งข้อมูลที่มีความสม่ำเสมอ เสถียร และเชื่อถือได้ มีความสำคัญมากกว่าตัวเลขแบนด์วิดท์สูงสุดตามทฤษฎี”

ความสามารถในการตั้งค่าโปรแกรมและปรับแต่งได้ ยังคงเป็นจุดแตกต่างที่สำคัญสำหรับ AMD ในฐานะที่เป็นหนึ่งในโซลูชันระบบเครือข่ายเพียงไม่กี่รายที่ผสมผสานความสามารถในการโปรแกรมได้ทั้งฮาร์ดแวร์และซอฟต์แวร์อย่างเต็มรูปแบบ พร้อมด้วยประวัติการจัดวางระบบที่ได้รับการพิสูจน์แล้ว ซึ่งช่วยให้ระบบเครือข่ายสามารถปรับตัวได้ตามเวิร์กโหลด ที่พัฒนาไป โดยก่อนที่จะมีการพัฒนาข้อกำหนดมาตรฐานของ MRC ขึ้นมานั้น AMD ได้มีการนำโปรโตคอลการรับส่งข้อมูล RoCEv2 รุ่นปรับปรุงมาใช้งานล่วงหน้าก่อนที่มาตรฐานจริงจะออก ซึ่งต่อมาได้พัฒนามาเป็นมาตรฐาน MRC ในปัจจุบัน สิ่งนี้เกิดขึ้นได้ก็เนื่องมาจากความสามารถในการโปรแกรมได้อย่างเปิดกว้างของชิปเครือข่าย AMD Pensando™ Pollara 400 AI NIC และความสามารถในการโปรแกรมนี้เองที่มีส่วนช่วยให้เกิดความยืดหยุ่นในการตรวจสอบความถูกต้องของระบบได้ตั้งแต่เนิ่น ๆ และจากการที่ AMD เป็นหนึ่งในบริษัทกลุ่มแรกและบริษัทเดียวที่นำ MRC มาใช้กับชิปเครือข่ายความเร็ว 400G NIC เราจึงสามารถเร่งกระบวนการเปลี่ยนผ่านอย่างไร้รอยต่อสู่ชิปเครือข่าย AMD Pensando รหัส ‘Vulcano’ 800G AI NIC ของเรา ซึ่งรองรับโปรโตคอลการรับส่งข้อมูลแบบ MRC ด้วยเช่นกัน

การผสมผสานระหว่างมาตรฐานที่ชัดเจน เทคโนโลยีที่พัฒนาเอง และการทดสอบใช้งานจริง ทำให้ AMD อยู่ในแนวหน้าของการผลักดัน MRC สู่โครงสร้างพื้นฐานของ AI ในโลกจริง

นิยามใหม่ของประสิทธิภาพสำหรับโครงสร้างพื้นฐาน AI

สำหรับ AI ในระดับขนาดใหญ่ ประสิทธิภาพไม่ได้ถูกวัดจากตัวเลขแบนด์วิดท์สูงสุดเพียงอย่างเดียว แต่ถูกวัดจากพฤติกรรมของระบบภายใต้สภาวะจริง การรับส่งข้อมูลที่มีความสม่ำเสมอ การจัดการความแออัดของเครือข่ายอย่างมีประสิทธิภาพ และการฟื้นตัวจากความล้มเหลวได้อย่างรวดเร็ว โดยยังคงให้ GPU ทำงานสอดประสานกันและมีประสิทธิภาพสูงสุด คือสิ่งที่เหมาะสมที่สุดสำหรับการขับเคลื่อนเครือข่าย AI ในระดับขนาดใหญ่

MRC สามารถช่วยเพิ่มประสิทธิภาพของโมเดล และช่วยให้โปรโตคอลเครือข่ายที่เชื่อมต่อการเทรน AI ขนาดใหญ่บนคลัสเตอร์ GPU จำนวนมากมีความน่าเชื่อถือสูงขึ้น

ด้วยการมีส่วนร่วมในการกำหนด พัฒนา และผลักดัน MRC ร่วมกับ OpenAI, Broadcom, Intel และ Microsoft AMD กำลังช่วยผลักดันเครือข่าย AI จากแนวคิดเชิงทฤษฎี ไปสู่โครงสร้างพื้นฐานที่พร้อมใช้งานจริงอย่างเต็มรูปแบบ

From Innovation to Deployment Ready: AMD Advances AI Networking at Scale with MRC

MRC: สร้างขึ้นเพื่อเครือข่าย AI ขนาดใหญ่

การมีส่วนร่วมของ AMD: จากการพัฒนาสู่การใช้งานจริง

นิยามใหม่ของประสิทธิภาพสำหรับโครงสร้างพื้นฐาน AI

Related Posts