ธนาคารทรัพยากรชีวภาพแห่งชาติ เร่งความเร็วในการประมวลผลข้อมูลด้านจีโนม ด้วย NVIDIA DGX A100 และ NVIDIA Clara Parabrick

ประกาศติดตั้งระบบ NVIDIA DGX A100 และซอฟต์แวร์วิเคราะห์ข้อมูลเชิงลำดับ NVIDIA Clara Parabricks ที่ ธนาคารทรัพยากรชีวภาพแห่งชาติ  (NBT – National Biobank of Thailand) เพื่อเร่งการจัดลำดับจีโนมซึ่งเป็นส่วนหนึ่งของแผนงานของรัฐบาลในการส่งเสริมการแพทย์ทางพันธุกรรมในประเทศไทย

ในปี 2019 สถาบันวิจัยได้รับความไว้วางใจให้ออกแบบและใช้โครงสร้างพื้นฐานด้านไอทีสำหรับโครงการระดับชาติชื่อว่า Genomics Thailand (GeTH) โดยมีเป้าหมายที่จะแนะนำการรักษาทางจีโนมไปใช้กับบริการทางการแพทย์ทั่วไป หนึ่งในโครงการหลักของ GeTH เกี่ยวข้องกับการแยกรูปแบบทางพันธุกรรมของแต่ละบุคคลจากข้อมูลลำดับจีโนมทั้งหมด (GeTH50K) ของอาสาสมัครชาวไทย 50,000 คน งานนี้จะนำเสนอกลุ่มของข้อมูลใหม่ของพันธุกรรมที่จะเป็นตัวแทนของประชากรไทยโดยเฉพาะ ซึ่งจะดีกว่ากว่าข้อมูลที่มาจากฐานข้อมูลที่เป็นสาธารณะ (จากต่างประเทศ) ดังนั้นข้อมูลดังกล่าวจึงเป็นข้อมูลอ้างอิงทางพันธุกรรมที่ดีที่ช่วยระบุการเปลี่ยนแปลงทางพันธุกรรม ฐานข้อมูล GeTH 50K รองรับตัวแปรที่กระจายอยู่ทั่วจีโนมมนุษย์ทั้งหมดซึ่งมีประโยชน์อย่างมากในการทำงานด้านพันธุศาสตร์ประชากร โดยข้อมูลพันธุศาสตร์ที่เฉพาะเจาะจงนี้มีความสำคัญอย่างมากทางการแพทย์

ข้อมูลจำนวนมหาศาลที่ต้องประมวลผล

ความท้าทายที่ยิ่งใหญ่ที่สุดในโครงการนี้คือขนาดที่แท้จริงของข้อมูลลำดับจีโนมทั้งหมด (WGS) ข้อมูลลำดับสำหรับจีโนมของแต่ละบุคคลมีมากกว่า 100GB ซึ่งต้องเรียงตามลำดับให้สอดคล้องกับการอ้างอิงจีโนมของมนุษย์เพื่อระบุตัวแปรที่เป็นไปได้ของแต่ละบุคคล กระบวนการนี้ส่งผลให้มีข้อมูลเพิ่มจาก 100GB ไปเป็นกว่า 200GB ต่อตัวอย่าง พลังการประมวลผลแบบขนานของ GPU ช่วยเร่งกระบวนการทั้งหมดได้อย่างมาก

การระบุตัวแปร ที่เรียกว่า “Variant calling” เป็นกระบวนการที่จำเป็นต้องใช้ในการระบุข้อมูลการเรียงลำดับของจีโนม การประมวลผลข้อมูล WGS ที่ถูกต้องและรวดเร็วทำให้ผู้ป่วยได้รับการดูแลที่แม่นยำและเป็นส่วนตัวปรับปรุงคุณภาพชีวิตโดยลดการเข้ารับการรักษาในโรงพยาบาลและค่าใช้จ่ายที่เกี่ยวข้อง

พลังและโครงข่ายในการประมวลผล

เพื่อเร่งกระบวนการเรียกตัวแปรจากข้อมูล WGS ทาง NBT ได้ใช้ NVIDIA DGX A100 ซึ่งเป็นระบบสำหรับการประมวลผลทั่วไปของงานทางด้าน AI โดยภายใน NVIDIA DGX A100 ได้ติดตั้งชิป NVIDIA A100 Tensor Core จำนวนแปดตัวซึ่งมอบประสิทธิภาพในการประมวลผลด้าน AI สำหรับงานวิจัยได้สูงถึง 5 petaflops ด้วยความสามารถในการประมวลผลในการรองรับงานที่มีปริมาณสูง ประสิทธิภาพและความยืดหยุ่นที่ไม่เคยมีมาก่อนนี้ช่วยให้ NBT สามารถรวมการฝึกอบรม การอนุมาน และการวิเคราะห์ไว้ในโครงสร้างพื้นฐาน AI ที่เป็นหนึ่งเดียวและง่ายต่อการปรับใช้

นอกเหนือจากฮาร์ดแวร์ที่เร่งความเร็วแล้ว NBT ยังใช้ไปป์ไลน์การคำนวณของ NVIDIA Clara Parabricks ซึ่งรองรับแอพพลิเคชั่นด้านจีโนมิกส์หลายตัว การใช้ CUDA, HPC, AI และสแต็กการวิเคราะห์ข้อมูลของ NVIDIA Clara Parabricks ช่วยให้นักวิจัยสามารถสร้างไลบรารีที่เร่งการทำงานด้วย GPU ไปป์ไลน์และเวิร์กโฟลว์ของแอปพลิเคชันอ้างอิงสำหรับการวิเคราะห์ข้อมูลหลัก ข้อมูลรอง และข้อมูลตติยภูมิ รวมไปถึงการรองรับโซลูชันอื่นจากภายนอก ก็สามารถเข้ามาใช้ชุดเครื่องมือเหล่านี้เพื่อสนับสนุนการพัฒนาแอปพลิเคชันใหม่เพื่อตอบสนองความต้องการที่เปลี่ยนแปลงอย่างรวดเร็วของห้องปฏิบัติการจีโนมที่มีปริมาณงานสูง

โซลูชันที่ช่วยเร่งการค้นคว้า

“โซลูชันเร่งความเร็วจาก NVIDIA ช่วยให้เราดำเนินกระบวนการค้นหาตัวแปร WGS ได้อย่างมีประสิทธิภาพและมีความมั่นใจสูง ด้วยการจับคู่ NVIDIA DGX A100 กับ NVIDIA Clara Parabricks เราสามารถลดการประมวลผลข้อมูล WGS ของเราลงได้สี่เดือน นอกจากนี้เวลาในการประมวลผลต่อผู้ใช้แต่ละรายยังสั้นลงจากมากกว่า 30 ชั่วโมงเหลือเพียงหนึ่งถึงสองชั่วโมง นอกจากนี้แพลตฟอร์ม A100 ของ NBT ยังสามารถใช้สำหรับงานอื่น ๆ ที่เกี่ยวข้องกับการประมวลผลด้าน AI ภายในของ NBT ได้อีกด้วย”

ดร.ศิษเฎศ ทองสิมา ผู้อำนวยการธนาคารทรัพยากรชีวภาพแห่งชาติ (NBT) กล่าว

“NVIDIA DGX A100 ช่วยให้นักวิจัยในหลายสาขาประสบความสำเร็จทางวิทยาศาสตร์ ด้วยการนำ NVIDIA DGX A100 และ NVIDIA Clara Parabricks มาใช้ทำให้ NBT สามารถทำการวิจัยได้เร็วขึ้นและมีคุณภาพสูงขึ้นซึ่งนำไปสู่การค้นพบจีโนมที่เร็วขึ้นซึ่งเป็นประโยชน์ต่อมนุษยชาติ” เดนนิส อัง ผู้อำนวยการฝ่ายธุรกิจองค์กรสำหรับภูมิภาค SEA และ ANZ ของ NVIDIA กล่าว