Google RETVec

Google ใช้ RETVec ช่วยคัดกรอง อีเมล์ขยะ ข้อความ ที่ใช้อักขระพิเศษ หรือสะกดคำผิดเพื่อหลบหลีกได้

Google ประกาศนำเอา ระบบ RETVec (Resilient & Efficient Text Vectorizer) ที่มีความสามารถแยกแยะข้อความที่ตั้งใจพิมพ์คำผิด ใช้อักขระพิเศษแทนตัวอักษร หรือแทรกด้วยอีโมจิ มาใช้จัดการกับ อีเมล์ขยะ และอีเมล์หลอกลวง phishing ที่ส่งมาใน Gmail และข้อความคอมเมนต์ ที่ระบุว่าเป็นเนื้อหาที่เป็นอันตรายใน YouTube และ Google Play

เชื่อว่าหลายคน จะเคยเจอ อีเมล์ขยะ จากเหล่าสแปมเมอร์ ที่ส่งโฆษณาอันรำคาญซ้ำๆ จนล้นกล่องจดหมาย รวมไปถึงพวกอาชญากรที่ส่งอีเมล์ phishing หลอกลวง พวกนี้ใช้วิธีหลบระบบคัดกรองสแปมของ Gmail ด้วยวิธีอย่าง

  • พิมพ์ตัวอักษรอื่น แต่ยังอ่านได้ อย่างเช่น ใช้เลขศูนย์ แทน ตัวอักษรโอ หรือพิมพ์ตัว v แทนตัว ข ในคำว่า “vาย”
  • พิมพ์คำสะกดให้ผิด เพื่อหลบคำที่เป็นสแปม แต่ยังอ่านผ่านๆ แล้วยังเข้าใจความหมาย
  • พิมพ์อีโมจิแทรก หรือประกอบกับคำ เพื่อให้ดูไม่เป็นคำที่อยู่ในระบบกรองสแปม

RETVec เป็นโมเดลโอเพนซอร์ส ที่ได้รับการเรียนรู้ข้อมูลคำที่ถูกดัดแปลงเพื่อหลบการคัดกรอง เป็นข้อมูลจากอักขระ UTF-8 ในทุกภาษาทั่วโลก โดยการทำงานไม่จำเป็นต้องประมวลผลล่วงหน้า ทำให้เหมาะสำหรับการใช้งานบนอุปกรณ์ต่างๆ และโมเดลที่มีขนาดเล็กก็ยังใช้ทรัพยากรในการคำนวณน้อยและใช้เวลาแฝงต่ำ

มีประสิทธิภาพช่วยจัดการ อีเมลสแปม ใน Gmail ได้ดีขึ้น 38% ลดอัตราการตรวจจับผิดพลาดที่เป็นด้านบวก (positive) ได้ 19.4%

ข้อมูลจาก Google Security Blog