หลังจากโลกได้ฮือฮากับความสามารถของ GPT-4o จากค่าย OpenAI กันไปแล้วเมื่อต้นสัปดาห์ เมื่อค่ำคืนที่ผ่านมา ทาง Google ก็ได้จัดงาน Google I/O’24 เพื่อนำเสนอความสามารถใหม่ของ Gemini ปัญญาประดิษฐ์ของบริษัทขึ้นเช่นกัน
สำหรับความสามารถของ Gemini รุ่นใหม่ ที่ Google ดึงมาโชว์บนเวทีนั้นอยู่ใต้อินเทอร์เฟสที่เราคุ้นเคย นั่นคือ มาพร้อมภาพของความเป็น “เสิร์ชเอนจิน” หรือหากเป็นการทำงานผ่านโทรศัพท์มือถือก็ใช้ Pixel สมาร์ทโฟนของทางค่ายเป็นผู้นำเสนอ (ซึ่งต่างจาก GPT-4o ที่ใช้ไอโฟนจาก Apple) โดยความสามารถของ Gemini ที่นำมาโชว์ให้ดูมีตั้งแต่
- การวิเคราะห์ภาพที่เขียนจากลายมือ และเมื่อถามว่าจะเพิ่มประสิทธิภาพของจุดที่ลูกศรสีแดงชี้ได้อย่างไร Gemini ก็สามารถตอบได้
- การหาสิ่งของ (แว่นตา) โดยเปิดกล้องจากโทรศัพท์มือถือแล้วแพนกล้องไปรอบ ๆ ห้อง
- การตอบคำถามจากภาพ เช่น การถามว่า บนโต๊ะมีอุปกรณ์ใดที่สามารถเปล่งเสียงได้บ้าง (Gemini ก็ตอบว่าลำโพง)
- การนำ Gemini มาช่วยงานใน Google Workspace เช่น สั่งให้สรุปอีเมลที่ได้รับจากโรงเรียน
- ดูแลเรื่องการส่งคืนสินค้าที่ซื้อจากโลกออนไลน์ให้
- นอกจากนั้น Gemini ยังสามารถจัดการกับ Data ที่มากขึ้นได้ เช่น ใน Gemini 1.5 Pro ที่สามารถสรุปเอกสารขนาด 1,500 หน้าได้ หรือ Gemini 1.5 Flash ที่พัฒนาขึ้นมาเพื่อรองรับการช่วยงานที่ไม่โหดมากนัก เช่น การสรุปการสนทนา การจับภาพจากวิดีโอ เป็นต้น
- การใช้ Gemini ช่วยสรุปสาระสำคัญจากการประชุม
- การแจ้งเตือนเวลามีสายเข้าและมีแนวโน้มว่าคนที่โทรเข้ามาจะเป็นมิจฉาชีพ
อย่างไรก็ดี ความสามารถใหม่ของ Gemini ที่ Google นำมาโชว์ในงานนั้น บางส่วนเป็นการเปิดให้ผู้ใช้งานกลุ่มเล็ก ๆ หรือแค่กลุ่มนักพัฒนาได้ทดลองก่อน แต่ยังไม่สามารถใช้งานได้ในวงกว้าง ซึ่งต่างจาก GPT-4o โดยสามารถชมคลิปความสามารถทั้งหมดของ Gen AI จาก Google I/O 2024 ได้ที่นี่