Gemini Deep Research พร้อมให้บริการในเวอร์ชันพรีวิวแล้วตอนนี้ โดยมีฟีเจอร์การวางแผนร่วมกัน การแสดงภาพข้อมูล การรองรับ MCP และอื่นๆ

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมของ Gemini Live API

Live API ช่วยให้การโต้ตอบด้วยเสียงและภาพกับ Gemini เป็นไปแบบเรียลไทม์และมีความหน่วงต่ำ โดยจะประมวลผลสตรีมเสียง รูปภาพ และข้อความอย่างต่อเนื่องเพื่อแสดงเสียงตอบกลับที่เหมือนมนุษย์ในทันที ซึ่งสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติให้กับผู้ใช้

ภาพรวม Live API

ลองใช้ Live API ใน Google AI Studio โคลนแอปตัวอย่างจาก GitHub ใช้ทักษะของ Agent ในการเขียนโค้ด

กรณีการใช้งาน

คุณสามารถใช้ Live API เพื่อสร้าง Agent ที่ใช้เสียงแบบเรียลไทม์สำหรับอุตสาหกรรมต่างๆ ได้แก่

อีคอมเมิร์ซและการค้าปลีก: ผู้ช่วยช็อปปิ้งที่ให้คำแนะนำที่ปรับให้เหมาะกับแต่ละบุคคลและ Agent ฝ่ายสนับสนุนที่แก้ไขปัญหาของลูกค้า
เกม: ตัวละครที่ไม่ใช่ผู้เล่น (NPC) แบบอินเทอร์แอกทีฟ ผู้ช่วยในเกม และการแปลเนื้อหาในเกมแบบเรียลไทม์
อินเทอร์เฟซยุคใหม่: ประสบการณ์ที่ใช้เสียงและวิดีโอได้ในหุ่นยนต์ แว่นตาอัจฉริยะ และยานพาหนะ
การดูแลสุขภาพ: เพื่อนดูแลสุขภาพเพื่อสนับสนุนและให้ความรู้แก่ผู้ป่วย
บริการทางการเงิน: ที่ปรึกษา AI สำหรับการจัดการความมั่งคั่งและคำแนะนำด้านการลงทุน
การศึกษา: ครูฝึก AI และเพื่อนร่วมเรียนที่ให้คำแนะนำและข้อเสนอแนะที่ปรับให้เหมาะกับแต่ละบุคคล
การแปลและการแปลเป็นภาษาท้องถิ่น: การแปลบทสนทนาแบบเรียลไทม์ที่มีความหน่วงต่ำ ซึ่งช่วยให้การสื่อสารหลายภาษาเป็นไปอย่างราบรื่น

ฟีเจอร์หลัก

Live API มีชุดฟีเจอร์ที่ครอบคลุมสำหรับการสร้าง Agent ที่ใช้เสียงได้อย่างมีประสิทธิภาพ ดังนี้

การรองรับหลายภาษา: สนทนาในภาษาที่รองรับ 70 ภาษา
Barge-in: ผู้ใช้สามารถขัดจังหวะโมเดลได้ทุกเมื่อเพื่อการโต้ตอบที่ตอบสนอง
การใช้เครื่องมือ: ผสานรวมเครื่องมือต่างๆ เช่น การเรียกใช้ฟังก์ชันและการค้นหาของ Google เพื่อการโต้ตอบแบบไดนามิก
การถอดเสียง: ให้ข้อความถอดเสียงทั้งข้อมูลจากผู้ใช้และเอาต์พุตโมเดล
เสียงเชิงรุก: ให้คุณควบคุมได้ว่าโมเดลจะตอบกลับเมื่อใดและในบริบทใด
การสนทนาเชิงอารมณ์: ปรับรูปแบบและน้ำเสียงในการตอบกลับให้ตรงกับคำพูดของผู้ใช้
การแปลสด: การแปลเสียงเป็นเสียงแบบเรียลไทม์ในภาษาต่างๆ มากกว่า 70 ภาษา

ข้อกำหนดทางเทคนิค

ตารางต่อไปนี้แสดงข้อกำหนดทางเทคนิคของ Live API

หมวดหมู่	รายละเอียด
รูปแบบอินพุต	เสียง (เสียง PCM แบบดิบ 16 บิต, 16 kHz, little-endian), รูปภาพ (JPEG <= 1 FPS), ข้อความ
รูปแบบเอาต์พุต	เสียง (เสียง PCM แบบดิบ 16 บิต, 24 kHz, little-endian)
โปรโตคอล	การเชื่อมต่อ WebSocket แบบมีสถานะ (WSS)

เลือกวิธีการนำไปใช้งาน

เมื่อผสานรวมกับ Live API คุณจะต้องเลือกวิธีการนำไปใช้งานวิธีใดวิธีหนึ่งต่อไปนี้

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์: แบ็กเอนด์ของคุณเชื่อมต่อกับ Live API โดยใช้ WebSockets โดยปกติแล้ว ไคลเอ็นต์จะส่งข้อมูลสตรีม (เสียง วิดีโอ ข้อความ) ไปยังเซิร์ฟเวอร์ ซึ่งจะส่งต่อข้อมูลไปยัง Live API
ไคลเอ็นต์ต่อเซิร์ฟเวอร์: โค้ดส่วนหน้าของคุณเชื่อมต่อกับ Live API โดยตรง โดยใช้ WebSockets เพื่อสตรีมข้อมูล โดยข้ามแบ็กเอนด์

หมายเหตุ: โดยทั่วไปแล้ว ไคลเอ็นต์ต่อเซิร์ฟเวอร์จะให้ประสิทธิภาพที่ดีกว่าสำหรับการสตรีมเสียง และวิดีโอ เนื่องจากไม่จำเป็นต้องส่งสตรีมไปยังแบ็กเอนด์ก่อน นอกจากนี้ การตั้งค่ายังทำได้ง่ายกว่าด้วย เนื่องจากคุณไม่จำเป็นต้องใช้พร็อกซีที่ส่งข้อมูลจากไคลเอ็นต์ไปยังเซิร์ฟเวอร์ แล้วจากเซิร์ฟเวอร์ไปยัง API อย่างไรก็ตาม สำหรับสภาพแวดล้อมการใช้งานจริง เราขอแนะนำ ให้ใช้โทเค็นชั่วคราวแทน คีย์ API มาตรฐาน

เริ่มต้นใช้งาน

เลือกคำแนะนำที่ตรงกับสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณ

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์

บทแนะนำเกี่ยวกับ GenAI SDK

เชื่อมต่อกับ Gemini Live API โดยใช้ GenAI SDK เพื่อสร้างแอปพลิเคชันมัลติโมดัลแบบเรียลไทม์ด้วยแบ็กเอนด์ Python

ไคลเอ็นต์ต่อเซิร์ฟเวอร์

บทแนะนำเกี่ยวกับ WebSocket

เชื่อมต่อกับ Gemini Live API โดยใช้ WebSocket เพื่อสร้างแอปพลิเคชันมัลติโมดัลแบบเรียลไทม์ด้วยส่วนหน้า JavaScript และโทเค็นชั่วคราว

ชุดเครื่องมือพัฒนา Agent

บทแนะนำเกี่ยวกับ ADK

สร้าง Agent และใช้การสตรีมชุดเครื่องมือพัฒนา Agent (ADK) เพื่อเปิดใช้การสื่อสารด้วยเสียงและวิดีโอ

การผสานรวมพาร์ทเนอร์

คุณสามารถใช้ การผสานรวมของบุคคลที่สามที่รองรับ Gemini Live API ผ่าน WebRTC หรือ WebSocket เพื่อเพิ่มประสิทธิภาพการพัฒนาแอปเสียงและวิดีโอแบบเรียลไทม์

LiveKit

ใช้ Gemini Live API กับ LiveKit Agent

Pipecat by Daily

สร้างแชทบ็อต AI แบบเรียลไทม์โดยใช้ Gemini Live และ Pipecat

Fishjam by Software Mansion

สร้างแอปพลิเคชันการสตรีมวิดีโอสดและเสียงด้วย Fishjam

Vision Agents by Stream

สร้างแอปพลิเคชัน AI ที่ใช้เสียงและวิดีโอแบบเรียลไทม์ด้วย Vision Agents

Voximplant

เชื่อมต่อการโทรขาเข้าและขาออกกับ Live API ด้วย Voximplant

Agora

สร้างแอปพลิเคชัน AI สำหรับการสนทนาแบบเรียลไทม์ด้วย Agora

Firebase AI SDK

เริ่มต้นใช้งาน Gemini Live API โดยใช้ Firebase AI Logic