Kỷ nguyên trí tuệ nhân tạo hành động tại Google I/O 2026

Sự kiện Google I/O 2026 khép lại với những công bố mang tính bước ngoặt, đánh dấu chặng đường mười năm Google theo đuổi chiến lược ưu tiên trí tuệ nhân tạo. Bằng việc tái cấu trúc toàn diện từ hạ tầng silicon, kiến trúc mô hình đến các ứng dụng thực tế, Google gửi đi thông điệp rõ ràng: Thế giới đang bước vào kỷ nguyên của những trợ lý AI tự trị và điểm bùng phát công nghệ tiếp theo. Bài viết này tổng hợp bức tranh toàn cảnh về những công nghệ vừa được ra mắt.

1. Hạ tầng siêu máy tính và bước nhảy vọt về lưu lượng token

Quy mô áp dụng trí tuệ nhân tạo toàn cầu đang tăng trưởng với tốc độ chưa từng thấy. Đơn vị đo lường cốt lõi cho sự tăng trưởng này là lượng dữ liệu xử lý, hay còn gọi là token.

Hai năm trước, hệ thống của Google ghi nhận mức xử lý trung bình 9,7 nghìn tỷ token mỗi tháng. Đến thời điểm hiện tại, con số này đạt mức kỷ lục 3,2 triệu tỷ (quadrillion) token mỗi tháng. Đây là minh chứng rõ nhất cho việc AI đang đi sâu vào đời sống vận hành thực tế ở quy mô cực lớn.

Để đáp ứng khối lượng xử lý khổng lồ đó, Google chính thức giới thiệu thế hệ chip AI mới với thiết kế chip kép (dual-chip):

TPU 8T: Dòng chip tối ưu cho việc huấn luyện quy mô lớn (pre-training) với hiệu năng mạnh gấp 3 lần thế hệ trước. Nhờ công nghệ Jackson Pathways, Google có khả năng phân phối việc huấn luyện xuyên suốt nhiều trung tâm dữ liệu, tạo ra cụm mạng lưới với hơn 1 triệu TPU trên toàn cầu.
TPU 8Ti: Dòng chip chuyên dụng cho suy luận (inference), giải quyết bài toán độ trễ với tốc độ xử lý thời gian thực đạt 1.500 token mỗi giây.

Cả hai dòng chip này đều đạt hiệu suất tiêu thụ năng lượng tối ưu, mang lại năng lực tính toán trên mỗi watt điện tốt hơn gấp 2 lần thế hệ cũ.

Hạ tầng silicon chip kép TPU 8T và TPU 8Ti Hình 1. Sơ đồ kiến trúc vi mạch chip xử lý TPU 8T công bố tại sự kiện.

2. Các mô hình thế hệ mới Gemini Omni và Gemini 3.5

Trọng tâm công nghệ của sự kiện năm nay xoay quanh hai dòng mô hình ngôn ngữ lớn mới, hướng đến đa phương thức sinh và khả năng tự hành động.

Mô hình thế giới Gemini Omni

Được thiết kế như một mô hình thế giới (world model) thực thụ, Gemini Omni sở hữu năng lực tạo ra bất kỳ định dạng đầu ra nào từ mọi định dạng đầu vào.

Mô hình có khả năng hiểu sâu sắc và mô phỏng vật lý trực quan như động năng hay trọng lực. Gemini Omni có thể dịch các ý tưởng phức tạp thành định dạng video chuẩn xác, ví dụ như mô phỏng cơ chế gập protein bằng hoạt hình đất sét. Bên cạnh đó, người dùng có thể chỉnh sửa video bằng ngôn ngữ đối thoại tự nhiên để thay đổi bối cảnh, thêm hiệu ứng hoặc chuyển đổi phong cách của video gốc.

Phiên bản Gemini Omni Flash hiện đã được tích hợp rộng rãi trên các sản phẩm thương mại. Phiên bản cao cấp Omni Pro dự kiến sẽ sớm ra mắt trong thời gian tới.

Mô hình thế giới đa phương thức Gemini Omni Hình 2. Giao diện giới thiệu năng lực đa phương thức của mô hình thế giới Gemini Omni.

Năng lực tự hành động của Gemini 3.5 Flash

Gemini 3.5 Flash đại diện cho bước chuyển dịch sang kỷ nguyên hành động của các mô hình ngôn ngữ lớn:

Hiệu năng thực tế: Mô hình vượt trội hơn phiên bản Gemini 3.1 Pro ở hầu hết bài kiểm tra chuyên sâu, đặc biệt trong các tác vụ lập trình phức tạp và xử lý dữ liệu bách khoa thực tế về kinh tế (GDP).
Tốc độ và chi phí: Tốc độ xử lý nhanh gấp 4 lần so với các mô hình tiên phong khác trên thị trường, trong khi giá thành API giảm xuống chưa tới một nửa.
Tính khả dụng: Cổng API hiện đã mở cho toàn bộ người dùng và nhà phát triển. Phiên bản cao cấp Gemini 3.5 Pro dự kiến sẽ ra mắt vào tháng sau.

Mô hình suy luận và tự hành động Gemini 3.5 Flash Hình 3. Bản so sánh hiệu năng và tốc độ xử lý vượt trội của Gemini 3.5 Flash.

3. Hệ điều hành đại lý và nền tảng lập trình độc lập Anti-Gravity 2.0

Google không còn dừng lại ở các công cụ hỗ trợ viết mã thông thường. Hãng đang hướng thẳng đến việc xây dựng hệ sinh thái cho các AI Agent (đại lý AI) có năng lực tự hành động độc lập.

Anti-Gravity 2.0 là nền tảng phát triển ứng dụng độc lập trên môi trường desktop, được thiết kế theo triết lý ưu tiên đại lý tự trị (agent-first).

Tại sự kiện, Google trình diễn một thử nghiệm ấn tượng khi giao cho các AI Agent tự xây dựng một hệ điều hành (OS) chức năng từ con số không. Thông qua sự phối hợp của 93 sub-agent chạy song song trong vòng 12 giờ, hệ thống xử lý tổng cộng 2,6 tỷ token để viết thành công toàn bộ mã nguồn từ bootloader, quản lý bộ nhớ đến hệ thống tệp tin. Toàn bộ chi phí API tiêu tốn chưa đầy 1.000 USD.

Hiện tại, nền tảng phát triển Anti-Gravity 2.0 đã được phát hành rộng rãi cho các nhà phát triển trên toàn cầu.

Nền tảng lập trình độc lập Anti-Gravity 2.0 Hình 4. Giao diện ứng dụng lập trình đại lý tự trị Google Anti-Gravity 2.0.

4. Trợ lý cá nhân tự trị Gemini Spark và giao diện ứng dụng mới

Ứng dụng di động Gemini chính thức cán mốc 900 triệu người dùng hoạt động hằng tháng. Trong lần nâng cấp lớn này, ứng dụng được tái thiết kế toàn diện cả về giao diện lẫn tính năng trợ lý.

Ứng dụng sở hữu ngôn ngữ thiết kế mới mang tên Neural Expressive. Giao diện trở nên sống động hơn với các hiệu ứng chuyển động mượt mà và phản hồi xúc giác. Thay vì trả về kết quả dạng văn bản thuần túy, Gemini tự động dàn trang theo mô hình giao diện tự sinh (Generative UI), hiển thị biểu đồ, dòng thời gian và video tương tác theo thời gian thực phù hợp với ngữ cảnh câu hỏi.

Tính năng Docs Live cho phép người dùng ghi âm lại toàn bộ ý tưởng ngẫu hứng của mình (brain dump). Gemini sẽ tự động xử lý, đối chiếu và truy xuất thông tin từ tài khoản Google Drive hoặc Email để tổ chức thành một bản thảo văn bản hoàn chỉnh, định dạng chuẩn mực.

Trọng tâm của đợt cập nhật này là Gemini Spark, trợ lý cá nhân hoạt động liên tục 24/7 trên môi trường máy ảo của Google Cloud. Spark hoạt động độc lập ngay cả khi người dùng gập máy tính hoặc không kết nối mạng. Trợ lý này có khả năng xử lý các chuỗi tác vụ dài ngày như: tự động quét email và tin nhắn chat để tổng hợp danh sách khách mời (RSVP) cho một buổi tiệc, tự tạo slide thuyết trình, đồng bộ lịch làm việc, hoặc tự động lên đơn mua sắm các sản phẩm phù hợp trên Instacart dựa theo lịch thi đấu thể thao của gia đình.

Về chính sách giá, Gemini Spark sẽ bắt đầu thử nghiệm Beta cho nhóm người dùng đăng ký gói Google AI Ultra từ tuần tới. Google cũng công bố điều chỉnh mức phí gói Ultra từ 250 USD mỗi tháng xuống còn 200 USD mỗi tháng, đồng thời bổ sung thêm gói Ultra trung cấp với mức giá 100 USD mỗi tháng để tiếp cận nhiều đối tượng khách hàng hơn.

Trợ lý cá nhân tự trị Gemini Spark Hình 5. Bản thiết kế trải nghiệm giao diện di động của trợ lý ảo Gemini Spark.

5. Cải tiến tìm kiếm với công nghệ Search Agents và Generative UI

Google Tìm kiếm chính thức hợp nhất trải nghiệm giữa AI Overviews và AI Mode thành một hệ thống thống nhất.

Hộp tìm kiếm thông minh mới đại diện cho sự thay đổi lớn nhất trong vòng 25 năm qua của công cụ tìm kiếm mang tính biểu tượng này. Thanh tìm kiếm giờ đây có khả năng gợi ý các sắc thái câu hỏi sâu hơn để kích thích tư duy của người dùng, vượt xa tính năng tự động hoàn thành (autocomplete) trước đây. Hệ thống cũng hỗ trợ nhập liệu đa phương thức bao gồm văn bản, hình ảnh, tệp tin và video.

Đặc biệt, tính năng Search Agents cho phép người dùng thiết lập các đại lý AI chạy ngầm liên tục để theo dõi các thông tin phức tạp như: săn tìm các mã cổ phiếu công nghệ sinh học theo bộ lọc tài chính thời gian thực, quét thị trường căn hộ cho thuê theo các tiêu chí khắtखे, hoặc gửi thông báo ngay khi các thương hiệu mở bán sản phẩm giới hạn.

Nhờ tích hợp nền tảng Anti-Gravity và mô hình Gemini 3.5 Flash, công cụ tìm kiếm có thể tự lập trình và tạo ra các thành phần giao diện động ngay trên trang kết quả. Ví dụ, hệ thống có thể tạo ra một mô hình tương tác chuyển động của hố đen vũ trụ để người dùng tự điều chỉnh thông số và quan sát trực quan. Tính năng Generative UI này sẽ được phát hành miễn phí cho toàn bộ người dùng vào mùa hè này.

Hình 6. Trải nghiệm tìm kiếm thông minh kết hợp Generative UI mới.

6. Giao thức mua sắm và thanh toán tự động trong thương mại điện tử

Để chuẩn bị cho xu hướng mua sắm tự động thông qua các AI Agent, Google công bố ba trụ cột hạ tầng cốt lõi:

Universal Commerce Protocol (UCP): Giao thức thương mại toàn cầu, đóng vai trò như chuẩn mở của kỷ nguyên mua sắm bằng đại lý tự trị. Các doanh nghiệp lớn như Amazon, Meta, Microsoft, Salesforce và Stripe đã ký kết tham gia áp dụng tiêu chuẩn chung này.
Agent Payments Protocol (AP2): Giao thức thanh toán an toàn dành riêng cho đại lý AI. Người dùng có thể thiết lập hạn mức chi tiêu nghiêm ngặt về ngân sách và thương hiệu được phép giao dịch. Đại lý chỉ được tự động thanh toán khi đáp ứng đầy đủ tiêu chí, đồng thời hệ thống sẽ tự động lưu lại chuỗi bằng chứng kỹ thuật số không thể giả mạo để phục vụ việc đối chiếu hoặc đổi trả hàng hóa.

Sơ đồ giao thức mua sắm Universal Commerce Protocol Hình 7. Quy trình xử lý thanh toán tự động giữa các AI Agent thông qua giao thức UCP.

Universal Cart: Giỏ hàng vạn năng đồng bộ xuyên suốt từ Search, Gemini, YouTube cho đến Gmail. Giỏ hàng thông minh này tự động tìm kiếm mã giảm giá, theo dõi lịch sử biến động giá và có khả năng tự phát hiện lỗi tương thích sản phẩm, ví dụ như cảnh báo việc chọn mua bo mạch chủ và bộ xử lý không khớp socket với nhau.

Giao diện giỏ hàng thông minh Universal Cart Hình 8. Trực quan hóa tính năng giỏ hàng vạn năng đồng bộ xuyên suốt hệ sinh thái.

7. Thiết bị thực tế tăng cường chạy nền tảng Android XR

Google cùng các đối tác công nghệ giới thiệu những bước tiến mới cho thiết bị đeo thực tế tăng cường chạy trên hệ điều hành Android XR, tối ưu hóa bởi chip xử lý Qualcomm Snapdragon và phần cứng Samsung.

Chương trình thử nghiệm kính hiển thị (Display Glasses) sẽ được mở rộng vào cuối năm nay. Thiết bị sở hữu thấu kính hiển thị thông tin trực quan nhỏ gọn ngay trước mắt người dùng như thông tin chuyến xe công nghệ hoặc dịch thuật ngôn ngữ trực tiếp.

Đặc biệt, dòng kính âm thanh (Audio Glasses) sẽ được ra mắt vào mùa thu năm nay qua sự hợp tác cùng hai thương hiệu thiết kế kính thời trang Warby Parker và Gentle Monster. Kính hỗ trợ truyền âm thanh riêng tư trực tiếp vào tai, cho phép người dùng ra lệnh cho Gemini gọi xe, xem bản đồ, hoặc tự động đặt và thanh toán ly cà phê quen thuộc kèm tiền tip mà không cần rút điện thoại ra khỏi túi.

Hình 9. Thiết kế kính thông minh Audio Glasses hợp tác cùng Warby Parker và Gentle Monster.

8. Công nghệ minh bạch nội dung và ứng dụng y học của Gemini

Google công bố mở rộng công nghệ SynthID, giải pháp đóng dấu bản quyền vô hình đã bảo vệ hơn 100 tỷ hình ảnh và video trên toàn cầu. Các đối tác tiếp theo tham gia áp dụng tiêu chuẩn này bao gồm OpenAI, TikTok và ElevenLabs. Công cụ xác thực nguồn gốc nội dung cũng sẽ được tích hợp trực tiếp vào Google Search và trình duyệt Chrome nhằm tăng cường tính minh bạch.

Trong lĩnh vực khoa học và y tế, Google giới thiệu các mô hình chuyên dụng bao gồm Alpha Earth Foundations (bản sao kỹ thuật số của Trái Đất hỗ trợ giám sát chống phá rừng) và Weather Next (mô hình dự báo thời tiết thiên tai).

Thông qua Isomorphic Labs, Google ứng dụng trí tuệ nhân tạo để mô phỏng tương tác phân tử ở tốc độ kỹ thuật số. Phương pháp này giúp đưa các dự án nghiên cứu điều trị ung thư và rối loạn miễn dịch vào giai đoạn tiền lâm sàng nhanh chóng, hướng đến mục tiêu giải mã và chữa lành các bệnh lý phức tạp.

Sự kiện Google I/O 2026 khép lại với thông điệp: Sự đột phá thực sự không nằm ở bản thân công nghệ, mà nằm ở những gì con người kiến tạo từ công nghệ đó. Chúng ta đang đứng trước những công cụ mạnh mẽ nhất để chủ động định hình tương lai.