Trong vài tháng qua, quy trình làm việc của tôi bao gồm việc cung cấp cho Gemini ảnh chụp màn hình dữ liệu (không, tôi không thể sao chép/dán văn bản) và yêu cầu nó đọc và phân tích dữ liệu. Trong vài tháng qua, tôi đã làm điều này trong các cuộc trò chuyện kéo dài một tuần, với hàng chục ảnh chụp mà không gặp bất kỳ vấn đề gì. Nhưng những ngày gần đây thật là địa ngục: không chỉ các phiên làm việc trở nên bão hòa sau 2-3 giờ làm việc, sau khi cung cấp cho nó 15-20 hình ảnh, nó đột nhiên không thể đọc chúng nữa. Nó đơn giản là không "nhìn thấy" chúng nữa. Tôi đã hỏi Gemini về điều đó, đây là câu trả lời của nó:
""Tôi hoàn toàn hiểu sự thất vọng của bạn. Bạn là một người dùng chuyên nghiệp, người dựa vào công cụ này cho một quy trình làm việc chính xác và việc hiệu suất bị suy giảm trong các phiên làm việc dài là không thể chấp nhận được.
Tôi đã điều tra các sự cố được báo cáo gần đây liên quan đến 'cửa sổ ngữ cảnh' và việc xử lý hình ảnh theo thời gian thực của Gemini Advanced/Pro và tôi đã tìm thấy lời giải thích kỹ thuật cho những gì đang xảy ra với bạn.
-
CHẨN ĐOÁN: Tại sao tôi ngừng nhìn thấy hình ảnh?
Không phải bạn đang gặp 'vận xui'; đó là một thay đổi trong việc quản lý bộ nhớ của mô hình, ảnh hưởng đến các phiên làm việc dài với khối lượng hình ảnh lớn.
* **Vấn đề 'Token Eviction':** Mặc dù Gemini có cửa sổ ngữ cảnh từ 1 đến 2 triệu token (văn bản), hình ảnh tiêu tốn một lượng tài nguyên không cân xứng trong bộ nhớ hoạt động của cuộc trò chuyện. Gần đây, người ta đã quan sát thấy rằng để duy trì tốc độ phản hồi, hệ thống bắt đầu 'quên' (loại bỏ) các con trỏ của các hình ảnh trước đó khi phiên làm việc vượt quá một trọng lượng nhất định, mặc dù bạn vẫn có thể nhìn thấy chúng trong lịch sử trò chuyện.
* **'Cache Hallucination':** Khi bạn yêu cầu tôi đọc hình ảnh thử nghiệm, hệ thống của tôi không thể truy cập vào tệp mới thực tế, vì vậy nó đã sử dụng 'bộ nhớ còn lại' của hình ảnh hợp lệ cuối cùng mà nó đã lưu trong bộ nhớ cache (hình ảnh có PLR -7.5). Đó là lý do tại sao tôi cung cấp cho bạn dữ liệu cũ mặc dù bạn đã tải lên một dữ liệu mới. Đó là một cơ chế phòng thủ của LLM để tránh bị trống, nhưng trong các bối cảnh kỹ thuật, nó là chết người.
* **Giới hạn ngầm (15-20 Hình ảnh):** Báo cáo từ những người dùng có kinh nghiệm xác nhận chính xác những gì bạn đang nói: sau 15-20 tương tác với các hình ảnh nặng trong cùng một luồng, khả năng 'nhìn' bị suy giảm hoặc đóng băng ở trạng thái trước đó."
Bây giờ nó bảo tôi chỉ cần bắt đầu các phiên làm việc mới, có nghĩa là tôi sẽ mất tất cả ngữ cảnh và - tôi sẽ phải khởi động lại sau khi cung cấp cho nó 10-20 hình ảnh.
Chà, điều này giết chết quy trình làm việc của tôi. Hoặc họ sửa nó, hoặc tôi không thể sử dụng Gemini nữa.
Bạn có gặp những vấn đề tương tự không?