보는 것을 넘어 조사하는 AI: Gemini 3 Flash의 'Agentic Vision'
인공지능의 시각 이해 능력이 새로운 국면을 맞이했습니다. 기존 AI가 이미지를 한 장의 사진으로만 보았다면, 이제는 돋보기를 들고 구석구석 살피며 분석하는 '요원(Agent)'과 같은 능력을 갖추게 되었습니다. Google DeepMind의 Gemini 3 Flash에 도입된 Agentic Vision 기술을 소개합니다.
1. 기존 시각 AI의 한계: "한 번 봐서는 모른다"
기존 대형 모델들은 이미지를 하나의 정적인 입력값으로 처리했습니다. 이로 인해 마이크로칩의 일련번호나 멀리 있는 표지판처럼 아주 미세한 디테일을 놓치는 경우가 많았습니다. 한 번의 분석으로 정보를 찾지 못하면 AI는 추측에 의존하게 되고, 이는 전문적인 업무에서 치명적인 오류로 이어지곤 했습니다.
2. Agentic Vision이란 무엇인가?
Agentic Vision은 이미지를 '보는 것'이 아니라 '조사하는 과정'으로 정의합니다.
- 시각적 추론 + 코드 실행: 모델이 스스로 Python 코드를 작성해 이미지를 자르거나(Crop), 확대(Zoom)하고, 주석을 달며 분석합니다.
- 근거 기반 답변: 추측이 아닌, 실제 조작을 통해 확보한 시각적 근거를 바탕으로 답을 내놓습니다.
3. 핵심 동작 원리: Think-Act-Observe 루프
이 기술은 다음의 세 단계 과정을 반복하며 정밀도를 높입니다.
- Think (계획 수립): 질문을 분석하고 정보를 얻기 위한 다단계 계획을 세웁니다.
- Act (행동 수행): Python 코드를 실행해 이미지를 변형(확대, 회전, 객체 카운팅 등)합니다.
- Observe (관찰 및 반영): 변형된 이미지를 다시 분석하여 최종 결론에 도달합니다.
4. 실제 활용 사례
- 건축 도면 검증: 고해상도 도면의 특정 영역을 반복적으로 확대 분석하여 정확도를 약 5% 개선했습니다.
- 시각적 스크래치패드: 손가락 개수를 셀 때 각 손가락에 번호를 매기는 주석을 직접 달아 오류를 방지합니다.
- 데이터 연산: 그래프나 표에서 데이터를 추출해 Python(Matplotlib 등)으로 계산하고 다시 시각화하여 정확한 수치를 도출합니다.
5. 개발자를 위한 사용 방법
Gemini API에서
code_executionpython
Agentic Vision 활성화 예시
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image, "페달 부분을 확대해서 몇 개인지 알려줘"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)
결론: AI 시각 이해의 새로운 표준
Agentic Vision은 AI가 수동적인 관찰자에서 능동적인 분석가로 진화했음을 보여줍니다. 건축, 제조, 의료, 데이터 분석 등 정확성이 생명인 산업 분야에서 Gemini 3 Flash의 이 기능은 혁신적인 도구가 될 것입니다. 앞으로 웹 검색이나 역이미지 검색 등 더 많은 도구와 결합될 AI의 미래가 기대됩니다.
