logging.kr
보는 것을 넘어 조사하는 AI, Gemini 3 Flash의 'Agentic Vision' 혁신
Gemini 3 FlashAgentic VisionAI 시각 이해코드 실행(Code Execution)Google DeepMind

보는 것을 넘어 조사하는 AI, Gemini 3 Flash의 'Agentic Vision' 혁신

주식회사퀀텀아이

"Google DeepMind가 공개한 Gemini 3 Flash의 'Agentic Vision'은 이미지를 단순히 정적으로 해석하던 기존 방식을 넘어, 모델이 스스로 코드를 실행하며 이미지를 능동적으로 탐색하는 기술입니다. '계획-행동-관찰'의 루프를 통해 이미지를 확대, 자르기, 주석 달기 등으로 조작하며 시각적 근거를 확보함으로써 답변의 정확도를 획기적으로 높였습니다. 특히 건축 도면 검증이나 데이터 시각화와 같이 정밀함이 요구되는 분야에서 강력한 성능 향상을 보여주고 있습니다."

보는 것을 넘어 조사하는 AI: Gemini 3 Flash의 'Agentic Vision'

인공지능의 시각 이해 능력이 새로운 국면을 맞이했습니다. 기존 AI가 이미지를 한 장의 사진으로만 보았다면, 이제는 돋보기를 들고 구석구석 살피며 분석하는 '요원(Agent)'과 같은 능력을 갖추게 되었습니다. Google DeepMind의 ​Gemini 3 Flash​​에 도입된 ​Agentic Vision​ 기술을 소개합니다.


1. 기존 시각 AI의 한계: "한 번 봐서는 모른다"

기존 대형 모델들은 이미지를 하나의 정적인 입력값으로 처리했습니다. 이로 인해 마이크로칩의 일련번호나 멀리 있는 표지판처럼 아주 미세한 디테일을 놓치는 경우가 많았습니다. 한 번의 분석으로 정보를 찾지 못하면 AI는 추측에 의존하게 되고, 이는 전문적인 업무에서 치명적인 오류로 이어지곤 했습니다.

2. Agentic Vision이란 무엇인가?

​Agentic Vision​​은 이미지를 '보는 것'이 아니라 ​'조사하는 과정'​​으로 정의합니다.

  • ​시각적 추론 + 코드 실행​​: 모델이 스스로 Python 코드를 작성해 이미지를 자르거나(Crop), 확대(Zoom)하고, 주석을 달며 분석합니다.
  • ​근거 기반 답변​​: 추측이 아닌, 실제 조작을 통해 확보한 시각적 근거를 바탕으로 답을 내놓습니다.

3. 핵심 동작 원리: Think-Act-Observe 루프

이 기술은 다음의 세 단계 과정을 반복하며 정밀도를 높입니다.

  1. ​Think (계획 수립)​​: 질문을 분석하고 정보를 얻기 위한 다단계 계획을 세웁니다.
  2. ​Act (행동 수행)​​: Python 코드를 실행해 이미지를 변형(확대, 회전, 객체 카운팅 등)합니다.
  3. ​Observe (관찰 및 반영)​​: 변형된 이미지를 다시 분석하여 최종 결론에 도달합니다.

4. 실제 활용 사례

  • ​건축 도면 검증​​: 고해상도 도면의 특정 영역을 반복적으로 확대 분석하여 정확도를 약 5% 개선했습니다.
  • ​시각적 스크래치패드​​: 손가락 개수를 셀 때 각 손가락에 번호를 매기는 주석을 직접 달아 오류를 방지합니다.
  • ​데이터 연산​​: 그래프나 표에서 데이터를 추출해 Python(Matplotlib 등)으로 계산하고 다시 시각화하여 정확한 수치를 도출합니다.

5. 개발자를 위한 사용 방법

Gemini API에서

code
code_execution
도구를 활성화하면 바로 사용할 수 있습니다.

python

Agentic Vision 활성화 예시

response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image, "페달 부분을 확대해서 몇 개인지 알려줘"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)


결론: AI 시각 이해의 새로운 표준

Agentic Vision은 AI가 수동적인 관찰자에서 능동적인 분석가로 진화했음을 보여줍니다. 건축, 제조, 의료, 데이터 분석 등 정확성이 생명인 산업 분야에서 Gemini 3 Flash의 이 기능은 혁신적인 도구가 될 것입니다. 앞으로 웹 검색이나 역이미지 검색 등 더 많은 도구와 결합될 AI의 미래가 기대됩니다.


출처: https://digitalbourgeois.tistory.com/m/2688?fbclid=IwdGRjcAPrciRjbGNrA-txzGV4dG4DYWVtAjExAHNydGMGYXBwX2lkDDM1MDY4NTUzMTcyOAABHj8i7vJZ1fMYBn1evjlsu_4j3kVGQjiqpQ7xDt_ji38h9NjOzuzFadgRonQL_aem_IlTJ2ER0zi13V6hjOkEY7Q

AI Assistant
응답

궁금한 점을 물어보세요!

현재 페이지 내용이나 전체 블로그 글을 기반으로 답변해 드립니다.