Search

세션6 - 구글이 AI 개발만 할까?

구글리서치
구글딥마인드

구글 리서치

딥마인드: 알파고 개발. 구글이 RND 회사를 인수. 구글 브레인(research AI) + deep mind
AI 알고리즘, 범용 AI, LLM 개발에 집중하는 조직 → 알고리즘에 집중하는 조직
gemini 개발: gemini(쌍둥이 별자리. 브레인 + deep mind가 만나서 쌍둥이라는 뜻)
구글 리서치: 컴퓨터 기초과학이론(양자컴퓨터, 최적화)
응용과학 및 사회문제 해결에 초점
1.
구글 리서치가 관심있어 하는 사회문제
기후예측, 의료분야, 교육학, 책임감 있는 AI
2.
오늘 살펴볼 논문들 기준 소개
2025년 구글 리서치가 출판한 논문들: 기후예측의 네이쳐로 출판되는 경우가 많아 2024년으로 확대
사회적 임팩트, 제품에 반영된 것들 위주
실증 + 방법론적 논문

google이 AI와 도메인을 통합하려는 노력들(기상 예측)

neural general circulation models for weather for climate
기존 기후예측 솔루션
대기순환 모델
전지구적 기후를 3차원 시뮬레이션을 통해 구현하는 시스템
물리학 기반 엔진
고해상도 시뮬레이션을 위해서는 막대한 계산자원 필요
구름 형성과 같은 작은 규모의 프로세스를 파라미터화하기 어려움
순수 머신러닝 모델
ERA5라는 재분석 데이터가 있는데, 과거 데이터를 학습함
시뮬레이션이 아니라 추론 속도가 빠름
장기 시뮬레이션 진행 시 예측이 점점 틀리거나 물리적으로 불가능한 형태로 결과값이 나오면서 데이터 드리프트 이슈 생김
4.
구글리서치의 해결책
GCM + 머신러닝 ⇒ neural GCM
대규모 유체 운동과 열역학 → 물리학 기반 솔버가 담당
실험 결과
뉴럴 gcm → RMSE(오차)가 ML과 비슷하게 낮음
5.
probabilistic weather forecasting with neural gcm
gencast
ERA5 재분석 데이터 활요한 ML기반 모델
단일 예측이 아닌 앙상블 예측을 생성해 정확성을 높임
고해상도로 출력하되 속도 추론 또한 빠르게 생성가능
6.
gencast 동작원리
stocastic diffusion model
기존 ML모델은 회귀모델에 집중 → gencast는 디퓨전 모델 사용
무작위 노이즈에서 시작해 이전 기상상태를 조건으로 반복적으로 노이즈를 제거하는 방식으로 진행
선명하고 현실적이고 물리적으로 일관성을 담보하는 모델
7.
성능
유럽 중기 모델(ENS)과 비교해봤을 때 gencast가 ens보다 97.4% 타겟을 더 잘 예측했음
특히 극심한 날씨(태풍, 폭설)에서는 압도적인 성능을 보임
태풍은 예측하기 힘듦
ens는 한가지 경로만 예측
gencast는 태풍 경로에 따라 경로 재예측
8.
google deepmind의 weather next2(2025. 11.)
앞의 2가지 논문을 기반으로 작성된 논문
weather next2(실험 모델)
gencast 기반의 상용화된 서비스
gencast에 비배 8배 빠름
vertext AI, earth engine에서 API 형태로 사용 가능
ens등 다른 모델과의 비교 가능
이런 시도를 하게 된 이유: 기후 변화로 인한 재난 예방 및 대응

구글이 AI와 도메인을 통합하려는 노력들 (의학)

triaging mammography with artificial
진단의학
mammography(유방 사진)
1.
현재 유방 검진의 문제점
당일 결과를 제공하지 못함
환자 귀가 후 영상 판독 방식은 추가 검사가 필요한 소수 환자에게는 재방문을 시켜야 함
소수 인종 및 취약 계층에게 더 빈번하게 발생함 (인종 차별 문제), 유방암 사망률 증가와 연관됨
2.
연구 설계(워크플로우)
무작위 대조군 연구로 진행(RCT) → 어떤 쪽은 무상 지원, 어떤 쪽은 페이백. 무작위로 대조군을 만들어 A, B 실험군을 만들어 실험한다.
유방촬영술 여성 1000명
비교 지표
T_a: 추가 촬영까지 걸린 시간
T_b: 생검(조직검사)진단까지 걸린 시간
AI 기반 워크플로우
실험군: AI가 영상을 분석해서 암 위험도 높은 환자를 우선순위로 지정
AI 우선순위 환자: 영상의학과 교수가 30분 이내 즉시 판독 (필요시 당일 추가검진 진행)
비 우선순위 환자: 기존 방식 대로 추후 판독
대조군: 기존 방식대로 추후 판독
실험 결과
T_a 대조군: 25.6일
T_a AI 실험군: 19.1일
T_b 대조군: 55.9일
T_b 실험군: 39.2일
진단된 모든 암 환자를 AI가 우선순위로 분류함.(100%) 0~3일 이내 추가 검진 완료함.
3.
Towards conversational AI
구글은 단순 진단에서 관리시스템으로 넘어가는 것을 원하고 있었다.
진단 추론
LLM이 환자 병력을 듣고 감별 진단 내리는데 있어서 높은 성능을 입증
관리 추론
질병의 진행, 환자의 선호도, 시스템 제약을 고려한 장기적 관리 계획 수립은 훨씬 복잡하고 LLM 연구가 부족한 부분.
ex) 약을 2달 정도 꾸준히 드세요. 요새 증상이 어떻게 되나요? 등등
AMIE
다중 에이전트
long context
4.
시스템 아키텍쳐(이중 프로세스)
대화형 에이전트(system1)
Mx agent(system2): 복잡한 관리 추론 담당. 임상 지침 검색, 환자의 방문 기록 분석하여 관리 계획 수립
clinical guidelines: gemini의 long context를 활용하여 임상지침 내림
5.
평가방법: 가상 시나리오
100개의 다중 방문 시나리오를 블라인드 테스트로 진행
전문의보다 비열등하거나 우수한 성능
6.
실험 결과: 임상지침 준수 및 약물처방 추론
외부자료를 참고하는 경우(웹서치), 진료의와 AMIE 모두 성능이 향상
고난이도 문제의 경우 AMIE가 의사를 능가

교육학

AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms(2025)
AI 컨닝: 사이버 강의를 진행하는 고려대, 연세대에서 일어난 사건…
1.
연구배경: 영국에서 교육적 딜레마
1:1튜터링이 제일 교육 효과가 좋음
하지만 공교육에서는 불가능: 높은 비용 + 교사 부족 문제
2.
실험 설계: 무작위대조실험
대조군, 인간튜터, AI튜터
대조군: 학생이 문제를 틀리면 힌트를 주는 방식
인간 튜터: 학생이 문제를 틀리면 전문 튜터와 채팅
AI 튜터: 인간 튜터의 감독 하에 AI가 작성한 메시지로 튜터링
겉으로는 인간 튜터와 같은 방식으로 진행 (AI가 답을 내놓고 인간 튜터가 검수)
3.
실험 특징
AI는 직접 대화하지 않고 전문 튜터의 검수를 거침
learnLM: 소크라테스식 발문 초안 작성
4.
실험 결과
무수정 승인 비율: 76.4%
유해콘텐츠 발생: 0%
사실적 오류 비율: 0.1%
5.
즉각적인 학습 효과
AI 튜터, 인간 튜터: 거의 비등하게 효과적
인간 튜터는 비싸지만 AI 튜터를 싸기 때문에 비용적인 효과가 큼
6.
AI의 지원을 받은 학생들이 인간 튜터 학생들보다 더 높은 성취도를 보임
선생님은 더 많이 알려주려고 함. 바로 정답을 알려주는 구조
AI는 소크라테스식으로 발문하게 됨. 학생들이 생각을 할 수 있는 기회를 줌
선생님이 느낀 좋은점.
초안을 건드린 이유는 페이스 조절과 정서적 교감때문.
선생님이 생각하지 못했던 좋은 질문을 던져주었음
7.
evaluating gemini in learn …
연구배경: 학습을 위한 벤치마크의 부재
기존 평가의 한계
교육적인 역량
8.
평가방법: arena for learning
189명의 교육자들이 학생 역할을 맡아 모델과 2666회의 학습 대화 진행
206명의 전문가가 대화 로그를 검토해 교육 효과 판정
ELO rating 및 25개의 교육학 원칙 기반 평가
9.
실험 결과: gemini가 elo rating 평가 1위
10.
5대 교육학 원칙 준수
호기심을 자극했는가
실제 학습을 촉발했는가
등등
11.
추가적인 발견
학생역할: 게으른 학생이라면 바로 답을 주는 챗지피티를 선호했을 것이다.
선생님이 학생역할을 맡았을 때 AI들이 계속 질문을 주니 피곤했다고 함…
전문가적 시각: 단계별로 하나씩 제공하고 스스로 생각하게 만드는 것은 제미나이 2.5 프로였다.
12.
실험결과: 특화과제
특정 학년과의 오차: gemini가 제일 낮았음. 맞춤형 교육이 가능하다는 뜻.
13.
서술형 채점 정확도, 오류 식별 정확도 → 80%에 육박
14.
데모
firebase를 guided learning으로 배울 수 있음 (우측 하단의 guided learning)
gemini 채팅에서 ‘가이드 학습’이 가능
질문을 반복하여 학생이 학습에 참여 가능하게 해줌
챗지피티: 명령 내리기, gemini: 배우기

결론

구글은 왜 이런 연구를 계속하고 있을까?
openAI는 갖고 놀기 좋은 걸 만들고 구글은 생산성에 초점을 맞춰서 일하는 사람을 위한 제품을 만드는 느낌 - 백재연, cloud GDE
구글은 사회문제를 연구하고 그걸 기반으로 프로덕트를 만든다.
AX를 진행할 때 가장 중요한 것은 단순히 좋은 성능이 아니라 유저가 어떻게 받아들이고 사용할지에 대한 여부. → 그래서 구글이 연구하는 이유.