•
구글리서치
•
구글딥마인드
구글 리서치
•
딥마인드: 알파고 개발. 구글이 RND 회사를 인수. 구글 브레인(research AI) + deep mind
◦
AI 알고리즘, 범용 AI, LLM 개발에 집중하는 조직 → 알고리즘에 집중하는 조직
◦
gemini 개발: gemini(쌍둥이 별자리. 브레인 + deep mind가 만나서 쌍둥이라는 뜻)
•
구글 리서치: 컴퓨터 기초과학이론(양자컴퓨터, 최적화)
◦
응용과학 및 사회문제 해결에 초점
1.
구글 리서치가 관심있어 하는 사회문제
•
기후예측, 의료분야, 교육학, 책임감 있는 AI
2.
오늘 살펴볼 논문들 기준 소개
•
2025년 구글 리서치가 출판한 논문들: 기후예측의 네이쳐로 출판되는 경우가 많아 2024년으로 확대
•
사회적 임팩트, 제품에 반영된 것들 위주
•
실증 + 방법론적 논문
google이 AI와 도메인을 통합하려는 노력들(기상 예측)
•
neural general circulation models for weather for climate
•
기존 기후예측 솔루션
◦
대기순환 모델
▪
전지구적 기후를 3차원 시뮬레이션을 통해 구현하는 시스템
▪
물리학 기반 엔진
▪
고해상도 시뮬레이션을 위해서는 막대한 계산자원 필요
▪
구름 형성과 같은 작은 규모의 프로세스를 파라미터화하기 어려움
◦
순수 머신러닝 모델
▪
ERA5라는 재분석 데이터가 있는데, 과거 데이터를 학습함
▪
시뮬레이션이 아니라 추론 속도가 빠름
▪
장기 시뮬레이션 진행 시 예측이 점점 틀리거나 물리적으로 불가능한 형태로 결과값이 나오면서 데이터 드리프트 이슈 생김
4.
구글리서치의 해결책
•
GCM + 머신러닝 ⇒ neural GCM
◦
대규모 유체 운동과 열역학 → 물리학 기반 솔버가 담당
•
실험 결과
◦
뉴럴 gcm → RMSE(오차)가 ML과 비슷하게 낮음
5.
probabilistic weather forecasting with neural gcm
•
gencast
•
ERA5 재분석 데이터 활요한 ML기반 모델
•
단일 예측이 아닌 앙상블 예측을 생성해 정확성을 높임
•
고해상도로 출력하되 속도 추론 또한 빠르게 생성가능
6.
gencast 동작원리
•
stocastic diffusion model
•
기존 ML모델은 회귀모델에 집중 → gencast는 디퓨전 모델 사용
•
무작위 노이즈에서 시작해 이전 기상상태를 조건으로 반복적으로 노이즈를 제거하는 방식으로 진행
•
선명하고 현실적이고 물리적으로 일관성을 담보하는 모델
7.
성능
•
유럽 중기 모델(ENS)과 비교해봤을 때 gencast가 ens보다 97.4% 타겟을 더 잘 예측했음
•
특히 극심한 날씨(태풍, 폭설)에서는 압도적인 성능을 보임
•
태풍은 예측하기 힘듦
◦
ens는 한가지 경로만 예측
◦
gencast는 태풍 경로에 따라 경로 재예측
8.
google deepmind의 weather next2(2025. 11.)
•
앞의 2가지 논문을 기반으로 작성된 논문
•
weather next2(실험 모델)
•
gencast 기반의 상용화된 서비스
•
gencast에 비배 8배 빠름
•
vertext AI, earth engine에서 API 형태로 사용 가능
•
◦
ens등 다른 모델과의 비교 가능
•
이런 시도를 하게 된 이유: 기후 변화로 인한 재난 예방 및 대응
구글이 AI와 도메인을 통합하려는 노력들 (의학)
•
triaging mammography with artificial
◦
진단의학
◦
mammography(유방 사진)
1.
현재 유방 검진의 문제점
•
당일 결과를 제공하지 못함
•
환자 귀가 후 영상 판독 방식은 추가 검사가 필요한 소수 환자에게는 재방문을 시켜야 함
•
소수 인종 및 취약 계층에게 더 빈번하게 발생함 (인종 차별 문제), 유방암 사망률 증가와 연관됨
2.
연구 설계(워크플로우)
•
무작위 대조군 연구로 진행(RCT) → 어떤 쪽은 무상 지원, 어떤 쪽은 페이백. 무작위로 대조군을 만들어 A, B 실험군을 만들어 실험한다.
•
유방촬영술 여성 1000명
•
비교 지표
◦
T_a: 추가 촬영까지 걸린 시간
◦
T_b: 생검(조직검사)진단까지 걸린 시간
•
AI 기반 워크플로우
◦
실험군: AI가 영상을 분석해서 암 위험도 높은 환자를 우선순위로 지정
◦
AI 우선순위 환자: 영상의학과 교수가 30분 이내 즉시 판독 (필요시 당일 추가검진 진행)
◦
비 우선순위 환자: 기존 방식 대로 추후 판독
◦
대조군: 기존 방식대로 추후 판독
•
실험 결과
◦
T_a 대조군: 25.6일
◦
T_a AI 실험군: 19.1일
◦
T_b 대조군: 55.9일
◦
T_b 실험군: 39.2일
•
진단된 모든 암 환자를 AI가 우선순위로 분류함.(100%) 0~3일 이내 추가 검진 완료함.
3.
Towards conversational AI
•
구글은 단순 진단에서 관리시스템으로 넘어가는 것을 원하고 있었다.
•
진단 추론
◦
LLM이 환자 병력을 듣고 감별 진단 내리는데 있어서 높은 성능을 입증
•
관리 추론
◦
질병의 진행, 환자의 선호도, 시스템 제약을 고려한 장기적 관리 계획 수립은 훨씬 복잡하고 LLM 연구가 부족한 부분.
◦
ex) 약을 2달 정도 꾸준히 드세요. 요새 증상이 어떻게 되나요? 등등
•
AMIE
◦
다중 에이전트
◦
long context
4.
시스템 아키텍쳐(이중 프로세스)
•
대화형 에이전트(system1)
•
Mx agent(system2): 복잡한 관리 추론 담당. 임상 지침 검색, 환자의 방문 기록 분석하여 관리 계획 수립
•
clinical guidelines: gemini의 long context를 활용하여 임상지침 내림
5.
평가방법: 가상 시나리오
•
100개의 다중 방문 시나리오를 블라인드 테스트로 진행
•
전문의보다 비열등하거나 우수한 성능
6.
실험 결과: 임상지침 준수 및 약물처방 추론
•
외부자료를 참고하는 경우(웹서치), 진료의와 AMIE 모두 성능이 향상
•
고난이도 문제의 경우 AMIE가 의사를 능가
교육학
•
AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms(2025)
•
AI 컨닝: 사이버 강의를 진행하는 고려대, 연세대에서 일어난 사건…
1.
연구배경: 영국에서 교육적 딜레마
•
1:1튜터링이 제일 교육 효과가 좋음
•
하지만 공교육에서는 불가능: 높은 비용 + 교사 부족 문제
2.
실험 설계: 무작위대조실험
•
대조군, 인간튜터, AI튜터
•
대조군: 학생이 문제를 틀리면 힌트를 주는 방식
•
인간 튜터: 학생이 문제를 틀리면 전문 튜터와 채팅
•
AI 튜터: 인간 튜터의 감독 하에 AI가 작성한 메시지로 튜터링
◦
겉으로는 인간 튜터와 같은 방식으로 진행 (AI가 답을 내놓고 인간 튜터가 검수)
3.
실험 특징
•
AI는 직접 대화하지 않고 전문 튜터의 검수를 거침
•
learnLM: 소크라테스식 발문 초안 작성
4.
실험 결과
•
무수정 승인 비율: 76.4%
•
유해콘텐츠 발생: 0%
•
사실적 오류 비율: 0.1%
5.
즉각적인 학습 효과
•
AI 튜터, 인간 튜터: 거의 비등하게 효과적
◦
인간 튜터는 비싸지만 AI 튜터를 싸기 때문에 비용적인 효과가 큼
6.
AI의 지원을 받은 학생들이 인간 튜터 학생들보다 더 높은 성취도를 보임
•
선생님은 더 많이 알려주려고 함. 바로 정답을 알려주는 구조
•
AI는 소크라테스식으로 발문하게 됨. 학생들이 생각을 할 수 있는 기회를 줌
•
선생님이 느낀 좋은점.
◦
초안을 건드린 이유는 페이스 조절과 정서적 교감때문.
◦
선생님이 생각하지 못했던 좋은 질문을 던져주었음
7.
evaluating gemini in learn …
•
연구배경: 학습을 위한 벤치마크의 부재
◦
기존 평가의 한계
◦
교육적인 역량
8.
평가방법: arena for learning
•
189명의 교육자들이 학생 역할을 맡아 모델과 2666회의 학습 대화 진행
•
206명의 전문가가 대화 로그를 검토해 교육 효과 판정
•
ELO rating 및 25개의 교육학 원칙 기반 평가
9.
실험 결과: gemini가 elo rating 평가 1위
10.
5대 교육학 원칙 준수
•
호기심을 자극했는가
•
실제 학습을 촉발했는가
•
등등
11.
추가적인 발견
•
학생역할: 게으른 학생이라면 바로 답을 주는 챗지피티를 선호했을 것이다.
◦
선생님이 학생역할을 맡았을 때 AI들이 계속 질문을 주니 피곤했다고 함…
•
전문가적 시각: 단계별로 하나씩 제공하고 스스로 생각하게 만드는 것은 제미나이 2.5 프로였다.
12.
실험결과: 특화과제
•
특정 학년과의 오차: gemini가 제일 낮았음. 맞춤형 교육이 가능하다는 뜻.
13.
서술형 채점 정확도, 오류 식별 정확도 → 80%에 육박
14.
데모
•
firebase를 guided learning으로 배울 수 있음 (우측 하단의 guided learning)
•
gemini 채팅에서 ‘가이드 학습’이 가능
•
질문을 반복하여 학생이 학습에 참여 가능하게 해줌
•
챗지피티: 명령 내리기, gemini: 배우기
결론
•
구글은 왜 이런 연구를 계속하고 있을까?
◦
openAI는 갖고 놀기 좋은 걸 만들고 구글은 생산성에 초점을 맞춰서 일하는 사람을 위한 제품을 만드는 느낌 - 백재연, cloud GDE
◦
구글은 사회문제를 연구하고 그걸 기반으로 프로덕트를 만든다.
•
AX를 진행할 때 가장 중요한 것은 단순히 좋은 성능이 아니라 유저가 어떻게 받아들이고 사용할지에 대한 여부. → 그래서 구글이 연구하는 이유.