•
모델: gemma, phi-3
•
빌드: Mediapipe, gradle
1.
ondevice AI
•
핸드폰에서 모델을 돌리기 때문에 네트워크가 필요없음
•
gemini pro API: 7원/회
◦
1만명*3회/일 = 월 600만원+ → Ondevice AI 활용 시 0원
•
privacy: 서버 로그에 남지 않음
2.
구현에 필요한 것들, mediapipe
•
mediapipe란? 구글에서 제공
◦
안드로이드 친화적
◦
c++ coding x
3.
mediapipe studio: vision, text, audio
4.
mediapipe에서 LLM inference 모델 사용
•
경량 모델을 선택해서 모델과 대화를 나눌 수 있음
•
다운로드를 직접해야 함
모델 테스트
phi-4 mini (microsoft)
•
3.6GB
standart
•
gemma 2b, llama 3.2(meta)
lightweight
•
gemma 3
1.
gemma 2 2B int4모델
•
normal하게 쓸 수 있음. 1.2GB
•
호환성 좋음
•
보급형 기기 구동 가능
2.
gemma 2 2b int8
•
2.4GB
•
v2 개선 모델, int8로 똑똑함. 양자화가 더 되어서
•
용량 부담
3.
phi-4 mini
•
3.6GB
•
강력한 지능, 한국어 지원
4.
llama 3.2 1B
•
1GB
•
변환(conversion) 필요: mediapipe를 사용해서 모바일에 돌리려면 변환 해야함
•
.bin 파일 미제공, 번들링 수고 필요
5.
gemma3
•
1B int4: 529MB
•
270M int8: 290MB
6.
gemini nano
•
모델은 아님
•
용량 0MB, AICore 시스템 서비스
•
최신 플래그십 pixel9, s24만 지원
7.
테스트 환경을 구축해서 돌려봄
•
device: pixel9
•
spec: tensorflow g4, 16gb ram
•
gemma2b int4
◦
모델 초기화 시간 4077ms
◦
소요시간 15초
◦
한글 적용 잘 안됨
•
gemma 2b int8
◦
모델 초기화 시간 6806ms
◦
소요시간 33초
◦
할루시네이션
◦
int4보다는 좀 나아짐
•
gemini nano
◦
소요시간: 20초
◦
최적화가 잘 되어있는 답변
◦
한글 잘 적용 됨. 답변 good
•
phi-4 mini
◦
모바일에 이식은 되지만 프롬프트에 대한 답변은 오지 않는다…
◦
모델 초기화가 되지 않고 계속 로딩하는 중..
◦
모바일에서 돌아가기에는 오래 걸림. (데스크탑에서도 buffer error 발생)
•
gemma3 270mb
◦
소요시간 6초
◦
설명이 이상함… 할루시네이션
•
gemma3 1B int4 (529MB) 
◦
소요시간 16초
◦
답변 괜찮음
구현 아키텍처 및 파일 포맷
•
코틀린 앱 → 미디어파이프 task → gpu delegate → .bin(llm, 가중치), .task(bundle), .tflite(raw, 텐서플로우 전용 확장자)
•
gemini nano: lm kit genAI → android system(AI core) → gemini nano
1.
디바이스 테스트를 위한 모델 로딩
•
파일 넣기: adb push gemma3.task …
•
권한 설정: adb shell chmod 644 ***.task
•
확인: adb shell ls -lh …
실무 팁
1.
경량 모델일 수록 chat template: 문법 준수 필수
•
모델 맞춤형 대화 포맷: gemma는 <start_of_turn> 같은 태그를 붙여줘야 누가 말하는지 알아듣습니다.
•
markdown을 제일 잘 알아듣는다?!
2.
threading: ui 블록 방지
•
비동기 처리. AI 연산은 무조건 백그라운드(dispatchers.IO)
3.
fallback
•
AI가 묵묵부답일 때를 대비한 fallback ui
4.
경량 모델일 수록 페르소나가 중요함
•
system prompt: 너는 한국어 타로 마스터다. 영어로 생각하고 한국어로 번역해서 말해.
한글의 무게(tokenizer)
•
english: 1배속
•
한글: 0.7배속. 더 느림
•
hello world → 2token 으로 압축된다.
•
안녕하세요 → 5token
확장 가능성
•
일기장 AI: 내 일기장을 분석해주는 AI
•
번역기 AI
•
게임 NPC AI
슬라이드 30장이면 발표시간 40분 정도.