source: yes24
수학의 쓸모
우리에겐 왜 여전히 수학이 필요한가
'쓸모'를 풀어 말하면 '쓸만한 가치'를 의미한다. 수학의 쓸만한 가치가 무엇일까? AI가 좋아하는 영화를 추천해주고 인간에게 바둑까지 가르치는 시대에 수학이 우리에게 과연 의미가 있는지 의문이 든다. 그럼에도 불구하고 이 책에서는 여전히 그리고 앞으로도 수학이 필요하다고 말하며 그 이유를 알려준다.
최근에 이르러 AI, 머신러닝과 같은 기술들이 눈에 띄게 발전했지만, 사실 AI의 주요 개념들은 등장한지 꽤 오래 되었다. 프랑스 과학 소설 작가 쥘 베른은 150년 전에 최초로 지능을 가진 로봇에 대해 다루었고, 자율주행차의 핵심 알고리즘으로 사용되는 베이즈 규칙은 1750년 대 영국의 장로교 목사 토마스 베이즈에 의해 발견되었다. 또한 AI의 패턴 인식을 통한 분류는 1912년 수학자들로 이뤄진 '하버드컴퓨터스'의 멤버, 헨리에타 레빗이라는 수학자의 맥동변광성 관측으로부터 시작되었다.
1943년 맥컬러-피츠 신경망 모델을 만든 워런 맥컬러와 월터 피츠
인공지능이 100년도 안되어 이렇게 폭발적인 속도로 발전할 수 있었던 것은 아주 오래 전부터 인류가 다져온 수학적 기반과 기술의 발전이 합을 이루었기 때문이다. 이 책을 읽음으로써 우리는 수학을 통해 현재 우리가 딛고 있는 인공지능이라는 연구 분야가 어디서 시작되었고 어떻게 변화하고 있는지 이해할 수 있다.
하지만 수학이라고 해서 겁 먹을 필요 없다. 이 책의 가장 큰 장벽은 '수학'이라는 제목이지만 막상 책을 펼치면 어려운 수식은 하나도 없다. 편집자가 저자들에게 수학 기호 하나에 몇 천명의 독자가 떨어져나간다고 으름장을 놓았기 때문이다. 때문에 어려운 수학적 이야기 보다는 수학과 기술이 거쳐온 과거, 그리고 현재, 미래의 상용화될 기술에 대한 흥미로운 이야기들을 읽을 수 있다.
수학과 기술, 과거-현재-미래
이 책에서는 총 7가지 챕터가 나온다. 각각 추천 알고리즘, 패턴 인식, 자율주행, 자연어 처리, 이상 탐지 시스템, AI 모델링, 의료분야의 AI에 대한 이야기를 다룬다. 각 주제는 AI의 여러 분야에 대해 수학과 역사적 사건에 기반에 두고 설명한다.
넷플릭스과 취향을 읽는 법
과거: 수학, 전쟁에서의 활약
레이더, 무선 통신 시스템, 컴퓨터 등 전쟁에서 발전한 기술들이 있었고 그 뒤에는 수학이 있었다. 2차 세계대전 당시 연합국 공군은 나치를 공격할 대규모 비행 편대를 출격 시켰는데 많은 전투기가 손상을 입고 돌아왔다. 이때 해군에서 전투기의 탄흔을 분석해 그 부분에 장갑을 덧대자는 아이디어를 냈다.
아브라함 왈드 사진 | 출처: wiki
2차세계대전 전투기의 탄흔 분포도 | 출처: slownews
하지만 이미 돌아온 전투기의 탄흔을 분석해 장갑을 덧대는 것은 의미가 없었다. 이미 추락한 전투기의 탄흔 데이터는 얻을 수 없었기 때문이다. 이것을 *생존성 편향 문제라고 한다. 생존한 전투기의 데이터에만 의존할 수 밖에 없기 때문이다. 대신 통계학자 아브라함 왈드는 '생존성 제안 시스템'을 고안했다. 이는 전투 피해 데이터를 이용해 어떠한 비행기 기종에서든 생존성을 높이는 맞춤형 방법을 제안하는 것이다.
*생존자 편향 문제: 편향된 모집단을 토대로 확률을 계산하는 것. 표본 편향 문제라고도 한다.
현재: 70년 후 넷플릭스에게 불어온 나비 효과
넷플릭스의 추천 시스템이 풀어야할 문제는 다음과 같다. 한 사용자의 영화 리뷰가 존재할 때, 그 사람이 다른 영화를 좋아할 조건부 확률을 다른 모든 사용자로부터 얻은 데이터로 구하려고 한다. 하지만 대다수의 사용자는 영화에 대한 리뷰룰 남기지 않았기 때문에 이러한 데이터가 없다.
1943년의 미 해군에서도 마찬가지였다. 아브라함 왈드는 한 전투기가 특정 부위에 총격을 받았을 때 추락할 조건부 확률을 다른 전투기로부터 얻어야 했다. 하지만 대다수의 전투기가 추락해 돌아오지 않았기 때문에 이러한 데이터가 없었다.
아브라함 왈드는 맞춤형 생존 방법을 제안하기 위해 데이터의 부재를 채워야 했다. 왈드는 탄흔과 공중전 시뮬레이션 등을 통해 당시의 상황을 '모델링'하여 소실된 데이터를 채워나갔고 데이터로부터 엔진 손상 시 해당 전투기가 귀환할 조건부 확률을 구할 수 있었다.
벨코르 팀의 데이터 summary. rating 데이터의 수는 약 1억 개였다. | 출처: netflix-prize
다시 현재로 돌아와서, 넷플릭스는 사용자가 영화 '죠스'를 좋아할 때 '샤크네이도'를 좋아할 확률을 구해야 한다. 여기에는 몇 가지 문제가 있는데 첫번째는 사용자의 데이터가 너무 방대하다는 것이고, 누락된 데이터가 있으며, 영화의 가짓수가 늘어날 때 가능한 조합의 수가 무한대로 많아진다는 것이다(matrix factorization). 넷플릭스에서는 이 문제를 해결하기 위해 왈드와 마찬가지로 모델을 만들었다. 넷플릭스의 현재 모델은 알 수 없으나 넷플릭스 프라이즈에서 우승한 BellKor's Pragmatic Chaos팀의 모델은 웹에 올라와 있다.
미래: 인간과 기계가 함께 똑똑해지는 법
'How People and Machines are Smarter Togeter'. '인간과 기계가 함께 똑똑해지는 방법'이 이 책의 원제이다. AI가 등장함으로써 인간의 생활이 편해졌다고 장담할 수 있으나 그렇다고 100% 신뢰할 수는 없는 법이다. 그렇기에 인간은 AI를 만드는 입장, 사용하는 입장 모두에서 AI를 똑똑하게 활용해야 한다.
추천 알고리즘은 데이터를 통해 눈송이처럼 독특한 개개인의 취향에 맞춘다. 페이스북은 타겟팅 광고를 통해 그로스 해커, 퍼포먼스 마케터들에게 필수적인 광고 플랫폼으로 자리 잡았다. 그런데 러시아에서 이러한 타겟팅 광고를 이용해 미국 유권자들을 이간질 시키고 선동하는 등 여론 조작을 펼쳤다.
러시아는 기술을 악용해 여러 집단을 분열시키고 분쟁을 조장했다. 중요한 것은 그들을 비난만할 것이 아니라 이런 일이 다시 생기지 않도록 법적, 문화적 체계를 만들어가야한다는 것이다. AI와 데이터과학에 휘둘리지 않고 유용한 목적으로 사용될 수 있도록 감시하기 위해서는 기계뿐만 아니라 사람 역시 똑똑해져야 한다.
우리에게 수학이 필요한 이유
우리는 AI와 데이터를 신뢰하는 경향이 있다. 책에 따르면 2014년 뉴욕타임즈에서는 피임약을 통해 피임을 할 경우 10년간 실패율이 61퍼센트라고 보도했다. 각 연도마다 피임에 성공할 확률에 복리 규칙을 적용했기 때문에 이러한 결과가 나온 것이다. 그러나 모집단 중 각 연도마다 피임에 실패한 복용자들을 제외시키면 그 수치는 1%대로 떨어진다.
데이터 분석가 에드워드 터프티는 뉴욕타임즈의 분석 결과에 대해 '성급하게 내린 결론이 낳은 편견'이라고 말했다. 이러한 편견은 비단 피임 수단에만 그치지 않는다. 이 일은 그저 해프닝이 아니라 우리 사회에서 만연하게 발생하는 오류이다. 세계적인 통계학자 한스 로슬링의 책 <팩트풀니스>에서는 인간의 10가지 본능을 통해 사람들이 사회를 바라보는 편견과 오해에 대해 지적한다. 그중에는 앞선 사례들에서 찾아볼 수 있는 일반화 본능, 단일 관점 본능 등에 대해 나온다. 본능에 따라 내린 잘못된 가정과 결론은 잘못된 해석을 내놓는다. 대다수의 대중들 역시 그저 수치만 믿고 잘못된 편견을 가지게 된다.
AI와 빅데이터는 인간에게 유용한 연구 분야지만 잘못된 가설과 해석이 초래하는 결과는 어마어마하다. 자율주행, 의료 등 인간의 생명을 좌지우지하는 분야에 이미 AI가 빠른 속도로 발전하고 있기 때문이다. 그렇기에 인간은 기계와 함께 똑똑해져야 한다. 기술의 편의성만 누릴 것이 아니라 AI가 본래의 목적에 맞게 유용하게 사용되고 있는지 그리고 자신이 잘못된 결과를 무조건적으로 수용하고 있지는 않은지 점검해야 한다. 그런 사항들을 확인하기 위해서는 수학에 대해 알아야 한다. 수학은 어렵다고 피할 것이 아니라 일상에서 숨쉬듯 우리와 함께 하는 분야이기 때문이다.
같이 읽으면 좋은 책
•
한스 로슬링 - Factfulness
•
김민형 - 다시 수학이 필요한 순간