SKT 인공지능스피커 ‘누구’, 귀에 꽂는 이어폰으로 진화

LG유플러스, 네이버가 원한다면 SK텔레콤 플랫폼은 언제나 열려 있어
SK텔레콤, 단순한 이동통신사 아냐 구글·아마존과 어깨 견주는 ICT기업

21세기는 바야흐로 인공지능의 시대다. 2010년을 전후로 ‘딥러닝’ 기술이 인공지능 학습에 적용되면서 구글과 아마존 등 세계 유수의 기업들과 SK텔레콤·KT·LG유플러스 등 국내 이동통신사, 네이버·카카오 등 ICT기업이 경쟁적으로 인공지능을 활용한 다양한 서비스 상용화를 시도했거나 이미 시장을 선도하고 있다.

이 가운데 국내 인공지능스피커 시장은 SK텔레콤의 ‘누구’와 KT의 ‘기가지니’, 네이버의 ‘클로바’와 제휴한 LG유플러스, 카카오의 ‘카카오미니’가 각기 시장을 선도하기 위해 벌이는 치열한 4파전의 각축장이 됐다.

현재까지는 SK텔레콤이 국내 인공지능스피커 시장에서 유리한 고지를 선점한 것으로 보인다. ‘국민 내비게이션’인 ‘T맵’과 SKT의 ‘누구’가 연동돼 지난 3월 기준, 370만 명이라는 가장 많은 이용자를 확보한 까닭이다.

김연규 SK텔레콤 AI사업혁신Cell 리더<사진>를 만나 인공지능스피커 ‘누구’와 인공지능에이전트 ‘아리아’, 향후 SKT의 전략에 대해 자세한 이야기를 들었다.

▶SKT 인공지능스피커 ‘누구’는 하드웨어를 말하는가, 소프트웨어를 말하는가?

“방금처럼 ‘누구’가 단순히 스피커가 아니냐는 질문을 많이 받는다. 사실 ‘누구’는 ‘아리아’가 거주하는 하나의 집이다. ‘아리아’는 SK텔레콤이 만든 인공지능에이전트다. ‘아리아’는 ‘누구’에도 있고, 많이들 쓰시는 ‘T맵’에도 있다. 이 인공지능 ‘아리아’의 개념이 ‘누구’와 헷갈리면서 혼재된 개념이 됐다. 그래서 현재 소비자가 이해하기 쉽게 브랜드 이름을 바꿀지 고민하고 있다.”

▶구체적으로 어떤 서비스가 있나

“예컨대 전화를 대신 걸어주는 서비스가 있다. ‘누구’에 대고 ‘아리아, 내 딸에게 전화해줘’라고 하면 전화가 걸린다. 운전 중에도 단순히 음성으로 통제가 가능하다. 또 SK브로드밴드의 IPTV 셋톱박스와도 연동이 가능하다. 채널 바꾸기, 원하는 VOD 찾기 서비스, 현재 방영되는 영화제목 등을 ‘누구’에게 물어보면 대답해 줄 거다. 얼마 전에는 스타벅스와 ‘누구’가 제휴를 맺었다. ‘누구’에게 어느 지점 스타벅스의 특정 메뉴를 주문부탁하면, 매장에 도착하기 전 음료가 준비돼 있는 식이다.”

▶인공지능스피커 ‘누구’의 작동방식이 어떻게 되는지 궁금하다

“‘누구’ 자체로는 기능하지 못한다. 와이파이 등 인터넷에 연결되면 ‘아리아’가 본 서버와 통신하며 다양한 서비스를 제공하게 된다. 작동과정의 수면아래 상황은 조금 복잡하다. 예를 들어 ‘아리아, 싸이의 강남스타일 들려줘’라고 말하면 이 음성을 아날로그 시그널(signal text)로 변환시켜 문자로 이해하고 명령을 수행한다.”

▶결국 실제 인공지능서비스를 제공하는 건 ‘아리아’라는 건데, ‘아리아’는 어떻게 사고하나.

“‘아리아’를 이해하려면 간단하게나마 인공지능의 역사를 살펴봐야 한다. 지구촌의 인공지능 연구는 2010년을 전후로 획기적으로 바뀌게 된다. 2010년 전까지는 고대 아리스토텔레스로부터 내려온 ‘논리적 사고’로 인공지능을 연구하고 만들었다. ‘A가 B고, B가 C면, A는 C다’ 등의 삼단논법이 대표적이다. 그러나 2010년 이후의 인공지능은 ‘딥러닝’을 기반으로 한다. 이건 사람의 뇌세포 신경망과 비슷하다.”

▶‘딥러닝’ 기반 인공지능은 전통적인 논리법칙을 따르지 않는다는 뜻인가?

“정확히 말하면 인간특유의 직감(直觀)이란 개념을 인공지능이 이해한다는 거다. 우리가 아이들한테 ‘저거는 자전거야, 저거는 나무야’라고 말해주면 아이들이 나중에 처음 보는 자전거, 처음 보는 나무를 봐도 추상적인 ‘직감’으로 인지해서 그걸 자전거나 나무로 인식한다. 실제로는 크기, 모양, 녹슨 정도, 바퀴의 수, 나뭇잎의 숫자 등 사실 자전거와 나무가 얼마나 다양한가. 그런데 아이들은 그걸 구분해낸다. 인간의 이런 인식과정은 신비롭다. 뇌의 이러한 인식과정은 오랜 철학적, 과학적인 과제였다. 이제 이걸 인공지능이 ‘딥러닝’으로 해낸다는 거고.”

▶흥미로운 이야기이긴 한데, ‘딥러닝’으로 인공지능을 만들 때 소비자가 체감할 수 있는 구체적인 효용이 뭔가

“‘딥러닝’ 프로세싱을 통해서 과거 인간의 이성만을 이해했던 인공지능이 사물을 보고 판단하는 시각, 청각 등 오감 부분도 갖추게 됐다. 이건 획기적인 발전이라고 볼 수 있다. 왜냐면 과거에는 오감 부분이 결여돼 음성인식률과 영상인식률이 90%를 넘지 못했다. 하지만 이제 ‘누구’의 음성인식률은 90.8% 정도다. 인간의 평균 음성인식률이 90% 정도니 사람과 비슷한 수준이다. ‘누구’에 시각정보를 처리할 수 있는 카메라를 단다고 하면 영상인식률도 90%를 상회할 것이다.”

▶과거 ‘누구’가 50대·60대 이상의 연령층에 대한 음성인식률이 낮다는 지적을 받은 적이 있는데

“‘딥러닝’ 기반이라도 해도 ‘아리아’를 학습시키기 위해선 결국 많은 양의 데이터가 필요하다. 아이에게 교육시키는 것과 비슷한 거다. 그런데 사람들마다 목소리 파형이 다르다. 우리는 지난 2013년부터 이런 목소리 파형들을 축적해 왔다. 음성데이터와 자연어처리 등을 아르바이트를 고용해 데이터를 수집했다. 20대와 30대, 40대 사람들이 말한 것을 녹음실에서 직접 녹음해 데이터를 모았다. 그래서 초기 ‘아리아'는 노인분들의 목소리를 잘 알아듣지 못한 면이 있다. 그 지적이 나온 이후 50대 이상의 연령층도 목소리 데이터를 확보해 퀄리티를 향상시켰다. 현재 ‘누구’의 50대, 60대의 음성인식률에는 그런 문제가 없다.”

▶‘T맵’에도 ‘아리아’가 있다. 굳이 아리아가 ‘누구’라는 제품에 갇혀 있을 필요가 있나. 스마트폰앱으로 출시하면 소비자가 ‘누구’를 구매하지 않아도 될 텐데

“한글의 우수성 덕분이다(웃음) 중국 같은 경우는 그게 통한다. 중국은 글자가 워낙 많기 때문에 이미 핸드폰으로 음성을 인식해 채팅을 하는 문화가 형성돼 있다. 하지만 한글은 얼마나 간편한가. 손가락 터치 몇 번이면 하고 싶은 말 다 할 수 있다. 굳이 음성으로 말할 경제적 효용이 없다. 그 지점을 고민했다. 그래서 스피커의 형태로 따로 제조과정을 거치는 수고로움을 더한 것이고.”

▶스피커가 부피가 크진 않지만 그래도 휴대하기엔 불편한 감이 있다. 더 작게 만들 수도 있지 않은가?

“2014년 개봉한 영화 ‘Her’를 보면, 주인공 테오도르가 귀에 작은 이어폰 하나를 끼고 인공지능OS 사만다와 소통하며 업무를 처리하고 개인적인 어려움을 토로하고 한다. ‘누구’가 갈 지향점이 바로 그곳이다. 결국에 ‘누구’는 귀에 꽂는 작은 이어폰 형태로 진화할 것이다. 배터리 문제도 현재 기술로 충분하다. 블루투스 이어폰이 이미 있지 않은가. 하지만 당장은 어렵다. 왜냐면 비용문제 때문이다. 만약 ‘누구’를 지금 그렇게 작은 형태로 만든다고 한다면 수십만원 대 가격이 될 텐데, 그렇게 되면 시장성이 없다.”

▶끝으로 국내 1위 이동통신사로서 국내 이통사가 나아가야 할 방향에 대해 말한다면

“사실 이건 어려운 질문이다. 왜냐하면 SK텔레콤은 이미 단순한 이동통신사가 아니다. SK텔레콤은 ICT기업으로 거듭나고 있다. 구글과 아마존 등 세계적인 ICT기업과 어깨를 견주는 기술력을 갖추는 것이 우리의 목표다.

ICT기업으로서 나아가야 할 방향에 대해 말한다면, 사실 구글이 자사 검색엔진으로 정복하지 못한 시장이 두 군데 있다. 바로 한국과 중국이다. 중국엔 바이두가, 한국엔 네이버라는 토종 브랜드가 구글로부터 자국 시장을 지키고 있다.

인공지능 시장도 마찬가지라고 생각한다. 단순히 애국심마케팅이 아니라, 실제로 타사들과 협력할 의향이 있다. LG유플러스가 네이버의 인공지능스피커인 ‘클로바’와 협력하고 있지 않나. 만약 LG유플러스가 SK텔레콤의 ‘누구’와 제휴하고 싶다고 한다면 언제든지 환영이다. 네이버도 마찬가지고. SK텔레콤의 플랫폼은 언제나 열려있다.”

저작권자 © 전기신문 무단전재 및 재배포 금지