posted by 도이모이 2022. 1. 21. 21:52

 

 

다시 본론으로 돌아가서 인공지능에 대한 이야기를 더 해 볼까요?
우리가 뉴스에서 보통 접하는 기사는 인공지능에 대해서 신기한 기술을 개발한 업체의 기술 이야기이지요.
기존에는 못하는 것을 사람처럼 잘 하거나 더 나아가 사람이 못하는 것을 할 수 있는 인공지능이 나왔을 경우 많은 기자들은 주목하게 되고 기사화 되지요.
그렇기 때문에 우리가 알고 있는 업체들은 대부분 인공지능을 개발한 업체들의 이야기입니다.
하지만, 다음 그래프를 볼까요? 포브스에서 발표한 자료입니다. 인공지능을 개발하기 위해서 들어가는 시간을 조사해서 정리한 것입니다.
보시는 것처럼 Data를 인공지능이 학습할 수 있게 필요없는 부분은 제외하고 다듬어 주는 작업인 Data cleansin에 25%의 시간이 들어가고,
인공지능이 공부하기 위해서 Data에 설명을 붙여주는 Data labeling에 25%에 시간이 들어갑니다.
이 두 작업에 전체 시간에 절반에 들어가는 것이지요.
그러고. Data Augmentation이라고 해서 데이터가 부족할때는 하나의 데이터를 가지고 이리 저리 변형해서 여러 개의 사진을 만드는 작업을 진행합니다.
여기에서 보시는 것처럼 고양이 사진이 있을 경우 이 사진을 좌로 혹은 우로 회전하고,
확대한 후 다시 회전하고, 자르고 등등의 작업을 해 줍니다. 이 작업도 전체 시간의 15%의 시간이 들어가게 됩니다.
인공지능 개발에 필요한 Algorithm 개발은 정작 3%의 시간 밖에 들어가지 않습니다.
기업 입장에서는 고급인력을 뽑아 놓고 대부분의 시간을 고급스럽지 않은 일을 할 수 밖에 없는 것이지요.
특히, 수십만개에서 수백만개의 데이터를 모으는 작업은 아무리 전문 개발자가 있어도 모을 수 있는 일이 아닙니다.
그렇기 때문에 데이터를 모아주는 전문 업체들이 주목을 받고 있습니다.
데이터를 전문적으로 모아주는 업체로는 대표적으로 Amazon Mechanical Turk라는 곳이 있습니다.
네이버에서 찾아보면 많지는 않지만 우리나라 분들 중에도 여기에서 아르바이트를 하시는 분들이 있는 거 같습니다.
Amazon Mechanical Turk에 대해 설명하는 문서를 국내에도 몇 개 찾아 볼 수 있었습니다.
아마존이 원래 인공지능으로 유명하지요.
국내에서는 영향력이 별로 없고 지금은 구글과 마이크로소프트 등도 인공지능에 대해서 크게 성장했지만
인공지능 시간을 최근 몇년간 개척한 곳은 아마존이지요. 특히, 아마존 인공지능 스피커가 유명합니다.
몇 년 전만해도 CES나 MVC같은 곳에 가면 아마존 인공지능 스피커와 연동되는 기능을 제공하는 다양한 기기들은 어렵지 않게 찾아 볼 수 있었습니다.
Amazon Mechanical Turk은 원래 다양한 클라우드 소싱을 대행해 주는 사이트였는데
인공지능이 사람들의 관심을 많이 받고 인공지능 학습에 필요한 데이터가 필요한 기업이 많아짐에 따라
Amazon Mechanical Turk가 점차적으로 인공지능 전문 데이터 수십 사이트로 자리잡아 가고 있습니다.
비슷한 사이트로는 스케일이라는 사이트가 있고요. 현재까지 우리돈으로 1800억원의 투자를 받아서 더 유명해졌습니다.
그만큼 이 시장의 성장 가능성을 크게 보고 있는 투자 업체들이 많다는 것이기로 하겠지요.
그 외에 라벨박스도 920억원 정도를 투자 받았고, 클라우드팩토리도 900억원 정도를 투자 받았습니다.
스케일보다는 적지만 거의 1000억원 가까운 돈을 투자 받은 상태입니다.
국내에도 이런 사이트가 없는 것이 아닙니다. 우리나라에는 대표적이로 클라우드웍스라는 사이트가 있고요.
네이버 시드투자를 시작으로 시리즈B 투자 유치를 완료하며 현재까지 누적 투자액 121억원을 확보한 상태입니다.
그런데 생각해보면 이런 회사들은 누구나 쉽게 만들 수 있을 거 같습니다.
쉽게 생각하면 인공지능 회사에 영업잘해서 일거리를 수주한 후 그냥 Email보내서 데이터 좀 보내 달라고 하면 될 거 깉습니다.
꼭 틀린 이야기는 아닙니다.
하지만, 경쟁력을 가지기 위해서는 빠른 시간 내에 가능한 많은 데이터를 모아서 보내 줘야합니다.
10명 ~ 100명까지는 누구나 노력하면 가능할 수 있지만 수십만명 수백만명에게 데이터를 확보하는 것은 결코 쉬운 일이 아니지요.
그러고, 데이터를 모을때는 정확성이 담보 되어야 합니다.
그러기 위해서는 사이트 개발이 필요합니다. 즉, 저렴하고 빠르고 정확한 소프트웨어 개발 능력이 필요하고 이것을 그때 그때 만들 수 없기 때문에 다양한 요구사항에 대응할 수 있는 플랫폼 개발이 필요합니다.
클라우드 소싱으로 진행 되었던 예시를 하나 보여 드리겠습니다. ‘프로젝트 사이드워크'라는 사이트입니다.
워싱턴 대학에서 인공지능으로 장애인을 위한 지도를 작성 중인 프로젝트를 진행 중이라고 합니다.
휠체어를 타고 다니는 장애인에게 지도와 네비게이션을 제공하려고 하는데 우선 데이터가 필요하겠지요.
구글 스트리트뷰를 통해보면 장애인이 지나가기 어려운 길이 보입니다.
오른쪽에 있는 사진이 실제 사진인데요.
사람들이 표시해 놓은 것을 보면 참 눈썰미 좋구나라는 생각이 듭니다.
첫번째 사진은 무슨 태그일까요? 건널목인데 자세히 보면 인도로 연결되는 부분에 살짝 턱이 있습니다.
그것을 표시해 놓았습니다.
구글 스트리트뷰는 정기적으로 돌아다니면서 사진을 찍지요. 그렇기 때문에 누군가 변한 스트리트뷰를 보고 변경이 되었을 경우,
‘Fixed’로 표시를 해 놓을 수도 있습니다.
이렇듯 인공지능을 개발하기 위해서는 비탈길, 위험한 곳을 인공지능이 학습해야 하고 이런 데이터가 필요합니다.
이런 데이터를 많이 모으기 위해서 전문 업체에게 의뢰를 한다고 할때 그냥 업체에서는 메일 보내서 캡쳐해서 달라고 할 수는 없는 일이겠지요.
데이터를 모으기 위한 소프트웨어를 그때 그때 주먹구구식으로 개발할수도 없을 것입니다.
그렇기 때문에 생각보다 소프트웨어 개발 능력이 중요합니다.
클라우드 소싱을 하기 위해 플랫폼을 가지고 있어야 합니다.
이런 업체들이 투자를 받고 성장하고 있습니다.
조금만 더 볼까요? 아이히어유((https://www.ihearu-play.eu)라는 사이트가 있습니다.
독일 연구원을 중심으로 음성 인식 연구에 필요한 데이터를 클라우드 소싱 방식으로 모으고 있습니다.
유럽을 중심으로 운영되고 있기에 주로 영어 이외 언어에 대해서 연구이고요.
주로 독일어를 연구 중입니다.
그런데 단순하게 말을 이해하는 것이 아닙니다.
훨씬 고차원적입니다. 짧은 음성을 들려주고 다양한 상황에 대해서 질문을 합니다.
밑에 있는 것처럼 뭐를 먹고 있냐고 물어 보는데 소리를 클릭해서 들어보면 처음에 바싹~ 하는 소리가 들립니다.
또한, 간단한 목소리를 들려 주고 남자 목소리 같냐, 여자 목소리 같냐고 물어 보는 식입니다.

제가 사이드워크와 아이히어유를 예를 들어 드렸는데요.
예시 둘은 비영리로 대학과 연구소에서 인공지능을 개발하기 위해서
자체 사이트에서 사이트를 만들고 자원봉사자들에게 소소하게 데이터를 확보하고 있지만 기업이라면 그럴 수 없겠지요.
이럴 경우 조금 전 이야기 드린 Amazon Mechanical Turk와 스케일 같은 회사를 찾을 수 밖에 없고 이 시간이 크게 성장하고 있습니다.

이 업체들이 보이지 않는 곳에서 큰 돈을 번 후 사라지는 웹에이젼시의 뒤를 따라 갈지
아니면 리바이스처럼 자신만의 영역을 만들어 독자적인 큰 사업이 될지는 아직 알 수 없지만
적어도 당분간은 크게 성장할 사업은 분명해 보입니다.

댓글을 달아 주세요