본문 바로가기
[ 미라클레터 ]

DATA+AI 2023 / 오픈AI / 모자이크ML / Enterprise AI

by 불주먹고양이 2023. 7. 12.

미라클레터 2023.7.5 617호를 참고하여 작성한 게시글입니다.

 

https://www.databricks.com/dataaisummit/

 

Home - Data + AI Summit 2023 | Databricks

The premier event for the global data, analytics and AI community returns to San Francisco June 26-29.

www.databricks.com

실리콘밸리에서 '데이터브릭스'가 주최한 Data+AI 2023 행사가 열렸다.

해당 행사의 핵심을 빌려 인공지능 산업 동향과 오픈소스 AI의 발전에 대해 이야기해보고자 한다.

 

 

1. 오픈소스 AI

(1) 오픈소스 (Open Source)

소프트웨어 개발에 사용되는 코드를 공개하여 누구나 가져다 쓰는 것을 말한다.

실제로 깃허브에 들어가보면 우리가 한번쯤 들어본 토픽에 대한 코드가 공개되어 있는 것을 확인할 수 있다. 이를 'contribution (기여)'라고 한다.

https://www.timetoact.de/en/details/opensource

기여를 한다고 해서 해당 기술을 개발한, 그리고 코드를 공유한 개발자에게 비용이 지급되는 것이 아니다. 그렇다면 왜 자발적으로 코드를 공개하는 것일까?  오픈소스를 통해 코드를 공유하고 다른 개발자들과 협업을 하여 외부의 해킹 공격에 대한 보안을 강화할 수 있으며, 기업 내부의 개발자들만을 이용하여 개발하기 보다는 더 많은 개발자를 참여하도록 하여 혁신을 이끌 수 있다는 점에서 오픈소스는 개발 과정의 표준이라고 말할 수 있다.

 

기업들은 모든 소스코드를 공개하는 것이 지적 자산을 공개하는 것과 같기 때문에 큰 부담일 것이다. 따라서 오픈소스로 공개하는 코드와, 공개범위를 낮춘 코드 두가지로 구성한다.

예) Apache2.0, MIT 라이선스

 

오픈소스로 개발한 것을 판매해서 돈을 벌 수는 없다. 하지만 IT 생태계에서 이끄는 위치를 유지하면서 다양한 형태로 사업화가 가능한데, 대표적으로 구글에서 시작한 쿠버네티스 메타 (구 FaceBook)에서 시작한 파이토치와 MS의 닷넷(.NET)이 있다.

 

 

(2) 오픈소스와 AI의 관계

AI 개발자와 연구자는 'Hugging Face'를 통해 다양한 오픈소스 활동을 하고 있다. 실제로 AWD는 허깅페이스와 협력을 강화한다고 밝힌 바가 있어서, 이것을 통해 오픈소스가 AI 발전에서 중요한 역할을 하고 있다는 것을 알 수 있다.

 

또한 AI는 학계와 산업계의 교류가 아주 활발하다. 인공지능 관련한 가장 많은 논문을 학계에 내고 있는 곳들이 Google, Meta, MS, OpenAI와 같은 산업계 기업이다. 연구에 컴퓨팅 파워나 데이터가 중요하다보니 빅테크 기업에 있는 연구자들이 유리할 수 밖에 없다.

 

작년에 Stability AI라는 스타트업이 그림을 그리는 AI 모델을 공개해서 엄청난 화제였는데, Stability AI는 누구나 사용할 수 있도록 공개하여 이를 활용해 상업용 제품까지도 만들 수 있도록 했다.

https://stablediffusionweb.com/

 

 

(3) 오픈AI는 오픈소스?

오픈AI는 기존에도 폐쇄적인 부분이 있었는데, chatGPT로 대성공을 거두면서 더욱 소스코드 공개에서 멀어졌다고 한다. 하지만 chatGPT를 일반 대중에게 open beta로 공개했다는 점에서 AI 프로젝트에 일반인들을 참여시킨 것이라고 볼 수 있다.

 

MS가 깃허브를 2018년에 인수한 사실을 알 것이다. MS가 인수한 후로 유료화가 되었는가? 전혀 아니다. 오히려 깃허브에서 무료 서비스를 늘려서 더 많은 사용자들을 끌어모았다. 대신에 여기에서 축적한 데이터를 2019년에 투자한 오픈AI에게 제공했고, 오픈AI는 이 데이터를 가지고 chatGPT를 만든 것이다. 실제로 chatGPT로 코딩을 부탁하면 꽤 놀라운 실력을 보여주며, 에러가 난 부분까지도 찾아준다.

 

 

 

2. 데이터브릭스의 모자이크ML 인수

(1) 엔터프라이즈 AI (Enterprise AI)

AI를 이용하여 기업 내부의 생산성을 높이는 데에 쓰는 것을 말한다.

예를 들면 chatGPT 같은 거대언어모델을 도입한다거나 고객 관리 및 지원, 마케팅, 보안 등에서 프로세스 자동화와 분석에 머신러닝, 딥러닝 등의 인공지능을 도입하는 것이 있다.

 

 

일반 기업들이 자체적인 인공지능 모델을 만드는 것이 쉬울까? 비용도 많이 들고 좋은 성능의 모델을 만드는 것도 매우 어려운 일일 것이다. 그렇다고 오픈AI나 MS에 기업 내부 데이터를 공개하는 것도 썩 좋은 일은 아니다. 

 

 

(2) 모자이크ML

2020년에 만들어진 스타트업으로 '기업 맞춤형 생성형 AI'를 중심으로 하는 기업이다.

 

위에서 말한 바와 같이 지금의 AI를 이끄는 기업 (오픈AI, MS 등)의 빅테크 기업은 자신들의 AI 모델을 공개하지 않고 있다.폐쇄적인 AI 판도가 이어지는 가운데, 오픈소스 개발자들의 노력으로 chatGPT에 준하는 성능의 AI가 만들어졌다.

 

Meta의 LLaMa (Large Language Model Meta AI, 2023.02)와 모자이크ML의 MPT-7B (Mosaic Pretrained Transformer, 2023.05)이다.

 

모자이크ML은 특히 오픈소스이면서 상업화가 가능하고, 학습 비용도 적게 드는 모델을 만들 수 있다며, 오픈AI에 자사의 데이터를 공개하지 않으면서도 LLM (Large Language Model)과 서비스를 만들고 싶어하는 기업에게 어필하고 있다. 약 25만 달러에서 87만 달러, 한화로 3억에서 10억원 정도면 회사마다 자체적인 챗GPT를 가질 수 있다고 한다!

 

 

(3) 데이터브릭스와 모자이크ML, 그리고 데이터

데이터브릭스는 Apache Spark를 만든 사람들이 세운 회사로, 고객 기업 대싱이 데이터를 더 잘 활용할 수 있도록 돕는 빅데이터 회사이다. 충분한 데이터를 가지고 있는 회사라면 데이터브릭스의 고객이 될 수 있다. 즉, 데이터브릭스의 고객은 모자이크ML의 고객인 것이다.

 

데이터브릭스는 오픈AI가 커지고 있는 것에 대해서 AI를 만들거나 사용하는 비용이 낮아지고 대중화되고 있으며, 가장 중요한 것은 '데이터'라고 강조했다. 데이터를 외부에 공개하지 말고, 직접 AI를 구축하는 것이 컨퍼런스 첫번째 기조연설의 핵심이었다.

 

사람들은 chatGPT가 등장하면서 모델에 관심을 가졌다. 매개변수의 개수나 방법에 집중한 것이다. 그러다가 학습과 추론의 기반이 되는 AI 반도체에 관심이 쏠리면서 컴퓨팅 파워의 중요성을 생각하게 되었다. 하지만 이제는 데이터가 핵심이다. 초기 AI는 웹크롤링을 통해 인터넷 상의 데이터를 크롤링하여 학습에 사용할 수 있었다. 이제는 데이터 저작권이 중요해지면서 크롤링이 어려워지게 되었고, 실제로 미국에서는 Reddit이라는 미국의 소셜 뉴스 커뮤니케이션이 AI 학습에 돈을 받겠다고 하자 많은 사람들이 항의한 바 있다.

 

https://www.washingtonpost.com/technology/2023/06/12/reddit-blackout-begins/

 

Why have many Reddit communities gone private? The blackout, explained.

The coordinated protest launched amid backlash to Reddit's decision to start charging some developers to use its data.

www.washingtonpost.com

 


과열은 유행의 끝이라는 말이 있던데, 아직까지는 생성형 인공지능의 끝을 알 수 없을 정도로 핫한 것 같다. 앞으로의 인공지능 산업 동향이 흥미로우면서도, 우리나라가 이 시장을 선두해나갔으면 하는 바람이 있다. 그 중에 나도 있으면 더 좋겠다..