2023년 한동안 화제로 떠올랐던 Chat GPT가 요즘 들어서는 다시 반응이 싸늘하게 식었습니다.
그런데 이건 사실 Chat GPT의 잘못이 아닙니다. 사람들이 Chat GPT를 제대로 활용하지 못하는 이유는 바로 제대로 된 사용법을 모르기 때문입니다. Chat GPT는 옳게 된 사용 방법이 분명히 있습니다. 그런데 사람들이 원하는 대답을 내지 못한다고 해서 Chat GPT가 잘못한 것이 아니라는 겁니다.
한글로는 챗GPT라고 검색하는 사람도 있고, 쳇GPT라고 하는 사람도 있지만 어찌되었건 중요한 사실은 사람들의 ChatGPT에 대한 이미지가 '반짝 이슈성을 탄 어딘가 모자란 AI' 로 비춰진다는 데에 있습니다.
그렇기에 본 글에서는 쳇GPT, 또는 챗GPT로 불리는 이 AI의 제대로 된 사용법을 알아보고, 그 이미지에 대한 인식을 고쳐드리도록 하겠습니다.
목차
챗 GPT든 쳇 GPT든 사용법은 지식을 얻는 데 제일 최적화 되어있다
여러분, 시작하기 전에 하나만 여쭤보겠습니다. Chat GPT에서 GPT란 무엇을 뜻하는 것일까요?
당장 Chat GPT에게 물어만 봐도 대답해줄겁니다. 그래서 직접 물어봤습니다.
The "GPT" in Chat GPT stands for 'Generative Pre-trained Transformer'. It refers to the family of large language models that power AI chatbots like Chat GPT. The GPT models are pre-trained on large amounts of text data and can generate human-like text. They are used in natural language processing tasks such as language translation, question answering, and text summarization.
영어가 길죠? 그런데 여기서 중요한 건 단 두 문장입니다. 그 두 문장을 번역해보겠습니다.
Chat GPT의 "GPT"는 'Generative Pre-trained Transformer'를 의미합니다. GPT 모델은 대량의 텍스트 데이터에 대해 사전 학습되어 사람과 유사한 텍스트를 생성할 수 있습니다.
자, Chat GPT는 GPT의 의미가 Generative Pre-trained Transformer, 즉, 한국어로 직역하면 미리 학습된 생산하는 변환기라고 설명하고 있습니다. 전문적으로 들어가면 흔히들 AI 용어로 모델이라고 하죠.
당연한거 아닌가? 라고 하실 수 있겠습니다만 이건 본질을 파악하지 못하신 분들의 생각입니다.
똑똑하신 분들이라면 가장 먼저 나와야 할 의문은 도대체 이 Chat GPT가 어디서 어떻게 이 지식을 미리 학습했는가? 가 먼저 나와야 합니다.
잠시 스크롤을 멈추고 생각해보십시요. 도대체 이 방대한 양의 데이터셋을 어디서 조달했을까요?
Chat GPT 모델의 근본 데이터셋
그 답으로 Open AI는 WebText2, Wikipedia,Comman Crawl 등에서 추출한 데이터를 사람이 하나하나 가공하여서 썼다고 말하고 있습니다. 이때가 GPT-3입니다. 획기적으로 데이터 양이 늘어났죠.
아무리 Open AI사가 벤쳐 회사여도, 1750억개나 되는 방대한 데이터 셋을 전부 자신이 준비할 수는 없습니다.
한마디로 정의하자면 그럴듯하게 이야기하지만 Chat GPT의 근본은 사실 Wikipedia라고 보시면 되는 겁니다. 그 이유 때문에 Chat GPT를 검색해본다면 Wikipedia에서 따온 대답을 제일 많이 하는 것을 보실 수 있습니다.
그러면 이런 질문을 하시는 분들이 있으실 수 있습니다. 그냥 텍스트 모델만 따라한 거 아니냐고요. SE(검색엔진)을 찾는 것은 다른 알고리즘이 있는 거 아니냐고요.
맞습니다. 그런데 결국 GPT 모델이 SE(검색엔진)에서 어떠한 답을 찾는 가장 근본적인 원리는 유사도에 의한 오차 입니다. 이걸 이해해야 합니다.
창의적이지만 창조적이진 않다
초등학생도 이해할 정도로 비유해보겠습니다. 만약 동네에 당신이 좋아하는 분식집이 있는데, 그 집 맛이 좋다는 걸 이미 알고 있습니다. 당신의 입맛과 오차가 적죠.
그런데 조금 먼 거리에 새로 분식집이 오픈했다고 칩시다. 그렇다면 당신은 가보게 될까요? 물론 한번쯤은 가보겠죠.
하지만 그 뒤로는 거리라는 요소의 오차와 맛의 평가라는 점수 때문에 분명 다시 좋아하는 분식집으로 돌아오게 될겁니다.
한마디로 돌고 돌아서 다시 제자리로 돌아오게 된다는 말입니다. 특히나 점수나 오차에 칼같이 예민한 AI는 특히나 더 그렇습니다.
우리가 Chat GPT에게 어떤 소설을 써보라고 돌렸을 때, 계속해서 같은 형태의 단어만 나오고 그 세부적인 상황만 달라지는 게 이 이유에서 입니다.
즉, 창의적인 모델이라고 해서 창조적인 건 아닙니다. 이미 자신에게 학습된 데이터셋에 의한 경험과, 그걸 기반으로 텍스트를 짜맞추는 퍼즐 맞추기 능력은 있지만, 아예 무에서 유를 창조하는 건 아니라는 겁니다.
따라서 Chat gpt를 제대로 활용하려면 창조적인 것에 활용하기 보다는 이미 존재하는 지식의 집합체를 가공하는 형태로 쓰여야 올바르게 대답합니다. 다음과 같은게 그 예시입니다.
- 이미 존재하는 데이터 셋을 어떤 공식 기반으로 해석해달라고 한다.
- 내가 알고 있는 하나의 지식이 다른 어떤 지식과 연결되는 지를 물어본다.
- 지식을 짜맞춰서 하나의 글로 만들어 달라고 한다.
어떤 분이 비유하기를 신입사원한테 시키면 딱 좋은 잡일 처리하는 용도로 쓰면 좋다더군요. 완벽히 동의하는 바입니다. 그게 가장 걸맞습니다.
제가 이전 포스트에서도 말씀드렸지만, Chat GPT로 구글 애드센스 승인 받는 방식도 똑같습니다. 이미 존재하는 지식을 짜맞춰서 하나의 글로 만드는 작업이기에 가능한 겁니다.
만약에 소설을 아예 처음부터 끝까지 써 달라고 하면 어떻게 될까요? 아무리 방대한 데이터 셋을 학습했어도, 책들은 기본적으로 저작권이 있기에 Chatgpt가 학습한 데이터 셋에는 책들의 인용문구만 있을 뿐 제대로 된 책들은 거의 없을 겁니다.
그렇기에 소설을 만들라고 시키면 이상한 교훈으로 항상 마무리하는 중학생 감성의 소설만이 나오는 것입니다.
인풋이 거의 존재하질 않으니 제대로 된 아웃풋이 나올리가 있을까요? 이는 주식투자로 10원 넣고 10억이 되길 바라는 것과 같습니다.
어디까지나 AI 모델은 특화된 모델이어야지 의미가 있습니다. 방대한 양의 데이터셋을 가진다고 해서 뭐든지 할 수 있는 AI 모델이 될 거란 기대는 버리시는 게 좋습니다.
그렇기에 최근에는 오히려 각각에 최적화된 모델들을 묶어서 특화시키는 연구가 진행되고 있죠. 그런 모델을 기대하시면서, 쳇 GPT든 챗 GPT든 간에 사용법을 제대로 아시고 사용하시는 게 가장 좋은 길입니다.