여러분 혹시 ChatGPT한테 같은 질문을 여러 번 했는데 답이 다르게 나온 적 있으신가요?저는 처음에 ChatGPT를 사용할 때, 친구 생일 축하 메시지를 부탁했다가, 똑같은 문장을 다시 넣었는데 전혀 다른 결과가 나와서 당황한 적이 있습니다.버그인가 생각하고 당황했었는데, 버그가 아니라 정상이었습니다.다른 결과가 나온 이유 그 뒤엔 Temperature(템퍼러처, 온도)라는 값이 숨어 있습니다.AI가 다음 단어를 고를 때 얼마나 모험을 할지 정하는 값인데, 이거 하나로 답이 얌전해지기도, 자유분방해지기도 합니다.1. 사실 AI는 매번 확률로 단어를 고른다이걸 알면 Temperature(템퍼러처, 온도)라는 개념이 한 방에 이해가 됩니다.AI는 문장을 쓸 때 다음 단어를 딱 정해놓고 찍는 게 아닙니다...
발표자료나 보고서를 만들 때, 내용은 다 정리됐는데 그걸 보기쉽게 그림 한 장으로 보여주려다 막히는 경우가 많습니다.PowerPoint 도형으로 직접 그리자니 화살표 맞추는 데만 한참이고, 그렇다고 디자인 툴을 배우자니 시간이 오래 걸릴 것 같고 부담스럽습니다.오늘 소개할 Napkin AI는 바로 이 점을 해결해 주는 도구입니다. 글을 넣으면 그 내용에 맞는 도식을 알아서 만들어 줍니다.더 좋은 점은 무료로도 충분히 써볼 수 있다는 점입니다.1. Napkin AI란?간단히 한 줄로 말하면 글을 그림으로 바꿔주는 시각화 도구입니다. 텍스트를 넣으면 그 안의 구조를 읽어서 다이어그램, 인포그래픽, 플로우차트 같은 형태로 자동으로 만들어 줍니다. 추천해주면 그 추천해준걸 바탕으로 우리는 선택만 하면 됩니다.이..
2023년, 미국 뉴욕의 한 변호사가 법원에 제출한 서면 때문에 미국 법조계가 술렁였습니다.자기 주장을 뒷받침하려고 판례 6건을 인용했는데, 그중 단 한 건도 실제로 존재하지 않았기 때문입니다.사건 번호도, 판결 요지도, 그 안에서 또 인용한 다른 판례까지 전부 다 그럴듯하게 만들어진 가짜였습니다.변호사는 ChatGPT가 법률 데이터베이스를 검색해 판례를 찾아줄 수 있다고 믿었습니다. 하지만, 사실 그 당시 ChatGPT는 그런 기능이 없는 그냥 챗봇이었습니다.이 변호사는 심지어 ChatGPT에게 "이거 진짜 판례 맞나요?"라고 두 번이나 물어봤습니다.ChatGPT는 자신 있게 "네, 모두 실제 판례입니다"라고 답했고요.결과는 벌금 5,000달러와 망신을 당했습니다. 이것이 바로 그 유명한 Mata v...
여러 분 혹시 예전에 ChatGPT한테 오늘 뉴스를 물어본 적 있으신가요?물어보면 대부분 "해당 정보를 알 수 없습니다"라는 답을 받게 됩니다.그런데 최근 AI 서비스는 최신 뉴스도 알고, 우리 회사 내부 자료도 척척 참고합니다.같은 AI인데 왜 이런 차이가 날까요?AI가 더 똑똑해서가 아닙니다. 답하기 전에 먼저 자료를 찾아보게 만들었기 때문입니다. 이게 바로 RAG입니다.1. AI는 왜 최신 정보를 모를까ChatGPT, Claude 같은 AI는 특정 시점까지의 데이터를 한꺼번에 학습합니다. 따라서, 그 이후에 생긴 일은 당연히 모릅니다. 이는 2023년까지 책으로 공부한 사람에게 2025년 나온 새로운 소식을 물어보는 것과 같습니다.이건 단순히 업데이트가 안 된 게 아니라 AI 구조 자체의 한계입니..
1. AI는 그림을 그리는 것일까?사람들은 AI가 그림을 그린다고 생각합니다. 우리가 그림을 그릴 때 머릿속으로 먼저 상상하고, 그것을 스케치하고 색칠하듯 말입니다.하지만 실제 AI가 그림을 그리는 방식은 다릅니다. AI는 상상해서 그리지 않습니다. 사실 “그린다”라는 표현 자체가 올바른 표현이 아닙니다. AI가 그림을 그리는 방식은 확률을 계산해서 그리는 방식입니다. 그것도 한 번만 확률을 계산하는 것이 아니라 수 없이 많은 계산을 반복해서 만듭니다.2. AI는 캔버스가 아니라 노이즈에서 시작된다.AI는 빈 캔버스에서 그림을 그리지 않습니다. 무작위 확률 분포로 가득 찬 '노이즈' 상태에서 시작합니다.왜 노이즈 상태에서 시작할까요?그건 단순한 분포에서 복잡한 이미지 분포로 점진적으로 이동하는 것이 훨..
모든 걸 다 보면 답은 나오지만, 현실은 그렇지 않다.1. 완전 탐색이란 무엇인가?완전 탐색은 쉽게 말해 문제를 풀기 위해 가능한 모든 경우를 하나도 빠짐없이 확인하는 방법입니다.이는 아주 단순한 생각에서 출발합니다.답인지 아닌지 모든 경우의 수를 하나하나 전부 다 확인해 보면 당연히 답은 나온다.라는 것이죠.비밀번호 4자리를 잊어버렸을때 찾는 가장 확실한 방법은 0000부터 9999까지 누르는 것을 생각해 보면 쉽게 알 수 있습니다. 그래서 완전 탐색은 가장 직관적이고, 가장 이해하기 쉬우며 논리적으로도 가장 깔끔한 방법입니다.2. 완전 탐색은 왜 기준이 되는가?완전 탐색은 좀 더 효율적인 것을 찾고 있는 일반적인 사람들에게 무식한 방법처럼 보입니다.하지만 의외로 알고리즘 세계에서는 이 방법이 기준이..
AI가 쓴 글은 읽기에는 편합니다.하지만 무엇을 말하려는 글이었는지는 잘 남지 않습니다.가장 정답에 가까운 표현을 고르다 보니, 무난해지는 대신 개성과 중심이 흐려집니다.AI 글을 읽다보면 느껴지는 불편함 AI가 쓴 글을 읽다보면 느껴지는게 있습니다. 문장은 깔끔하고, 맞춤법도 틀리지 않고, 논리도 뛰어납니다. 최근에는 정보의 정확성 또한 높아져서 왠만한 사람이 쓴 글보다 뛰어나고 맞는말만 모아놓은 잘 쓴 글이라는 생각이 들기까지 합니다. 그런데 자세히 생각해보면 뭔가가 부족하다고 생각되는 경우가 많습니다. 읽고나면 문장이 잘 기억에 남지 않고 이 글이 무엇을 말했는지 묻는 순간 답이 바로 나오지 않고 어려워하는 경우가 많습니다. 이러한 현상은 특정 글에만 나타나는 현상이 아닙니다. 블로그 글이든 보..
GPU의 비싼 가격과 막대한 전력 소모가 AI 산업의 발목을 잡으면서, 구글이 만든 고효율 딥러닝 전용 반도체인 TPU가 다시금 주목받고 있습니다.딥러닝 연산에만 집중해 비용 대비 압도적인 성능을 보여주는데, 이는 이제 AI 산업이 성능을 넘어 비용 효율에 중점을 두고 있음을 보여줍니다.특히 TPU 한 대당 6~8개의 HBM이 탑재되는데 이를 대부분 공급하는 삼성전자와 SK하이닉스에게도 새로운 성장의 기회가 되고 있습니다.최근 다시 언급되고 있는 TPU AI가 발전하면서 가장 주목을 받은 것은 한 번에 여러 개의 연산 작업을 처리할 수 있는 GPU입니다. 따라서 GPU를 주로 제작하는 Nvidia의 가치도 급상승했구요. 하지만 최근 들어 GPU 못지 않게 자주 언급되는 이름이 있으니 바로 TPU 입니다..
GELU는 입력을 양수일 확률만큼 부드럽게 통과시키는 활성화 함수로, 매끄러운 비선형성과 죽은 뉴런 완화라는 장점이 있지만 ReLU보다 계산이 복잡한 단점이 있습니다. 1. GELU 함수의 정의 GELU(Gaussian Error Linear Unit) 함수는 입력값 x를 확률적으로 통과시키는 활성화 함수입니다.ReLU는 0보다 작으면 아예 끊어버리지만, GELU는 작은 음수도 조금은 통과시켜서 부드러운 출력 곡선을 만듭니다. 수학적으로 정의하면 다음과 같습니다.더보기 Φ(x)는 표준정규분포의 누적분포함수(CDF) 입니다.즉, 평균 0·분산 1인 정규분포에서 임의로 뽑은 값이 x 이하일 확률입니다.따라서 x Φ(x)는 입력 x를 확률 Φ(x) 만큼 통과시킨 값으로 볼 수 있습니다. 여기서, Φ(x)는 ..
tanh 함수는 -1~1 범위의 비선형 함수로, 평균이 0에 가까워 학습이 안정적이지만, 경사 소실 문제와 ReLU 대비 계산 비용이 높은 한계가 있습니다. 1. tanh 함수의 정의 하이퍼볼릭 탄젠트 함수는 입력값을 -1과 1 사이의 값으로 압축하는 S자 형태의 비선형 함수입니다.수학적으로 정의하면 다음과 같습니다.여기서, 입력이 클수록 출력은 1에 가까워지며, 입력이 작을수록 출력은 -1에 가까워집니다.즉, x가 매우 큰 양수면 e^x기 압도적으로 커져서 (x → +∞), f(x) = 1반대로 x가 매우 큰 음수면 e^-x가 압도적으로 커져서 (x → -∞), f(x) = -1 이 됩니다.2. 주요 특징1) 비선형성tanh 함수는 비선형 함수를 제공하므로, 신경망이 복잡한 패턴을 학습할 수 있게 해..
One-Hot 인코딩은 컴퓨터가 이해할 수 있도록 범주형 데이터를 이진 벡터로 변환하는 방법입니다. 이 기법은 각 범주에 해당하는 위치만 1로 표시하고, 나머지는 0으로 만듭니다. 1. One-Hot Encoding의 정의 One-Hot Encoding은 주어진 범주 중 하나를 컴퓨터가 이해할 수 있는 0과 1로 이루어진 벡터로 변환하는 방법입니다. 변환된 벡터에서 해당하는 범주만 1로 표시되고, 나머지는 모두 0이 됩니다.예시로,과일"이라는 범주에 사과, 포도, 수박이라는 범주의 값이 있다고 해봅시다.사과 → [1, 0, 0]포도 → [0, 1, 0]수박 → [0, 0, 1]이렇게 변환하면, 컴퓨터는 이진 벡터로 변환된 데이터를 처리할 수 있습니다.2. 주요 특징1) 범주별 독립적 표현 각 범주는 해..
Gradient Boosting Machine (GBM)은 앙상블 학습(Ensemble Learning) 기법의 하나로, 여러 개의 약한 학습기(weak learner)를 결합하여 예측 성능을 향상시키는 방법입니다. 주로 결정 트리(Decision Tree)를 사용하며, 각 트리가 순차적으로 학습됩니다. 1. GBM의 정의 GBM의 핵심 아이디어는 이전 모델의 오차(residual)를 줄이는 방향으로 새로운 모델을 학습시키는 것입니다. 이 과정에서 Gradient Descent(경사 하강법)을 사용하여, GBM은 각 반복에서 손실 함수의 기울기(gradient)를 계산하고, 다음 트리는 이 기울기를 줄이는 방향으로 학습합니다.수학적으로 정의하면 다음과 같습니다.여기서,이 과정은 지정된 반복 횟수나 오차..