AI가 그린 그림이 점점 좋아지고 있지만 그림 속 단어가 틀린 경우가 많습니다. 이것은 우연이 아니라 구조적인 문제입니다.

AI가 그린 그림이 점점 좋아지고 있지만 그림 속 단어가 틀린 경우가 많다는 사실을 발견하셨을 것입니다. 이것은 우연이 아니라 구조적인 문제입니다.

미친 장면

AI를 사용하여 아름다운 홍보 포스터를 생성합니다. 구도가 완벽하고 컬러 매칭이 고급이며 빛과 그림자가 자연스럽습니다. 그런 다음 자세히 살펴보면 "SUMMER SALE"이 "SUMMER SAIE"로 쓰여 있거나 중국어 제목 "기간 한정 특별 행사"의 "Hui"라는 단어에 수평선이 누락되어 있습니다.

당신은 한 번 재생성했습니다. 이번에는 "SALE"이 맞지만, 자막의 날짜가 깨져버렸네요.

다시 시도해 보세요. 날짜는 맞는데 글자간격이 갑자기 커지고 작아져서 전체적인 레이아웃이 취한 듯한 느낌이 듭니다.

프롬프트 문구를 잘 못 써서 그런 것도 아니고, 모델이 너무 형편없어서 그런 것도 아닙니다. 이는 현재 AI 이미지 생성 기술의 구조적 단점이며, 조만간 사라지지 않을 것입니다.

이 기사에서는 문제를 분석하고 "단어가 항상 잘못 작성되는 이유"를 5단계로 설명하고 "AI가 다시 작성하도록 허용"하는 것이 일반적으로 최선의 해결책이 아닌 이유를 설명합니다.

첫 번째 원인 수준: 모델이 단어를 전혀 "인식"하지 못합니다.

대부분의 사람들은 AI 모델이 "텍스트를 먼저 이해한 다음 그린다"고 생각합니다. 이것은 사실이 아닙니다.

주류 이미지 생성 모델(Stable Diffusion, DALL-E, Flux 등)은 텍스트를 "단어 조각"으로 자르는 코딩 방법인 BPE 단어 분할을 사용합니다. BPE는 의미론("이것은 포스터입니다")을 이해하는 데는 능숙하지만 글리프("이 문자는 F가 아니라 E입니다")를 정확하게 제어하는 데는 능숙하지 않습니다.

더욱 문제가 되는 점은 CLIP이든 T5이든 이러한 모델의 텍스트 인코더가 "문자를 정확하게 그리기" 위해 설계되지 않았다는 것입니다. CLIP은 "개념 정렬"(그림과 텍스트 간의 대응 이해)을 선호하고 T5는 "언어 이해"(문장의 의미 이해)를 선호합니다. 둘 다 "픽셀 수준 텍스트 렌더링"용으로 설계되지 않았습니다.

예를 들어, 이해력은 뛰어나지만 글쓰기 능력이 부족한 사람이 눈을 감고 캔버스에 텍스트를 복사하게 하세요. 무슨 말을 쓰고 싶은지는 대략 알지만, 각 단어의 획과 띄어쓰기, 크기가 모두 다릅니다. 이것이 현재 텍스트 처리 모델의 기본 상태입니다.

즉, 프롬프트 단어를 어떻게 최적화하더라도 모델의 텍스트 제어 정확도에는 당연히 상한이 있습니다. 이 상한은 "프롬프트 기술"에 의해 초과될 수 없습니다.

두 번째 수준의 원인: 훈련 데이터에 "문자 쌍"이 부족합니다.

모델이 텍스트를 정확하게 렌더링할 수 있더라도 학습하려면 대량의 "텍스트-글리프" 쌍 교육 데이터가 필요합니다. 문제는 이런 고품질 데이터가 부족하다는 점이다.

실제 이미지에는 거리 표지판, 포장, 포스터, 책 등 실제로 많은 텍스트가 있지만 이 텍스트의 글꼴 주석은 거의 존재하지 않습니다. 모델은 "이 그림에 단어가 있다"는 것을 알고 있지만 "이 단어에 어떤 글꼴, 어떤 두께, 어떤 간격이 사용되었는지"는 알지 못합니다.

결과는 다음과 같습니다. 모델은 "단어를 대략적으로 그리는 방법"을 학습할 수 있지만 "글꼴 스타일을 정확하게 제어하는 방법"은 학습할 수 없습니다. 이는 글꼴 스타일 드리프트로 직접 이어집니다. 산세리프를 요청하면 대략적인 세리프가 제공됩니다. 같은 선에 같은 두께를 달라고 하면 더 두껍거나 얇은 줄이 나옵니다.

중국의 상황은 더욱 심각하다. 일반적으로 사용되는 한자는 수천 개가 있고 획 복잡성은 라틴 문자보다 훨씬 높지만 훈련 데이터의 중국어 텍스트 주석은 훨씬 더 적습니다. 이는 많은 모델이 영어에서는 "ok"이지만 중국어에서는 "자주 틀린" 이유를 설명합니다.

세 번째 원인: 레이아웃 제어가 너무 약함

그림의 텍스트 조각은 단지 "몇 단어"가 아니라 위치, 크기, 줄 간격, 문자 간격, 정렬, 기준선 등과 같은 일련의 기하학적 관계를 포함합니다. 현재 모델은 이러한 기하학적 관계를 제대로 제어하지 못합니다.

이는 간단한 시나리오에서는 명확하지 않습니다. 큰 헤드라인, 브랜드 이름, 모델은 일반적으로 이를 처리할 수 있습니다. 그러나 일단 여러 줄의 텍스트, 여러 텍스트 상자 및 다양한 조판 수준이 되면 문제가 발생합니다.

단어가 멀때도 있고 가까워질때도 있고, 줄 간격도 일정하지 않습니다.
좌우 정렬 불량, 기준선 드리프트
여러 텍스트 상자의 상대적 위치가 잘못되었습니다.
긴 단락의 뒷줄 텍스트 품질이 크게 저하됩니다.

학계에서는 이를 '긴 텍스트' 문제와 '다중 텍스트 상자' 문제로 통칭하는데, 이는 현재 어려움으로 인식되고 있습니다. EasyText 및 BizGen과 같은 연구는 특히 "긴 텍스트", "다중 텍스트" 및 "불규칙한 영역"에 중점을 두고 있으며, 이는 그 자체로 이러한 시나리오의 안정성이 해결되지 않았음을 보여줍니다.

실질적인 영향: 그림에 한 줄 캡션만 필요한 경우 AI가 해당 작업을 수행할 수 있습니다. 이미지에 5~6개 수준의 텍스트(제목, 부제, 시간, 장소, 판매 포인트, 클릭 유도 문구)가 있고 각 수준을 정확하게 입력해야 하는 경우 AI의 실패율이 급격히 높아집니다.

네 번째 원인: 잠재 공간 압축은 작은 문자에 적합하지 않습니다.

확산 모델은 픽셀 공간에서 직접 작동하지 않지만 압축된 "잠재 공간"에서 생성됩니다. 이는 큰 물체(풍경, 사람, 제품)에 매우 친숙합니다. 비디오 메모리를 절약하고 컴퓨팅 성능을 절약하며 효율성이 높습니다.

그러나 작은 인쇄물의 경우 잠재 공간 압축은 고주파수 세부 정보의 손실을 의미합니다. 얇은 획, 딱딱한 가장자리 및 극도로 낮은 오류 허용 오차를 가진 텍스트는 압축 및 복원 프로세스 중에 나타나는 경향이 있습니다.

흐릿하거나 깨진 스트로크
들쭉날쭉한 가장자리
확대 후 "잘못된 세부 정보"가 나타남 - 단어처럼 보이지만 실제로는 모델에 의해 "상상"된 스트로크

이는 일반적인 현상을 설명합니다. AI가 생성한 큰 헤드라인은 좋은 경우가 많지만 작은 텍스트(가격, 재료, 면책 조항)는 흐릿하거나 왜곡되는 경우가 많습니다. 모델이 작은 글자를 잘 쓰는 것을 "원하지 않는" 것이 아니라 잠재 공간의 해상도가 작은 글자를 잘 쓸 수 있는 정도를 제한한다는 것입니다.

해결 방법의 논리: 먼저 단어를 수정한 다음 확대하세요. 먼저 확대한 다음 문자를 수정하면 확대 과정에서 모델이 더 많은 잘못된 획 세부 사항을 "브레인 필"하므로 복구가 더 어려워집니다.

원인의 다섯 번째 계층: 식별 및 전처리도 당신을 속일 수 있습니다

AI가 생성한 단어가 "거의 정확"해 보이더라도 OCR 도구를 사용하여 이를 확인할 때 문제가 발생할 수 있습니다. 이는 OCR 도구의 잘못은 아니지만 이미지 전처리가 제대로 이루어지지 않았습니다.

Tesseract 공식 문서에는 OCR의 성공 또는 실패를 위한 주요 전처리로 크기 조정(스케일링), 이진화(이진화), 노이즈 제거 및 왜곡 보정(수정)이라는 네 가지 항목이 명확하게 나열되어 있습니다. PaddleOCR은 방향 분류, 텍스트 이미지 수정, 텍스트 줄 방향 분류라는 세 가지 추가 스위치를 추가합니다.

즉, 많은 "OCR 인식 오류"의 근본 원인은 인식기 자체가 아니라 이미지의 기하학적 구조와 전처리에 있습니다. 2도 기울어진 이미지, 대비가 부족한 텍스트 영역, 앤티앨리어싱이 너무 약한 텍스트 등으로 인해 OCR이 완전히 잘못된 결과를 생성할 수 있습니다.

실용적 제안: AI 생성 텍스트를 확인하기 위해 OCR을 사용하기 전에 다음 사전 처리를 수행하십시오. 텍스트 영역의 대비가 충분한지, 이미지가 크게 기울어지지 않았는지, 텍스트 가장자리가 지나치게 흐릿하지 않은지 확인하세요. 이는 더 큰 OCR 모델로 전환하는 것보다 훨씬 더 효과적입니다.

다섯 겹의 원인을 겹친 현실

5개의 레이어를 함께 쌓으면 "AI 글쓰기"가 왜 그렇게 어려운지 이해하게 될 것입니다.

모델의 텍스트 인코더는 정확한 글리프용으로 설계되지 않았습니다.
고품질 글리프-폰트 페어링 훈련 데이터 부족
다중 텍스트 레이아웃의 약한 기하학적 제어 능력
잠재 공간 압축은 작은 문자의 고주파 세부 사항에 적합하지 않습니다.
부적절한 이미지 전처리로 인해 검증 오류가 발생합니다.

이러한 5층 문제는 특정 모델의 결함이 아니라 전체 확산 이미지 생성 패러다임의 구조적 한계입니다. GPT Image 2는 이전 버전보다 텍스트 렌더링 성능이 훨씬 뛰어나지만 이러한 근본적인 한계는 사라지지 않았으며 부분적으로만 완화되었습니다.

"AI가 한 번만 다시 작성하도록 허용"이 유용합니까?

유용하지만 제한적입니다.

짧은 표시 용어(3-5단어 제목, 브랜드 이름)의 경우 재생성을 통해 올바른 버전을 "적중"하는 것이 실제로 가능합니다. 그러나 이것은 본질적으로 확률 게임입니다. 각 세대는 독립적인 무승부이며 수렴이 보장되지 않습니다.

긴 텍스트, 여러 텍스트 상자 및 복잡한 레이아웃의 경우 다시 생성해도 문제가 거의 개선되지 않습니다. 근본 원인은 "임의성"이 아니라 모델 기능의 구조적 상한선이기 때문입니다. 10번 다시 시도하고, 아마도 10번은 다른 곳에서 틀릴 수도 있습니다.

보다 안정적인 접근 방식은 AI가 생성한 텍스트를 "스케치"로 처리하는 것입니다. 이는 대략적인 스타일, 레이아웃 및 분위기를 제공하지만 텍스트 자체는 "삭제 - 인식/교정 - 재배치 - 내보내기"의 후처리 프로세스에 들어가야 합니다.

이것은 "AI가 좋지 않다"가 아니라 "AI가 잘하는 부분(비주얼 스타일)을 담당하고, AI가 잘 못하는 부분(정확한 텍스트)을 사람과 도구가 담당한다"는 것이다.

다양한 시나리오의 위험 수준

모든 텍스트에 동일한 수준의 후처리가 필요한 것은 아닙니다. 위험 수준에 따라:

낮은 위험: 포스터 제목, 소셜 미디어 그래픽에 장식적인 텍스트를 사용합니다. 이 유형의 텍스트는 "올바르게 보이는" 한 더 심미적입니다. 일반적으로 AI 직선 + 육안 검사로 충분합니다. inpaint를 사용하여 짧은 표시 단어를 수정할 수도 있습니다.

중간 위험: 브랜드 이름, 이벤트 이름, 날짜, 가격. 이 유형의 텍스트에는 "정말 맞다"가 필요하지만 단어가 많지 않습니다. OCR 확인 + 수동 검토를 사용하고 오류를 수정하려면 로컬 편집을 사용하는 것이 좋습니다.

고위험: 성분 목록, 규제 텍스트, 다국어 라벨, 인포그래픽 데이터. 이러한 유형의 텍스트는 오류 허용 범위가 매우 낮으며 단일 문자 또는 숫자 오류로 인해 법적인 문제가 발생할 수 있습니다. 기본적으로 "OCR 추출 + 벡터 재배열 + 항목별 교정" 과정에 들어가며, AI가 한 번에 제대로 될 것이라고 장담하지 않습니다.

판단 기준은 매우 간단합니다. 포스터 제목은 "정렬된 것처럼 보이도록" 허용할 수 있습니다. 라벨과 인포그래픽은 "실제로 올바르게 정렬"되어야 합니다.

한 문장 요약

AI가 생성한 텍스트의 오류는 우연이 아니라 텍스트 인코딩, 훈련 데이터, 레이아웃 제어, 잠재 공간 압축 및 전처리 등 5개 계층 구조 문제가 중첩된 것입니다. 가장 안정적인 전략은 계속해서 재시도하는 것이 아니라, AI 텍스트를 스케치로 취급하고 '삭제-인식-재배열'의 후처리 과정을 거쳐 수정하는 것이다.

다양한 모델 간의 텍스트 렌더링의 실제 차이점을 보고 싶으십니까? gpt-image-2.live에서 동일한 프롬프트 단어를 사용하여 여러 모델을 실행하고 텍스트 정확도를 비교할 수 있습니다. 격차가 생각보다 크다는 것을 알 수 있습니다.

AI가 생성한 사진에는 왜 항상 오타가 포함되어 있나요? 모델을 분해하여 원인의 5가지 계층을 확인하세요.