Yapay zeka tarafından çizilen resimlerin giderek daha iyi hale geldiğini,

Fark etmiş olabilirsiniz: Yapay zeka tarafından çizilen resimler giderek daha iyi hale geliyor, ancak resimlerdeki kelimeler genellikle yanlış. Bu bir tesadüf değil, yapısal bir sorun.

Çılgın bir sahne

Güzel bir tanıtım posteri oluşturmak için yapay zekayı kullanırsınız. Kompozisyon mükemmel, renk uyumu gelişmiş, ışık ve gölge doğal. Sonra daha yakından bakarsınız - "YAZ İNDİRİMİ", "YAZ SAIE" olarak yazılmıştır veya Çince "Sınırlı Süreli Özel Teklif" başlığındaki "Hui" kelimesinde yatay bir çizgi eksiktir.

Bir kez yenilendin. Bu sefer "İNDİRİM" doğru ama alt başlıktaki tarih bozuk.

Tekrar dene. Tarih doğru, ancak karakter aralıkları birdenbire büyüyüp küçülüyor ve genel düzen sarhoş gibi görünüyor.

Bunun nedeni, hızlı sözcüklerinizin iyi yazılmamış olması ya da modelin çok kötü olması değildir. Bu, mevcut yapay zeka görüntü oluşturma teknolojisinin yapısal bir eksikliğidir ve yakın zamanda da ortadan kalkmayacak.

Bu makale sorunu ayrıntılı olarak ele alacak, "kelimelerin neden her zaman yanlış yazıldığını" beş düzeyde açıklayacak ve ardından "yapay zekanın yeniden yazmasına izin vermenin" neden genellikle en iyi çözüm olmadığını anlatacak.

İlk neden düzeyi: model sözcüğü hiç "tanımıyor"

Çoğu kişi yapay zeka modellerinin "önce metni anladığını, sonra çizdiğini" düşünüyor. Durum böyle değil.

Ana akım görüntü oluşturma modelleri (Stable Diffusion, DALL-E, Flux, vb.), metni "kelime parçalarına" bölen bir kodlama yöntemi olan BPE kelime bölümlendirmesini kullanır. BPE anlambilimi anlamada iyidir ("Bu bir posterdir"), ancak glifleri tam olarak kontrol etmede iyi değildir ("Bu harf bir E'dir, F değil").

Daha da sıkıntılı olan şey, ister CLIP ister T5 olsun, bu modellerdeki metin kodlayıcıların "karakterleri doğru bir şekilde çizmek" için tasarlanmamasıdır. CLIP "kavram uyumu"ndan (resimler ve metin arasındaki yazışmayı anlama) yanadır ve T5 "dili anlama"dan (cümlelerin anlamını anlama) yanadır. İkisi de "piksel düzeyinde metin oluşturma" için tasarlanmamıştır.

Örneğin: Anlayışı güçlü ancak yazma becerisi zayıf olan bir kişinin gözleri kapalı olarak bir metni tuval üzerine kopyalamasına izin verin. Kabaca ne yazmak istediğini biliyor ama her kelimenin vuruşları, aralıkları ve boyutları farklı. Bu, mevcut metin işleme modelinin temel durumudur.

Bunun anlamı şudur: Bilgi istemi sözcüklerini nasıl optimize ederseniz edin, modelin metin kontrolünün doğruluğunun doğal olarak bir üst sınırı vardır. Bu üst sınır "istem sözcüğü tekniği" ile aşılamaz.

İkinci düzey neden: eğitim verilerinde "glif çiftlerinin" eksikliği

Model, metni doğru bir şekilde oluşturabilse bile, öğrenilmesi için büyük miktarda "metin-glif" eşleştirilmiş eğitim verisi gerekir. Sorun şu ki, bu tür yüksek kaliteli veriler nadirdir.

Gerçek dünya görüntülerinde gerçekten çok fazla metin var (sokak tabelaları, ambalajlar, posterler, kitaplar) ancak bu metnin yazı tipi açıklaması neredeyse yok denecek kadar az. Model "bu resimde kelimeler var" biliyor ancak "bu kelime için hangi yazı tipi, hangi ağırlık ve hangi aralığın kullanıldığını" bilmiyor.

Sonuç şu: model "kelimeleri kabaca çizmeyi" öğrenebilir, ancak "yazı tipi stilini tam olarak kontrol etmeyi" öğrenemez. Bu doğrudan yazı tipi stilinde kaymaya yol açar; sans-serif sorarsanız, size yaklaşık bir serif verecektir; aynı çizgide aynı kalınlığı sorarsanız size daha kalın veya daha ince olanı verecektir.

Çin'de durum daha da ciddi. Yaygın olarak kullanılan binlerce Çince karakter vardır ve çizgi karmaşıklığı Latin harflerinden çok daha yüksektir, ancak eğitim verilerindeki Çince metin açıklamaları daha da azdır. Bu, neden birçok modelin İngilizce'de "tamam" olduğunu, ancak Çince'de "sık sık yanlış" olduğunu açıklıyor.

Üçüncü nedenler katmanı: düzen kontrolü çok zayıf

Resimdeki bir metin parçası sadece "birkaç kelimeden" ibaret değildir; konum, boyut, satır aralığı, karakter aralığı, hizalama, taban çizgisi vb. gibi bir grup geometrik ilişkiyi içerir. Mevcut modellerin bu geometrik ilişkiler üzerinde zayıf kontrolü vardır.

Basit senaryolarda bu çok açık değildir; büyük bir başlık, bir marka adı, model genellikle bunun üstesinden gelebilir. Ancak çok satırlı bir metin, birden çok metin kutusu ve farklı düzeylerde dizgi haline geldiğinde sorunlar ortaya çıkar:

Kelimeler bazen uzak bazen yakın ve satır aralıkları tutarsız
Sol ve sağ yanlış hizalama, taban çizgisi kayması
Birden fazla metin kutusunun göreceli konumu yanlış
Uzun paragrafların arka satırındaki metnin kalitesi önemli ölçüde azalır

Akademik topluluk bunları toplu olarak "uzun metin" ve "çoklu metin kutusu" sorunları olarak adlandırmaktadır ve bunlar şu anda zorluklar olarak kabul edilmektedir. EasyText ve BizGen gibi araştırmalar özellikle "uzun metin", "çoklu metin" ve "düzensiz alanlar" üzerine odaklanıyor ve bu da bu senaryoların istikrarının çözülmekten uzak olduğunu gösteriyor.

Pratik Etki: Figürünüzün yalnızca tek satırlık bir başlığa ihtiyacı varsa yapay zeka bu işi yapabilir. Görselinizde beş veya altı düzeyde metin (başlık, alt başlık, zaman, yer, satış noktası, harekete geçirici mesaj) varsa ve her düzeyin tam olarak yazılması gerekiyorsa yapay zekanın başarısızlık oranı önemli ölçüde artar.

Dördüncü neden katmanı: gizli alan sıkıştırması küçük karakterlere uygun değildir

Difüzyon modeli doğrudan piksel uzayında çalışmaz, ancak onu sıkıştırılmış bir "gizli uzayda" üretir. Bu, büyük nesneler (manzaralar, insanlar, ürünler) için çok uygundur; video belleğinden tasarruf sağlar, bilgi işlem gücünden tasarruf sağlar ve yüksek verimlilik sağlar.

Ancak küçük baskılar için gizli alan sıkıştırması, yüksek frekanslı ayrıntıların kaybı anlamına gelir. Sıkıştırma ve geri yükleme işlemi sırasında ince konturlu, sert kenarlı ve son derece düşük hata toleransına sahip metinlerin ortaya çıkması muhtemeldir:

Bulanık veya kırık vuruşlar
pürüzlü kenarlar
Yakınlaştırdıktan sonra "yanlış ayrıntılar" görünüyor - kelimelere benzeyen ancak aslında model tarafından "hayal edilen" vuruşlar

Bu, yaygın bir olguyu açıklıyor: Yapay zeka tarafından oluşturulan büyük başlıklar genellikle iyidir, ancak küçük metinler (fiyat, içindekiler, sorumluluk reddi beyanları) genellikle bulanık veya çarpıktır. Sorun modelin küçük karakterleri iyi yazmayı "istmemesi" değil, gizli alanın çözünürlüğünün küçük karakterleri iyi "yazabilme" derecesini sınırlamasıdır.

Çözümün mantığı: Önce kelimeleri düzeltin, sonra büyütün. Önce büyütürseniz ve sonra karakterleri düzeltirseniz, model, büyütme işlemi sırasında daha fazla hatalı kontur ayrıntısını "beyinle dolduracak" ve onarımı daha zor hale getirecektir.

Nedenlerin beşinci katmanı: tanımlama ve ön işleme de sizi kandırabilir

Yapay zeka tarafından oluşturulan kelimeler "neredeyse doğru" görünse bile bunları doğrulamak için OCR aracını kullandığınızda sorunlarla karşılaşabilirsiniz. Bu OCR aracının hatası değildir ancak görüntü ön işlemesi iyi yapılmamıştır.

Tesseract resmi belgeleri, OCR'nin başarısı veya başarısızlığı için temel ön işleme olarak dört şeyi açıkça listeliyor: yeniden ölçeklendirme (ölçekleme), ikilileştirme (ikilileştirme), gürültü giderme ve eğrilik (düzeltme). PaddleOCR üç ek anahtar ekler: yön sınıflandırması, metin görüntüsü düzeltme ve metin satırı yön sınıflandırması.

Başka bir deyişle, birçok "OCR tanıma hatasının" temel nedeni tanıyıcının kendisi değil, görüntünün geometrisi ve ön işlenmesidir. 2 derece çarpık bir görüntü, yetersiz kontrasta sahip bir metin alanı, çok yumuşak kenar yumuşatma özelliğine sahip bir metin parçası - bunların hepsi OCR'nin tamamen yanlış sonuçlar üretmesine neden olabilir.

Pratik öneriler: Yapay zeka tarafından oluşturulan metni doğrulamak için OCR'yi kullanmadan önce şu ön işlemleri yapın: metin alanındaki kontrastın yeterli olduğundan, görüntünün önemli ölçüde eğilmediğinden ve metnin kenarlarının aşırı derecede bulanık olmadığından emin olun. Bu, daha büyük bir OCR modeline geçmekten çok daha etkilidir.

Beş neden katmanının üst üste bindirilmesinden sonraki gerçeklik

Beş katmanı bir araya getirdiğinizde "Yapay Zeka yazmanın" neden bu kadar zor olduğunu anlayacaksınız:

Modelin metin kodlayıcısı hassas glifler için tasarlanmamıştır
Yüksek kaliteli glif yazı tipi eşleştirme eğitim verilerinin eksikliği
Çoklu metin düzeninin zayıf geometrik kontrol yeteneği
Gizli alan sıkıştırması, küçük karakterlerin yüksek frekanslı ayrıntılarına uygun değildir.
Yanlış görüntü ön işlemesi doğrulamada hatalara yol açacaktır

Bu beş katmanlı problemler belirli bir modelin kusurları değil, tüm dağınık görüntü oluşturma paradigmasının yapısal sınırlamalarıdır. GPT Image 2, metin oluşturma konusunda önceki sürüme göre çok daha iyidir, ancak temeldeki bu sınırlamalar ortadan kalkmamıştır; yalnızca kısmen hafifletilmiştir.

"Yapay zekanın bir kez yeniden yazmasına izin ver" yararlı mı?

Faydalı ama sınırlıdır.

Kısa görüntüleme terimleri için (3-5 kelimelik başlıklar, marka adları), yenileme ile doğru bir versiyona "ulaşmak" aslında mümkündür. Ancak bu aslında bir olasılık oyunudur; her nesil bağımsız bir çekiliştir ve yakınsama garanti edilmez.

Uzun metinler, birden fazla metin kutusu ve karmaşık düzenler için yeniden oluşturma işlemi nadiren sorunu iyileştirecektir. Çünkü temel neden "rastgelelik" değil, modelin yeteneklerinin yapısal üst sınırıdır. 10 kez tekrar denersiniz, belki 10 kez de farklı yerlerde yanlış anlarsınız.

Daha istikrarlı bir yaklaşım, yapay zeka tarafından oluşturulan metni bir "taslak" olarak ele almaktır; bu size kaba bir stil, düzen ve atmosfer verir, ancak metnin kendisinin "silme - tanıma/düzeltme - yeniden düzenleme - dışa aktarma" gibi bir işlem sonrası sürecine girmesi gerekir.

Bu, "Yapay zeka iyi değil" değil, "Yapay zeka iyi olduğu kısımlardan (görsel stil) sorumludur ve yapay zekanın iyi olmadığı kısımlardan (kesin metin) insanlar ve araçlar sorumludur".

Farklı senaryolardaki risk seviyeleri

Tüm metinler aynı düzeyde son işleme gerektirmez. Risk seviyesine göre:

Düşük risk: Poster başlıkları için dekoratif metinler, sosyal medya grafikleri. Bu tür yazılar "doğru göründüğü" sürece daha estetiktir. Doğrudan yapay zeka + görsel inceleme genellikle yeterlidir. Kısa ekran sözcüklerini düzeltmek için inpaint'i kullanmayı da deneyebilirsiniz.

Orta risk: marka adı, etkinlik adı, tarih, fiyat. Bu tür metinler "gerçekten doğru" gerektirir ancak çok fazla kelime yoktur. OCR doğrulama + manuel incelemenin kullanılması ve hataları onarmak için yerel düzenlemenin kullanılması önerilir.

Yüksek risk: içerik listeleri, düzenleyici metinler, çok dilli etiketler, infografik veriler. Bu tür metinlerin hata toleransı son derece düşüktür ve tek bir harf veya rakam hatası hukuki sorunlara yol açabilir. Varsayılan olarak, "OCR çıkarma + vektör yeniden düzenleme + öğe bazında düzeltme okuması" sürecine girer ve yapay zekanın bunu tek seferde doğru yapacağına dair bahse girmez.

Yargı standardı çok basittir: Poster başlıklarının "doğru düzenlenmiş gibi görünmesine" izin verilebilir; etiketler ve infografiklerin "gerçekten doğru şekilde düzenlenmesi" gerekir.

Bir cümlelik özet

Yapay zeka tarafından oluşturulan metindeki hatalar tesadüfi değil; metin kodlama, eğitim verileri, düzen kontrolü, gizli alan sıkıştırma ve ön işleme gibi beş katmanlı yapısal sorunların üst üste binmesidir. En istikrarlı strateji, tekrar tekrar denemek değil, AI metnini bir taslak olarak ele almak ve onu düzeltmek için "silme-tanıma-yeniden düzenleme" işlem sonrası sürecini kullanmaktır.

Farklı modeller arasındaki metin oluşturmadaki gerçek farkı görmek ister misiniz? gpt-image-2.live üzerinde aynı istem sözcüğünü kullanarak birkaç modeli çalıştırabilir ve metin doğruluğunu karşılaştırabilirsiniz; aradaki farkın düşündüğünüzden daha büyük olduğunu göreceksiniz.

Yapay zeka tarafından oluşturulan resimler neden her zaman yazım hataları içeriyor?