Stable Diffusion

Windygallery
3 min readMar 25, 2023

--

เมื่อปัญญาประดิษฐ์ก้าวข้ามผ่านความคิดสร้างสรรค์

โดยความเห็นส่วนตัว
ปี 2023 เป็นปีที่มีเรื่องน่าตื่นเต้นต่อสายงานไอทีระดับ 20 ปีจะเจอซักรอบ
เพียงแต่ปีนี้แค่ไตรมาสเดียว มาแล้ว 2 รอบ

เรื่องแรก คือ ChatGPT ที่เล่าไปแล้วใน post ก่อน
แต่วันนี้จะมาเล่าความตื่นเต้นของเทคโนโลยีตัวที่สองที่ทำให้แทบไม่ได้หลับได้นอนมาเป็นอาทิตย์ เราเรียกกันว่า

“Stable Diffusion”

ชื่ออาจจะฟังดูอ่านยากๆ เพื่อให้เขียนง่ายและอ่านง่ายลง
ในบทความนี้จะย่อเหลือแค่ “SD” และจะพยายามเล่าด้วยภาษามนุษย์ปกติ เผื่อให้เพื่อนๆที่ไม่ได้อยู่ในวงการไอทีพอจะทำความเข้าใจถึงความอลังการของเทคโนโลยีนี้ได้บ้าง

เรื่องย่อแบบรวบรัดของ Stable Diffusion (SD) ก็คือ
มันเป็นปัญญาประดิษฐ์แบบที่รับคำสั่งด้วยข้อความ (Prompts)
แล้วสร้างรูปภาพให้เราได้ภายในเวลาไม่กี่นาที

เช่น ถ้าเราพิมพ์ว่า เราอยากได้รูปแมวสีส้มที่เดินอยู่บนถนนหลังฝนตกเสร็จใหม่ ยามพลบค่ำ เป็นภาพถ่ายเหมือนถ่ายด้วยกล้อง Sony A7 II และแมวมันหันมามองกล้องด้วย SD มันจะสร้างภาพแบบนี้มาให้เรา

A little Tabby cat in a street at twilight, close up shot, from below, ultra-detailed, (masterpiece), rim light, sharp focus, photographed on a Sony A7 II, HDR, 8k resolution, look at viewer, wet ground, after rain

เบื้องหลังของ Magic ที่สร้างภาพให้เรานี้ จริงๆแล้วเป็นคณิตศาสตร์แบบที่ถ้าเป็นคนก็คำนวณกันตาแตก เพราะมันคือการคำนวณวนซ้ำรัวๆเพื่อปรับปรุงแต่ละจุด (pixels) ของภาพให้กลายเป็นรูปทรง/ภาพ/สีสัน ให้สอดคล้องกับคำ(Prompts) ที่เราป้อนเข้าไปให้ แล้วก็วนปรับไปเรื่อยๆเป็นรอบๆ จนกระทั่งจุดสีทั้งหมดกลายเป็นภาพที่สอดคล้องกับเรื่องราว (ภาษาทางเทคนิค คือ Deep learning ที่เป็น neural networks ที่ถูกเทรนกับรูปภาพมหาศาลจนสามารถเข้าใจคำกับภาพมาดีแล้ว)

ตัวอย่างการเปลี่ยนแปลงจุดในภาพจาก Noise จนเป็นภาพที่ความหมายตรงกับคำสั่ง (Prompts)

มาถึงจุดนี้ คนทั่วไปอาจจะงง และสงสัยว่าแล้วมันน่าตื่นเต้นยังไง

ประเด็น คือ

เมื่อก่อนเราเข้าใจว่า คอมพิวเตอร์ชนะคนแน่นอนเรื่องการคำนวณ (ไม่เชื่อลองคิดเลขแข่งกับเครื่องคิดเลขก็ได้) แต่เรื่องความคิดสร้างสรรค์ (Creative) นี่คนน่าจะชนะ

พอมาถึงวันนี้

ด้วยเทคนิค ณ ปัจจุบันที่คอมพิวเตอร์สร้างภาพจากโจทย์ที่เราให้ได้ มันกลับทำได้เกินขอบเขตเดิมที่คนธรรมดา/สุดยอดฝีมือทำได้ ไประดับทะลุขอบฟ้า

และทำให้นิยามคำว่า Creative และความคิดสร้างสรรค์เปลี่ยนไปหมดเลย

  • เราอาจขอให้ SD ออกแบบรถ โดยใช้ style ของนักศิลปะชื่อดัง
  • เราอาจขอให้ SD สร้างรูปวัด โดยใช้ style ของนักออกแบบตึกทันสมัย
  • เราอาจขอให้ SD วาดรูปการ์ตูน โดยใช้ style ของ Disney เป็นแบบ
  • เราอาจขอให้ SD สร้างรูปถ่ายดาราดัง มาถือสินค้าที่เราอยากขาย

ที่พิมพ์มาทั้งหมดนี้ ทำได้ด้วยคอมพิวเตอร์ในบ้านปกติ 1 เครื่อง และภายในไม่กี่นาที

(และอาจมีต้นทุนเท่ากับค่าไฟและค่า Internet ธรรมดา)

และเนื่องจากความรู้ในการออกแบบ 3D ของบ้านผมเป็นศูนย์ ผมก็เลยลองขอให้ SD ออกแบบห้องนั่งเล่น ห้องครัว กับแปลนบ้านน่ารักๆให้ดู และนี่คือผลลัพธ์ที่ได้

ห้องนั่งเล่น, ห้องครัว, โครงสร้างบ้าน

พอได้ลองเล่นไปเรื่อยๆ ก็เริ่มเข้าใจกระบวนการทำงานของ Prompts กับการปรับจูนให้ SD สร้างภาพที่มีความแตกต่าง/ทำซ้ำ/เพิ่มคุณภาพ/เปลี่ยนรูปแบบ style/เปลี่ยนมุมกล้อง/เปลี่ยนแบบ และเมื่อกลุ่มคนที่สนใจเรื่องเดียวกันมารวมกัน ช่วยกันทำและช่วยกันสร้าง นวัตกรรมก็เกิดขึ้นอย่างรวดเร็วมาก

ให้วาดแมว, เด็กในสวนดอกไม้, ออกแบบรถในอนาคต

และอยู่มาวันหนึ่งก็มีนักพัฒนาคนนึงปล่อย model ของการสร้างภาพคนให้ใช้กันบน civitai (ชุมชนออนไลน์ที่สนใจเรื่อง SD โดยตรง) แล้วก็เกิดความโกลาหลของวงการภาพถ่ายอย่างดุเดือด เพราะว่า model นี้สร้างภาพคนออกมาสวยและเหมือนจริงมาก

ภาพคนที่ทดลองสร้างด้วย SD

แล้วทั้งวงการก็ปั่นป่วน เพราะทุกคนพุ่งเข้าใส่และสั่งให้ SD เสกรูปสาวๆกันรัวๆ
และความบันเทิงก็ขยับขึ้นไปอีกขั้น เมื่อมีคนช่วยพัฒนาส่วนเสริม (Lora) ที่เป็นชุดนักศึกษา, ชุดไทย หรือแม้กระทั่ง ผ้าถุงไทย ขึ้นไปแจกบนชุมชน (การแตกตื่นเรื่องความงามของสาวไทยของนักพัฒนาชาวไทย ไม่แพ้ใครในโลก Internet)

ภาพคนที่ทดลองสร้างด้วย SD
ทดลองให้ SDnออกแบบฉากต่อสู้ในหนัง, เมืองมุมสูง, สาวบนเครื่องบิน, ห้องน้ำ

ความสามารถของ Stable diffusion นั่นเพิ่งเริ่มต้น และมันเพิ่งเริ่มระเบิดเป็นพลุแตกในไม่กี่อาทิตย์นี้ เมื่อคนรู้ถึงความสามารถของ SD ดีขึ้น การประยุกต์ใช้ที่อาจจะนำมาซึ่งการเปลี่ยนแปลงในวงการกราฟิกน่าจะเกิดขึ้นอย่างรวดเร็ว

  • จะอะไรถ้าเราสามารถสั่งให้ SD สร้างรูปอะไรก็ได้ที่เราต้องการ?
  • สั่งให้ออกแบบ story board สำหรับการถ่ายหนัง
  • ออกแบบ poster สวยๆเป็น reference สำหรับการถ่ายทำจริง
  • สร้างภาพ print ads ทันทีตามที่บรีฟจบ (คอมต้องแรงนิดนึง)
  • ขยายภาพคุณภาพต่ำให้มีรายละเอียดสูงพอจะพิมพ์ใหญ่ (อันนี้มีมานาน)
การทดสอบขยายความละเอียดภาพให้สูงขึ้นด้วย SD
  • ถอดเบลอ (sensor) ออก อันนี้ก็มีนานล่ะ แต่คนทั่วไปคงไม่มีใครใช้ (เอ๊ะ รึไม่จริง)
  • ออกแบบ product ใหม่ๆโดยใช้ไอเดียผสม style ที่คนปกติทำไม่ได้
  • ออกแบบห้อง/ตึก ตามสามัญสำนึกของ SD (ที่ไม่เหมือนคน)
  • สร้างภาพถ่าย fake news หลอกลวงคนด้วยภาพเหมือนจริงที่เหลือเชื่อ เช่น ประธานาธิบดี USA ดื่มสุรากับปูติน, นายกไทยทำเรื่องดีๆ (เอ๊ะ fake ยังไง?)
  • เปลี่ยนรูปจากคนหนึ่งไปเป็นอีกคน โดยไม่ต้องมานั่งตัดต่อด้วยมือ
  • สร้างรูป NSFW
  • เทรนเอาสินค้าไปอยู่ในภาพ เช่น เสื้อผ้า, ชุดเครื่องประดับ ไปใส่นางแบบโดยไม่ต้องถ่ายของจริง (ต้นทุนลด)
  • สร้างภาพประกอบบทความ/present ได้ตรงตามต้องการ
  • ฯลฯ

และย้ำอีกครั้งว่าเทคโนโลยีนี้ ย่อขนาดมาอยู่ในเครื่องคอมพิวเตอร์ธรรมดาๆในบ้านคนทั่วไปได้แล้ว (แม้จะใช้พื้นที่ Harddisk กับพลังในการประมวลผลภาพเยอะซักหน่อย) แต่มันอาจจะมีแนวโน้มที่จะกลายเป็นทักษะใหม่ๆของเด็กๆรุ่นนี้ ที่จะใช้ในการสร้างสรรค์ผลงานในอนาคตอันใกล้มากนี้ ในระดับที่คนที่ใช้ไม่เป็น ไม่อาจตามทัน ทั้งเวลาและต้นทุนในการผลิตอีกเลย

:)

ขอให้สนุกกับอนาคตที่มาถึงแล้วครับ

@windygallery

--

--