ทำความรู้จัก Generative AI เทคโนโลยีเปลี่ยนโลก
Student blog — 05/10/2024
Generative AI เป็นสาขาย่อยของ การเรียนรู้เชิงลึก (Deep Learning) ซึ่งเป็นสาขาหนึ่งของปัญญาประดิษฐ์ (AI) ที่ใช้สำหรับการสร้าง Content ขึ้นมาใหม่ เช่น ข้อความ (Text) รูปภาพ (Image) และวิดีโอ (Video) ได้ โดยใช้อัลกอริทึม (Algorithm) และตัวแบบ (Model) ที่ผ่านการเรียนรู้ (Train) ด้วยข้อมูลจำนวนมหาศาล เพื่อให้ได้ผลลัพธ์ที่ถูกต้อง และสมจริงมากที่สุด ผู้ใช้โดยทั่วไปสามารถใช้งาน Generative AI ผ่านทาง Prompt โดยการพิมพ์ข้อความคำสั่งที่อยู่ในรูปแบบภาษาที่ใช้ในชีวิตประจำวัน เรามาทำความรู้จัก Generative AI ซึ่งเป็นหนึ่งในเทคโนโลยีที่กำลังเปลี่ยนแปลงโลกใบนี้กัน
- 1.Generative Models และ Language Models
- • Generative Models เป็นประเภทหนึ่งของตัวแบบ (Model) ทางการเรียนรู้ด้วยเครื่อง (Machine Learning) ที่สามารถสร้าง (Generate) ข้อมูลใหม่ หรือ Output จากการเรียนรู้รูปแบบ (Pattern) ของ Input
- • Language Models (LMs) เป็นตัวแบบทางสถิติ (Statistical Model) ที่สามารถทำนายคำ (Word) ตามลำดับในรูปแบบของภาษาธรรมชาติ (Sequence of Natural Language) โดย LMs บางตัวประยุกต์ใช้ Deep Learning และถูก Train ด้วย Dataset จำนวนมหาศาล กลายเป็น Large Language Models (LLMs)
- 2. ประเภทของ Generative Models
- 1. Text-to-Text: สร้างข้อความ (Text) จาก Input ที่เป็น Text เช่น GPT-4 และ Claude
- 2. Text-to-Image: สร้างรูปภาพ (Image) จาก Text Caption เช่น DALL-E 2 และ ImageGen
- 3. Text-to-Audio: สร้างคลิปเสียง (Audio Clip) และดนตรี (Music) จาก Text เช่น AudioLM และ MusicGen
- 4. Text-to-Video: สร้างวิดีโอ (Video) จาก Text เช่น Phenaki และ EmuVideo
- 5. Text-to-Speech: สังเคราะห์ (Synthesize) คลิปเสียงพูด (Speech Audio) จาก Input ที่เป็น Text เช่น WaveNet และ Tacotron
- 6.Speech-to-Text: ถอดเสียงจาก Speech Audio แปลงเป็น Text เช่น Whisper และ SpeechGPT
- 7. Image-to-Text: สร้างคำบรรยายภาพ (Image Caption) จาก Image เช่น CLIP และ DALL-E 3
- 8. Image-to-Image: แปลง Image เดิม เป็น Image ใหม่ ด้วยหลักการของ Data Augmentation เช่น การทำ Super-resolution และ Style Transfer
- 9.Text-to-Code: สร้าง Code ของ Program จาก Text เช่น Stable Diffusion และ DALL-E 3
- 10. Video-to-Audio: วิเคราะห์ Video และสร้าง Audio ที่สอดคล้องกัน เช่น Soundify
- 3. การประยุกต์ใช้ Large Language Models (LLMs)
LLMs สามารถทำนายคำ (Word) ตามลำดับในรูปแบบของภาษาธรรมชาติ (Sequence of Natural Language) โดยการประยุกต์ใช้ Deep Learning และถูก Train ด้วย Dataset จำนวนมหาศาล ช่วยให้ Machine สามารถเข้าใจภาษาธรรมชาติได้ ตัวอย่างการประยุกต์ใช้ LLMs มีดังนี้
- 1. Question answering: ผู้ช่วยส่วนตัวที่ช่วยลดภาระการทำงานของ Customer Support และช่วยพัฒนาประสบการณ์ใหม่ ๆ ให้กับลูกค้า เช่น Chatbot
- 2. Automatic summarization: ตัวช่วยสรุปเนื้อหาในเอกสารต่าง ๆ เช่น บทความ หรือ เนื้อหาอื่น ๆ ส่งผลให้สามารถทำความเข้าใจในเนื้อหาได้รวดเร็วขึ้น
- 3. Sentiment analysis: ตัวช่วยในการวิเคราะห์ความคิดเห็นและอารมณ์ความรู้สึกที่ซ่อนอยู่ในข้อความหรือเนื้อหา เช่น Feedback ของลูกค้า
- 4. Topic modeling: LLMs สามารถค้นหาหัวข้อเชิงนามธรรม (Abstract topic) และรูปแบบ (Theme) ของเอกสารที่อยู่ในคลังได้ ส่งผลให้เกิดการแยกแยะกลุ่มคำ และค้นหาโครงสร้างหรือความสัมพันธ์ของคำในเอกสารที่ซ่อนอยู่
- 5. Semantic search: ตัวช่วยให้เกิดความเข้าใจความหมายที่ซ่อนอยู่ในเอกสาร โดยประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) ในการตีความหมาย เพื่อให้การค้นหา (Search) เอกสารตามความต้องการของผู้ใช้มีประสิทธิภาพมากขึ้น
- 6. Machine translation: ตัวช่วยในการแปลข้อความจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง ช่วยให้ธุรกิจสามารถขยายตัวไปยังประเทศอื่น ๆ ได้ง่ายขึ้น
จะเห็นได้ว่า Generative AI มีความฉลาด และใช้งานง่าย สามารถนำมาช่วยอำนวยความสะดวกทั้งในด้านการเรียน การทำงาน และการใช้ชีวิตประจำวัน ตัวอย่างเช่น นักศึกษาในหลักสูตรวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี ม.หอการค้าไทย ได้ใช้ Gemini มาช่วยให้การเขียนโปรแกรมเพื่อพัฒนา Mobile App ได้อย่างรวดเร็วมากขึ้น ดังแสดงในรูป (Code สีเทาเอียง คือ Code ที่ Gemini สร้างให้ โดยเรียนรู้จากสิ่งที่เกิดขึ้นในอดีต พูดง่าย ๆ ก็คือการทำนายว่าเราจะพิมพ์ Code อะไรต่อไป โดยดูจาก Code ที่มีอยู่แล้ว)
อย่างไรก็ตาม เราต้องใช้ AI อย่างมีสติ โดยต้องเข้าใจพื้นฐานเสียก่อน เนื่องจาก AI ไม่ได้ให้คำตอบที่ถูกต้องเสมอไป และการเชื่อ AI ไปเสียทุกเรื่องโดยที่ไม่มีความรู้ในเรื่องนั้น ๆ อาจก่อให้เกิดผลเสียได้