Please use this identifier to cite or link to this item: http://ithesis-ir.su.ac.th/dspace/handle/123456789/4921
Title: Thai Smile Voice Classification Model using Convolution Neural Network
โมเดลวิเคราะห์เสียงยิ้มภาษาไทยด้วยเทคนิคการเรียนรู้เชิงลึก
Authors: Naris PROMBUT
นริศร์ พรหมบุตร
Nuttachot Promrit
ณัฐโชติ พรหมฤทธิ์
Silpakorn University
Nuttachot Promrit
ณัฐโชติ พรหมฤทธิ์
promrit_n@silpakorn.edu
promrit_n@silpakorn.edu
Keywords: Data Augmentation
2DCNN
Deep Learning
เสียงยิ้ม
Smile Voice
2DCNN
Data Augmentation
Deep Learning
Issue Date:  28
Publisher: Silpakorn University
Abstract: "Smile Voice" refers to a distinctive vocal quality that conveys the impression of a speaker smiling. This practice of infusing a smiling quality into one's voice is essential for call center professionals. As the initial point of contact, inquiry, and issue resolution for customers and service recipients, call center employees must adeptly manage their emotions and employ conversations that positively reflect the product and service image. Speaking with a smile entails specialized training, including voice modulation and facial expression control. Pronunciation exercises often involve practicing in front of a mirror with guidance from a coach who provides feedback on tone and facial expressions. Additionally, during their work, call center staff should keep a mirror handy to self-monitor their interactions with customers. This research project introduces a model for analyzing Thai speech with a smiling quality, focusing on facial emotions, employing deep learning techniques. The primary goal is to develop a tool that aids in practicing speaking with a smile. And this model is applied to call center voice data with Data Augmentation further improves the model's performance, with the 2D CNN MFCC model coupled with Augmentation achieving a 75.61% accuracy. Additionally, a prototype web application is developed to be a tool to help in training by allowing users to record video clips and can be used to analyze the sound of smiles.
เสียงยิ้ม (Smile Voice) คือเสียงที่ผู้ฟังได้ฟังแล้วเกิดความรู้สึกว่าผู้พูดกำลังยิ้มอยู่ ซึ่งการฝึกเสียงยิ้ม เป็นสิ่งที่พนักงานคอลเซ็นเตอร์ต้องฝึกฝน เนื่องจากพนักงานคอลเซ็นเตอร์ คือด่านแรกของการติดต่อ สอบถาม แจ้งปัญหาจากลูกค้า และผู้รับบริการ ซึ่งในการสนทนาพนักงานคอลเซ็นเตอร์ต้องควบคุมอารมณ์ และเลือกใช้บทสนทนาที่ส่งผลกับภาพลักษณ์ของสินค้า และบริการนั้น ๆ ในทางบวก  การพูดด้วยเสียงยิ้มพนักงานคอลเซ็นเตอร์ต้องมีการฝึกอบรมการใช้เสียง และการแสดงออกทางสีหน้า การฝึกออกเสียงทำโดยฝึกที่หน้ากระจก และมีพนักงานพี่เลี้ยงคอยให้คำแนะนำเกี่ยวกับน้ำเสียง และใบหน้าที่มีรอยยิ้ม และในขณะที่ปฏิบัติงานพนักงานคอลเซ็นเตอร์จะต้องวางกระจกตรงหน้าของตน เพื่อสังเกตตนเองขณะที่สนทนากับลูกค้าด้วย วิทยานิพนธ์นี้สร้างโมเดลวิเคราะห์เสียงพูดภาษาไทยด้วยรอยยิ้ม โดยใช้เทคนิคการเรียนรู้เชิงลึก เพื่อมุ่งให้เกิดการพัฒนาต่อยอดเป็นเครื่องมือช่วยฝึกการพูดด้วยเสียงยิ้ม โดยทดลองสร้างโมเดลจำแนกเสียงยิ้มในภาษาไทย และนำโมเดลมาปรับใช้กับชุดข้อมูลเสียงของคอลเซ็นเตอร์ โดยนำชุดข้อมูลมาทำ Data Augmentation พบว่า โมเดลที่มีประสิทธิภาพดีที่สุดคือ 2D CNN MFCC ร่วมกับ Augmentation ได้ค่าความถูกต้อง 75.61%  และมีการสร้างต้นแบบโปรแกรมเว็บประยุกต์  (Web Application Prototype) เพื่อเป็นเครื่องมือช่วยในการฝึกฝน โดยให้ผู้ใช้บันทึกคลิปวิดีโอ และนำไปวิเคราะห์หาเสียงยิ้มได้
URI: http://ithesis-ir.su.ac.th/dspace/handle/123456789/4921
Appears in Collections:Science

Files in This Item:
File Description SizeFormat 
60309803.pdf5.52 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.