DataPR: Vol24.copyCat

ฉบ้บที่ 24 เดือนมกราคม 2557

ตรวจสอบการคัดเลือกผลงานทางวิชาการและวิทยานิพนธ์ด้วย copycat

ปัจจุบันเอกสารถูกเปลี่ยนแปลงอยู่ในรูปแบบอิเล็กทรอนิกส์มากขึ้น ส่งผลให้ง่ายต่อการคัดลอกผลงานของผู้อื่นมาเป็นผลงานของตัวเองโดยไม่มีการอ้างอิงแหล่งที่มา ซึ่งถือว่าเป็นการกระทำที่ผิดจริยธรรมและจรรยาบรรณ ในต่างประเทศถือว่าผิดกฎหมายสามารถถูกฟ้องร้องได้ การโจรกรรมทางวรรณกรรม (Plagiarism) จึงเป็นปัญหาใหญ่ที่พบในแวดวงการศึกษาวิชาการในประเทศไทยที่เกิดขึ้นมานานแล้วและยังพบเห็นได้อยู่เสมอ ทั้งในระดับนักวิจัย ครู อาจารย์ นักเรียน และนักศึกษา เป็นปัญหาที่บุคคลในวงวิชาการต้องตระหนักและเร่งแก้ไขปัญหา

การตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการ ถือเป็นงานที่ต้องใช้เวลาและความละเอียดของผู้ตรวจเป็นอย่างมาก โดยปกติจะใช้วิธีการตรวจสอบการคัดลอกด้วยมือ ผู้ตรวจจะต้องทำการอ่านซ้ำวนไปวนมาในแต่ละเอกสารที่ต้องการตรวจสอบ แล้วเลือกประโยคที่คิดว่าน่าสงสัยมาตรวจสอบโดยผ่านเครื่องมือสืบค้น (Search Engine) หรือไปที่ห้องสมุด ซึ่งวิธีการนี้ต้องใช้ประสบการณ์ของผู้ตรวจมากและบางประโยคอาจหลุดการนำมาตรวจสอบ อีกทั้งแหล่งข้อมูลยังไม่ครอบคลุม จำนวนเอกสารก็มีมากขึ้นเรื่อยๆ ทุกปี เพราะฉะนั้นเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการจึงเป็นส่วนที่สำคัญสำหรับช่วยผู้ตรวจในการหาแหล่งที่มาของเอกสารว่าคัดลอกมาจากแหล่งใด

ปัจจุบันเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานทางวิชาการในต่างประเทศที่ได้รับความนิยม เช่น Turnitin (อ่านว่า เทิร์น-อิท-อิน) เป็นเครื่องมือที่สามารถตรวจสอบการคัดลอกงานเขียนจากฐานข้อมูลหลายแหล่ง เช่น เว็บไซต์ บทความตีพิมพ์ วารสาร นิตยสาร เป็นต้น มหาวิทยาลัยในประเทศไทยที่ใช้ ได้แก่ จุฬาลงกรณ์มหาวิทยาลัย มหาวิทยาลัยธรรมศาสตร์ มหาวิทยาลัยมหิดล เป็นต้น อย่างไรก็ตามยังมีข้อผิดพลาดในด้านการตรวจสอบเอกสารภาษาไทย ที่มักมีปัญหาเรื่องสระและวรรณยุกต์

หน่วยปฏิบัติการวิจัยเทคโนโลยีเสียง ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ จึงได้วิจัยและพัฒนาระบบตรวจสอบลิขสิทธิ์ผลงานวิชาการและวิทยานิพนธ์ ที่เรียกว่า ก๊อปปี้แคท (CopyCat: Copyright, Academic Work and Thesis Checking System)

CopyCat เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ เช่น วิทยานิพนธ์ ข้อเสนอโครงการ ผลงานวิชาการ เว็บเพจ เป็นต้น สนับสนุนการตรวจสอบความคล้ายของเอกสารทั้งภาษาไทยและภาษาอังกฤษ โดยสามารถตรวจสอบกับเอกสารที่จัดเก็บไว้ในคลังข้อมูลหรือเอกสารออนไลน์บนอินเทอร์เน็ต และแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน CopyCat ถือได้ว่าเป็นเครื่องมือที่ใช้ตรวจสอบข้อความภาษาไทยได้ดีเมื่อเทียบกับเครื่องมือจากค่ายอื่น โดยเวอร์ชันปัจจุบันคือเวอร์ชัน 2.1

CopyCat ถือเป็นผลงานวิจัยที่มีเส้นทางการพัฒนามาอย่างต่อเนื่อง โดยเริ่มทำการวิจัยและพัฒนาตั้งแต่ปี พ.ศ. 2553 ซึ่งเรียกว่า ดุ๊บดิ๊บ (Duplicate Detector Intelligent Plagiarism Checking: DupDip) โดยเริ่มแรกจุดมุ่งหมายในการพัฒนางานวิจัยนี้มาจากการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย (NSC) ที่เนคเทคเป็นเจ้าภาพ ซึ่งการจัดการประกวดในแต่ละปีต้องมีการส่งขอเสนอโครงการผ่านระบบลงทะเบียนออนไลน์ที่ชื่อว่า GENA ปัญหาที่พบคือมีการคัดลอกข้อความหรือผลงานของผู้อื่นมาเป็นผลงานของตนเองเป็นจำนวนมากหลายโครงการ ซึ่งเป็นความยากลำบากของคณะกรรมการในการตรวจสอบข้อเสนอโครงการ ดังนั้น DupDip จึงถูกพัฒนาเข้ากับระบบ GENA และนำไปใช้งานจริงตั้งแต่ปี 2554 จนถึงปัจจุบัน หลังจากนั้นได้มีการร่วมพัฒนากับหน่วยปฏิบัติการเชี่ยวชาญเฉพาะการประมวลผลภาษาธรรมชาติและระบบสารสนเทศอัจฉริยะ (NaiST Lab) ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ เปลี่ยนชื่อเป็น Anti-Kobpae และต่อมาในปี 2555 เนคเทคได้รับโจทย์วิจัยจากสำนักหอสมุดกลาง มหาวิทยาลัยธรรมศาสตร์ จึงได้เริ่มพัฒนา CopyCat จนถึงปัจจุบัน

หลักการทำงาน

ผู้ใช้ทำการส่งเอกสารที่ต้องการตรวจสอบการไปยังระบบ หลังจากนั้นระบบจะทำการวิเคราะห์เอกสารและทำการเทียบความคล้ายกับคลังเอกสารที่เตรียมไว้ ได้แก่ วิกีพีเดีย และคลังเอกสารจำเพาะ เมื่อทำการวิเคราะห์และเปรียบเทียบเสร็จ ระบบจะคืนผลลัพธ์ให้กับผู้ใช้โดยแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน

คุณสมบัติผลิตภัณฑ์

รองรับการทำงานกับเอกสารหลายรูปแบบ เช่น pdf, doc, docx, odt, txt
ตรวจสอบเอกสารภาษาไทยและอังกฤษ
ตรวจสอบเอกสารที่ถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค
ตรวจสอบกับหน้าเว็บบนอินเทอร์เน็ตได้
ตรวจสอบเอกสารกับคลังเอกสารจำเพาะได้
แสดงผลการตรวจสอบเป็นแถบสีข้อความที่คล้ายกันพร้อมทั้งเปอร์เซ็นต์ความคล้าย

จุดเด่น

ตรวจสอบการคัดลอกผลงานวิชาการและวิทยานิพนธ์ทั้งภาษาไทยและภาษาอังกฤษ
ตรวจสอบการคัดลอกรวดเร็วและถูกต้อง

ประสิทธิภาพ

แหล่งข้อมูล	จำนวนเอกสาร	ขนาดคลังข้อมูล (เมกะไบต์)	ขนาดเฉลี่ยของเอกสาร (กิโลไบต์)	ขนาดดัชนี (เมกะไบต์)	เวลาในการประมวลผล (วินาที/เอกสาร)
NSC Proposal	711	28.1	40.47	5.49	12.44
Thesis-KU	194	45.8	241.74	5.27	25.81

เทคโนโลยีที่ใช้ในการพัฒนา

การประมวลผลภาษาไทย (Thai Natural Language Processing)
- Word segmentation การแบ่งคำภาษาไทยโดยประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) ที่มีประสิทธิภาพสูง
การค้นคืนสารสนเทศ (Information Retrieval)
- Stop words removal การกำจัดคำที่ไม่มีความหมาย
- Term weighting calculation การคำนวณค่าน้ำหนักของคำ
การทำเหมืองข้อความ (Text Mining)
- Intelligent text selection technique เทคนิคการเลือกเฉพาะข้อความที่สำคัญอย่างชาญฉลาด เพื่อลดเวลาในการตรวจเอกสาร
- Text similarity calculation การคำนวณความคล้ายกันของข้อความ

กลุ่มเป้าหมาย

สถาบันการศึกษา
หน่วยงานให้ทุนวิจัย
เจ้าของผลงานที่มีลิขสิทธิ์

ประโยชน์

ใช้งานง่าย ผู้ใช้สามารถเข้าถึงได้ทุกที่ ทุกเวลา
มีการทำงานในรูปแบบ รับ-ให้บริการ (Client-Server) และพัฒนาเป็นลักษณะเว็บแอปพลิเคชั่น
ช่วยอำนวยความสะดวกแก่ครู/อาจารย์ ในการตรวจผลงานของนักศึกษา
ตรวจสอบผลงานตัวเองว่าถูกผู้อื่นคัดลอกหรือไม่
ช่วยลดปัญหาในการละเมิดลิขสิทธิ์การคัดลอกเอกสารและช่วยป้องปรามผู้วิจัยไม่ให้มีการคัดลอกผลงานวิจัยของบุคคลอื่นได้
ป้องกันการกระทำการคัดลอกเอกสารจากนักศึกษาโดยรู้เท่าไม่ถึงการณ์
ส่งเสริมให้รู้จักการอ้างอิงแหล่งที่มา
ปลูกฝังเยาวชนให้มีความซื่อสัตย์

ผลกระทบต่อสังคม

ด้านการศึกษา เป็นเครื่องมือสำหรับครู อาจารย์ นักเรียน นักศึกษาที่ช่วยลดเวลาในการตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการและวิทยานิพนธ์
ด้านวัฒนธรรมและจริยธรรม ช่วยสร้างความตระหนักในการอ้างอิงแหล่งที่มาและปลูกฝังจิตสำนึกไม่ให้คัดลอกเอกสาร
ด้านพาณิชย์/สาธารณประโยชน์
- สามารถขยายผลให้หน่วยงานผู้ให้ทุนใช้ตรวจสอบเอกสารขอทุนวิจัยซ้ำซ้อน
- เป็นทางเลือกการใช้ซอฟต์แวร์ตรวจสอบความคล้ายกันของเอกสารเมื่อเทียบกับการใช้ซอฟต์แวร์จากต่างประเทศ

งานที่จะพัฒนาในอนาคต

เพิ่มประสิทธิภาพระบบ
เพิ่มความสามารถการตรวจสอบในกรณีที่ผู้เขียนหลีกเลี่ยงการตรวจจับโดยการถอดความ/การกล่าวซ้ำหรือการสรุปสาระสำคัญ
ตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia)
สร้าง Crawler และเพิ่มแหล่งข้อมูลในการตรวจสอบ
เลือกที่จะตรวจสอบข้อความที่อยู่ภายในเครื่องอัญประกาศ (Quotation mark("...")) ด้วยหรือไม่
กำหนดประโยคหรือสำนวนที่ใช้ทั่วไปไม่ต้องนำมาตรวจสอบ (Phrase Exclusion)
Integrate เข้ากับสื่อการเรียนรู้ออนไลน์

การคัดลอกและลอกเลียนผลงานของผู้อื่นมาเป็นผลงานของตัวเองโดยไม่มีการอ้างอิงแหล่งที่มาถือว่าเป็นการกระทำที่ผิดจริยธรรมและจรรยาบรรณ ซึ่งเป็นปัญหาสำคัญในวงการการศึกษาของประเทศ ที่ผู้เกี่ยวข้องต้องหันมาช่วยกันแก้ไขปัญหา ปัจจุบันมีเครื่องมือช่วยตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการทั้งในและต่างประเทศมีอยู่เป็นจำนวนมาก ซึ่ง CopyCat ก็เป็นเครื่องมือหนึ่งที่ช่วยตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการโดยเฉพาะอย่างยิ่งสำหรับเอกสารภาษาไทย ที่ถูกพัฒนาโดยคนไทย ซึ่งวัตถุประสงค์ของเครื่องมือนี้คือ เพื่อส่งเสริมจริยธรรมและจรรยาบรรณในการสร้างสรรค์งานประพันธ์ วรรณกรรม ปริญญานิพนธ์ สารนิพนธ์ วิทยานิพนธ์ ตลอดจนงานเขียนอื่นๆ ใดก็ตาม ของนักเรียน นิสิต นักศึกษาตลอดจนบุคคลทั่วไป และเป็นแรงผลักดันให้เกิดการสร้างสรรค์งานที่ผู้สร้างเป็นเจ้าของลิขสิทธิ์ หรือทรัพย์สินทางปัญญาในผลงานอย่างถูกต้อง ผลลัพธ์ที่ได้จากการใช้งานซอฟต์แวร์ดังกล่าว จึงเป็นเพียงการตรวจสอบในเบื้องต้นและข้อเสนอแนะสำหรับผู้ใช้งานเท่านั้น หากแต่การตรวจสอบ พิจารณา หรือวินิจฉัยในรายละเอียดของงานเขียน ยังคงขึ้นกับดุลพินิจและการตัดสินใจของผู้ใช้งานเป็นสำคัญ

ความคาดหวังต่อผลงานวิจัย คือความต้องการที่จะพัฒนาระบบตรวจสอบการคัดลอกผลงานทางวิชาการอัจฉริยะ (Intelligent Plagiarism Detection System) ให้สามารถตรวจสอบการคัดลอก ได้ทุกรูปแบบและให้สามารถตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia) ได้อีก และให้ทุกสถาบันการศึกษาในประเทศไทยนำไปใช้งาน เพื่อให้ตระหนักและปลูกฝังการอ้างอิงแหล่งที่มา และส่งเสริมให้มีการเชื่อมโยงเอกสารระหว่าง สถาบันการศึกษาเพื่อให้ระบบสามารถตรวจสอบการคัดลอกเอกสารข้ามสถาบันการศึกษาได้

การติดต่อ
สันติพงษ์ ไทยประยูร
ผู้ช่วยนักวิจัย
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
โทรศัพท์ 0 2564 6900 ต่อ 2281
ความเชี่ยวชาญของนักวิจัย
- ระบบจัดการฐานข้อมูล (Database Management System)
- การทำเหมืองข้อความ (Text Mining)
- การค้นคืนสารสนเทศ (Information Retrieval)
- การตรวจสอบการคัดลอก (Plagiarism Detection)

DataPR

Vol24.copyCat

ไม่มีความคิดเห็น:

แสดงความคิดเห็น

Translate