Vol24.copyCat

ฉบ้บที่ 24 เดือนมกราคม 2557


ตรวจสอบการคัดเลือกผลงานทางวิชาการและวิทยานิพนธ์ด้วย copycat 

ปัจจุบันเอกสารถูกเปลี่ยนแปลงอยู่ในรูปแบบอิเล็กทรอนิกส์มากขึ้น ส่งผลให้ง่ายต่อการคัดลอกผลงานของผู้อื่นมาเป็นผลงานของตัวเองโดยไม่มีการอ้างอิงแหล่งที่มา ซึ่งถือว่าเป็นการกระทำที่ผิดจริยธรรมและจรรยาบรรณ ในต่างประเทศถือว่าผิดกฎหมายสามารถถูกฟ้องร้องได้ การโจรกรรมทางวรรณกรรม (Plagiarism) จึงเป็นปัญหาใหญ่ที่พบในแวดวงการศึกษาวิชาการในประเทศไทยที่เกิดขึ้นมานานแล้วและยังพบเห็นได้อยู่เสมอ ทั้งในระดับนักวิจัย ครู อาจารย์ นักเรียน และนักศึกษา เป็นปัญหาที่บุคคลในวงวิชาการต้องตระหนักและเร่งแก้ไขปัญหา

การตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการ ถือเป็นงานที่ต้องใช้เวลาและความละเอียดของผู้ตรวจเป็นอย่างมาก โดยปกติจะใช้วิธีการตรวจสอบการคัดลอกด้วยมือ ผู้ตรวจจะต้องทำการอ่านซ้ำวนไปวนมาในแต่ละเอกสารที่ต้องการตรวจสอบ แล้วเลือกประโยคที่คิดว่าน่าสงสัยมาตรวจสอบโดยผ่านเครื่องมือสืบค้น (Search Engine) หรือไปที่ห้องสมุด ซึ่งวิธีการนี้ต้องใช้ประสบการณ์ของผู้ตรวจมากและบางประโยคอาจหลุดการนำมาตรวจสอบ อีกทั้งแหล่งข้อมูลยังไม่ครอบคลุม จำนวนเอกสารก็มีมากขึ้นเรื่อยๆ ทุกปี เพราะฉะนั้นเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการจึงเป็นส่วนที่สำคัญสำหรับช่วยผู้ตรวจในการหาแหล่งที่มาของเอกสารว่าคัดลอกมาจากแหล่งใด



ปัจจุบันเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานทางวิชาการในต่างประเทศที่ได้รับความนิยม เช่น Turnitin (อ่านว่า เทิร์น-อิท-อิน) เป็นเครื่องมือที่สามารถตรวจสอบการคัดลอกงานเขียนจากฐานข้อมูลหลายแหล่ง เช่น เว็บไซต์ บทความตีพิมพ์ วารสาร นิตยสาร เป็นต้น มหาวิทยาลัยในประเทศไทยที่ใช้ ได้แก่ จุฬาลงกรณ์มหาวิทยาลัย มหาวิทยาลัยธรรมศาสตร์ มหาวิทยาลัยมหิดล เป็นต้น อย่างไรก็ตามยังมีข้อผิดพลาดในด้านการตรวจสอบเอกสารภาษาไทย ที่มักมีปัญหาเรื่องสระและวรรณยุกต์

หน่วยปฏิบัติการวิจัยเทคโนโลยีเสียง ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ จึงได้วิจัยและพัฒนาระบบตรวจสอบลิขสิทธิ์ผลงานวิชาการและวิทยานิพนธ์ ที่เรียกว่า ก๊อปปี้แคท (CopyCat: Copyright, Academic Work and Thesis Checking System)


CopyCat เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ เช่น วิทยานิพนธ์ ข้อเสนอโครงการ ผลงานวิชาการ เว็บเพจ เป็นต้น สนับสนุนการตรวจสอบความคล้ายของเอกสารทั้งภาษาไทยและภาษาอังกฤษ โดยสามารถตรวจสอบกับเอกสารที่จัดเก็บไว้ในคลังข้อมูลหรือเอกสารออนไลน์บนอินเทอร์เน็ต และแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน CopyCat ถือได้ว่าเป็นเครื่องมือที่ใช้ตรวจสอบข้อความภาษาไทยได้ดีเมื่อเทียบกับเครื่องมือจากค่ายอื่น โดยเวอร์ชันปัจจุบันคือเวอร์ชัน 2.1
CopyCat ถือเป็นผลงานวิจัยที่มีเส้นทางการพัฒนามาอย่างต่อเนื่อง โดยเริ่มทำการวิจัยและพัฒนาตั้งแต่ปี พ.. 2553 ซึ่งเรียกว่า ดุ๊บดิ๊บ (Duplicate Detector Intelligent Plagiarism Checking: DupDip) โดยเริ่มแรกจุดมุ่งหมายในการพัฒนางานวิจัยนี้มาจากการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย (NSC) ที่เนคเทคเป็นเจ้าภาพ ซึ่งการจัดการประกวดในแต่ละปีต้องมีการส่งขอเสนอโครงการผ่านระบบลงทะเบียนออนไลน์ที่ชื่อว่า GENA ปัญหาที่พบคือมีการคัดลอกข้อความหรือผลงานของผู้อื่นมาเป็นผลงานของตนเองเป็นจำนวนมากหลายโครงการ ซึ่งเป็นความยากลำบากของคณะกรรมการในการตรวจสอบข้อเสนอโครงการ ดังนั้น DupDip จึงถูกพัฒนาเข้ากับระบบ GENA และนำไปใช้งานจริงตั้งแต่ปี 2554 จนถึงปัจจุบัน หลังจากนั้นได้มีการร่วมพัฒนากับหน่วยปฏิบัติการเชี่ยวชาญเฉพาะการประมวลผลภาษาธรรมชาติและระบบสารสนเทศอัจฉริยะ (NaiST Lab) ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ เปลี่ยนชื่อเป็น Anti-Kobpae และต่อมาในปี 2555 เนคเทคได้รับโจทย์วิจัยจากสำนักหอสมุดกลาง มหาวิทยาลัยธรรมศาสตร์ จึงได้เริ่มพัฒนา CopyCat จนถึงปัจจุบัน


หลักการทำงาน
ผู้ใช้ทำการส่งเอกสารที่ต้องการตรวจสอบการไปยังระบบ หลังจากนั้นระบบจะทำการวิเคราะห์เอกสารและทำการเทียบความคล้ายกับคลังเอกสารที่เตรียมไว้ ได้แก่ วิกีพีเดีย และคลังเอกสารจำเพาะ เมื่อทำการวิเคราะห์และเปรียบเทียบเสร็จ ระบบจะคืนผลลัพธ์ให้กับผู้ใช้โดยแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน



คุณสมบัติผลิตภัณฑ์

  • รองรับการทำงานกับเอกสารหลายรูปแบบ เช่น pdf, doc, docx, odt, txt
  • ตรวจสอบเอกสารภาษาไทยและอังกฤษ
  • ตรวจสอบเอกสารที่ถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค
  • ตรวจสอบกับหน้าเว็บบนอินเทอร์เน็ตได้
  • ตรวจสอบเอกสารกับคลังเอกสารจำเพาะได้
  • แสดงผลการตรวจสอบเป็นแถบสีข้อความที่คล้ายกันพร้อมทั้งเปอร์เซ็นต์ความคล้าย


จุดเด่น

  • ตรวจสอบการคัดลอกผลงานวิชาการและวิทยานิพนธ์ทั้งภาษาไทยและภาษาอังกฤษ
  • ตรวจสอบการคัดลอกรวดเร็วและถูกต้อง



ประสิทธิภาพ

แหล่งข้อมูล
จำนวนเอกสาร
ขนาดคลังข้อมูล (เมกะไบต์)
ขนาดเฉลี่ยของเอกสาร

(กิโลไบต์)
ขนาดดัชนี

(เมกะไบต์)
เวลาในการประมวลผล (วินาที/เอกสาร)
NSC Proposal
711
28.1
40.47
5.49
12.44
Thesis-KU
194
45.8
241.74
5.27
25.81
เทคโนโลยีที่ใช้ในการพัฒนา

  • การประมวลผลภาษาไทย (Thai Natural Language Processing)
    • Word segmentation การแบ่งคำภาษาไทยโดยประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) ที่มีประสิทธิภาพสูง
  • การค้นคืนสารสนเทศ (Information Retrieval)
    • Stop words removal การกำจัดคำที่ไม่มีความหมาย
    • Term weighting calculation การคำนวณค่าน้ำหนักของคำ
  • การทำเหมืองข้อความ (Text Mining)
    • Intelligent text selection technique เทคนิคการเลือกเฉพาะข้อความที่สำคัญอย่างชาญฉลาด เพื่อลดเวลาในการตรวจเอกสาร
    • Text similarity calculation การคำนวณความคล้ายกันของข้อความ

กลุ่มเป้าหมาย

  • สถาบันการศึกษา
  • หน่วยงานให้ทุนวิจัย
  • เจ้าของผลงานที่มีลิขสิทธิ์


ประโยชน์
  • ใช้งานง่าย ผู้ใช้สามารถเข้าถึงได้ทุกที่ ทุกเวลา
  • มีการทำงานในรูปแบบ รับ-ให้บริการ (Client-Server) และพัฒนาเป็นลักษณะเว็บแอปพลิเคชั่น
  • ช่วยอำนวยความสะดวกแก่ครู/อาจารย์ ในการตรวจผลงานของนักศึกษา
  • ตรวจสอบผลงานตัวเองว่าถูกผู้อื่นคัดลอกหรือไม่
  • ช่วยลดปัญหาในการละเมิดลิขสิทธิ์การคัดลอกเอกสารและช่วยป้องปรามผู้วิจัยไม่ให้มีการคัดลอกผลงานวิจัยของบุคคลอื่นได้
  • ป้องกันการกระทำการคัดลอกเอกสารจากนักศึกษาโดยรู้เท่าไม่ถึงการณ์
  • ส่งเสริมให้รู้จักการอ้างอิงแหล่งที่มา
  • ปลูกฝังเยาวชนให้มีความซื่อสัตย์


    ผลกระทบต่อสังคม

  • ด้านการศึกษา เป็นเครื่องมือสำหรับครู อาจารย์ นักเรียน นักศึกษาที่ช่วยลดเวลาในการตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการและวิทยานิพนธ์
  • ด้านวัฒนธรรมและจริยธรรม ช่วยสร้างความตระหนักในการอ้างอิงแหล่งที่มาและปลูกฝังจิตสำนึกไม่ให้คัดลอกเอกสาร
  • ด้านพาณิชย์/สาธารณประโยชน์
    • สามารถขยายผลให้หน่วยงานผู้ให้ทุนใช้ตรวจสอบเอกสารขอทุนวิจัยซ้ำซ้อน
    • เป็นทางเลือกการใช้ซอฟต์แวร์ตรวจสอบความคล้ายกันของเอกสารเมื่อเทียบกับการใช้ซอฟต์แวร์จากต่างประเทศ

งานที่จะพัฒนาในอนาคต

  • เพิ่มประสิทธิภาพระบบ
  • เพิ่มความสามารถการตรวจสอบในกรณีที่ผู้เขียนหลีกเลี่ยงการตรวจจับโดยการถอดความ/การกล่าวซ้ำหรือการสรุปสาระสำคัญ
  • ตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia)
  • สร้าง Crawler และเพิ่มแหล่งข้อมูลในการตรวจสอบ
  • เลือกที่จะตรวจสอบข้อความที่อยู่ภายในเครื่องอัญประกาศ (Quotation mark("...")) ด้วยหรือไม่
  • กำหนดประโยคหรือสำนวนที่ใช้ทั่วไปไม่ต้องนำมาตรวจสอบ (Phrase Exclusion)
  • Integrate เข้ากับสื่อการเรียนรู้ออนไลน์
การคัดลอกและลอกเลียนผลงานของผู้อื่นมาเป็นผลงานของตัวเองโดยไม่มีการอ้างอิงแหล่งที่มาถือว่าเป็นการกระทำที่ผิดจริยธรรมและจรรยาบรรณ ซึ่งเป็นปัญหาสำคัญในวงการการศึกษาของประเทศ ที่ผู้เกี่ยวข้องต้องหันมาช่วยกันแก้ไขปัญหา ปัจจุบันมีเครื่องมือช่วยตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการทั้งในและต่างประเทศมีอยู่เป็นจำนวนมาก ซึ่ง CopyCat ก็เป็นเครื่องมือหนึ่งที่ช่วยตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการโดยเฉพาะอย่างยิ่งสำหรับเอกสารภาษาไทย ที่ถูกพัฒนาโดยคนไทย ซึ่งวัตถุประสงค์ของเครื่องมือนี้คือ เพื่อส่งเสริมจริยธรรมและจรรยาบรรณในการสร้างสรรค์งานประพันธ์ วรรณกรรม ปริญญานิพนธ์ สารนิพนธ์ วิทยานิพนธ์ ตลอดจนงานเขียนอื่นๆ ใดก็ตาม ของนักเรียน นิสิต นักศึกษาตลอดจนบุคคลทั่วไป และเป็นแรงผลักดันให้เกิดการสร้างสรรค์งานที่ผู้สร้างเป็นเจ้าของลิขสิทธิ์ หรือทรัพย์สินทางปัญญาในผลงานอย่างถูกต้อง ผลลัพธ์ที่ได้จากการใช้งานซอฟต์แวร์ดังกล่าว จึงเป็นเพียงการตรวจสอบในเบื้องต้นและข้อเสนอแนะสำหรับผู้ใช้งานเท่านั้น หากแต่การตรวจสอบ พิจารณา หรือวินิจฉัยในรายละเอียดของงานเขียน ยังคงขึ้นกับดุลพินิจและการตัดสินใจของผู้ใช้งานเป็นสำคัญ

ความคาดหวังต่อผลงานวิจัย คือความต้องการที่จะพัฒนาระบบตรวจสอบการคัดลอกผลงานทางวิชาการอัจฉริยะ (Intelligent Plagiarism Detection System) ให้สามารถตรวจสอบการคัดลอก ได้ทุกรูปแบบและให้สามารถตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia) ได้อีก และให้ทุกสถาบันการศึกษาในประเทศไทยนำไปใช้งาน เพื่อให้ตระหนักและปลูกฝังการอ้างอิงแหล่งที่มา และส่งเสริมให้มีการเชื่อมโยงเอกสารระหว่าง สถาบันการศึกษาเพื่อให้ระบบสามารถตรวจสอบการคัดลอกเอกสารข้ามสถาบันการศึกษาได้



การติดต่อ
สันติพงษ์ ไทยประยูร
ผู้ช่วยนักวิจัย
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
โทรศัพท์ 0 2564 6900 ต่อ 2281
 ความเชี่ยวชาญของนักวิจัย
-
ระบบจัดการฐานข้อมูล (Database Management System)
-
การทำเหมืองข้อความ (Text Mining)
-
การค้นคืนสารสนเทศ (Information Retrieval)
-
การตรวจสอบการคัดลอก (Plagiarism Detection)


ไม่มีความคิดเห็น:

แสดงความคิดเห็น