ฉบ้บที่ 24 เดือนมกราคม 2557
ตรวจสอบการคัดเลือกผลงานทางวิชาการและวิทยานิพนธ์ด้วย copycat
ปัจจุบันเอกสารถูกเปลี่ยนแปลงอยู่ในรูปแบบอิเล็กทรอนิกส์มากขึ้น ส่งผลให้ง่ายต่อการคัดลอกผลงานของผู้อื่นมาเป็นผลงานของตัวเองโดยไม่มีการอ้างอิงแหล่งที่มา ซึ่งถือว่าเป็นการกระทำที่ผิดจริยธรรมและจรรยาบรรณ ในต่างประเทศถือว่าผิดกฎหมายสามารถถูกฟ้องร้องได้ การโจรกรรมทางวรรณกรรม (Plagiarism) จึงเป็นปัญหาใหญ่ที่พบในแวดวงการศึกษาวิชาการในประเทศไทยที่เกิดขึ้นมานานแล้วและยังพบเห็นได้อยู่เสมอ ทั้งในระดับนักวิจัย ครู อาจารย์ นักเรียน และนักศึกษา เป็นปัญหาที่บุคคลในวงวิชาการต้องตระหนักและเร่งแก้ไขปัญหา
การตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการ
ถือเป็นงานที่ต้องใช้เวลาและความละเอียดของผู้ตรวจเป็นอย่างมาก
โดยปกติจะใช้วิธีการตรวจสอบการคัดลอกด้วยมือ
ผู้ตรวจจะต้องทำการอ่านซ้ำวนไปวนมาในแต่ละเอกสารที่ต้องการตรวจสอบ
แล้วเลือกประโยคที่คิดว่าน่าสงสัยมาตรวจสอบโดยผ่านเครื่องมือสืบค้น
(Search
Engine) หรือไปที่ห้องสมุด
ซึ่งวิธีการนี้ต้องใช้ประสบการณ์ของผู้ตรวจมากและบางประโยคอาจหลุดการนำมาตรวจสอบ
อีกทั้งแหล่งข้อมูลยังไม่ครอบคลุม
จำนวนเอกสารก็มีมากขึ้นเรื่อยๆ
ทุกปี
เพราะฉะนั้นเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการจึงเป็นส่วนที่สำคัญสำหรับช่วยผู้ตรวจในการหาแหล่งที่มาของเอกสารว่าคัดลอกมาจากแหล่งใด
ปัจจุบันเครื่องมือตรวจสอบการคัดลอกและลอกเลียนผลงานทางวิชาการในต่างประเทศที่ได้รับความนิยม
เช่น Turnitin
(อ่านว่า
เทิร์น-อิท-อิน)
เป็นเครื่องมือที่สามารถตรวจสอบการคัดลอกงานเขียนจากฐานข้อมูลหลายแหล่ง
เช่น เว็บไซต์ บทความตีพิมพ์
วารสาร นิตยสาร เป็นต้น
มหาวิทยาลัยในประเทศไทยที่ใช้
ได้แก่ จุฬาลงกรณ์มหาวิทยาลัย
มหาวิทยาลัยธรรมศาสตร์
มหาวิทยาลัยมหิดล เป็นต้น
อย่างไรก็ตามยังมีข้อผิดพลาดในด้านการตรวจสอบเอกสารภาษาไทย
ที่มักมีปัญหาเรื่องสระและวรรณยุกต์
หน่วยปฏิบัติการวิจัยเทคโนโลยีเสียง
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
จึงได้วิจัยและพัฒนาระบบตรวจสอบลิขสิทธิ์ผลงานวิชาการและวิทยานิพนธ์
ที่เรียกว่า ก๊อปปี้แคท
(CopyCat:
Copyright, Academic Work and Thesis Checking System)
CopyCat เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ เช่น วิทยานิพนธ์ ข้อเสนอโครงการ ผลงานวิชาการ เว็บเพจ เป็นต้น สนับสนุนการตรวจสอบความคล้ายของเอกสารทั้งภาษาไทยและภาษาอังกฤษ โดยสามารถตรวจสอบกับเอกสารที่จัดเก็บไว้ในคลังข้อมูลหรือเอกสารออนไลน์บนอินเทอร์เน็ต และแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน CopyCat ถือได้ว่าเป็นเครื่องมือที่ใช้ตรวจสอบข้อความภาษาไทยได้ดีเมื่อเทียบกับเครื่องมือจากค่ายอื่น โดยเวอร์ชันปัจจุบันคือเวอร์ชัน 2.1
หลักการทำงาน
ผู้ใช้ทำการส่งเอกสารที่ต้องการตรวจสอบการไปยังระบบ
หลังจากนั้นระบบจะทำการวิเคราะห์เอกสารและทำการเทียบความคล้ายกับคลังเอกสารที่เตรียมไว้
ได้แก่ วิกีพีเดีย และคลังเอกสารจำเพาะ
เมื่อทำการวิเคราะห์และเปรียบเทียบเสร็จ
ระบบจะคืนผลลัพธ์ให้กับผู้ใช้โดยแสดงผลเป็นค่าเปอร์เซ็นต์ความคล้ายกันของเอกสาร
พร้อมทั้งระบุแหล่งข้อมูลที่พบและทำแถบสีข้อความในส่วนที่คล้ายกัน
คุณสมบัติผลิตภัณฑ์
- รองรับการทำงานกับเอกสารหลายรูปแบบ เช่น pdf, doc, docx, odt, txt
- ตรวจสอบเอกสารภาษาไทยและอังกฤษ
- ตรวจสอบเอกสารที่ถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค
- ตรวจสอบกับหน้าเว็บบนอินเทอร์เน็ตได้
- ตรวจสอบเอกสารกับคลังเอกสารจำเพาะได้
- แสดงผลการตรวจสอบเป็นแถบสีข้อความที่คล้ายกันพร้อมทั้งเปอร์เซ็นต์ความคล้าย
จุดเด่น
- ตรวจสอบการคัดลอกผลงานวิชาการและวิทยานิพนธ์ทั้งภาษาไทยและภาษาอังกฤษ
- ตรวจสอบการคัดลอกรวดเร็วและถูกต้อง
ประสิทธิภาพ
แหล่งข้อมูล
|
จำนวนเอกสาร
|
ขนาดคลังข้อมูล
(เมกะไบต์)
|
ขนาดเฉลี่ยของเอกสาร
(กิโลไบต์)
|
ขนาดดัชนี
(เมกะไบต์)
|
เวลาในการประมวลผล
(วินาที/เอกสาร)
|
NSC
Proposal
|
711
|
28.1
|
40.47
|
5.49
|
12.44
|
Thesis-KU
|
194
|
45.8
|
241.74
|
5.27
|
25.81
|
เทคโนโลยีที่ใช้ในการพัฒนา
- การประมวลผลภาษาไทย (Thai Natural Language Processing)
- Word segmentation การแบ่งคำภาษาไทยโดยประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) ที่มีประสิทธิภาพสูง
- การค้นคืนสารสนเทศ (Information Retrieval)
- Stop words removal การกำจัดคำที่ไม่มีความหมาย
- Term weighting calculation การคำนวณค่าน้ำหนักของคำ
- การทำเหมืองข้อความ (Text Mining)
- Intelligent text selection technique เทคนิคการเลือกเฉพาะข้อความที่สำคัญอย่างชาญฉลาด เพื่อลดเวลาในการตรวจเอกสาร
- Text similarity calculation การคำนวณความคล้ายกันของข้อความ
กลุ่มเป้าหมาย
- สถาบันการศึกษา
- หน่วยงานให้ทุนวิจัย
- เจ้าของผลงานที่มีลิขสิทธิ์
ประโยชน์
- ใช้งานง่าย ผู้ใช้สามารถเข้าถึงได้ทุกที่ ทุกเวลา
- มีการทำงานในรูปแบบ รับ-ให้บริการ (Client-Server) และพัฒนาเป็นลักษณะเว็บแอปพลิเคชั่น
- ช่วยอำนวยความสะดวกแก่ครู/อาจารย์ ในการตรวจผลงานของนักศึกษา
- ตรวจสอบผลงานตัวเองว่าถูกผู้อื่นคัดลอกหรือไม่
- ช่วยลดปัญหาในการละเมิดลิขสิทธิ์การคัดลอกเอกสารและช่วยป้องปรามผู้วิจัยไม่ให้มีการคัดลอกผลงานวิจัยของบุคคลอื่นได้
- ป้องกันการกระทำการคัดลอกเอกสารจากนักศึกษาโดยรู้เท่าไม่ถึงการณ์
- ส่งเสริมให้รู้จักการอ้างอิงแหล่งที่มา
- ปลูกฝังเยาวชนให้มีความซื่อสัตย์
ผลกระทบต่อสังคม
- ด้านการศึกษา เป็นเครื่องมือสำหรับครู อาจารย์ นักเรียน นักศึกษาที่ช่วยลดเวลาในการตรวจสอบการคัดลอกและลอกเลียนผลงานวิชาการและวิทยานิพนธ์
- ด้านวัฒนธรรมและจริยธรรม ช่วยสร้างความตระหนักในการอ้างอิงแหล่งที่มาและปลูกฝังจิตสำนึกไม่ให้คัดลอกเอกสาร
- ด้านพาณิชย์/สาธารณประโยชน์
- สามารถขยายผลให้หน่วยงานผู้ให้ทุนใช้ตรวจสอบเอกสารขอทุนวิจัยซ้ำซ้อน
- เป็นทางเลือกการใช้ซอฟต์แวร์ตรวจสอบความคล้ายกันของเอกสารเมื่อเทียบกับการใช้ซอฟต์แวร์จากต่างประเทศ
งานที่จะพัฒนาในอนาคต
- เพิ่มประสิทธิภาพระบบ
- เพิ่มความสามารถการตรวจสอบในกรณีที่ผู้เขียนหลีกเลี่ยงการตรวจจับโดยการถอดความ/การกล่าวซ้ำหรือการสรุปสาระสำคัญ
- ตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia)
- สร้าง Crawler และเพิ่มแหล่งข้อมูลในการตรวจสอบ
- เลือกที่จะตรวจสอบข้อความที่อยู่ภายในเครื่องอัญประกาศ (Quotation mark("...")) ด้วยหรือไม่
- กำหนดประโยคหรือสำนวนที่ใช้ทั่วไปไม่ต้องนำมาตรวจสอบ (Phrase Exclusion)
- Integrate เข้ากับสื่อการเรียนรู้ออนไลน์
ความคาดหวังต่อผลงานวิจัย คือความต้องการที่จะพัฒนาระบบตรวจสอบการคัดลอกผลงานทางวิชาการอัจฉริยะ (Intelligent Plagiarism Detection System) ให้สามารถตรวจสอบการคัดลอก ได้ทุกรูปแบบและให้สามารถตรวจสอบข้อมูลที่เป็นรูปแบบสื่อประสม (Multimedia) ได้อีก และให้ทุกสถาบันการศึกษาในประเทศไทยนำไปใช้งาน เพื่อให้ตระหนักและปลูกฝังการอ้างอิงแหล่งที่มา และส่งเสริมให้มีการเชื่อมโยงเอกสารระหว่าง สถาบันการศึกษาเพื่อให้ระบบสามารถตรวจสอบการคัดลอกเอกสารข้ามสถาบันการศึกษาได้
การติดต่อ
สันติพงษ์ ไทยประยูร
ผู้ช่วยนักวิจัย
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
โทรศัพท์ 0 2564 6900 ต่อ 2281
ความเชี่ยวชาญของนักวิจัย
- ระบบจัดการฐานข้อมูล (Database Management System)
- การทำเหมืองข้อความ (Text Mining)
- การค้นคืนสารสนเทศ (Information Retrieval)
- การตรวจสอบการคัดลอก (Plagiarism Detection)
สันติพงษ์ ไทยประยูร
ผู้ช่วยนักวิจัย
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
โทรศัพท์ 0 2564 6900 ต่อ 2281
ความเชี่ยวชาญของนักวิจัย
- ระบบจัดการฐานข้อมูล (Database Management System)
- การทำเหมืองข้อความ (Text Mining)
- การค้นคืนสารสนเทศ (Information Retrieval)
- การตรวจสอบการคัดลอก (Plagiarism Detection)
ไม่มีความคิดเห็น:
แสดงความคิดเห็น