เหมืองข้อมูล มี กี่ ประเภท

Data Mining เป็นเทคนิคในการวิเคราะห์ข้อมูลอย่างหนึ่ง ซึ่งมาจากคำว่า เหมืองข้อมูล นั่นคือ เป็นการค้นหาสิ่งที่มีประโยชน์จากฐานข้อมูลที่มีขนาดใหญ่ เช่น ข้อมูลการซื้อขายสินค้าในซุปเปอร์มาร์เก็ตต่าง ๆ โดยข้อมูลเหล่านี้จะเก็บจากรายการสินค้าที่ลูกค้าซื้อในแต่ละครั้ง โดยเมื่อทำการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining แล้วจะได้สิ่งที่เป็นประโยชน์

Data Mining

         Data Mining เป็นเทคนิคในการวิเคราะห์ข้อมูลอย่างหนึ่ง ซึ่งมาจากคำว่า เหมืองข้อมูล นั่นคือ เป็นการค้นหาสิ่งที่มีประโยชน์จากฐานข้อมูลที่มีขนาดใหญ่ เช่น ข้อมูลการซื้อขายสินค้าในซุปเปอร์มาร์เก็ตต่าง ๆ โดยข้อมูลเหล่านี้จะเก็บจากรายการสินค้าที่ลูกค้าซื้อในแต่ละครั้ง โดยเมื่อทำการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining แล้วจะได้สิ่งที่เป็นประโยชน์เช่น ลูกค้าส่วนใหญ่ที่ซื้อเบียร์มักจะซื้อผ้าอ้อมด้วย จะเห็นว่าข้อมูลนี้เป็นข้อมูลที่ไม่เคยคิดว่ามีความสัมพันธ์กัน และเมื่อได้ความรู้แบบนี้ก็อาจจะนำเป็นออกโปรโมชั่นหรือช่วยในการจัดวางชั้นสินค้า หรือเป็นแนวทางในการสั่งซื้อสินค้าในซุปเปอร์มาร์เก็ตต่อไปได้ นอกจากนี้ Data Mining ยังมีเทคนิคในการประยุกต์ใช้งานได้อย่างดี เช่น  เทคนิคการแบ่งกลุ่มข้อมูล โดยข้อมูลที่มีลักษณะคล้ายๆกัน อยู่กลุ่มเดียวกัน และข้อมูลที่อยู่คนละกลุ่มจะมีลักษณะที่แตกต่างกันมาก แต่ละกลุ่มจะเรียกว่า คลัสเตอร์ มีหลายเทคนิค และ Clustering validity เป็นการวัดประสิทธิภาพของ Clustering เพื่อดูว่าเทคนิคใดสามารถทำให้การแบ่งกลุ่มมีประสิทธิภาพสูงที่สุด และควรจัดข้อมูลออกมาเป็นกี่กลุ่ม  เทคนิคการจำแนกประเภทข้อมูล เป็นการนำข้อมูลเดิมที่มีคำตอบที่เราสนใจ มาสร้างเป็นโมเดล เพื่อหาคำตอบให้กับข้อมูลใหม่ การประมาณค่าข้อมูล (regression) การสร้างโมเดลและการวัดประสิทธิภาพของโมเดล โดยการดูค่าความแม่นยำว่า โมเดลใดให้ความแม่นยำในการทายข้อมูลได้ถูกมากที่สุด ดังนั้นหากข้อมูลใดที่มีขนาดใหญ่หรือมีจำนวนมาก Data Mining ก็จะเป็นเทคนิคหนึ่งที่จะช่วยในการจัดการข้อมูลให้เป็นประโยชน์ได้ดี

เทคนิคในการวิเคราะห์ Data Mining

1. การหากฎความสัมพันธ์ Association Rule

2. การแบ่งกลุ่มข้อมูล Clustering

         - การหาระยะห่างระหว่างข้อมูล Distance function

         - เทคนิคในการแบ่งกลุ่มข้อมูลด้วยวิธี K-Means

         - เทคนิคในการแบ่งกลุ่มข้อมูลด้วยวิธี Agglomerative Clustering

3. การจำแนกประเภทข้อมูล Classification

         - การวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล

         - การแบ่งข้อมูลเพื่อใช้ในการวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล 

         - เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Decision Tree

         - เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Native Bayes

         - เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี K-Nearest Neighbors (K-NN)

         - เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Neural Network

กระบวนการวิเคราะห์ข้อมูลด้วย CRISP-DM

Cross-Industry Standard Process for Data Mining

ในกระบวนการนี้ประกอบด้วย 6 ขั้นตอน

1. Business Understanding

         เป็นขั้นตอนแรกในกระบวนการ เป็นการแปลงปัญหาที่ได้ให้อยู่ในรูปโจทย์ของการวิเคราะห์ข้อมูล Data Mining  พร้อมทั้งวางแผนในการดำเนินการ

2. Data Understanding

         เริ่มจากการเก็บรวบรวมข้อมูล หลังจากนั้นก็เป็นการตรวจสอบข้อมูลที่ได้ทำการรวบรวมมา เพื่อดูความถูกต้อง และพิจารณาว่าจะใช้ข้อมูลทั้งหมดหรือจำเป็นต้องเลือกข้อมูลบางส่วนมาใช้ในการวิเคราะห์

3. Data Preparation

         เป็นขั้นตอนที่ทำการแปลงข้อมูลที่ได้ทำการเก็บรวมรวมมา ให้กลายเป็นข้อมูลที่สามารถนำไปวิเคราะห์ในขั้นถัดไปได้ โดยการแปลงข้อมูลนี้อาจจะต้องมีการทำข้อมูลให้ถูกต้อง เช่น แปลงข้อมูลให้อยู่ในช่วงเดียวกัน หรือการเติมข้อมูลที่ขาดหายไป เป็นขั้นตอนที่ใช้เวลามากที่สุดของกระบวนการ CRISP-DM

4. Modeling

         เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคทาง Data Mining ที่ได้แนะนำไปแล้ว เช่น การจำแนกประเภทข้อมูล หรือการแบ่งกลุ่มข้อมูล ซึ่งในขั้นตอนนี้หลายเทคนิคจะถูกนำมาใช้เพื่อให้ได้คำตอบที่ดีที่สุด

5. Evaluation

          ได้ผลการวิเคราะห์ข้อมูลด้วยเทคนิคทาง Data Mining แล้ว แต่ก่อนที่จะนำผลลัพธ์ที่ได้ไปใช้งานต้องมีการวัดประสิทธิภาพของผลลัพธ์ที่ได้ว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ตั้งแต่แรกหรือไม่ มีความน่าเชื่อถือเพียงใด

6. Deployment

         มีการนำความรู้ที่ได้จากการได้ผลลัพธ์ด้วยเทคนิค Data Mining ไปใช้ประโยชน์ต่อในองค์กรหรือบริษัท

เอกสารอ้างอิง

เอกสิทธิ์ พัชรวงศ์ศักดา .การวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง เบื้องต้น.พิมพ์ครั้งที่ 2. กรุงเทพฯ: เอเชีย ดิจิตอลการพิมพ์ จำกัด.

data mining คือการสกัดข้อมูล เพื่อหาสารสนเทศที่มีประโยชน์จากฐานข้อมูลขนาดใหญ่ โดยที่สารสนเทศนั้นต้องไม่เคยรู้มาก่อน ถูกต้อง และสามารถเอาไปใช้ประโยชน์ได้ เพื่อกำหนดกลยุทธ์ทางธุรกิจ

เหมือนข้อมูล เป็นสาขาหนึ่งของวิทยาศาสตร์ ในอดีตวิทยาศาสตร์ จะพิสูจน์ความจริง อาศัยการทดลองและสังเกต แต่ปัจจุบันในยุคของข้อมูลมหาศาล การค้นหาความจริง จึงเกิดการค้นหาความจริงจากข้อมูล

จุดเริ่มต้นของ DATA MINING เกิดขึ้นเมื่อ ปี 1989 ที่ ACM SIGKDD CONFERENCE

data mining ถูกนำไปใช้หลากหลายมาก อาทิการวิเคราะห์การตลาด การทำ segmentation การวิเคราะห์ ความเสี่ยง การทุจริต