วิธีการจัดทํา big data 6ขั้นตอน

Big Data หมายถึง ข้อมูลที่มีการขยายตัวอยู่ตลอดเวลา ต้องนำไปใช้งานโดยเร็ว มีความซับซ้อนเนื่องจากเป็นข้อมูลที่มาจากแหล่งข้อมูลหลายแหล่ง และจะต้องให้ความสำคัญเรื่องคุณภาพของข้อมูลก่อนนำไปใช้งาน ทั้งนี้ Big Data เป็นเพียงทรัพยากร หากต้องการเพิ่มมูลค่าของทรัพยากร ก็จะต้องนำ Big Data นั้นไปผ่านกระบวนการต่าง ๆ โดยมีองค์ประกอบของระบบทั้งสิ้น 5 ส่วน ได้แก่ ส่วนแหล่งที่มาของข้อมูล ส่วนการเชื่อมโยงข้อมูล ส่วนการเก็บดูแลรักษา ส่วนการวิเคราะห์ และส่วยการนำผลลัพธ์ไปใช้งาน ทั้งนี้ในการออกแบบโครงการ ส่วนใหญ่จะประเมินในส่วนสุดท้ายก่อน เพื่อวางเป็นเป้าหมายของโครงการ จากนั้นจะเข้าสู่ขั้นตอนของการชี้แจงรายละเอียดของข้อมูล และแหล่งที่มาของข้อมูล (ในส่วนที่ 1) และส่วนอื่น ๆตามลำดับต่อไป

ในอดีตจนถึงปัจจุบัน ลำดับขั้นตอนของการพัฒนาระบบการใช้ประโยชน์จากข้อมูลนั้น มีที่มาที่ไป และมีลำดับขั้นดังนี้

1. การเก็บข้อมูลแบบโครงสร้าง หรือ Traditional Data Collection ในขั้นแรก เกิดขึ้นตั้งแต่ในยุคที่องค์กรใหญ่ ๆ มีการการสร้าง Data Center เป็นของตัวเอง และมีการใช้ Data Warehouse เพื่อเก็บข้อมูลที่มีโครงสร้างชัดเจน เมื่อใดที่จะใช้ข้อมูล จะต้องติดต่อไปที่แผนก IT เพื่อให้ IT ทำการดึงข้อมูล หรือ ที่เรียกส่า Query ข้อมูลให้

2. เมื่อเข้าสู่ยุค Big Data ที่มีการใช้ข้อมูลมีทั้งแบบ Structured และ Unstructured Data ทำให้การเก็บแบบ Data Warehouse อย่างเดียวอาจจะไม่ตอบโจทย์ เป็นที่มาของการเก็บแบบ Data Lake ที่สามารถเก็บข้อมูลดิบ ได้มากขึ้น นอกจากนี้ ยังมีเครื่องมืออื่น ๆ เช่น Hadoop และ Cloud Computing เข้ามาช่วยเสริมการทำงาน ทำให้สามารถเก็บข้อมูลได้มากขึ้น และมีประสิทธิภาพในการดึงข้อมูลได้มากขึ้นอีกด้วย

3. ต่อมาเมื่อการวิเคราะห์ข้อมูลด้วย Excel อย่างเดียว เป็นอุปสรรคต่อการทำงาน ทำให้เกิดแนวทางการใช้โปรแกรม Business Intelligence หรือ โปรแกรม BI เพื่อก่อให้เกิดการทำงานแบบ Data Driven Business เนื่องจากโปรแกรม BI จะสามารถวิเคราะห์ และแสดงผลเป็น Dashboard ได้ทันที และยังสามารถรองรับข้อมูลในปริมาณที่มากกว่า Excel อีกด้วย

4. ลำดับที่ 4 เป็นการวิเคราะห์เชิงลึก หรือ Advance Analytics เมื่อสมการเดิม ๆ ไม่ตอบโจทย์ และการแข่งขันทางธุรกิจต้องการใช้ Insight หรือข้อมูลเชิงลึกมากขึ้น ซึ่งวิธีที่จะได้มาซึ่งข้อมูลเชิงลึกนั้น จะต้องเป็นวิธีที่เป็นเอกลักษณ์ โดยการใช้ศาสตร์ของ Data Science หรือ วิทยาศาสตร์ข้อมูล

5. ลำดับสุดท้าย คือ ระบบการทำงานของข้อมูลอย่างอัตโนมัติ ที่มีการกระทำเกิดขึ้นโดยไม่จำเป็นต้องมีมนุษย์เป็นผู้ตรวจสอบ เป็นยุคของการใช้ AI นั่นเอง

ทั้งนี้พบว่า หลายองค์กร มีการดำเนินโครงการที่ข้ามขั้น เช่น ยังไม่มี Data Warehouse แต่ไปใช้ BI ก่อน หรือ มีการพัฒนา AI ทั้ง ๆ ที่ยังไม่มี Data Lake ซึ่งก็อาจจะไม่ได้ผิดอะไร เพียงแต่ในมุมของระบบ อาจจะเกิดความยุ่งยากในการพัฒนา เนื่องจากหากรากฐานไม่เรียบร้อย การต่อยอดอาจจะไม่แข็งแรงมากนัก

อย่างไรก็ตาม การดำเนินโครงการ ไม่จำเป็นต้องเรียงลำดับไปเสียหมด สามารถทำควบคู่กันไปได้ เล่น สร้าง Data Lake ไปพร้อม ๆ กับการทำ Advance Analytics ก็ได้ เพราะหัวใจสำคัญของโครงการ Big Data ประกอบไปด้วย 5 ส่วน ได้แก่

  1. แหล่งที่มาของข้อมูล

  2. การเชื่อมโยงข้อมูล

  3. การเก็บรักษาข้อมูล

  4. การวิเคราะห์ข้อมูล

  5. การนำข้อมูลไปใช้ประโยชน์ ทั้งในรูปแบบของ Dashboard, Report และการกระทำ

คำว่า Big Data เป็นคำที่มีที่มาที่ไป และไม่ยากเกินที่จะทำความเข้าใจ ทั้งนี้ในเชิงเทคนิค หรือการปฏิบัติงาน จะมีรายละเอียดเรื่องเครื่องมือ และทักษะในแต่ละงานเพิ่มเติม ซึ่งการดำเนินโครงการ Big Data ส่วนใหญ่ จะเป็นการสร้างระบบแบบ Customized หรือระบบที่เป็นเอกลักษณ์ที่ไม่ซ้ำใคร เนื่องจากข้อมูลของแต่ละโครงการ เป็นข้อมูลที่ไม่เหมือนกัน มีโครงสร้างต่างกัน และมีเป้าหมายในการใช้งานที่ไม่เหมือนกัน บุคลากรที่สามารถดำเนินโครงการ Big Data ได้ จะต้องมีทักษะ และเข้าใจขอบเขตของการทำงานอย่างแท้จริง เพราะโครงการ Big Data เป็นโครงการที่ต้องเร่งดำเนินการให้เกิดขึ้นโดยเร็ว อันเนื่องมาจากข้อมูลที่เกิดขึ้นอยู่ตลอดเวลา เป็นข้อมูลที่ “รอ” ไม่ได้ และหากรอให้เสียเวลาไปเรื่อย ๆ นั่นหมายถึง “โอกาส” ที่กำลังเสียไป โดยที่อาจไม่สามารถเรียกโอกาสนั้นกลับคืนมาได้อีกเลย

ดำเนินโครงการ Big Data อย่างถูกวิธี จะทำให้งบประมาณของโครงการไม่บานปลายและใช้เวลาในการพัฒนาไปนานจนเกินไป

     Big Data หมายถึง ปริมาณข้อมูลที่มหาศาล ทั้งแบบข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ซึ่งปะปนอยู่มากมายในการทำธุรกิจในแต่ละวัน หากแต่ไม่ใช่ปริมาณของข้อมูลที่เป็นสิ่งสำคัญ สิ่งสำคัญก็คือการที่องค์กรจัดการกับข้อมูลต่างหากการวิเคราะห์ Big Data นำไปสู่ข้อมูลเชิงลึกเพื่อการตัดสินใจที่ดีกว่าและการเคลื่อนไหวในกลยุทธ์ธุรกิจ

จากภาพ จะเห็นได้ว่า องค์ประกอบของระบบ Data แบ่งออกเป็น 5 ส่วนด้วยกัน ได้แก่

1. Data Source แหล่งที่มาของข้อมูล

ซึ่งถือได้ว่า เป็นต้นน้ำ เป็นแหล่งกำเนิดของข้อมูล อาจจะเป็นระบบ โปรแกรม หรือจะเป็นมนุษย์เรา ที่สร้างให้เกิดข้อมูลขึ้นมา ทั้งนี้ เมื่อได้ชื่อว่าเป็น Big Data แล้ว ข้อมูลต่างๆ มักจะมาจากแหล่งข้อมูลที่หลากหลาย นำพามาซึ่งความยากลำบากในการจัดการโครงสร้าง หรือจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้น มีความพร้อมใช้ต่อไป

2. Gateway ช่องทางการเชื่อมโยงข้อมูล

การเชื่อมโยงข้อมูล เป็นส่วนที่สำคัญมาก และเป็นปัญหาใหญ่ในการทำ Big Data Project ต้องอาศัยทักษะของ Data Engineer ทั้งการเขียนโปรแกรมเอง และใช้เครื่องมือที่มีอยู่มากมาย ทั้งนี้การจะออกแบบช่องทางการเชื่อมโยงข้อมูลได้อย่างสมบูรณ์แบบ จำเป็นต้องทราบก่อนว่า จะนำข้อมูลใดไปทำอะไรต่อบ้าง มิเช่นนั้น การสร้างช่องทางการเชื่อมที่ไม่มีเป้าหมาย ก็อาจเป็นการเสียเวลาโดยเปล่าประโยชน์

3. Storage แหล่งเก็บข้อมูล

แหล่งเก็บนี้ ไม่ใช่แค่การเก็บข้อมูลจากแหล่งข้อมูล แต่เป็นการเก็บข้อมูลจากแหล่งข้อมูลหลายๆ แหล่ง เอามาไว้เพื่อรอการใช้งาน ซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ หรือจะเป็นแหล่งเก็บข้อมูลในอดีตก็เป็นได้

4. Analytics การวิเคราะห์ข้อมูล

ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือ การวิเคราะห์เบื้องต้น โดยการใช้วิธีทางสถิติ หรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่างๆ รวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหา และแต่ละชุดข้อมูล

5. Result/Action การใช้ผลการวิเคราะห์ข้อมูล

ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมี “มนุษย์” คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่ม เพื่อให้มีการกระทำออกไป ที่เรียกว่า Artificial Intelligence (AI)

ลักษณะที่สำคัญของ Big Data

Big data ที่มีคุณภาพสูงควรมีลักษณะพื้นฐานอยู่ 6 ประการหลักๆ (6 Vs) ดังนี้

1. ปริมาณ (Volume) หมายถึง ปริมาณของข้อมูลควรมีจำนวนมากพอ ทำให้เมื่อนำมาวิเคราะห์แล้วจะได้ insights ที่ตรงกับความเป็นจริง เช่น การที่เรามีข้อมูลอายุ เพศ ของลูกค้าส่วนใหญ่ ทำให้เราสามารถหา demographic profile ทั่วไปของลูกค้าที่ถูกต้องได้ ถ้าเรามีข้อมูลลูกค้าแค่ส่วนน้อย ค่าที่ประมาณออกมาอาจจะไม่ตรงกับความเป็นจริง

2. ความหลากหลาย (Variety) หมายถึง รูปแบบของข้อมูลควรหลากหลายแตกต่างกันออกไป ทั้งแบบโครงสร้าง, กึ่งโครงสร้าง, ไม่มีโครงสร้าง ทำให้เราสามารถนำมาวิเคราะห์ประกอบกัน จนได้ได้ insights ครบถ้วน

3. ความเร็ว (Velocity) หมายถึง คุณลักษณะข้อมูลที่ถูกสร้างขึ้นอย่างรวดเร็วต่อเนื่องและทันเหตุการณ์ ทำให้เราสามารถวิเคราะห์ข้อมูลแบบ real-time นำผลลัพธ์มาทำการตัดสินใจและตอบสนองได้อย่างทันท่วงที เช่น ข้อมูล GPS ที่ใช้ติดตามตำแหน่งของรถ อาจจะนำมาวิเคราะห์โอกาสที่ทำให้เกิดอุบัติเหตุ และออกแบบระบบป้องกันอุบัติเหตุได้

4. ความถูกต้อง (Veracity) หมายถึง มีความน่าเชื่อถือของแหล่งที่มาข้อมูลและความถูกต้องของชุดข้อมูล มีกระบวนการในการตรวจสอบและยืนยันความถูกต้องของข้อมูล ซึ่งมีความเกี่ยวเนื่องโดยตรงกับผลลัพท์การวิเคราะห์ข้อมูล

5. คุณค่า (Value) หมายถึง ข้อมูลมีประโยชน์และมีความสัมพันธ์ในเชิงธุรกิจ ซึ่งต้องเข้าใจก่อนว่าไม่ใช่ทุกข้อมูลจะมีประโยชน์ในการเก็บและวิเคราะห์ ข้อมูลที่มีประโยชน์จะต้องเกี่ยวข้องกับวัตถุประสงค์ทางธุรกิจ เช่นถ้าต้องการเพิ่มขีดความสามารถในการแข่งขันในตลาดของผลิตภัณฑ์ที่ขาย ข้อมูลที่มีประโยชน์ที่สุดน่าจะเป็นข้อมูลผลิตภัณฑ์ของคู่แข่ง

6. ความแปรผันได้ (Variability) หมายถึง ข้อมูลสามารถในการเปลี่ยนแปลงรูปแบบไปตามการใช้งาน หรือสามารถคิดวิเคราะห์ได้จากหลายแง่มุม และรูปแบบในการจัดเก็บข้อมูลก็อาจจะต่างกันออกไปในแต่ละแหล่งของข้อมูล

คุณลักษณะเหล่านี้ทำให้การจัดการ Big Data เป็นเรื่องยาก แต่ในขณะเดียวกันก็เป็นโอกาสให้องค์กรสร้างความได้เปรียบเหนือคู่แข่งด้วยการพัฒนาขีดความสามารถในการวิเคราะห์ข้อมูล

วิวัฒนาการของ Big Data

ถึงแม้ว่าแนวคิดเรื่องข้อมูลขนาดใหญ่หรือ Big Data จะเป็นของใหม่และมีการเริ่มทำกันในไม่กี่ปีมานี้เอง แต่ต้นกำเนิดของชุดข้อมูลขนาดใหญ่ได้มีการริเริ่มสร้างมาตั้งแต่ยุค 60 และในยุค 70 โลกของข้อมูลก็ได้เริ่มต้น และได้พัฒนาศูนย์ข้อมูลแห่งแรกขึ้น และทำการพัฒนาฐานข้อมูลเชิงสัมพันธ์ขึ้นมา

ประมาณปี 2005 เริ่มได้มีการตะหนักถึงข้อมูลปริมาณมากที่ผู้คนได้สร้างข้นมาผ่านสื่ออนไลน์ เช่น เฟสบุ๊ค ยูทูป และสื่ออนไลน์แบบอื่นๆ  Hadoop เป็นโอเพ่นซอร์สเฟรมเวิร์คที่ถูกสร้างขึ้นมาในช่วงเวลาเดียวกันให้เป็นที่เก็บและวิเคราะห์ข้อมูลขนาดใหญ่ และในช่วงเวลาเดียวกัน NoSQL ได้ก็เริ่มขึ้นและได้รับความนิยมมากขึ้น

การพัฒนาโอเพนซอร์สเฟรมเวิร์ค เช่น Hadoop (และเมื่อเร็ว ๆ นี้ก็มี Spark) มีความสำคัญต่อการเติบโตของข้อมูลขนาดใหญ่ เนื่องจากทำให้ข้อมูลขนาดใหญ่ทำงานได้ง่าย และประหยัดกว่า ในช่วงหลายปีที่ผ่านมาปริมาณข้อมูลขนาดใหญ่ได้เพิ่มขึ้นอย่างรวดเร็ว ผู้คนยังคงสร้างข้อมูลจำนวนมาก ซึ่งไม่ใช่แค่มนุษย์ที่ทำมันขึ้นมา

การพัฒนาการของ IOT (Internet of Thing) ซึ่งเป็นเครื่องมืออุปกรณ์ที่เชื่อมต่อกับอินเตอร์เนตก็ทำการเก็บและรวบรวมข้อมูลซึ่งอาจเป็นเรื่องที่เกี่ยวกับพฤติกรรมการใช้งานของลูกค้า ประสิทธิภาพของสินค้า หรือการเรียนรู้ของเครื่องจักรพวกนี้ล้วนทำให้มีข้อมูลขนาดใหญ่

แม้ว่ายุคของข้อมูลขนาดใหญ่ Big Data มาถึงและได้เริ่มต้นแล้ว แต่มันก็ยังเป็นเพียงแต่ช่วงแรกๆ และระบบระบบคลาวด์คอมพิวติ้งก็ได้ขยายความเป็นไปได้มากขึ้น คลาวด์มีความสามารถในการในการใช้งานได้อย่างยืดหยุ่นได้

1. Behavioral data: ข้อมูลเชิงพฤติกรรมการใช้งาน ต่างๆ เช่น server log, พฤติกรรมการคลิกดูข้อมูล, ข้อมูลการ ใช้ ATM เป็นต้น

2. Image & sounds: ภาพถ่าย, วิดีโอ, รูปจาก google street view, ภาพถ่ายทางการแพทย์, ลายมือ, ข้อมูลเสียงที่ถูกบันทึกไว้ เป็นต้น 

3. Languages: text message, ข้อความที่ถูก tweet, เนื้อหาต่างๆในเว็บไซต์ เป็นต้น 

4. Records: ข้อมูลทางการแพทย์, ข้อมูลผลส�ำรวจ ที่มีขนาดใหญ่, ข้อมูลทางภาษี เป็นต้น 

5. Sensors: ข้อมูลอุณหภูมิ, accelerometer, ข้อมูลทางภูมิศาสตร์ เป็นต้น

ก่อนที่ธุรกิจจะสามารถนำ Big Data มาใช้งานได้ พวกเขาควรพิจารณาว่าข้อมูลจะไหลเวียนไปยังสถานที่ แหล่งที่มา ระบบ เจ้าของ และผู้ใช้จำนวนมากได้อย่างไร มีห้าขั้นตอนสำคัญในการจัดการ “โครงสร้างข้อมูล” ขนาดใหญ่นี้ ซึ่งรวมถึงข้อมูลแบบดั้งเดิม ข้อมูลที่มีโครงสร้าง และข้อมูลที่ไม่มีโครงสร้างและกึ่งมีโครงสร้าง:

Toplist

โพสต์ล่าสุด

แท็ก

ไทยแปลอังกฤษ แปลภาษาไทย โปรแกรม-แปล-ภาษา-อังกฤษ พร้อม-คำ-อ่าน lmyour แปลภาษา แปลภาษาอังกฤษเป็นไทย pantip ไทยแปลอังกฤษ ประโยค แอพแปลภาษาอาหรับเป็นไทย ห่อหมกฮวกไปฝากป้าmv ระเบียบกระทรวงการคลังว่าด้วยการจัดซื้อจัดจ้างและการบริหารพัสดุภาครัฐ พ.ศ. 2560 แปลภาษาอาหรับ-ไทย Terjemahan พจนานุกรมศัพท์ทหาร หยน แปลภาษา มาเลเซีย ไทย Bahasa Thailand ข้อสอบภาษาอังกฤษ พร้อมเฉลย pdf บบบย tor คือ จัดซื้อจัดจ้าง การ์ดแคปเตอร์ซากุระ ภาค 4 ชขภใ ยศทหารบก เรียงลําดับ ห่อหมกฮวกไปฝากป้า หนังเต็มเรื่อง เขียน อาหรับ แปลไทย แปลภาษาอิสลามเป็นไทย Google map กรมพัฒนาฝีมือแรงงาน อบรมออนไลน์ กระบวนการบริหารทรัพยากรมนุษย์ 8 ขั้นตอน ข้อสอบคณิตศาสตร์ พร้อมเฉลย ค้นหา ประวัติ นามสกุล อาจารย์ ตจต แจ้ง ประกาศ น้ำประปาไม่ไหล แปลบาลีเป็นไทย แปลภาษา ถ่ายรูป แปลภาษาจีน แปลภาษามลายู ยาวี โรงพยาบาลภมูพลอดุยเดช ที่อยู่ Google Drive Info TOR คือ กรมพัฒนาฝีมือแรงงาน ช่างไฟฟ้า กรมพัฒนาฝีมือแรงงาน อบรมฟรี 2566 กลยุทธ์ทางการตลาด มีอะไรบ้าง การบริหารทรัพยากรมนุษย์ มีอะไรบ้าง การประปาส่วนภูมิภาค การ์ดแคปเตอร์ซากุระ ภาค 3 ขขขขบบบยข ่ส ข่าว น้ำประปา วันนี้ ข้อสอบโอเน็ต ม.6 มีกี่ตอน ตารางธาตุ ประปาไม่ไหล วันนี้