21 สิงหาคม 2564
4V’S OF BIG DATA คืออะไร ?

ตั้งแต่โลกของเราก้าวเข้าสู่ยุค 4.0 มาจนถึง 5.0 ในทุกวันนี้นั้นก่อให้เกิด Data มากมายมหาศาลยิ่งกว่าเราจะคิดภาพตาม หรือจินตนาการได้ แล้ว Data นั้นเกิดขึ้นมาได้อย่างไร ? เริ่มจากการค้นหาสิ่งที่เราอยากรู้ใน Google ก็ก่อให้เกิดสิ่งที่เรียกว่า Search data ที่เราสามารถเข้าไปใช้งานได้ง่ายๆ ผ่าน Google Trends อีกทั้งการช้อปปิ้งออนไลน์ที่ก่อให้เกิด Transaction data ได้เช่นกัน รวมถึงการติดต่อสื่อสารของเราในทุกๆ วัน ล้วนแต่ก่อให้เกิด Data ใหม่ๆ ขึ้นทุกวินาที

ดังนั้น เมื่อทุกวันนี้มีปริมาณ Data ที่เกิดขึ้นนั้นมีมากมายอย่างมหาศาลแทบทุกวินาทีแล้ว อะไรจะเป็นตัวนิยาม หรือแบ่งเส้นว่าข้อมูลนี้เป็น Big หรือไม่ Big ซึ่ง Big Data ต้องมีคุณลักษณะสำคัญอยู่ 4 อย่าง ได้แก่..

1. Volume
ข้อมูลจำนวนมหาศาลนี้ได้มาจากการดำเนินธุรกิจ เช่น ข้อมูลจากทุกแผนก การเงิน บัญชี ฝ่ายขาย การตลาด ลูกค้าสัมพันธ์ ฯลฯ หรือจากบทสนทนาของเรากับลูกค้าใน Social Media ทั้งหมด 

ไม่ว่าจะแบบ Online หรือ offline ไปจนถึง URLs ที่คุณ Bookmarks เอาไว้ จะจัดเก็บในรูปแบบไหนประเภทใดก็ได้ ซึ่งในแต่ละวันข้อมูลใหม่พวกนี้ก็จะมีเข้ามาตลอด ยิ่งถ้าข้อมูลที่มีจำนวนมากเข้ามาตลอดวัน 7 วันในหนึ่งอาทิตย์ เข้ามาทุกเดือนตลอดทั้งปี รวมกันหลายๆ ปี จะถือว่าเป็น Big Data ที่ใหญ่มากๆ 

2. Variety
ในทุกๆ รูปแบบถือเป็นความหลากหลาย และความซับซ้อนได้ทั้งหมด ไม่ว่าจะเป็น Behavioral data : ข้อมูลเชิงพฤติกรรมการใช้งานต่างๆ 
Image & sounds : ภาพ, วีดีโอ, ข้อมูลเสียงที่ถูกบันทึกไว้ 
Languages : ข้อความใดๆ ที่เกิดขึ้นในเว็บไซต์  
Records : ข้อมูลที่เก็บไว้อยู่ในสกุลไฟล์ใดๆ เช่น .bmp .gif .jpeg .png .tif .tiff .svg .doc .docx .odt .pdf .rtf .tex และอื่นๆ อีกมากมาย

ความหลากรูปแบบ และความซับซ้อนของข้อมูลนี่เองที่เป็นส่วนหนึ่งของ Big Data

3. Velocity
อัตราการเพิ่มขึ้นของข้อมูลเป็นไปด้วยความรวดเร็ว เช่น ข้อมูลการพิมพ์สนทนา ข้อมูลการอัดภาพวีดีโอ ข้อมูลการสั่งซื้อสินค้า ข้อมูลโปรโมชั่นต่างๆ หรือ ข้อมูล Sensor เป็นต้น 

ลองสังเกตุว่าในทุกๆ วัน ทุกๆ ชั่วโมง หน้า facebook ของเรามีการฟีดข้อมูลมามากมายแค่ไหน ดังนั้นถ้าองค์กรธุรกิจใดสามารถนำข้อมูลเหล่านั้นไปใช้ให้เกิดประโยชน์ได้ ก็จะสามารถได้เปรียบทางธุรกิจได้อีกด้วย

4. Veracity
เป็นข้อมูลที่มีความคลุมเครือ มีความไม่แน่นอน  เนื่องจากข้อมูลมีความหลากหลาย และมาจากแหล่งต่างๆ เช่น Facebook, Twitter, Youtube ซึ่งเป็นสิ่งที่ยากที่เราจะสามารถควบคุมคุณภาพของข้อมูลได้ ข้อมูลที่มีคุณภาพนั้นจะต้องถูกต้องแม่นยำ และเชื่อถือได้  ถ้าข้อมูลไร้คุณภาพก็จะส่งผลต่อการวิเคราะห์ต่อไป แต่เราจะทำให้ข้อมูลที่ยังไม่ได้คุณภาพนี้กลายเป็นข้อมูลที่ดีได้อย่างไร ขึ้นอยู่กับวิธีในการเก็บ และกระบวนการทำ Data Cleansing