910 likes | 1.65k Views
บทที่ 1 ระบบคลังข้อมูลและกระบวนการคลังข้อมูล (Data Warehouse and Data Warehousing). 321452 Data Warehouse Design. หัวข้อภายในบทนี้. คลังข้อมูล (Data Warehouse) คลังข้อมูลคืออะไร เหตุใดต้องมีคลังข้อมูล องค์ประกอบหลักของคลังข้อมูล ประโยชน์ของคลังข้อมูล
E N D
บทที่ 1ระบบคลังข้อมูลและกระบวนการคลังข้อมูล(Data Warehouse and Data Warehousing) 321452 Data Warehouse Design
หัวข้อภายในบทนี้ • คลังข้อมูล (Data Warehouse) • คลังข้อมูลคืออะไร • เหตุใดต้องมีคลังข้อมูล • องค์ประกอบหลักของคลังข้อมูล • ประโยชน์ของคลังข้อมูล • กระบวนการคลังข้อมูล (Data Warehousing)
คลังข้อมูล (Data Warehouse) • ปัจจุบันทุกองค์กรธุรกิจ ต่างตระหนักถึงความสำคัญของข้อมูล (Data) และสารสนเทศ (Information) • เพราะข้อมูลเป็นวัตถุดิบที่จะนำไปใช้ในการวิเคราะห์ วิจัย เพื่อทำให้ธุรกิจดำเนินไปได้อย่างมีประสิทธิภาพ และส่งผลให้เกิดกำไรสูงสุดต่อองค์กร
คลังข้อมูล (Data Warehouse) • การวัดว่าการมีและการใช้ข้อมูลขององค์กร จะมีประโยชน์สูงสุดต่อองค์กรหรือไม่อย่างไรนั้น เราต้องมีการวัดการใช้ข้อมูลใน 2 มิติ ด้วยกัน คือ • การมีและการใช้ข้อมูลนั้น เพียงพอหรือไม่ • การมีและการใช้ข้อมูลนั้นมีคุณภาพมากน้อยเพียงใด
คลังข้อมูล (Data Warehouse) • ความเพียงพอ • องค์กรต้องมีข้อมูลเพียงพอต่อความต้องการ ในขณะเดียวกันต้องมีกระบวนการ วิธีการ และเครื่องมือ ที่จะใช้งานข้อมูลเหล่านั้นครบถ้วน • คุณภาพ • องค์กรต้องมีข้อมูลที่มีคุณภาพตรงตามต้องการ ในขณะเดียวกันต้องมีกระบวนการ วิธีการ และเครื่องมือ เพื่อให้สามารถวิเคราะห์ข้อมูลได้ตรงตามความต้องการ
คลังข้อมูล (Data Warehouse) • ในสภาพปัจจุบัน องค์กรธุรกิจ มักมีระบบสารสนเทศ (Information System) เพื่อจัดการข้อมูลในแต่ละด้าน • แต่ละระบบต่างมีหน้าที่และความรับผิดชอบแตกต่างกันไปด้วยปัจจัยบางอย่าง เช่น • ความจำกัดของงบประมาณ ณ ขณะในขณะหนึ่ง • นโยบายของบริษัท • วิสัยทัศน์ของผู้บริหาร • ฯลฯ • อาจทำให้ระบบสารสนเทศสำหรับงานแต่ละด้านอาจ ถูกพัฒนาขึ้นในเวลาที่ต่างกัน เทคโนโลยีที่ต่างกัน หรือมีรูปแบบการเก็บข้อมูลที่ไม่เหมือนกัน
คลังข้อมูล (Data Warehouse) • อาจทำให้ระบบสารสนเทศสำหรับงานแต่ละด้านอาจจะถูกพัฒนาขึ้น • ในเวลาที่ต่างกัน • เทคโนโลยีที่ต่างกัน • มีรูปแบบการเก็บข้อมูลที่ไม่เหมือนกัน • ส่งผลให้เกิดปัญหาบางอย่างขึ้นในการใช้งานข้อมูล ดังตัวอย่างต่อไปนี้
กรณีตัวอย่าง • บริษัท ABC เป็นบริษัทที่ทำธุรกิจเกี่ยวกับการผลิตสินค้าประเภทอุปกรณ์อิเล็กทรอนิกส์ บริษัทเริ่มก่อนตั้งในปี 2533 ซึ่งมีประวัติและรายละเอียดในการพัฒนาระบบสารสนเทศ ดังนี้
กรณีตัวอย่าง • ในการใช้งานระบบสารสนเทศที่ได้จากคอมพิวเตอร์ นับตั้งแต่ปี 2540 จนถึงปัจจุบัน เกิดปัญหาในการวิเคราะห์ข้อมูลหลายกรณี ดังนี้
ข้อสรุปจากกรณีตัวอย่างข้อสรุปจากกรณีตัวอย่าง • จากกรณีตัวอย่างนี้ จะเห็นว่าการพัฒนาระบบงานในลักษณะนี้ก่อให้เกิดปัญหาขึ้นในหลายด้าน ซึ่งสรุปได้ดังนี้ • การมีมาตรฐานของ Hardware, Software และรูปแบบการเก็บมูลที่แตกต่างกัน ทำให้การใช้ข้อมูลร่วมกันทำได้ยาก (ดังกรณีที่ 3) • เกิดความซ้ำซ้อนของข้อมูล (Data Redundancy) หมายถึง การมีข้อมูลที่มีเนื้อหาเดียวกันอยู่ในหลายๆ แห่ง ซึ่งเป็นการสิ้นเปลืองพื้นที่จัดเก็บ และการดูแลรักษาโดยไม่จำเป็น (ดังกรณีที่ 2)
ข้อสรุปจากกรณีตัวอย่างข้อสรุปจากกรณีตัวอย่าง • จากการที่มี Data Redundancy ขึ้น ทำให้เสี่ยงต่อการเกิดความไม่สอดคล้องของข้อมูล (Data Inconsistency) เมื่อมีข้อมูลที่มีเนื้อหาเดียวกันถูกแยกเก็บไว้ในหลายๆ ระบบ หากมีการแก้ไข แล้วแก้ไขไม่ครบทุกระบบ จะทำให้ข้อมูลตัวเดียวกันนั้นในแต่ระบบกลับมีเนื้อหาที่แตกต่างกันได้ • การที่แต่ระบบมีวิธีการให้รหัสของข้อมูล (Coding System) ที่แตกต่างกัน ทำให้เกิดปัญหา หลายมาตรฐาน หรือ มาตรฐานซ้อน (Multiple Standards)ขึ้น(ดังกรณีที่ 1) ทำให้การหาหรือระบุว่าข้อมูลตัวใดในสองระบบเป็นข้อมูลเดียวกันทำได้ยาก รวมทั้งการอ้างอิงข้อมูลที่สอดคล้องกันหรือมีความสัมพันธ์กันข้ามระบบก็เป็นไปได้ยากเช่นกัน นับเป็นอุปสรรคสำคัญในการวิเคราะห์ข้อมูลข้ามธุรกิจ (Cross-Business Data Analysis)
ข้อสรุปจากกรณีตัวอย่างข้อสรุปจากกรณีตัวอย่าง • รูปแบบการพัฒนาระบบสารสนเทศดังกรณีตัวอย่างที่กล่าวมา เราเรียกว่า “การพัฒนาระบบแบบยุ้งฉาง (Silo-based System Development)” • ซึ่งหมายถึง การพัฒนาระบบสารสนเทศของแต่ละส่วนขึ้นที่ละส่วน โดยที่แต่ละส่วนมีมาตรฐานและเทคโนโลยีที่แตกต่างกัน เปรียบได้กับยุ้งฉางในทุ่งนา ที่แต่ละแห่งต่างก็มีอิสระของตนเอง ไม่ยุ่งเกี่ยวกับยุ้งฉางอื่นๆ • เพื่อให้การมีและการใช้ข้อมูลให้เป็นประโยชน์สูงสุดต่อองค์กร จึงได้มีแนวคิดที่จะรวมเอาข้อมูลจากระบบสารสนเทศต่างๆ ขององค์กร เข้าเป็นอันหนึ่งอันเดียวกัน เพื่อลด หรือขจัดปัญหาการมีและการใช้ข้อมูลจากระบบสารสนเทศแบบยุ้งฉาง หนทางหนึ่ง ก็คือ การสร้างระบบคลังข้อมูล (Data Warehouse)
คลังข้อมูลคืออะไร • นิยามของคลังข้อมูล • เป็นระบบข้อมูลขนาดใหญ่ที่เอื้ออำนวยให้ผู้ใช้งานสามารถใช้ข้อมูลได้อย่างมีประสิทธิภาพ ข้อมูลที่จัดเก็บอยู่ในคลังข้อมูลต้องมีปริมาณเพียงพอ และเป็นข้อมูลที่มีคุณภาพเพียงพอต่อการนำไปวิเคราะห์ เพื่อหาคำตอบที่เหมาะสมทางธุรกิจ การจัดเก็บต้องเอื้ออำนวยต่อการใช้ข้อมูลเชิงวิเคราะห์ให้เป็นไปได้โดยง่าย สามารถวิเคราะห์ข้อมูลได้รวดเร็ว ไม่ยุ่งยากซับซ้อน • ส่วนสำคัญที่ทำให้ระบบคลังข้อมูล มีความแตกต่างจากระบบสารสนเทศทั่วไป คือ คุณลักษณะของข้อมูล ที่จัดเก็บอยู่ในฐานข้อมูล
คุณลักษณะของข้อมูลในคลังข้อมูลคุณลักษณะของข้อมูลในคลังข้อมูล • Subject-oriented Data • Integrated Data • Time Referenced Data • Non-Volatile Data
Subject-oriented Data • ในองค์แต่ละแห่งมักจะพัฒนาระบบสารสนเทศเพื่อตอบสนองต่อการทำงานขององค์กรที่แตกต่างกัน เช่น • พัฒนาระบบสารสนเทศการขาย เพื่อตอบสนองต่อการวิเคราะห์ข้อมูลการขายสินค้า • พัฒนาระบบคลังสินค้า เพื่อตอบสนองต่อการวิเคราะห์ข้อมูลการสุ่งสินค้าเข้า หรือการจ่ายสินค้าออก • การจัดกลุ่มข้อมูลในลักษณะข้างต้น เป็นการแบ่งข้อมูลตามกิจกรรมขององค์กร(Activity-oriented Data) ที่แตกต่างกัน • แต่ในระบบคลังข้อมูล ข้อมูลจะถูกจัดกลุ่มตามเนื้อหาของข้อมูล (Subject-oriented Data)แทน โดยพิจารณาว่า ในบรรดาข้อมูลที่มีอยู่ในทุกๆ ระบบนั้น มีข้อมูลใดบ้างที่บอกเล่าเรื่องราวเดียวกัน หรือ คล้ายคลึงกัน จะถูกจัดในกลุ่มเดียวกัน
Subject-oriented Data • ตัวอย่างเช่น ระบบการขายสินค้าและระบบคลังสินค้า • ในระบบการขายสินค้า มีทั้งข้อมูลสินค้า และข้อมูลรายได้/รายจ่าย ที่เกิดขึ้นจากการขายสินค้า • ในระบบคลังสินค้า มีทั้งข้อมูลสินค้า และข้อมูลรายได้/รายจ่าย ที่เกิดขึ้นจากการจัดการสินค้าคงคลัง • ดังนั้น เราจึงควรแบ่งข้อมูลออกเป็น 2 กลุ่มใหญ่ๆ คือ • กลุ่มสินค้า • กลุ่มของรายได้/ค่าจ่าย
Integrated Data • ข้อมูลที่เข้ามาสู่คลังข้อมูลนั้นมีที่มาจากหลายๆ แหล่ง เช่น • ระบบปฏิบัติงานประจำวันขององค์กร • ระบบสารสนเทศต่างๆ ในองค์กร • แหล่งข้อมูลภายนอก • ดังนั้น อาจเกิดความซ้ำซ้อนของข้อมูลขึ้น กล่าวคือ อาจมีข้อมูลที่เป็นเรื่องเดียวกัน แต่มีที่มาแตกต่างกัน หรือมีมาตรฐานข้อมูลที่แตกต่างกัน
Integrated Data • ดังนั้น หน้าที่ของคลังข้อมูล คือ การกำจัดความซ้ำซ้อนของข้อมูล หรือการทำให้ข้อมูลมีคุณสมบัติ Integrated Dataเพื่อไม่ให้เกิดความสับสนในการวิเคราะห์ข้อมูล • ในทางกลับกัน เราอาจจำเป็นต้องยอมรับให้เกิด Data Dependency ได้ (เพื่อความสะดวกในการแก้ไขข้อมูล) แต่ต้องไม่เกิดปัญหา Data Inconsistency
Time Referenced Data • ในระบบปฏิบัติงาน จะสนใจเฉพาะข้อมูลในปัจจุบัน ซึ่งมีผลต่อการดำเนินธุรกิจขององค์กรใน ณ ขณะนั้น • แต่ระบบคลังข้อมูลจะมุ่งเน้นไปที่การเก็บข้อมูลเพื่อการวิเคราะห์ข้อมูลตามช่วงเวลา(Time-Series Data Analysis) • เพื่อให้สามารถวิเคราะห์ข้อมูลดังกล่าวได้ คลังข้อมูลต้องสามารถบอกได้ว่าเกิดเหตุการณ์อะไรขึ้น เกิดขึ้นเมื่อใด เพื่อเอื้อต่อการตอบคำถามในลักษณะดังตัวอย่างต่อไปนี้ ยอดขายรถยนต์ของปีนี้ในแต่ละไตรมาส จำแนกตามประเภทรถยนต์ เป็นเท่าใด?
Time Referenced Data • ดังนั้น ระบบคลังข้อมูลต้องจัดเก็บข้อมูลทั้งในอดีตและปัจจุบันขององค์กร โดยเมื่อนำมาใช้งาน ระบบต้องบอกได้ว่าข้อมูลที่กำลังสนใจนั้นเกิดขึ้นเมื่อใด • เราเรียกข้อมูลในลักษณะนี้ว่า “Time-Referenced Data”
Non-Volatile Data • เพื่อรักษาคุณสมบัติ Time-Referenced Data ข้อมูลในคลังข้อมูลจึงต้องเป็นข้อมูลที่คงอยู่ตลอดไป • ไม่ว่าจะเป็นข้อมูลที่เก่าเพียงใด ก็จะยังอยู่ในคลังข้อมูลตลอด ไม่ถูกลบออก • เราเรียกคุณสมบัตินี้ว่า “Non-Volatile Data” • เพื่อให้การวิเคราะห์ข้อมูลแบบ Time-Series Data Analysis ให้ผลลัพธ์ที่มีประสิทธิภาพ
Non-Volatile Data • อย่างไรก็ตามถึงแม้ว่า Non-Volatile Data จะไม่ถูกลบออกจากคลังข้อมูลก็ตาม • แต่เพื่อการจัดการพื้นที่ในคลังข้อมูลอย่างมีประสิทธิภาพ Non-Volatile Data สามารถถูกเปลี่ยนแปลงรูปแบบไป เพื่อให้ข้อมูลมีขนาดเล็กลง โดยการเปลี่ยนแปลงนี้จะต้องไม่กระทบต่อการวิเคราะห์ข้อมูล • เราเรียกกระบวนการนี้ว่า “Data Packing” ซึ่งจะได้ศึกษารายละเอียดในภายหลัง
คลังข้อมูลไม่ใช่ผลิตภัณฑ์(DW is not on-the shelf system) • คลังข้อมูลไม่ใช่ผลิตภัณฑ์ หรือ ระบบสำเร็จรูป ที่สามารถหาซื้อได้จากท้องตลาด • แต่คลังข้อมูล เป็นหลักการ วิธีการ และแนวทางแก้ปัญหา • เนื่องจาก ลักษณะของงานของแต่ละองค์กรมีความแตกต่างกัน และมีความเป็นเฉพาะตัวของตนเอง ทั้งในแง่ทฤษฎีและปฏิบัติ • ดังนั้น จึงเป็นการยากที่จะมีระบบหรือซอฟต์แวร์ ที่สามารถเข้ากับธุรกิจของทุกองค์กรได้อย่างแท้จริง • ในทางตรงกันข้าม การพัฒนาคลังข้อมูลต้องการความรู้เกี่ยวกับกิจกรรมและธุรกิจขององค์กรอย่างถ่องแท้ เพื่อให้ผู้พัฒนาสามารถเข้าใจภาพและเรื่องราวทางธุรกิจขององค์กรได้อย่งถ่องแท้ก่อน จึงจะสามารถออกแบบคลังข้อมูลที่สามารถสร้างผลลัพธ์ที่มีประโยชน์สูงสุดต่อการตัดสินใจในอนาคตได้
เหตุใดต้องมีคลังข้อมูลเหตุใดต้องมีคลังข้อมูล • องค์กรใดควรมีคลังข้อมูล • การพัฒนาคลังข้อมูลของแต่ละองค์กรมีวัตถุประสงค์แตกต่างกันไป เช่น • บางแห่งสร้างคลังข้อมูลเพื่อแก้ปัญหาการใช้ข้อมูลในองค์กร(Data Warehouse as a Solution to Data Access Problem)[แบบนี้จำเป็นต้องสร้าง] • บางแห่งสร้างคลังข้อมูลเพื่อการใช้ข้อมูลที่มีประสิทธิภาพ(Data Warehouse as a Solution to Data Access Optimizer) [แบบนี้ต้องพิจาณาดูก่อน] • สำหรับองค์กรที่ยังไม่ประสบปัญหาการใช้ข้อมูล แต่คิดจะสร้างคลังข้อมูลนั้น ต้องคำนึงถึงความคุ้มค่าในการสร้างคลังข้อมูล (โดยทั่วไป การสร้างคลังข้อมูล ต้องใช้ทรัพยากรจำนวนมาก) • ตัวอย่างเช่น • องค์กรสมควรมีคลังข้อมูล หากว่าในปัจจุบันองค์กรมีข้อมูลหลายประเภท และมีปริมาณมากขึ้นเรื่อยๆ และคาดว่าในอนาคตจำเป็นต้องอาศัยการวิเคราะห์ข้อมูลแบบภาพรวม เพื่อการแข่งขันทางธุรกิจในอนาคต
เหตุใดต้องมีคลังข้อมูลเหตุใดต้องมีคลังข้อมูล • ความจำเป็นของการมีคลังข้อมูลในแง่ของผู้ใช้งาน • ระบบสารสนเทศทั่วไป มักเป็นระบบที่ความต้องการของผู้ใช้ผูกติกกับนักวิเคราะห์ระบบ และนักพัฒนาระบบ • เพราะผลลัพธ์ต่างๆ ที่ผู้ใช้งานต้องการ มักอยู่ในรูปของรายงานที่ตายตัว (Fixed Report) ถ้าต้องการปรับเปลี่ยนแก้ไขรายงาน ผู้ใช้ต้องรอให้นักวิเคราะห์ระบบ และนักพัฒนาระบบปรับแก้ให้ ทำให้เกิดความไม่คล่องตัว และเสี่ยงต่อการไม่ได้ผลลัพธ์ที่ต้องการ เนื่องจากนักวิเคราะห์ระบบ และนักพัฒนาระบบคงไม่มีความเข้าใจเรื่องราวทางธุรกิจได้ดีเท่าผู้ใช้งาน • เพื่อแก้ไขปัญหาดังกล่าว • การวางโครงสร้างของข้อมูลในคลังข้อมูล จะมีลักษณะตรง หรือใกล้เคียงความต้องการของผู้ใช้งาน • และมีเครื่องมือที่ช่วยให้ผู้ใช้งานสามารถสร้างรายงานตามความต้องการใหม่ๆ ได้เอง • รวมถึงการวิเคราะห์ข้อมูลในรูปแบบต่างๆ ที่ยืดหยุ่น และสามารถต่อยอดความต้องการได้ง่าย • ทำให้ผู้ใช้ลดการพึ่งพานักคอมพิวเตอร์ได้ระดับหนึ่ง
เหตุใดต้องมีคลังข้อมูลเหตุใดต้องมีคลังข้อมูล • ความจำเป็นของการมีคลังข้อมูลในแง่ของผู้บริหาร • การได้มาซึ่งผลการวิเคราะห์ข้อมูลที่หลากหลายอย่างรวดเร็ว ทำให้ผู้บริหารได้รับข้อมูลเพื่อการตัดสินใจได้อย่างทันท่วงที • ส่งผลให้การดำเนินธุรกิจได้อย่างคล่องตัว
ข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูลข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูล • คลังข้อมูลเมื่อมองเผินๆก็คือฐานข้อมูลชนิดหนึ่งแต่สร้างขึ้นมาเพื่อวัตถุประสงค์ต่างออกไป สิ่งที่แตกต่างอย่างเห็นได้ชัด คือ • ข้อมูลในฐานข้อมูลเป็นข้อมูลดิบที่เราใส่ลงไปเรื่อยๆ หรือที่เรียกกันว่า ฐานข้อมูลปฏิบัติการ • แต่คลังข้อมูลจะเป็นมากกว่านั้น คือ ข้อมูลที่ที่มีอยู่จะถูกนำมาประมวลผลใหม่เพื่อหาแนวโน้มและวิเคราะห์สิ่งที่จะเกิดขึ้นในอนาคต • โดยสรุปแล้ว • คลังข้อมูลใช้เพื่อการวิเคราะห์ (ข้อมูลทั้งอดีตและปัจจุบัน) • ฐานข้อมูลใช้เพื่อทำการประมวลผล (เฉพาะข้อมูลปัจจุบัน)
ข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูลข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูล
ข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูลข้อแตกต่างระหว่างข้อมูลปฏิบัติการและคลังข้อมูล
องค์ประกอบหลักของคลังข้อมูลองค์ประกอบหลักของคลังข้อมูล Data Warehouse Staging Areas Data Warehouse Database Data Source Data Mart Data Usage
Data Sources • หมายถึง แหล่งข้อมูลต้นทางต่างๆ ที่จะนำเข้าสู่คลังข้อมูล(มาจากระบบปฏิบัติการต่างๆ ขององค์กร ) • อาจมาจากระบบเดียวหรือหลายๆ ระบบก็ได้ • มีรูปแบบที่หลากหลาย เช่น • Text File • Oracle • Excel File • Access
Staging Areas • เนื่องจากข้อมูลที่มาจากระบบปฏิบัติการขององค์กร (Data Sources) อาจมีความหลากหลาย ทั้งในแง่มาตรฐานและวิธีการจัดเก็บ และอาจมีความซ้ำซ้อนกัน • ข้อมูลจากแหล่งข้อมูล จำเป็นต้องถูกปรับให้เข้ากับมาตรฐานของคลังข้อมูลเสียก่อนที่จะเข้าไปอยู่ใน Data Warehouse Database • ดังนั้น คลังข้อมูลจึงจำเป็นจะต้องมี Staging Areas Database ซึ่งเป็นฐานข้อมูลที่ทำหน้าที่พักข้อมูล ขณะที่ถูกปรับให้เข้ากับมาตรฐานของคลังข้อมูล
Data Warehouse Database • เป็นฐานข้อมูลที่ทำหน้าที่ในการจัดเก็บข้อมูลทางธุรกิจขององค์กร • จัดเป็นส่วนที่มีความสำคัญที่สุดของคลังข้อมูล
Data Mart หรือ Data Provisioning Area • ข้อมูลมาจาก Data Warehouse Database จะถูกดึงและประมวลผล แล้วนำผลที่ได้มาเก็บไว้ที่ Data Provisioning Area ซึ่งโครงสร้างข้อมูลของ Data Provisioning Area นั้นจะอยู่ในรูปแบบที่เหมาะสมสำหรับการนำไปใช้งาน เช่น อยู่ในรูป Report หรือ Cube เป็นต้น ในการใช้งาน จะนิยมเรียก Data Provisioning Area ว่า Data Mart
Data Mart หรือ Data Provisioning Area • ลักษณะของ Data Mart มีดังนี้ • ข้อมูลเจาะจงไปยังฟังก์ชันเฉพาะกลุ่มหรือหน่วยงานภายในขององค์กร • ให้ผลตอบแทนที่รวดเร็ว คุ้มค่าในการลงทุนในด้านเวลา • การบริหารและจัดการข้อมูลสามารถทำได้โดยง่าย • ช่วยเพิ่มประสิทธิภาพ เนื่องจากการ Query ถูกแบ่งไปยังข้อมูลแต่ละส่วนของฟังก์ชัน
Data Usage • เป็นส่วนที่ทำหน้าที่ดึงเอาข้อมูลที่ได้ถูกเตรียมไว้ใน Data Provisioning Area หรือแม้แต่ Data Warehouse Database เพื่อนำเสนอผลลัพธ์ที่ใช้สำหรับการวิเคราะห์ข้อมูล • ใน Data Usageโดยจะมีเครื่องมือหรือระบบที่ทำหน้าที่ออกรายงาน ซึ่งอาจจะเป็น Simple Reporting Tools หรือ Multi Dimensional Tools หรือ Data Mining Tools ก็ได้
กระบวนการคลังข้อมูล(Data Warehousing) • เป็นการจัดการข้อมูล และการใช้งานคลังข้อมูล ทำให้เกิดแนวคิด กระบวนการ และวิธีการหลายๆ อย่างขึ้นในคลังข้อมูล อาทิเช่น • แนวคิดการออกแบบและสร้างโครงสร้างข้อมูล • กระบวนการในการย้ายข้อมูล • วิธีการเพื่อได้มาซึ่งข้อมูล • วิธีการวิเคราะห์ข้อมูล • วิธีการจัดการกับข้อมูลที่ล้าสมัยแล้ว • ฯลฯ • หลักการของวิธีการเหล่านี้ ถูกเรียกรวมกันว่า “กระบวนการคลังข้อมูล (Data Warehousing)”
กระบวนการคลังข้อมูล(Data Warehousing) • สามารถจำแนกกระบวนการต่างๆ ใน Data Warehousing ออกเป็นกลุ่มใหญ่ ดังรูป Data Propagation Data Warehouse Data Provisioning Data Store Data Store Staging Areas Data Warehouse Database Data Source Data Mart Data Usage Control Control Control Metadata
กลุ่มกระบวนการจัดเก็บข้อมูล (Data Storing) • หมายถึง กระบวนการต่างๆ ที่ดำเนินการเพื่อให้การจัดเก็บข้อมูลเป็นไปอย่างถูกต้อง สามารถบอกเล่าถึงธุรกิจขององค์กรได้อย่างแม่นยำ และมีประสิทธิภาพ • ซึ่งกระบวนการเหล่านี้ ได้แก่ • การสร้างแบบจำลองข้อมูล • การสร้างฐานข้อมูล • การจัดแบ่งพื้นที่บนฐานข้อมูล (Database Partitioning) • การปรับแต่งฐานข้อมูล (Database Tuning) • ฯลฯ
กลุ่มกระบวนการเคลื่อนย้ายข้อมูล (Data Propagation) • หมายถึง กระบวนการเพื่อการเคลื่อนย้ายข้อมูล จากองค์ประกอบหนึ่งไปยังอีกองค์ประกอบหนึ่ง • เทคนิคที่ใช้กันในคลังข้อมูล เรียกว่า “กระบวนการ ETL (Extract Transform Load)”
กลุ่มกระบวนการเตรียมเพื่อการใช้ข้อมูล (Data Provisioning) • หมายถึง กระบวนการเพื่อการออกแบบโครงสร้างข้อมูลใน Data Mart และการใช้ข้อมูลจาก Data Mart แบบต่างๆ
กระบวนการบริหารจัดการข้อมูล (Housekeeping) • หมายถึง กระบวนการบริหารจัดการทรัพยากรของคลังข้อมูล เนื่องจากฐานข้อมูลที่ใช้เพื่อการจัดเก็บข้อมูลมีจำนวนและขนาดที่จำกัด • การคาดการณ์การเติบโตของข้อมูล เพื่อจัดเตรียมพื้นที่ให้เพียงพอต่อการใช้งานตามช่วงเวลาที่เหมาะสม(เรียกว่า Data Sizing) • การจัดการกับข้อมูลที่ล้าสมัย ให้จัดเก็บอยู่ใน Data Warehouse Database ได้ต่อไป แต่ต้องมีขนาดเล็กลง (เรียกว่า Data Packing) • กระบวนการอื่นๆ ที่จำเป็นต้องดำเนินการ เพื่อให้คลังข้อมูลสามารถทำงานต่อไปได้ด้วยความราบรื่น
กระบวนการควบคุมการทำงานของระบบ(Controlling)กระบวนการควบคุมการทำงานของระบบ(Controlling) • ระบบคลังข้อมูล ก็เหมือนกับระบบทั่วๆ ไป ที่ต้องมีการควบคุมการทำงาน โดยจะมีข้อมูลประเภทพิเศษที่เรียกว่า “Metadata” เพื่อเก็บข้อมูลเกี่ยวกับคุณสมบัติของข้อมูลและของระบบ ซึ่งจะถูกใช้เพื่อการควบคุมการทำงานต่างๆ ในคลังข้อมูล • Metadata เป็นแนวคิดค่อยข้างใหม่ในระบบคลังข้อมูล มีรายละเอียดปลีกย่อยมากมาย และมีความเฉพาะตัวแตกต่างกันไปในและคลังข้อมูล ซึ่งจะกล่าวถึงในบทหลังๆ
ประโยชน์ของระบบคลังข้อมูลประโยชน์ของระบบคลังข้อมูล • ในระบบคลังข้อมูล ข้อมูลที่ซับซ้อนจะถูกรวบรวมหรือเปลี่ยนแปลงให้ง่ายต่อการจัดเก็บและสามารถเรียกกลับมาใช้ได้อย่างรวดเร็วและถูกต้อง โดยข้อมูลต่างๆเหล่านี้จะถูกนำมาใช้สำหรับการวิเคราะห์และช่วยในเรื่องการตัดสินใจโดยอาศัยเครื่องมือ (tool) ที่อยู่ในเครื่องคอมพิวเตอร์ที่เป็นซอฟท์แวร์มาใช้ในการจัดการทำรายงานและเพิ่มประสิทธิภาพสำหรับการตัดสินใจให้รวดเร็วยิ่งขึ้น
ประโยชน์ของระบบคลังข้อมูลประโยชน์ของระบบคลังข้อมูล • โดยผู้บริหาร นักวางแผน และนักวิเคราะห์ข้อมูลสามารถเรียกหาข้อมูลหรือสอบถาม (query) เพื่อให้ได้รับคำตอบในรูปแบบตารางรายงาน หรือรายงาน กราฟ เพื่อมาทำการวิเคราะห์ข้อมูลด้วยตนเอง เช่น • การเปรียบเทียบยอดขายระหว่างช่วงเวลาในอดีตกับปัจจุบันไปจนถึงการทำพยากรณ์ยอดขายในอดีต (Forecasting) • การหายอดขายสูงสุดหรือต่ำสุด • การเปรียบเทียบยอดขาย ต้นทุน กำไร ในรูปแบบตารางรายงาน หรือรายงาน กราฟ • ฯลฯ
ประโยชน์ของระบบคลังข้อมูลประโยชน์ของระบบคลังข้อมูล • การจัดทำคลังข้อมูลจะมีความสำคัญมากขึ้นในอนาคต เพราะปัจจุบันนี้ผู้ใช้และผู้บริหารของหน่วยงานเริ่มมีเข้าใจความสำคัญของข้อมูลมากขึ้น และเริ่มตระหนักว่าหากนำข้อมูลมาวิเคราะห์ให้เข้าใจสถานภาพหรือเหตุการณ์ที่เกิดขึ้นแล้วจะทำให้หน่วยงานหรือบริษัทสามารถตอบสนองต่อเหตุการณ์ที่เกิดขึ้นได้ดียิ่งขึ้น และจะทำให้หน่วยงานหรือบริษัททำงานบรรลุวัตถุประสงค์และเป้าหมายได้ดียิ่งขึ้นตามไปด้วย
ข้อดีของคลังข้อมูล • ให้ผลตอบแทนสูง ถึงแม้ว่าจะมีการลงทุนที่สูงก็ตาม • ทำให้องค์กรเกิดความได้เปรียบคู่แข่งขันในแง่ของการได้รับข้อมูลและสารสนเทศก่อนคู่แข่ง ทำให้สามารถวิเคราะห์ข้อมูลเหล่านั้น เพื่อกำหนดเป็นแผนกลยุทธ์ และกำหนดทิศทางในการดำเนินงานได้ก่อนคู่แข่งขัน เช่น พฤติกรรมผู้บริโภค แนวโน้มความต้องการของผู้บริโภค เป็นต้น
ข้อดีของคลังข้อมูล • เพิ่มประสิทธิภาพในการตัดสินใจของผู้บริหาร เนื่องจากคลังข้อมูลได้จัดการให้ข้อมูลที่ได้รับมาจากแหล่งข้อมูลที่แตกต่างกัน มีความสอดคล้องกัน และวิเคราะห์ตามประเด็นที่ผู้บริหารต้องการ อีกทั้งข้อมูลที่มีอยู่ในคลังข้อมูลก็มีปริมาณมาก ทั้งข้อมูลในอดีตและปัจจุบัน จึงทำให้การตัดสินใจมีประสิทธิภาพมากขึ้น
ข้อเสียของคลังข้อมูล • แนวโน้มความต้องการข้อมูลมีเพิ่มมากขึ้นเรื่อยๆ เมื่อผู้ใช้ได้รับข้อมูลตามที่ต้องการจากคลังข้อมูลแล้ว ความต้องการข้อมูลของผู้ใช้ก็จะมีเพิ่มมากขึ้นเรื่อยๆ เนื่องจากเชื่อในประสิทธิภาพของคลังข้อมูลว่าจะจัดหาให้ตนได้แน่นอน จึงอาจเป็นสาเหตุให้คำตอบที่ผู้ใช้ต้องการ เพิ่มความซับซ้อนให้กับกระบวนการทำงานมากขึ้น