Tìm hiểu về DW 2.0

Kho dữ liệu cục bộ là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart | Tìm hiểu về DW Chương 19, 20, 21 Thành viên trình bày: 1041117 Hứa Chấn Quốc 1041357 Nguyễn Thành Khang 1041311 Lê Hoàng Minh Châu Chương 19 : DW & unstructured data Nội dung chính: Khái niệm unstructured data Xử lý văn bản phi cấu trúc Phương pháp thực hiện Tích hợp văn bản Cách sử dụng 1/ Khái niệm unstructured data Là 1 dạng dữ liệu trong data warehouse có nguồn gốc từ unstructured text (txt, xls, pdf, csv, ). Dùng unstructured text sẽ cho kết quả phân tích sai. Để chuyển từ unstructured text thành unstructured data thì qua các bước: Đọc văn bản Tích hợp văn bản 2/ Xử lý văn bản phi cấu trúc – Phương pháp thực hiện Con người tự làm Xử lý bằng công cụ có sẵn : textual ETL => cho kết quả tốt nhất 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Simple editing : chuyển mọi ký tự hoa thành thường và bỏ mọi dấu câu. Lincoln stood and said - “Four score and seven years ago, our forefathers” lincoln stood and said four score and seven years ago our forefathers . | Tìm hiểu về DW Chương 19, 20, 21 Thành viên trình bày: 1041117 Hứa Chấn Quốc 1041357 Nguyễn Thành Khang 1041311 Lê Hoàng Minh Châu Chương 19 : DW & unstructured data Nội dung chính: Khái niệm unstructured data Xử lý văn bản phi cấu trúc Phương pháp thực hiện Tích hợp văn bản Cách sử dụng 1/ Khái niệm unstructured data Là 1 dạng dữ liệu trong data warehouse có nguồn gốc từ unstructured text (txt, xls, pdf, csv, ). Dùng unstructured text sẽ cho kết quả phân tích sai. Để chuyển từ unstructured text thành unstructured data thì qua các bước: Đọc văn bản Tích hợp văn bản 2/ Xử lý văn bản phi cấu trúc – Phương pháp thực hiện Con người tự làm Xử lý bằng công cụ có sẵn : textual ETL => cho kết quả tốt nhất 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Simple editing : chuyển mọi ký tự hoa thành thường và bỏ mọi dấu câu. Lincoln stood and said - “Four score and seven years ago, our forefathers” lincoln stood and said four score and seven years ago our forefathers 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Stop-word removal : Loại bỏ mọi loại từ ngoại trừ danh từ. 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Synonym replacement : thống nhất các từ đồng nghĩa bằng 1 từ thông dụng nhất. 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Homographic resolution : làm rõ nghĩa những từ có ý nghĩa khác nhau. 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Stemming : chuyển các từ về từ gốc latin 2/ Xử lý văn bản phi cấu trúc – Tích hợp văn bản Creating themes : Gom nhóm các từ theo 1 chủ đề. 3/ Cách sử dụng Đưa unstructured data vào relational database để được : Phân tích bằng BI Tìm kiếm trực tiếp hoặc gián tiếp Kết nối với CSDL có cấu trúc để thực hiện các truy vấn phức tạp Chương 20: DW & The system of record Nội dung chính: khái niệm Mapping data Nguồn dữ liệu khác 1. Khái niệm The system of record là các nguồn dữ liệu tốt nhất của data warehouse . Các nguồn dữ liệu có thể dùng cho DW tồn tại .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.