老师复习语音
- 音频文件:
2026年06月17日 10点10分.m4a - 整理依据:本地
faster-whisper-medium转写结果 + 当前目录内商务智能课程 PPT - 说明:以下不是逐字稿,而是结合课件术语整理后的复习版;个别原录音中听不清的地方已按课件上下文归并为可复习的知识点。
一、作业与考试注意事项
老师首先提醒大家,作业一定要按时、正确提交。不要出现少交、错交、文件打不开、上传了错误版本之类的问题;提交之后要自己检查一遍,确认文件能打开、内容是对的。老师不接受“我提交了,但是后来发现打不开”这种解释,因为提交后的确认责任在学生自己。
复习时不要只看某一个零散点,而要把 PPT 中前后相关的概念串起来。考试更多考察是否理解概念、模型、适用场景和判断依据,不是单纯背诵长段定义。尤其是选择题、判断题中,如果题干有“与数据仓库设计相关”“与 OLAP 相关”等提示,它本质上是帮助定位考察范围,不要因为某个说法单独看起来正确,就忽略它是否符合题目限定的主题。
老师还提到,课上拍的照片、视频、复习材料可以自己看,用来帮助理解即可,不要把考试相关内容随意扩散。考试时如果试卷上有问题,可以按考试流程当场提问。
二、课程总框架
这门课的主线是商务智能中的数据分析环境建设与分析方法。总体上可以按以下链条理解:操作型数据源产生原始业务数据,经由 ETL 抽取、转换、装载进入数据仓库;数据仓库通过数据集市、OLAP、多维模型和维度建模支持分析;在此基础上,可以进一步进行数据挖掘,发现规则、模式和可用于决策的知识。
需要把几个层次分清楚:OLTP 面向日常事务处理,强调当前数据、细粒度、实时更新和事务性能;OLAP 面向分析决策,强调历史数据、综合数据、多维观察、快速交互和稳定响应。数据仓库则为 OLAP 和数据挖掘提供集成的、面向主题的、时变的、非易失的数据环境。
三、数据仓库基础与关键技术
数据仓库的典型特征是面向主题、集成、非易失、时变。这里“面向主题”很重要:数据库设计常从操作应用出发,而数据仓库设计要从分析主题出发,例如商品销售、库存、客户关系等。数据仓库服务的是管理决策,所以数据组织方式要围绕分析问题展开。
数据仓库的关键技术包括 ETL、存储与管理、数据访问与表现、元数据管理。ETL 是数据进入仓库的入口,包含抽取、转换、清洗、集成和装载。由于数据源可能来自不同 DBMS、不同文件、不同平台、不同物理位置,ETL 需要处理格式转换、关键字解析、编码转换、缺省值、排序、汇总、时间元素补充、数据清理等问题。
数据刷新也要理解。数据仓库不是实时事务库,但必须把源系统变化以合适方式反映进来,常见方法包括时间戳、DELTA 文件、映像文件、日志文件。数据刷新通常比初次抽取更复杂,因为它要识别哪些数据变了、哪些数据保持不变。
还要区分几个存储环境:ODS 操作数据存储支持战术型决策,通常面向特定分析应用、当前有效、可变且较详尽;Staging Area 缓冲区是数据流的中间站,像白板一样承接清洗转换过程;Data Mart 数据集市则是面向部门、主题或特定用户群的局部分析数据组织。
四、数据仓库与数据集市结构
数据集市可以理解为数据仓库面向特定主题或部门的局部视图。课件中比较了几种结构:自顶向下、自底向上、总线结构、企业级数据集市结构。
自顶向下结构先建立企业级数据仓库,再建立数据集市。优点是全局一致、数据整合统一、冗余和不一致少;缺点是成本高、见效慢。自底向上结构先建立局部数据集市,再逐步合并为企业数据仓库。优点是见效快、启动成本低;缺点是各部门重复清洗整合,容易产生蜘蛛网结构和数据不一致。
总线结构不一定先建立完整企业仓库,而是通过共享维表和事实表把各数据集市连接起来。它的优点是共享一致性维度和事实,能够解决孤立数据集市的问题;但它基于多维模型,应用更偏 OLAP,多个数据源直接影响多个集市时,结构稳定性会受影响。
五、OLAP 与多维分析
OLAP 的核心是面向特定问题的联机数据访问与分析,通过多维视图让管理人员从不同角度观察数据。OLAP 和 OLTP 的区别要会判断:OLTP 服务日常业务,数据细、当前、更新频繁;OLAP 服务决策分析,数据通常来自数据仓库,是历史的、综合的、面向主题的。
Codd 关于 OLAP 的评价准则不要求死背所有条目,但要理解关键思想:多维概念视图、透明性、存取能力、稳定报表能力、客户/服务器结构、维的同等性、稀疏矩阵处理、多用户支持、跨维操作等。这些准则说明 OLAP 工具应该既能让用户以业务维度理解数据,又能在底层异构数据和复杂计算上保持透明和高效。
OLAP 的几个基本概念要抓牢:维度、层次、度量值、事实表、维表、数据立方体。维度提供观察角度,例如时间、地区、产品、商场;层次表示维度内部的上卷/下钻路径,例如日、月、季度、年;度量值是要分析的数值,例如销售量、销售额、成本、利润。
OLAP 数据构造方式主要有 ROLAP、MOLAP、HOLAP。ROLAP 使用关系数据库存储星型或雪花型模式,适合大数据量,但查询性能相对依赖关系数据库优化。MOLAP 使用多维数据库和多维数组,综合速度快,但通常需要预计算,可能产生数据爆炸,维度动态变化支持较弱。HOLAP 试图结合两者,用多维数据库存高层汇总数据,用关系数据库存细节数据。
星型模式由一个事实表和多个维表组成,事实表存放度量值并通过外键连接维表;雪花模式则进一步规范化维表,把维度层次拆成多个表。星型模式查询直观、连接少,雪花模式冗余少但连接更多。考试中要能判断事实表、维表、度量值和维度属性各自的作用。
六、数据仓库设计
数据仓库设计和传统数据库设计有相通之处,但不能完全套用 OLTP 的需求驱动方法。传统数据库设计通常有明确应用需求,遵循 SDLC;数据仓库面向分析,需求往往在装载数据并开始使用之后才逐渐明确,因此更强调 CLDS、数据驱动和迭代原型。
数据仓库设计原则主要包括:面向主题原则、数据驱动原则、原型法设计原则。面向主题要求从管理决策需求出发组织数据;数据驱动要求基于已有数据源抽取、综合、集成已有数据;原型法则强调先做出可见结果,再根据用户反馈逐步完善。
数据仓库设计通常分为概念模型、逻辑模型、物理模型。概念模型用于描述主题、边界和实体关系,常用 E-R 法;逻辑模型描述主题的逻辑实现,常对应关系模型或维度模型;物理模型则落到具体数据库、表结构、索引、分区、存储和加载策略。
设计步骤大致包括系统规划、概念设计、逻辑设计、物理设计、数据仓库生成、运行与维护。系统规划阶段要明确主题和技术准备;概念设计要确定系统边界、主要主题及内容、OLAP 等分析应用;逻辑与物理设计则要考虑数据模型、稳定性、粒度、ETL、性能和维护。
七、维度建模
维度建模是复习重点。基本概念包括事实表、维度表、事实与维度的融合、星型模型、雪花模型和数据立方体。事实表是维度建模的核心,记录维度值与度量值之间的关系;维度表是访问事实表的入口,包含大量描述性属性,用于查询条件、报表列和分析分组。
事实表中的度量值要特别关注可加性。可加事实可以沿所有维度汇总,例如销售额;半加事实只能沿部分维度汇总,例如库存量可以跨产品或商场汇总,但通常不能简单跨日期相加;非加事实不能直接加总,例如比率、单价、毛利率,通常需要由分析工具按正确口径计算。
维度建模常用四步法:第一,选择业务处理过程;第二,声明粒度,即事实表一行代表什么;第三,选择维度;第四,确定事实或度量值。老师强调粒度很关键,同一张事实表中的度量值必须具有一致粒度,不能把不同粒度的事实随意混在同一张事实表里。
维度建模中的三类事实表需要理解:事务事实表、周期快照事实表、累积快照事实表。事务事实表每个业务事件一行,适合记录销售、入库、出库等事件;周期快照事实表每个固定周期一行,用于库存余额、账户余额等定期状态;累积快照事实表每个生命周期一行,随着流程推进多次更新,用于订单履行、装运、发票等过程跟踪。
数据仓库总线结构与矩阵也是重点。企业中的多个业务过程可以通过一致性维度和一致性事实连接起来,例如日期维度、产品维度、商场维度、客户维度等公共维度。这样不同数据集市之间可以共享口径,避免各自为政。
课件案例包括零售营销、库存管理、订单管理、客户关系管理。零售营销案例常见维度有日期、产品、商场、促销,事实有销售量、销售额、成本额、毛利润金额。库存管理强调周期快照、事务、累积快照三种模型,以及半加型事实。订单管理会涉及退化维度、角色扮演日期维度、杂项维度、多货币、不同粒度事实的分配。CRM 强调客户维度集成、姓名地址标准化、客户分类、客户盈利和客户行为分析。
八、数据挖掘
数据挖掘又称 KDD,即数据库中的知识发现。它关注从大量、完整的数据中发现隐含的、未知的、非平凡的、有潜在应用价值的模式或规则。要记住三点:本源是大量完整数据,结果是知识或规则,过程具有隐含性和发现性。
基本概念包括模式、知识、置信度、兴趣度、非平凡性、有效性。模式是数据之间的逻辑关系;知识是满足客观和主观评价标准的模式;置信度表示规则成立的程度;兴趣度或支持度表示规则被关注、出现或覆盖的程度;非平凡性说明数据挖掘不是简单统计平均数这类确定计算;有效性要求发现过程在时间和空间上可实现。
数据挖掘与 OLAP 的区别也要会判断。OLAP 是分析人员主导的人工分析过程,通过上卷、下钻、切片、切块等操作探索数据;数据挖掘更偏算法主导,通过阈值和模型自动发现模式。二者都可以基于数据仓库,但任务和方法不同。
常用数据挖掘方法包括特征规则挖掘、区分规则挖掘、关联规则挖掘、序列模式分析、分类分析和聚类分析。关联规则用于发现项之间的相关性,例如 A -> B,要理解支持度、置信度、频繁项集、强规则和 Apriori 的基本思想:频繁项集的任一子集也必须是频繁的,非频繁项集扩展后也不可能频繁。
分类分析是有监督学习,先用带类标号的训练样本建立模型,再用模型分类未知样本。常见方法包括决策树、贝叶斯、神经网络、粗糙集、遗传算法。聚类分析是无监督学习,输入没有预先标记的数据,由系统按距离或相似度划分类别,常见方法包括划分方法、层次方法、密度方法、网格方法和模型方法。
九、复习抓手
复习时可以按“概念是什么、为什么需要、和相近概念有什么区别、适用场景是什么、模型中各表/维度/事实承担什么作用”来准备。比如看到 OLAP,要能说清 OLAP 与 OLTP 的区别、ROLAP/MOLAP/HOLAP 的差异、星型和雪花模式的结构;看到维度建模,要能先说事实表、维表、粒度、度量值,再判断事务事实、周期快照、累积快照适合哪种业务过程。
不要把 PPT 上的大段文字逐字背诵,而是把老师反复强调的判断点弄清楚:事实表中的所有度量值粒度要一致;维度表是事实表的入口;库存量这类状态值通常是半加型事实;数据仓库设计要面向主题、数据驱动、原型迭代;数据挖掘不是普通查询或简单统计,而是从大量数据中发现未知、非平凡、有用的规则。