老师复习语音

音频文件：2026年06月17日 10点10分.m4a
整理依据：本地 faster-whisper-medium 转写结果 + 当前目录内商务智能课程 PPT
说明：以下不是逐字稿，而是结合课件术语整理后的复习版；个别原录音中听不清的地方已按课件上下文归并为可复习的知识点。

一、作业与考试注意事项

老师首先提醒大家，作业一定要按时、正确提交。不要出现少交、错交、文件打不开、上传了错误版本之类的问题；提交之后要自己检查一遍，确认文件能打开、内容是对的。老师不接受“我提交了，但是后来发现打不开”这种解释，因为提交后的确认责任在学生自己。

复习时不要只看某一个零散点，而要把 PPT 中前后相关的概念串起来。考试更多考察是否理解概念、模型、适用场景和判断依据，不是单纯背诵长段定义。尤其是选择题、判断题中，如果题干有“与数据仓库设计相关”“与 OLAP 相关”等提示，它本质上是帮助定位考察范围，不要因为某个说法单独看起来正确，就忽略它是否符合题目限定的主题。

老师还提到，课上拍的照片、视频、复习材料可以自己看，用来帮助理解即可，不要把考试相关内容随意扩散。考试时如果试卷上有问题，可以按考试流程当场提问。

二、课程总框架

这门课的主线是商务智能中的数据分析环境建设与分析方法。总体上可以按以下链条理解：操作型数据源产生原始业务数据，经由 ETL 抽取、转换、装载进入数据仓库；数据仓库通过数据集市、OLAP、多维模型和维度建模支持分析；在此基础上，可以进一步进行数据挖掘，发现规则、模式和可用于决策的知识。

需要把几个层次分清楚：OLTP 面向日常事务处理，强调当前数据、细粒度、实时更新和事务性能；OLAP 面向分析决策，强调历史数据、综合数据、多维观察、快速交互和稳定响应。数据仓库则为 OLAP 和数据挖掘提供集成的、面向主题的、时变的、非易失的数据环境。

三、数据仓库基础与关键技术

数据仓库的典型特征是面向主题、集成、非易失、时变。这里“面向主题”很重要：数据库设计常从操作应用出发，而数据仓库设计要从分析主题出发，例如商品销售、库存、客户关系等。数据仓库服务的是管理决策，所以数据组织方式要围绕分析问题展开。

数据仓库的关键技术包括 ETL、存储与管理、数据访问与表现、元数据管理。ETL 是数据进入仓库的入口，包含抽取、转换、清洗、集成和装载。由于数据源可能来自不同 DBMS、不同文件、不同平台、不同物理位置，ETL 需要处理格式转换、关键字解析、编码转换、缺省值、排序、汇总、时间元素补充、数据清理等问题。

数据刷新也要理解。数据仓库不是实时事务库，但必须把源系统变化以合适方式反映进来，常见方法包括时间戳、DELTA 文件、映像文件、日志文件。数据刷新通常比初次抽取更复杂，因为它要识别哪些数据变了、哪些数据保持不变。

还要区分几个存储环境：ODS 操作数据存储支持战术型决策，通常面向特定分析应用、当前有效、可变且较详尽；Staging Area 缓冲区是数据流的中间站，像白板一样承接清洗转换过程；Data Mart 数据集市则是面向部门、主题或特定用户群的局部分析数据组织。

四、数据仓库与数据集市结构

数据集市可以理解为数据仓库面向特定主题或部门的局部视图。课件中比较了几种结构：自顶向下、自底向上、总线结构、企业级数据集市结构。

自顶向下结构先建立企业级数据仓库，再建立数据集市。优点是全局一致、数据整合统一、冗余和不一致少；缺点是成本高、见效慢。自底向上结构先建立局部数据集市，再逐步合并为企业数据仓库。优点是见效快、启动成本低；缺点是各部门重复清洗整合，容易产生蜘蛛网结构和数据不一致。

总线结构不一定先建立完整企业仓库，而是通过共享维表和事实表把各数据集市连接起来。它的优点是共享一致性维度和事实，能够解决孤立数据集市的问题；但它基于多维模型，应用更偏 OLAP，多个数据源直接影响多个集市时，结构稳定性会受影响。

五、OLAP 与多维分析

OLAP 的核心是面向特定问题的联机数据访问与分析，通过多维视图让管理人员从不同角度观察数据。OLAP 和 OLTP 的区别要会判断：OLTP 服务日常业务，数据细、当前、更新频繁；OLAP 服务决策分析，数据通常来自数据仓库，是历史的、综合的、面向主题的。

Codd 关于 OLAP 的评价准则不要求死背所有条目，但要理解关键思想：多维概念视图、透明性、存取能力、稳定报表能力、客户/服务器结构、维的同等性、稀疏矩阵处理、多用户支持、跨维操作等。这些准则说明 OLAP 工具应该既能让用户以业务维度理解数据，又能在底层异构数据和复杂计算上保持透明和高效。

OLAP 的几个基本概念要抓牢：维度、层次、度量值、事实表、维表、数据立方体。维度提供观察角度，例如时间、地区、产品、商场；层次表示维度内部的上卷/下钻路径，例如日、月、季度、年；度量值是要分析的数值，例如销售量、销售额、成本、利润。

OLAP 数据构造方式主要有 ROLAP、MOLAP、HOLAP。ROLAP 使用关系数据库存储星型或雪花型模式，适合大数据量，但查询性能相对依赖关系数据库优化。MOLAP 使用多维数据库和多维数组，综合速度快，但通常需要预计算，可能产生数据爆炸，维度动态变化支持较弱。HOLAP 试图结合两者，用多维数据库存高层汇总数据，用关系数据库存细节数据。

星型模式由一个事实表和多个维表组成，事实表存放度量值并通过外键连接维表；雪花模式则进一步规范化维表，把维度层次拆成多个表。星型模式查询直观、连接少，雪花模式冗余少但连接更多。考试中要能判断事实表、维表、度量值和维度属性各自的作用。

六、数据仓库设计

数据仓库设计和传统数据库设计有相通之处，但不能完全套用 OLTP 的需求驱动方法。传统数据库设计通常有明确应用需求，遵循 SDLC；数据仓库面向分析，需求往往在装载数据并开始使用之后才逐渐明确，因此更强调 CLDS、数据驱动和迭代原型。

数据仓库设计原则主要包括：面向主题原则、数据驱动原则、原型法设计原则。面向主题要求从管理决策需求出发组织数据；数据驱动要求基于已有数据源抽取、综合、集成已有数据；原型法则强调先做出可见结果，再根据用户反馈逐步完善。

数据仓库设计通常分为概念模型、逻辑模型、物理模型。概念模型用于描述主题、边界和实体关系，常用 E-R 法；逻辑模型描述主题的逻辑实现，常对应关系模型或维度模型；物理模型则落到具体数据库、表结构、索引、分区、存储和加载策略。

设计步骤大致包括系统规划、概念设计、逻辑设计、物理设计、数据仓库生成、运行与维护。系统规划阶段要明确主题和技术准备；概念设计要确定系统边界、主要主题及内容、OLAP 等分析应用；逻辑与物理设计则要考虑数据模型、稳定性、粒度、ETL、性能和维护。

七、维度建模

维度建模是复习重点。基本概念包括事实表、维度表、事实与维度的融合、星型模型、雪花模型和数据立方体。事实表是维度建模的核心，记录维度值与度量值之间的关系；维度表是访问事实表的入口，包含大量描述性属性，用于查询条件、报表列和分析分组。

事实表中的度量值要特别关注可加性。可加事实可以沿所有维度汇总，例如销售额；半加事实只能沿部分维度汇总，例如库存量可以跨产品或商场汇总，但通常不能简单跨日期相加；非加事实不能直接加总，例如比率、单价、毛利率，通常需要由分析工具按正确口径计算。

维度建模常用四步法：第一，选择业务处理过程；第二，声明粒度，即事实表一行代表什么；第三，选择维度；第四，确定事实或度量值。老师强调粒度很关键，同一张事实表中的度量值必须具有一致粒度，不能把不同粒度的事实随意混在同一张事实表里。

维度建模中的三类事实表需要理解：事务事实表、周期快照事实表、累积快照事实表。事务事实表每个业务事件一行，适合记录销售、入库、出库等事件；周期快照事实表每个固定周期一行，用于库存余额、账户余额等定期状态；累积快照事实表每个生命周期一行，随着流程推进多次更新，用于订单履行、装运、发票等过程跟踪。

数据仓库总线结构与矩阵也是重点。企业中的多个业务过程可以通过一致性维度和一致性事实连接起来，例如日期维度、产品维度、商场维度、客户维度等公共维度。这样不同数据集市之间可以共享口径，避免各自为政。

课件案例包括零售营销、库存管理、订单管理、客户关系管理。零售营销案例常见维度有日期、产品、商场、促销，事实有销售量、销售额、成本额、毛利润金额。库存管理强调周期快照、事务、累积快照三种模型，以及半加型事实。订单管理会涉及退化维度、角色扮演日期维度、杂项维度、多货币、不同粒度事实的分配。CRM 强调客户维度集成、姓名地址标准化、客户分类、客户盈利和客户行为分析。

八、数据挖掘

数据挖掘又称 KDD，即数据库中的知识发现。它关注从大量、完整的数据中发现隐含的、未知的、非平凡的、有潜在应用价值的模式或规则。要记住三点：本源是大量完整数据，结果是知识或规则，过程具有隐含性和发现性。

基本概念包括模式、知识、置信度、兴趣度、非平凡性、有效性。模式是数据之间的逻辑关系；知识是满足客观和主观评价标准的模式；置信度表示规则成立的程度；兴趣度或支持度表示规则被关注、出现或覆盖的程度；非平凡性说明数据挖掘不是简单统计平均数这类确定计算；有效性要求发现过程在时间和空间上可实现。

数据挖掘与 OLAP 的区别也要会判断。OLAP 是分析人员主导的人工分析过程，通过上卷、下钻、切片、切块等操作探索数据；数据挖掘更偏算法主导，通过阈值和模型自动发现模式。二者都可以基于数据仓库，但任务和方法不同。

常用数据挖掘方法包括特征规则挖掘、区分规则挖掘、关联规则挖掘、序列模式分析、分类分析和聚类分析。关联规则用于发现项之间的相关性，例如 A -> B，要理解支持度、置信度、频繁项集、强规则和 Apriori 的基本思想：频繁项集的任一子集也必须是频繁的，非频繁项集扩展后也不可能频繁。

分类分析是有监督学习，先用带类标号的训练样本建立模型，再用模型分类未知样本。常见方法包括决策树、贝叶斯、神经网络、粗糙集、遗传算法。聚类分析是无监督学习，输入没有预先标记的数据，由系统按距离或相似度划分类别，常见方法包括划分方法、层次方法、密度方法、网格方法和模型方法。

九、复习抓手

复习时可以按“概念是什么、为什么需要、和相近概念有什么区别、适用场景是什么、模型中各表/维度/事实承担什么作用”来准备。比如看到 OLAP，要能说清 OLAP 与 OLTP 的区别、ROLAP/MOLAP/HOLAP 的差异、星型和雪花模式的结构；看到维度建模，要能先说事实表、维表、粒度、度量值，再判断事务事实、周期快照、累积快照适合哪种业务过程。

不要把 PPT 上的大段文字逐字背诵，而是把老师反复强调的判断点弄清楚：事实表中的所有度量值粒度要一致；维度表是事实表的入口；库存量这类状态值通常是半加型事实；数据仓库设计要面向主题、数据驱动、原型迭代；数据挖掘不是普通查询或简单统计，而是从大量数据中发现未知、非平凡、有用的规则。