魏尔斯特拉斯极值定理
为何在如此多的最优化问题中,人们几乎默认“最大值存在”或“某区间内总有最小值”,而实际上并无任何先验理由保证这一点?魏尔斯特拉斯定理正是填补这一认知空缺的关键:它保证定义在闭且有界区间上的连续函数不仅是有界的,而且确实能够取得其极值。在本篇文章中,我们将回顾其表述,基于点态连续性、紧致性与上确界公理,详细构建一份严格证明,并进一步从连续函数作用于紧集的现代视角予以阐释。目标在于,使读者在结束阅读时,不仅记住定理的字面表述,更能够理解其为何成立,以及为何在分析学、最优化与应用模型中不断出现。
学习目标
- 理解魏尔斯特拉斯定理的表述。
明确辨识定理的假设(在闭且有界区间 [a,b] 上的连续函数)及其主要结论:有界性以及最大值与最小值的存在性。 - 从紧致性的角度解释魏尔斯特拉斯定理。
以现代语言表述该结果:连续函数将紧集映射为能取得极值的集合,从而将 [a,b] 的情形与实分析的一般框架连接起来。 - 将魏尔斯特拉斯定理与最优化问题联系起来。
认识该定理作为理论基础在众多一元最优化问题(无论理论或应用情境)中对最大值与最小值存在性的保障作用。
内容索引:
引言
魏尔斯特拉斯定理的表述
证明
步骤 1:[a,b] 上的点态连续性
步骤 2:与连续性对应的开覆盖
步骤 3:[a,b] 的紧致性与有限子覆盖
步骤 4:构造一个不依赖于 x_0 的 \delta(一致连续性)
步骤 5:由一致连续性推导 f 在 [a,b] 上的有界性
步骤 6:最大值与最小值的存在性
基于紧致性的解释与结论
引言
魏尔斯特拉斯极值定理虽然通常出现在实分析的最初章节,但事实上,它在应用数学的广大领域中发挥着无声却核心的作用。每当我们在物理、经济或统计中讨论在特定约束下“最大化”或“最小化”某一量时,本质上依靠的正是该定理所保证的思想:定义在闭且有界区间上的连续函数不仅是有界的,而且实际能够取得其极值。
从直觉上看,似乎“显然”只要在区间 [a,b] 上画出一条连续曲线,就必定存在最高点与最低点。然而,只需对假设稍作改变,这种直觉便会彻底崩塌:若区间不是闭的、若函数不连续或若定义域不是有界的,最大值与最小值便可能完全不存在。魏尔斯特拉斯定理对这种直觉加以规范,并精确指出我们在何种情形下可以依赖它,以及其背后的理论理由。
从理论角度来看,该定理是我们首次严肃接触紧致性概念的场合:用现代语言描述,即连续函数将紧集映射为紧集。从实践角度来看,这意味着许多一维最优化问题都具有解,并且它还是后续结果(如中值定理以及最终对微积分基本定理的理解)的关键组成部分。
在本节中,我们将陈述魏尔斯特拉斯定理,并详细展开其证明,依托于在 [a,b] 上的连续性概念以及上确界公理。希望本文能够为你提供一份可靠的参考,无论是为了学习该定理本身,还是在证明其他定理或严格论证具体问题中最大值与最小值的存在性时作为依据。
魏尔斯特拉斯定理的表述
任意定义在 f 上的函数且在 [a,b], 上连续,都必定是有界的,并具有最小值与最大值 m 与 M,满足若 x\in[a,b],则 f(x)\in[m,M]。 |
证明
我们将证明:若 f:[a,b]\to\mathbb{R} 在闭且有界区间 [a,b] 上连续,则 f 是有界的,并且在 [a,b] 上取得最大值与最小值。我们将把证明分为两个主要部分:
- 首先说明f 在 [a,b] 上的连续性蕴含其为一致连续,并据此推得其有界。
- 随后利用上确界公理证明f 在区间内能够取得其最大值与最小值。
步骤 1: [a,b] 上的点态连续性
根据假设,f 在每一点 x_0\in[a,b] 处都是连续的。依据以 \epsilon 与 \delta 为基础的连续性定义,这意味着:
\displaystyle (\forall x_0\in[a,b])(\forall \epsilon\gt 0)(\exists \delta(x_0)\gt 0) \big(|x-x_0|\lt\delta(x_0)\Rightarrow |f(x)-f(x_0)|\lt\epsilon\big).
在此阶段,\delta(x_0) 可能依赖于点 x_0。我们当前的目标是:在上述每个 \delta(x_0) 的基础上,构造出一个不依赖于x_0 的统一数值 \delta,并且该数值对整个区间中的所有点都有效。
步骤 2: 与连续性对应的开覆盖
取任意固定的 \epsilon\gt 0。对于每个 x_0\in[a,b],连续性保证我们能够选择某个 \delta(x_0)\gt 0 使得
\displaystyle |x-x_0|\lt\delta(x_0)\Rightarrow |f(x)-f(x_0)|\lt\frac{\epsilon}{2}.
基于这些数值,我们对每个 x_0\in[a,b] 定义一个开区间
\displaystyle I_{x_0}=\left(x_0-\frac{\delta(x_0)}{2},\,x_0+\frac{\delta(x_0)}{2}\right).
每个 I_{x_0} 都是 \mathbb{R} 中的开集,并且族
\displaystyle \{I_{x_0}\}_{x_0\in[a,b]}
构成了 [a,b] 的一个开覆盖。事实上,给定任意一点 y\in[a,b],只需取 x_0=y;由构造可知 y\in I_y。因此,区间中的每个点至少属于某个开区间 I_{x_0}。
一般而言,这个开集族是无限的(因为对每个 x_0\in[a,b] 都有一个对应的开区间)。此时,[a,b] 的紧致性便开始发挥作用。
步骤 3: [a,b] 的紧致性与有限子覆盖
根据海涅–博雷尔定理,\mathbb{R} 的一个子集当且仅当其为闭且有界时是紧的。区间 [a,b] 是闭且有界的,因此它是紧集。根据紧致性的定义:
任何对 [a,b] 的开覆盖(即便包含无限多个集合)都可以抽取出一个有限子覆盖。
将此性质应用于开覆盖 \{I_{x_0}\}_{x_0\in[a,b]},可知存在点 x_1,\dots,x_N\in[a,b] 使得其对应的开区间
\displaystyle I_{x_1},\, I_{x_2},\,\dots,\,I_{x_N}
仍然覆盖整个区间:
\displaystyle [a,b]\subset I_{x_1}\cup I_{x_2}\cup\cdots\cup I_{x_N}.
如此一来,我们便将无限族的开区间缩减为仅由有限多个区间组成的子覆盖,同时保持了对 [a,b] 的覆盖性质。
步骤 4: 构造一个不依赖于 x_0 的 \delta(一致连续性)
基于有限子覆盖,我们定义数值
\displaystyle \delta=\min\left\{\frac{\delta(x_1)}{2},\frac{\delta(x_2)}{2},\dots,\frac{\delta(x_N)}{2}\right\}.
由于这是有限个正数的最小值,因此必有 \delta\gt 0。我们将证明此 \delta 对所有的 x_0\in[a,b] 都有效,即它与具体选取的 x_0 无关。
现在取:
- 任意一点 x_0\in[a,b],以及
- 一点 x\in[a,b],满足 |x-x_0|\lt\delta。
由于区间 I_{x_1},\dots,I_{x_N} 覆盖了 [a,b],点 x_0 至少属于其中一个,例如属于某个 I_{x_j},其中 j\in\{1,\dots,N\}。根据 I_{x_j} 的定义,这意味着
\displaystyle |x_0-x_j|\lt\frac{\delta(x_j)}{2}.
此外,由 \delta 的定义可知 \delta\le\frac{\delta(x_j)}{2},因此由 |x-x_0|\lt\delta 可推出
\displaystyle |x-x_0|\lt\frac{\delta(x_j)}{2}.
利用三角不等式,得到
\displaystyle |x-x_j|\le |x-x_0|+|x_0-x_j| \lt \frac{\delta(x_j)}{2}+\frac{\delta(x_j)}{2} =\delta(x_j).
由于根据 \delta(x_j) 的定义(即 f 在 x_j 处对 \epsilon/2 的连续性),不等式 |x_0-x_j|\lt\delta(x_j) 与 |x-x_j|\lt\delta(x_j) 蕴含
\displaystyle |f(x_0)-f(x_j)|\lt\frac{\epsilon}{2} \quad\text{且}\quad |f(x)-f(x_j)|\lt\frac{\epsilon}{2}.
再次使用三角不等式,可得
\displaystyle |f(x)-f(x_0)| \le |f(x)-f(x_j)| + |f(x_j)-f(x_0)| \lt \frac{\epsilon}{2}+\frac{\epsilon}{2} =\epsilon.
由于 x_0 与 x 均为任意取定,因此我们已证明:对开头所取的 \epsilon,存在某个 \delta\gt 0,并且此数与 x_0 无关,使得
\displaystyle (\forall x_0\in[a,b])(\forall x\in[a,b]) \big(|x-x_0|\lt\delta\Rightarrow |f(x)-f(x_0)|\lt\epsilon\big).
若将 x_0 改记作 y,则可写为:
\displaystyle (\forall \epsilon\gt 0)(\exists \delta\gt 0)(\forall x,y\in[a,b]) \big(|x-y|\lt\delta\Rightarrow |f(x)-f(y)|\lt\epsilon\big),
这正是 f 在 [a,b] 上一致连续的定义。接下来,我们只需将此结果应用于情形 \epsilon=1。
步骤 5: 由一致连续性推得 f 在 [a,b] 上的有界性
现在应用一致连续性取 \epsilon=1。存在某个 \delta_1\gt 0,使得对所有 x,y\in[a,b] 都成立
\displaystyle |x-y|\lt\delta_1\Rightarrow |f(x)-f(y)|\lt 1.
我们将区间 [a,b] 划分为有限个子区间,使得每段的长度均小于 \delta_1。即取一个整数 n 与点列
\displaystyle a = x_0 \lt x_1 \lt \cdots \lt x_n = b
使得对每个 k=0,1,\dots,n-1] 都有
\displaystyle x_{k+1}-x_k\lt\delta_1.
考虑有限集合
\displaystyle \{f(x_0),f(x_1),\dots,f(x_{n-1})\}.
由于这是有限个实数的集合,我们可以无困难地定义
\displaystyle C = \max\{|f(x_k)| \;|\; k=0,1,\dots,n-1\}.
我们将证明 C+1 是 f 在整个区间 [a,b] 的绝对值上界。任取 x\in[a,b],必存在某个指标 k 使得 x\in[x_k,x_{k+1}]。特别地,
\displaystyle |x-x_k|\le x_{k+1}-x_k\lt\delta_1.
由于一致连续性在 \epsilon=1 的情形下成立,可由 |x-x_k|\lt\delta_1 推出
\displaystyle |f(x)-f(x_k)|\lt 1.
利用三角不等式:
\displaystyle |f(x)|\le |f(x)-f(x_k)| + |f(x_k)| \lt 1 + |f(x_k)| \le 1 + C.
由于 x\in[a,b] 是任意的,故可得
\displaystyle |f(x)|\le C+1 \quad \text{对所有 } x\in[a,b].
也就是说,函数 f 在 [a,b] 上是有界的。
步骤 6: 最大值与最小值的存在性
我们定义函数在该区间上取值的集合:
\displaystyle H=\{f(x)\;|\;x\in[a,b]\}\subset\mathbb{R}.
我们已经知道 H 非空(因为 [a,b] 非空),并且有界,因此根据上确界公理存在实数
\displaystyle M=\sup H,\qquad m=\inf H.
接下来证明 M 能作为函数的取值被达到,即存在某个 x_1\in[a,b] 使得 f(x_1)=M。我们将使用反证法。
假设 f(x) 从不取值 M,即:
\displaystyle (\forall x\in[a,b])\big(f(x)\lt M\big).
在该假设下,函数
\displaystyle g(x)=\frac{1}{M-f(x)}
在整个 [a,b] 上均有定义且为正,因为根据假设 M-f(x)\gt 0。此外,由于 f 连续且 M 为常数,故 g 也是连续的。根据证明的第一部分,任何在 [a,b] 上的连续函数都是有界的,因此存在某个 N\gt 0 使得
\displaystyle (\forall x\in[a,b])\big(g(x)\le N\big).
特别地,对所有 x\in[a,b] 都有
\displaystyle \frac{1}{M-f(x)} = g(x)\le N,
这等价于
\displaystyle M-f(x)\ge \frac{1}{N} \quad\Rightarrow\quad f(x)\le M-\frac{1}{N}.
这意味着 f(x) 在整个 [a,b] 上的所有值都小于或等于 M-\frac{1}{N}。特别是,H 的上确界满足
\displaystyle \sup H\le M-\frac{1}{N}\lt M,
这与 M 作为 H 的上确界的定义相矛盾。因此,我们的假设必为错误,即必存在某个 x_1\in[a,b] 使得
\displaystyle f(x_1)=M.
用完全类似的推理处理下确界 m=\inf H(例如考虑函数 h(x)=-f(x)),可证明存在某个 x_2\in[a,b] 使得
\displaystyle f(x_2)=m.
从紧致性的角度解读与结论
我们已经证明,任意连续函数 f:[a,b]\to\mathbb{R} 在区间 [a,b] 上都是有界的,并且能够取得其最大值与最小值。用现代分析语言来说,这可解释为:在 \mathbb{R} 中,像 [a,b] 这样的闭且有界区间是紧集,而连续函数会将紧集映射为紧集。
特别地,如果 I 是紧集且 f 在 I 上连续,则其像 f(I) 是 \mathbb{R} 中的一个紧子集。这保证了 f(I) 是有界的,并且其中的最大值与最小值均能被实际取得,这正是魏尔斯特拉斯定理的内容。
