分析和代数学原理(8):积分的运算

分析和代数学原理(8):积分的运算

上一章里我们讨论了Riemann变上限积分的微分,得到的主要结论是 f(x)=\frac{\mathrm{d}}{\mathrm{d}x}(\int_a^xf(t)\mathrm{d}t) ,若 f[a,b] 上是Riemann可积的。这个微分可以看成是 \lim_{r\to0,r>0}\frac{1}{2r}\int_{x-r}^{x+r}f(t)\mathrm{d}t ,推广到n维就变成了 \lim_{r\to0,r>0}\frac{1}{|B_r(x)|}\int_{B_r(x)}f\mathrm{d}\lambda_n ,其中 f:\mathbb{R}^n\to\mathbb{R}|B_r(x)| 是开球 B_r(x) 的体积,即测度 \lambda_n(B_r(x))\lambda_n 是Lebesgue测度。那么,对于Lebesgue可积的 f:\mathbb{R}^n\to\mathbb{R} ,是否有 f(x)=\lim_{r\to0,r>0}\frac{1}{|B_r(x)|}\int_{B_r(x)}f\mathrm{d}\lambda_n 几乎处处成立呢?对这个问题的解答就是Lebesgue微分定理。同样地,我们还想知道Newton-Leibniz定理在何时仍然能够成立。这会通向绝对连续函数的定义。第一眼看到 \lim_{r\to0,r>0}\frac{1}{|B_r(x)|}\int_{B_r(x)}f\mathrm{d}\lambda_n 这个式子,或许你不能立刻察觉它具有微分的含义。既然能把重积分拆成一元积分,那么把“重微分”拆成一元微分是自然的想法。这就会引出偏导数和全微分的概念。在后面讨论一般的微分学时,这种观点会得到推广。

注意到,按 \nu(A):=\int_Af\mathrm{d}\lambda_n 定义的 \nu 也是 \mathbb{R}^n 上的测度,所以Lebesgue微分定理考虑的就是这么一个极限: \lim_{r\to0,r>0}\frac{\nu(B_r(x))}{\lambda_n(B_r(x))} ;为了开心,或许我们可以把此式形式地写成微分: \frac{\mathrm{d}\nu}{\mathrm{d}\lambda_n} 。根据Lebesgue微分定理, f=\frac{\mathrm{d}\nu}{\mathrm{d}\lambda_n} 几乎处处成立。要严格化这个观点就会通向Radon-Nikodym定理。我们已经把视角从 \mathbb{R}\to\mathbb{R} 的函数的积分提升到了 \mathbb{R}^n\to\mathbb{R} 的函数的积分,即所谓的重积分。为了计算重积分,我们希望找到一种工具,把重积分化为已经有办法计算的一元函数的积分。这会通向Fubini定理。


不定积分的微分

首先证明Lebesgue微分定理。类似 \int_{B_r(x)}f\mathrm{d}\lambda_n 这种积分之后仍是 x 的函数的积分叫做不定积分。

定理(Chebyshev) (X,\mathscr{A},\mu) 是测度空间, f:X\to\bar{\mathbb{R}} 是Lebesgue可积的, 0<t<\infty E_t=\{x\in X||f(x)|>t\} ,那么 \mu(E_t)\leqslant\frac{1}{t}\int_X|f|\mathrm{d}\mu

这几乎是显然的,因为 \int_X|f|\mathrm{d}\mu\geqslant \int_{E_t}|f|\mathrm{d}\mu ,而在 E_t|f(x)|>t ,所以 \int_{E_t}|f|\mathrm{d}\mu\geqslant t\mu(E_t)

\text{M}f(x):=\sup_{\forall r,r>0}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f|\mathrm{d}\lambda_n 是Lebesgue可积函数 f:\mathbb{R^n}\to\bar{\mathbb{R}} 的Hardy-Littlewood极大函数。当然 \{\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f|\mathrm{d}\lambda_n|\forall r>0\}\subset\mathbb{R} 很可能是无界集,所以 \text{M}f:\mathbb{R}^n\to[0,\infty]

定理(Hardy-Littlewood) f:\mathbb{R^n}\to\bar{\mathbb{R}} 是Lebesgue可积的,那么 \lambda_n(\{\text{M}f>t\})\leqslant\frac{C_n}{t}\int_{\mathbb{R}^n}|f|\mathrm{d}\lambda_n ,其中 C_n 是只和 n 有关的常数。

利用Chebyshev不等式和Hardy-Littlewood定理,如果我们能证明 \mu\{x\in\mathbb{R}^n|\limsup_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f-f(x)|\mathrm{d}\lambda_n>0\}=0 是零测集,就能证明Lebesgue微分定理:

定理(Lebesgue) f\in L^1_{loc}(\mathbb{R}^n) ,那么 f(x)=\lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}f\mathrm{d}\lambda_n 几乎处处成立。

(X,\mathscr{A},\mu) 是测度空间并且是拓扑空间, \mu 是Borel测度, f:X\to\bar{\mathbb{R}} 是Lebesgue可测函数,并且对于任意紧集 K\subset X ,积分 \int_K|f|\mathrm{d}\mu 存在,则称 fX 上局部Lebesgue可积的,记作 f\in L^1_{loc}(X) 。当然,Lebesgue可积的函数一定是局部Lebesgue可积的。

极限符号里的 r\to0^+r\to0,r>0 的简写。由于极限 \lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}f\mathrm{d}\lambda_n 只依赖于 f 在点 x 附近的情况,我们不妨假设 f 只在某个球 B_R(x) 的外部恒为零,从而 f 不但是局部Lebesgue可积的,还是Lebesgue可积的。我们要利用如下引理,以局部可积的连续函数去逼近 f

引理 f:\mathbb{R}^n\to\mathbb{R} 是Lebesgue可积的,那么任意 \varepsilon>0 ,存在连续函数 g:\mathbb{R}^n\to\mathbb{R} 使得它只在某个球 B_R(x) 内不恒为零,并且 \int_{\mathbb{R}^n}|f-g|\mathrm{d}\lambda_n<\varepsilon

由于 g 是连续的,所以 \lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}g\mathrm{d}\lambda_n=g(x) 成立。(这是易证的,因为 \lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}(g-g(x))\mathrm{d}\lambda_n \leqslant\lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}\sup_{t\in B_r(x)}(g-g(x))\mathrm{d}\lambda_n =\lim_{r\to 0^+}\sup_{t\in B_r(x)}(g-g(x)) 。)从而 \limsup_{r\to0^+}\Big| \frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}f\mathrm{d}\lambda_n-f(x) \Big|

=\limsup_{r\to0^+}\Big|\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}(f-g)\mathrm{d}\lambda_n

+\Big(\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}g\mathrm{d}\lambda_n-g(x) \Big)+(g(x)-f(x)) \Big|

\leqslant\text{M}(f-g)(x)+0+|f(x)-g(x)| 。对于任意的 t>0 ,令 E_t=\{x|\limsup_{r\to0^+}\Big| \frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}f\mathrm{d}\lambda_n-f(x) \Big|>t\} 是那些不收敛的点的集合, F_t=\{x||f(x)-g(x)>t|\}H_t=\{x|\text{M}(f-g)(x)>t\} 。根据刚才的估计, E_t\subset F_{t/2}\cup H_{t/2} 。对 F_{t/2} 的测度的估计依据Chebyshev不等式: \lambda_n(F_{t/2})\leqslant\frac{2}{t}\int_{F_t}|f-g|\mathrm{d}\lambda_n<\frac{2}{t}\cdot\varepsilon ;对 H_{t/2} 的估计依据Hardy-Littlewood定理: \lambda_n(H_{t/2})\leqslant\frac{2}{t}\cdot C_n\cdot \varepsilon ,从而 \lambda_n(E_t)\leqslant\frac{2\varepsilon}{t}+\frac{2C_n\varepsilon}{t} ,由于 \varepsilon 是任意的,所以 \lambda_n(E_t)=0t 也是任取的,所以就证明了Lebesgue微分定理。

我们来证明引理。把所有 \mathbb{R}^n\to\mathbb{R} 的Lebesgue可积函数的集合记作 L^1(\mathbb{R}^n) 。若 X 是拓扑空间,称所有使得 f:X\to \mathbb{R} 不为零的点 xf 的支集,记作 \mathrm{supp}\ f:=\{x\in X|f(x)\ne0\} 。若支集是紧集,则称 f 是紧支集的(compactly supported)。

定理 可积的简单函数、可积的阶梯函数和可积的紧支集连续函数都是 L^1(\mathbb{R}^n) 中的稠密族。

这里稠密的意思是,对任意 \varepsilon>0 和任意 f\in L^1(\mathbb{R}^n) 都存在稠密族里的一个函数 g ,使得 \int_{\mathbb{R}^n}|f-g|\mathrm{d}\lambda_n<\varepsilon 。我们首先证明Lebesgue可积简单函数的族是稠密的,为此只需对非负的 f\in L^1(\mathbb{R}^n) 来证明。而根据上一章里的简单函数逼近定理和可测函数列的单调收敛定理,这命题的真确性是不言而喻的。其次是阶梯函数,我们只需要证明阶梯函数对于简单函数是稠密的就行。这里的阶梯函数指的是形如 \sum_{i=1}^nc_i\chi_{I_i} ,其中 I_i 是立方体。我们只需要证明阶梯函数能逼近只在一个可测集 E 上取值的简单函数,那也就是逼近特征函数 \chi_E 。由于我们要求 \chi_E 是可积的,所以 \lambda_n(E)<\infty 。如此一来,对任意 \varepsilon>0 ,可以选取一组立方体 \{I_i\} 使得 E\subset\bigcup_{i=1}^\infty I_i 并且 \sum_{i=1}^\infty\lambda_n(I_i)\leqslant\lambda_n(E)+\varepsilon ,而这说明 \sum_{i=1}^\infty\lambda_n(I_i) 是收敛的,从而存在一个 N 使得 \sum_{i=N+1}^\infty\lambda_n(I_i)<\varepsilon 。根据外测度的定义,考虑对称差 E\Delta\bigcup_{i=1}^N I_i ,根据刚才这些构造,有 \lambda_n(E\Delta\bigcup_{i=1}^N I_i) =\lambda_n(E\backslash\bigcup_{i=1}^N I_i)+\lambda_n(\bigcup_{i=1}^N I_i\backslash E) \leqslant \lambda_n(\bigcup_{i=N+1}^\infty I_i)+\lambda_n(\bigcup_{i=1}^\infty I_i-E) \leqslant\sum_{i=N+1}^\infty\lambda_n(I_i)+\sum_{i=1}^\infty\lambda_n(I_i)-\lambda_n(E) \leqslant2\varepsilon 。通过恰当的分割与合并,可以把这有限多个立方体变成几乎不相交的一组立方体 \{Q_i\} ,也就是说它们最多只在立方体的边界上相交,即 Q_i\cap Q_j\subset\partial Q_i 。这些立方体本身是可测的,所以可以选取一个闭集 R 使得 \lambda_n(Q_i\backslash R)<\frac{\varepsilon}{N'} ,这里 N'\{Q_i\} 的势;当然我们可以把 R 选为立方体,并且 Q_i\cap R=\emptyset ,从而得到一组两两不相交的立方体 \{R_i\} 。而这直接给出估计式 \lambda_n(E\Delta\bigcup_{i=1}^{N'} R_i)<3\varepsilon ,从而 \lambda_n(\{x\in \mathbb{R}^n|\chi_E(x)\ne\sum_{i=1}^{N'}\chi_{R_i}(x)\})<3\varepsilon ,进而 \int_{\mathbb{R}^n}|\chi_E-\sum_{i=1}^{N'}\chi_{R_i}|\mathrm{d}\lambda_n<3\varepsilon 。最后来用连续函数逼近立方体的特征函数 \chi_R 。对于一维的立方体,即闭区间 [a,b] ,只需要让连续函数 g[a,b] 上取值 1 ,在边界上的一个小范围 [a-\varepsilon,a]\cup[b,b+\varepsilon] 上是线性函数,在剩下的地方是 0 ,即可。

根据Lebesgue微分定理,可以证明如下更强的形式:

定理(Lebesgue) f\in L^1_{loc}(\mathbb{R}^n) ,那么 0=\lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f-f(x)|\mathrm{d}\lambda_n 几乎处处成立。

证明基本上还是利用可数集来估计。令 c\in\mathbb{Q} 是有理数,根据Lebesgue微分定理, |f(x)-c|=\lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f-c|\mathrm{d}\lambda_n 不成立的集合是零测集,记作 E_c 。令 E=\bigcup_{\forall c\in\mathbb{Q}}E_c ,那么 \lambda_n(E)=0 。对于 x\notin E ,由于 |f(t)-f(x)|<|f(t)-c|+|f(x)-c| ,所以 \limsup_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f-f(x)|\mathrm{d}\lambda_n\leqslant2|f(x)-c| 。而 \inf\{|f(x)-c||c\in\mathbb{Q}\}=0 ,证毕。最后这一条 \inf\{|f(x)-c||c\in\mathbb{Q}\}=0 可以通过实数的Cauchy构造来得到。

称使得局部可积函数 f 满足 \lim_{r\to 0^+}\frac{1}{\lambda_n(B_{r}(x))}\int_{B_r(x)}|f-f(x)|\mathrm{d}\lambda_n=0f 的Lebesgue点,所有Lebesgue点的集合称为 f 的Lebesgue集,记作 L_f 。定理说明 \lambda_n(L_f)=0f\in L^1_{loc}(\mathbb{R}^n)

最后来证明Hardy-Littlewood定理。我们想得到 \lambda_n(\{\text{M}f>t\}) 的估计式。根据 \sup 的定义,对任意 x\in \{\text{M}f>t\} 都存在一个球 B_R(x) 使得 \frac{1}{\lambda_n(B_{R}(x))}\int_{B_R(x)}|f|\mathrm{d}\lambda_n>t ,即 \frac{1}{t}\int_{B_R(x)}|f|\mathrm{d}\lambda_n>\lambda_n(B_{R}(x)) 。 由于 f 是可积的, t 是给定的,所以当球 B_R(x) 的半径 R 一直增大时, \frac{1}{t}\int_{B_R(x)}|f|\mathrm{d}\lambda_n 收敛到有限值 \frac{1}{t}\int_{\mathbb{R}^n}|f|\mathrm{d}\lambda_n<\infty ,但 \lambda_n(B_{R}(x))\to\infty ,所以所有满足 \frac{1}{t}\int_{B_R(x)}|f|\mathrm{d}\lambda_n>\lambda_n(B_{R}(x)) 的球一定是有界的。现在,若能用这些球来构造一族可数多的球 \{\hat B\} 使得 \{\text{M}f>t\}\subset\bigcup \hat B,它们两两不相交并且 \lambda_n(\hat B)=C\lambda_n(B) ,,那么利用测度的单调性的可数可加性,得 \lambda_n(\{\text{M}f>t\})\leqslant\lambda(\bigcup\hat B)=\sum\lambda(\hat B) =C\sum\lambda_n(B)<\frac{C}{t}\sum\int_B|f|\mathrm{d}\lambda_n \leqslant\frac{C}{t}\sum\int_{\mathbb{R}^n}|f|\mathrm{d}\lambda_n 就证明了Hardy-Littlewood定理。从Hardy-Littlewood定理还立刻能得到这个结论:若 f 是Lebesgue可积的,那么 \text{M}f 是几乎处处有限的。

Hardy-Littlewood定理的证明中用到的可数多个两两不相交的球的族的存在性,由Vitali覆盖引理给出:

定理(Vitali-Besicovitch) \mathcal{G}\mathbb{R}^n 中的一族开球或闭球的集族,且 R=\sup\{\mathrm{diam}(B)|B\in\mathcal{G}\}<\infty ,那么存在由可数多个两两不相交的球构成的子族 \mathcal{F\subset G} ,使得 \bigcup_{\forall B\in\mathcal{G}} B\subset\bigcup_{\forall B\in\mathcal{F}} \hat B ,其中 \hat B 是以 B 的球心为球心,半径是 B 的5倍的球。

它的证明完全是技术性的构造。证明可参考任何一本讨论了Vitali covering lemma的实分析或测度论书籍。利用此定理,我们可以简单证明如下的:

定理 \mathcal{G} 是一组由闭球组成的集合 E\subset\mathbb{R}^n 的Vitali覆盖,那么存在两两不相交闭球构成的可数的子族 \mathcal{F\subset G} 使得 \lambda_n(E\backslash\bigcup_{\forall B\in\mathcal{F}}B)=0

称闭球组成的 E 的覆盖 \mathcal{G} 是Vitali覆盖,若任意 x\in E 和任意 \varepsilon>0 ,存在一个球 B_{x,\varepsilon}\in\mathcal{G} ,它以 x 为球心,半径小于 \varepsilon 。我们首先证明引理:

引理 \mathcal{G} 是一组由闭球组成的有界集 E\subset\mathbb{R}^n 的Vitali覆盖,且 R=\sup\{\mathrm{diam}(B)|B\in\mathcal{G}\}<\infty ,那么存在由可数多个两两不相交的球构成的子族 \mathcal{F\subset G} 使得 \bigcup_{\forall B\in\mathcal{G}} B\subset\bigcup_{\forall B\in\mathcal{F}} \hat B ,并且任意有限子族 \mathcal{F}^*\subset\mathcal{F} 都使得 E\backslash\bigcup_{\forall B\in\mathcal{F}^*}B\subset\bigcup_{\forall B\in\mathcal{F\backslash F^*}}\hat B

其中 \mathcal{F} 是Vitali-Besicovitch定理给出的。令 \mathcal{F}^*\subset\mathcal{F} 是任意的有限子族,那么任意 x\in E\backslash\bigcup_{\forall B\in\mathcal{F}^*}B ,存在一个 B_0\in\mathcal{G} 使得 x\in B_0 并且 B_0\cap(\bigcup_{\forall B\in\mathcal{F}^*}B)=\emptyset 。根据Vitali-Besicovitch定理,存在 B_1\in\mathcal{F} 使得 B_0\cap B_1=\emptyset 并且 \hat B_1\supset B_0 ,但 \mathcal{F}^* 里的集合是两两不相交的,所以 B_1\notin\mathcal{F}^* ,从而 x\in\hat B_1\subset\bigcup_{\forall B\in\mathcal{F\backslash F^*}}\hat B

现在来证明定理。对于有界集 E ,不失一般性,我们可以把不包含在某个开集 H\supset E 之内的闭球全部从 \mathcal{G} 中剔除。根据Vitali-Besicovitch定理和如上引理,取可数多个两两不相交的闭球构成的 \mathcal{F} 和它的任意有限子族 \mathcal{F}^*\subset\mathcal{F} ,那么 \lambda^*_n(E\backslash\bigcup_{\forall B\in\mathcal{F}}B) \leqslant \lambda^*_n(E\backslash\bigcup_{\forall B\in\mathcal{F}^*}B) \leqslant \lambda^*_n(E\backslash\bigcup_{\forall B\in\mathcal{F\backslash F}^*}\hat B) \leqslant\sum_{\forall B\in\mathcal{F\backslash F}^*}\lambda^*_n(\hat B) =\sum_{\forall B\in\mathcal{F\backslash F}^*}\lambda_n(\hat B) \leqslant5^n\sum_{\forall B\in\mathcal{F\backslash F}^*}\lambda_n( B) ,注意到这里考虑的是外测度,因为 E 不一定是可测集。只要 \mathcal{F^*} 选取合适, 5^n\sum_{\forall B\in\mathcal{F\backslash F^*}}\lambda(B) 可以任意小,所以 \lambda^*_n(E\backslash\bigcup_{\forall B\in\mathcal{F}}B)=0 ,而Lebesgue测度是完备的,所以 E\backslash\bigcup_{\forall B\in\mathcal{F}}B 是可测集, \lambda_n(E\backslash\bigcup_{\forall B\in\mathcal{F}}B)=0 。若 E 是无界集,那么把 \mathbb{R}^n 划分成可数多个立方体 \{I_i\} ,再对每个 E\cap I_i 引用上面的论证,就完成了证明。

函数的微分

在讨论一元实函数的微分时,考虑单调函数是比较简单的,而有界变差函数可以看成是单调函数的推广。有界变差性可以对于n元的 \mathbb{R}^n\to\mathbb{R} 函数来定义。本章只关心一元的情况。称 f:[a,b]\subset\mathbb{R}\to\bar{\mathbb{R}} 是有界变差函数,若所有 x\in[a,b] 都使得全变差 V_f(x):=\sup_{\mathcal{P}[a,x]}\sum_{i=1}^k|f(t_i)-f(t_{i-1})|<\infty ,其中划分 \mathcal{P}[a,x]:=\{a=t_0<t_1<\cdots<t_k=x\}[a,x] 的划分,上确界是对所有这些划分取的。把 [a,b] 上有界变差函数的集合记为 BV[a,b] 。显然有界变差函数是有界的。

定理(Jordan) f\in BV[a,b] ,那么 V_fV_f-fV_f+f 都是递增的函数。

我们证明 V_f-fV_f+f 是递增的,那么这两个递增函数的和 (V_f-f)+(V_f+f)=2V_f 也是递增的。令 a\leqslant x_1<x_2\leqslant b ,取 \mathcal{P}=\{a=t_0,t_1,\cdots,t_k=x_1\}[a,x_1] 的划分,那么 V_f(x_2)\leqslant\sum_{i=1}^k|f(t_i)-f(t_{i-1})|+|f(x_2)-f(x_1)| ,而 V_f(x_1)\geqslant \sum_{i=1}^k|f(t_i)-f(t_{i-1})| ,所以 V_f(x_2)\leqslant V_f(x_1)+|f(x_2)-f(x_1)| 。打开绝对值号,就得到 V_f(x_2)-f(x_2)\geqslant V_f(x_1)-f(x_1)V_f(x_2)+f(x_2)\geqslant V_f(x_1)+f(x_1) ,从而 V_f-fV_f+f 都是递增的。

在讨论一元实函数的连续性时,常常会用到左右极限的概念。对于定义在区间 [a,b] 上的函数 f ,左极限就是 \lim_{x\to x_0,x<x_0}f(x) ,右极限是 \lim_{x\to x_0,x>x_0}f(x) ,它们的“左右”相对的是一般的沿着整个区间 [a,b] 的极限 \lim_{x\to x_0,x\in[a,b]}f(x) 。注意到,在区间的端点上,极限等于单边极限: \lim_{x\to a,x\in[a,b]}f(x)=\lim_{x\to a,x>a}f(x)\lim_{x\to b,x\in[a,b]}f(x)=\lim_{x\to b,x<b}f(x) 。常常我们把 \lim_{x\to x_0,x\in[a,b]}f(x) 就简记为 \lim_{x\to x_0}f(x) ,把左极限记作 \lim_{x\to x_0^-}f(x) ,把右极限记作 \lim_{x\to x_0^+}f(x)

引理 f:[a,b]\to\mathbb{R} 是实函数, c\in(a,b) ,那么 \lim_{x\to c}f(x) 存在,当且仅当 \lim_{x\to x_0^-}f(x)\lim_{x\to x_0^+}f(x) 都存在。此时三者相等。

根据函数极限的定义,引理是显然的。

定理 f:[a,b]\to\mathbb{R} 是递增的,那么它的不连续点的集合是至多可数集。

闭区间上单调函数一定是有界的。注意到函数极限可以转换成点列的极限,由于 f 递增,所以从左边单调递增收敛到某点 x_0 的点列 \{x_i|x_i<x_0\} 一定使得 \{f(x_i)\} 也是递增列,并且是有界的,从而对每个 x_0\in(a,b)\lim_{x\to x_0^-}f(x) 都存在。同理,右极限也都存在。定义 f(x^-):=\lim_{t\to x^-}f(x)f(x^+):=\lim_{t\to x^+}f(x) ,并令 Nf 不连续点的集合。对于 x_1\in N ,由于 f 递增,所以一定有 f(x_1^-)<f(x_2^+) 。由于 \mathbb{Q}\mathbb{R} 中稠密,所以对于 (f(x_1^-),f(x_2^+)) 这个开区间,至少存在一个有理数 q\in\mathbb{Q} 使得 q_1\in (f(x_1^-),f(x_2^+)) 。若 x_2\in N 满足 x_2>x_1 那么有 f(x_1^+)\leqslant f(x_2^-) 。这可由反证法立刻看出。据此,若 x_1\ne x_2 ,那么 q_1\ne q_2 ,从而按照 x\mapsto q 得到了一个 N\to\mathbb{Q} 的单射,进而可以把 N 看成 \mathbb{Q} 的子集;这就说明 \mathrm{card}(N)\leqslant\mathrm{card}(\mathbb{Q})

根据这定理, V_f-fV_f+f 的不连续点是至多可数集,从而有界变差函数 f=\frac{1}{2}(V_f+f)-\frac{1}{2}(V_f-f) 的不连续点也是至多可数集。由Riemann积分的Lebesgue判别法,闭区间上的单调函数是有界的并且其不连续点是至多可数集,从而是Riemann可积的,进而是Lebesgue可积的。当然直接从Riemann积分的定义出发,也能简单地证明闭区间上单调函数的可积性。

有界变差函数的最重要性质是如下的:

定理 f:[a,b]\to\mathbb{R} 是递增的,那么 f[a,b] 上几乎处处可微。

为了证明定理,首先定义所谓的Dini导数: D^+f(x):=\limsup_{h\to0^+}\frac{f(x+h)-f(x)}{h}D_+f(x):=\liminf_{h\to0^+}\frac{f(x+h)-f(x)}{h}D^-f(x):=\limsup_{h\to0^-}\frac{f(x+h)-f(x)}{h}D_-f(x):=\liminf_{h\to0^-}\frac{f(x+h)-f(x)}{h} 。当然,它们的取值可以是 \pm\infty 。据定义,对于递增函数有 D_-f(x)\leqslant D^-f(x)\leqslant D_+f(x)\leqslant D^+f(x) 。若四个Dini导数全部相等则 fx 处可微。我们来证明 \{x\in(a,b)|D_-f(x)<D^+f(x)\} 是零测集,然后再证明所有使得 f'(x)=\infty 的点也是零测集,从而就证明了不可微点的集合是零测的。要证明 N=\{x\in(a,b)|D_-f(x)<D^+f(x)\} 是零测集,首先考虑 N(s,r):=\{x\in(a,b)|D_-f(x)<s<r<D^+f(x)\} ,其中 s,r\in\mathbb{Q} 是任取的,所以如果 \lambda(N(s,r))=0 ,就有 \lambda(N)=0 。假设 \lambda(N(s,r))\ne0 。根据 D_-f(x) 的定义,存在任意小的 h>0 使得 \frac{f(x-h)-f(x)}{-h}<s 。利用Vitali-Besicovitch定理的推论,对于给定的 \varepsilon>0 ,在所有这些小的闭区间 \{[x-h,x]\} 构成的 N(s,r) 的覆盖里,可以找到可数多个两两不相交的 \{[x_i-h_i,x_i]\} 使得 f(x_i)-f(x_{i}-h_i)<sh_i\lambda(N(r,s)\cap(\bigcup_{i=1}^\infty[x_i-h_i,x_i]))=\lambda(N(r,s))\sum_{i=1}^\infty h_i<(1+\varepsilon)\lambda(N(r,s)) 。据此立刻得 \sum_{i=1}^\infty(f(x_i)-f(x_i-h_i))<s(1+\varepsilon)\lambda(N(r,s)) 。再对任意 t\in N(r,s)\cap(\bigcup_{i=1}^\infty[x_i-h_i,x_i]) ,存在小 h>0 使得 \frac{f(t+h)-f(t)}{h}>r ,再次利用Vitali-Besicovitch定理的推论,存在可数多个两两不相交的 \{[t_j,t_j+h_j]\} 使得每个 [t_j,t_j+h_j] 都被包含在某个 [x_i-h_i,x_i] ,并且 f(t_i+h_i)-f(t_i)>rh_j\sum_{j=1}^\infty h_j\geqslant\lambda( N(r,s)\cap(\bigcup_{i=1}^\infty[x_i-h_i,x_i])) 。由于 f 递增,所以 \sum_{j=1}^\infty(f(t_j+h_j)-f(t_j))\leqslant\sum_{i=1}^\infty(f(x_i)-f(x_i-h_i)) ,即 r\leqslant s ,矛盾,所以 \lambda(N)=0 。对于 A=\{x|f'(x)=\infty\} ,证明基本是一样的:先任选一个正整数 M ,那么任意 x\in A 有小区间 [x,x+h] 使得 \frac{f(x+h)-f(x)}{h}>M ,然后对于任意 \varepsilon>0 ,选取可数多个两两不相交的 \{[x_i,x_i+h_i]\} ,然后得到 \lambda(A)\leqslant  \varepsilon+\frac{V_f(b)}{M} ,而 \varepsilonM 都是任意的,从而 \lambda(A)=0

注意到这里 f 的值域是 \mathbb{R} 。若值域是 \bar{\mathbb{R}} ,则必须要求 f 是有界变差的,才能得到 f 几乎处处可微。根据Jordan分解定理,有界变差函数一定是几乎处处可微的。

f[a,b] 上的递增函数,并且 x\geqslant bf(x)\equiv f(b) ,这样让我们可以在 b 附近从两端趋近 b 。令 f_n(x)=n\big(f(x+\frac{1}{n})-f(x)\big) ,根据函数极限的定义,当 n\to\inftyf_n\to f' 。当然 f ' 是几乎处处有定义的,所以 \{f_n\} 也是几乎处处收敛到 f' 。而 (L)\int_{[a,b]}f_n\mathrm{d}\lambda=(R)\int_a^bf_n(x)\mathrm{d}x =n\int_a^bf(x+\frac{1}{n})\mathrm{d}x-n\int_a^bf(x)\mathrm{d}x =n\int_b^{b+\frac{1}{n}}f(x)\mathrm{d}x-n\int_a^{a+\frac{1}{n}}f(x)\mathrm{d}x ,而 [b,b+\frac{1}{n}]f_n(x)=b[a,a+\frac{1}{n}]f(x)\geqslant f(a) ,所以 \int_a^bf_n(x)\mathrm{d}x\leqslant f(b)-f(a) 。由于 \liminf_{n\to\infty}f_n=f 几乎处处成立,所以利用Fatou引理,得 \int_a^bf(x)\mathrm{d}x\leqslant f(b)-f(a) ,这顺便还说明了 f 是Lebesgue可积的。

现在我们来考虑Newton-Leibniz公式。假设 f(x)=f(a)+(R)\int_a^xg(t)\mathrm{d}t ,其中 g[a,b] 上的Lebesgue可积函数。根据Lebesgue积分的绝对连续性:

引理 g 是Lebesgue可积的,那么任意 \varepsilon>0 ,存在 \delta>0 使得任意满足 \mu(A)<\delta 的可测集 A\in\mathscr{A} 上积分 \int_A|g|\mathrm{d}\mu<\varepsilon

取有限多个两两不相交的闭区间 \{[a_i,b_i]\} ,并且 U=\bigcup_{i=1}^k[a_i,b_i] 的测度,即所有区间的长度之和,小于 \delta ,那么 \int_U |g|\mathrm{d}\lambda<\varepsilon 。这个绝对连续性是上一章证明Lebesgue控制收敛定理时用到的。注意到 (L)\int_U|g|\mathrm{d}\lambda=\sum_{i=1}^k(R)\int_{a_i}^{b_i}|g(x)|\mathrm{d}x \geqslant\sum_{i=1}^k\Big|\int_{a_i}^{b_i}g(x)\mathrm{d}x\Big| =\sum_{i=1}^k\Big|f(b_i)-f(a_i)\Big| ,即 \sum_{i=1}^k\Big|f(b_i)-f(a_i)\Big|<\varepsilon 。这使得我们作出如下定义:称闭区间 [a,b] 上的实函数 f:[a,b]\to\mathbb{R} 是绝对连续的,若任意 \varepsilon>0 ,存在 \delta>0 使得任意满足 \sum_{i=1}^k|b_i-a_i|<\delta 的有限多各两两不相交的闭区间构成的族 \{[a_i,b_i]|[a_i,b_i]\subset [a,b]\}\sum_{i=1}^k|f(b_i)-f(a_i)|<\varepsilon 恒成立。记绝对连续函数为 f\in AC[a,b] 。根据刚才的例子,形如 F(x)=C+\int_a^xf(t)\mathrm{d}t 的函数(即不定积分)是绝对连续的。显然绝对连续性蕴含了连续性,因为只要取一个闭区间 [x-\delta/2,x+\delta/2] ,就立刻知道 fx 处的连续性。

命题 f\in AC[a,b] ,则 f\in BV[a,b]V_f\in AC[a,b]

首先证明 f\in BV[a,b] 。这证明的常规方法是取 \varepsilon=1 ,此时绝对连续性给出一个 \delta 。任取一个正整数 N>|b-a|\delta^{-1} ,再利用此正整数对 [a,b] 作划分: \mathcal{P}^*=\{s_i=a+i(b-a)N^{-1},i=0,1,\cdots,N\} 。根据有界变差的定义,若任意 [a,b] 的划分 \mathcal{P}=\{a=t_0<t_1<\cdots<t_n=b\} 都能使得 \sum_{}|f(t_k)-f(t_{k-1})| 小于某个实数,则一定有 \sup\sum_{}|f(t_k)-f(t_{k-1})| 小于等于此实数,从而是有界变差的。考虑划分 \mathcal{P}'=\mathcal{P}\cup \mathcal{P}^* ,把其中的划分点记作 z_j ,由于在 [s_{i-1},s_{i}] 这个区间里,其长度 |s_i-s_{i-1}|=|b-a|N^{-1}<\delta ,所以根据绝对连续的定义, \sum_{j,z_j\in[s_{i-1},s_i]}|f(z_j)-f(z_{j-1})|<\varepsilon=1 ,从而 \sum_{k=1}^{n-1}|f(t_{k+1})-f(t_k)| \leqslant\sum_{i=1}^{n+N-1}|f(z_{k+1})-f(z_k)| =\sum_{i=1}^N\sum_{j,z_j\in[s_{i-1},s_i]}|f(z_j)-f(z_{j-1})| \leqslant N 。这就证明了 f\in BV[a,b]V_f\in AC[a,b] 有类似的证明。

若任意零测集 N\subset[a,b]\lambda(N)=0 都使得 f:[a,b]\to\mathbb{R} 满足 \lambda(f(N))=0 ,则称 f 满足Luzin的N条件。Luzin的N条件是完全刻画绝对连续函数的三个条件之一:

定理 闭区间上的实函数 f:[a,b]\to\mathbb{R} 是绝对连续的,当且仅当 f 是连续的, f 是有界变差的,且 f 满足Luzin的N条件。

证明可以参考任何一本讨论了Luzin的N条件的实分析或者测度论教科书。利用Luzin的N条件,我们可以证明如下的:

命题 f:[a,b]\to\mathbb{R} 是绝对连续的,且 f'=0 几乎处处成立,那么 f 是常函数。

首先我们需要引理:

引理f:[a,b]\to\mathbb{R} 是任意的实函数,定义 E_f=(a,b)\cap\{x\in(a,b)|f'(x) \text{ exists and }f'(x)=0 \} ,那么 \lambda(f(E_f))=0

f 是有界的,那么可以用Vitali覆盖来处理,其证明与闭区间上递增函数几乎处处处可微如出一辙。若 f 是无界的,证明需要用到实函数的复合函数的微分性质和反函数的性质。

根据引理,若 f'=0 几乎处处成立,那么 [a,b]=E_f\cup N ,其中 N 是区间端点与所有 f' 不存在的点,当然 \lambda(N)=0 ,从而Luzin的N条件指出 \lambda(f(N))=0 ,从而 \lambda(f([a,b]))=0 。但 f 是绝对连续的,从而是连续的,进而 f([a,b]) 一定是一个连续的区间,这说明 f([a,b])\equiv\{c\} 只能是一个常数。反之,当 f 是常函数,一切都是不言自明的。

现在我们可以给出Newton-Leibniz公式:

定理 f:[a,b]\to\mathbb{R} 是绝对连续的,当且仅当 f' 几乎处处存在, f' 是Lebesgue可积的,且 f(x)=f(a)+\int_{[a,x]}f'\mathrm{d}\lambda 对任意 x\in[a,b] 成立。

f' 几乎处处存在、Lebesgue可积和积分公式出发推出 f 绝对连续是显然的,因为我们在定义绝对连续性的时候就给出了不定积分的绝对连续性,而Lebesgue微分定理立刻指出积分公式 f(x)=f(a)+\int_{[a,x]}f'\mathrm{d}\lambda 成立。若 f 是绝对连续的,那么 f 是有界变差的,所以其导数 f' 几乎处处存在,从而是Lebesgue可积的。定义 F(x)=\int_{[a,x]}f'\mathrm{d}\lambda ,那么 F 是绝对连续的, F'=f 几乎处处成立,从而 F-f 是导数几乎处处为零的绝对连续函数,根据刚刚的命题, F-f 是常函数,而这就完成了本定理的证明。

广义测度

把我们刚刚定义的绝对连续性推广到测度上,就能得到Radon-Nikodym定理。考虑积分 \nu(E):=\int_Ef\mathrm{d}\mu ,其中 (X,\mathscr{A},\mu) 是测度空间, E\in\mathscr{A} 是可测集, f:X\to\bar{\mathbb{R}} 是Lebesgue可积的。我们知道Lebesgue积分具有可加性:若 E,F 是不相交的可测集,那么 \int_{E\cup F}f\mathrm{d}\mu=\int_Ef\mathrm{d}\mu+\int_Ff\mathrm{d}\mu 。令 \{E_i\} 是可数多个两两不相交的可测集,令 A_n=\bigcup_{i=1}^n E_if_n=f\chi_{A_n} ,那么 |f_n|\leqslant |f| ,并且 \{f_n\} 逐点收敛到 f ,根据Lebesgue控制收敛定理, \int_{A_\infty}f\mathrm{d}\mu=\lim_{n\to\infty}\int_{A_\infty}f\chi_{A_n}\mathrm{d}\mu =\lim_{n\to\infty}\int_{A_n}f\mathrm{d}\mu =\lim_{n\to\infty}\Big(\sum_{i=1}^n\int_{A_i}f\mathrm{d}\mu\Big) ,从而 \nu 是可数可加的。若令 f^+f^- 的其中一个的积分可以是 \pm\infty ,另一者必须要Lebesgue可积,那么 \nu(E) 可以取 \pm\infty 。但Lebesgue积分有可加性,同时我们不能让正无穷和负无穷相加,所以额外要求对于所有的可测集 E ,要么 \nu(E)\ne+\infty ,要么 \nu(E)\ne-\infty

现在我们可以定义广义测度。若 (X,\mathscr{A},\mu) 是测度空间,称 \nu:\mathscr{A}\to\bar{\mathbb{R}} 是广义测度或符号测度,若 \nu(\emptyset)=0\nu 只能在 \pm\infty 中至多取其一,且 \nu 是可数可加的。相较于广义测度,前面讨论的非负的测度可以被称为正测度。

按照 \nu(E):=\int_Ef\mathrm{d}\mu 定义的 \nu 可以是广义测度,只需要求 \nu\pm\infty 中至多取其一成立即可。我们当然想找到一种方法把广义测度分解成非负和非正的部分,就像把实函数分解成 f^+f^- 一样。还是考虑Lebesgue积分 \nu(E)=\int_Ef\mathrm{d}\mu 。令 X^+=\{x\in X|f(x)>0\}X^-=\{x\in X|f(x)<0\} ,再给这两者适当地添加一些 f(x)=0 的点,使得到的 \tilde{X}^+\tilde{X}^- 是可测集,那么 \nu(\tilde{X}^+)>0 ,且任意可测子集 E\subset \tilde{X}^+ 都使得 \nu(E)>0 ,同时 \nu(\tilde{X}^-)<0 ,且任意可测子集 E\subset \tilde{X}^- 都使得 \nu(E)<0 。我们还能把 \nu 分解成恒非负和恒非正的两部分: \nu^+(E)=\int_Ef^+\mathrm{d}\mu\nu^-(E)=\int_Ef^-\mathrm{d}\mu ,显然 \nu=\nu^+-\nu^- 。据此,作如下定义:称 A\in\mathscr{A} 是广义测度 \nu 的正测集,若任意可测子集 E\subset A 都使得 \nu(E)\geqslant 0 ;称 B\in\mathscr{A} 是广义测度 \nu 的负测集,若任意可测子集 E\subset B 都使得 \nu(E)\leqslant 0 ;称 N\in\mathscr{A} 是广义测度 \nu 的空测集(null set),若任意可测子集 E\subset N 都使得 \nu(E)=0 。注意到正测集 A 的定义等价于:任意可测集 E\in\mathscr{A} ,都使得 \nu(E\cap A)\geqslant0 。对负测集同样如此。

定理(Hahn) (X,\mathscr{A},\mu) 是测度空间, \nuX 上的广义测度,那么存在不相交的集合 X^+,X^-\subset\mathscr{A} 使得 X=X^+\cup X^- ,且 X^+\nu 的正测集, X^-\nu 的负测集。

\alpha:=\inf\ \nu(B) ,其中 B 是负测集, \inf 是对于所有的负测集取的。令 \{B_i\} 是一列负测集,并且 \lim_{n\to\infty}\nu(B_n)=\alpha 。令 X^-=\bigcup_{i=1}^\infty B_i ,那么 X^- 是负测集,并且 \alpha\leqslant\nu(X^-)\leqslant\nu(B_n) 对任意 n 成立。取 n\to\infty 就得 \nu(X^-)=\alpha 。下面用反证法来证明 X^+:=X\backslash X^- 是正测集。假设 X^+ 不是正测集(但这并不意味这 X^+ 是负测集!),那么存在一个可测的子集 A_0\subset X^+\nu(A_0)<0 ,但 A_0 不能是负测集,否则 \nu(X^-\cup A_0)<\alpha 。从而又有可测子集 A_1\subset A_0 使得 \nu(A_1)>0 。取 A_1 是最大的那个正测度集,并取 k_1 是使得 \nu(A_1)\geqslant\frac{1}{k_1} 成立的最小正整数。由于 \nu(A_0\backslash A_1)<0 ,所以又能取一个 A_2\subset A_0\backslash A_1 使得 \nu(A_2)>0 ,并取 k_2 是使得 \nu(A_2)\geqslant\frac{1}{k_2} 成立的最小正整数。不断重复这个过程,我们得到了一列两两不相交的可测集 \{A_i\} ,并且 A_{n+1}\subset A_0\backslash \bigcup_{i=1}^n A_i 。当 n\to\infty ,一定有 k_n\to\infty ,否则 \nu(\bigcup_{i=1}^\infty A_i)=+\infty ,从而 \nu(A_0)>0 。令 N=A_0\backslash\bigcup_{i=1}^\infty A_i ,那么 \nu(N)<0 。若存在可测子集 C\subset N 使得 \nu(C)>0 ,那么存在正整数 k 使得 \nu(C)>\frac{1}{k} ,但由于 k_n\to\infty ,所以一定存在 k_n>k ,这就使得 C\subset A_n ,进而 \nu(C) 不能大于0。这就指出 N 是负测集。但如此一来 \nu(X^-\cup N)<\alpha ,矛盾。

X^+,X^-X 相对于广义测度 \nu 的Hahn分解。Hahn分解不是唯一的,因为空测集既可以归到正测集那边去,又可以归到负测集那里。但无论如何,两个不同的Hahn分解给出的正测集的广义测度是相等的,因为它们只相差了一个零测集。令 \nu^+(E):=\nu(E\cap X^+)\nu^-(E):=-\nu(E\cap X^-) ,那么 \nu^+\nu^- 是通常意义下的测度,并且 \nu=\nu^+-\nu^- 。称这个分解式是广义测度的Jordan-Hahn分解。注意到 \nu^+(X^-)=0=\nu^-(X\backslash X^-) 。称两个通常的测度 \mu_1,\mu_2 是相互奇异的测度,若存在一个可测集 E 使得 \mu_1(E)=\mu_2(X\backslash E)=0 。Jordan-Hahn分解当然给出了一对相互奇异的测度。注意到我们要求广义测度只能取到 \pm\infty 的其中一者,所以 \nu^+,\nu^- 二者至少其一是有限的测度。

根据正测集的定义,可以看出 \nu^+(E)=\sup_{\forall C\subset E,C\in\mathscr{A}}\nu(C) ,同理 \nu^- (E)=\sup_{\forall C\subset E,C\in\mathscr{A}}\big( -\nu(C)\big) 。这直接就指出:

定理(Jordan) 广义测度的Jordan-Hahn分解是唯一的。

定义 |\nu|=\nu^++\nu^- 。它两个测度的和,当然依旧是测度。若 \{E_i|i=1,\cdots,n\} 是可测集 E 的由两两不相交的可测集 E_i 构成的分解,即 E=\bigcup_{i=1}^n E_i ,那么 \sum_{i=1}^n|\nu(E_i)| =\sum_{i=1}^n|\nu^+(E_i)-\nu^-(E_i)| \leqslant\sum_{i=1}^n\nu^+(E_i)+\sum_{i=1}^n\nu^-(E_i) =\nu^+(E)+\nu^-(E)=|\nu|(E) 。这个式子对任何 E 的有限分解都成立,从而 \sup\sum_{i=1}^n|\nu(E_i)|\leqslant |\nu|(E) 。取 \{E\cap X^+,E\cap X^-\} ,这组 E 的有限分解恰好使得 \sup\sum_{i=1}^n|\nu(E_i)|\leqslant |\nu|(E) 的等号成立,从而 \sup\sum_{i=1}^n|\nu(E_i)|= |\nu|(E) 。这个性质很类似于实函数的全变差的定义。称测度 |\nu| 是广义测度 \nu 的全变差,称 \lVert\nu\rVert:=|\nu|(X)\nu 的变差范数。

类似地也能定义测度的绝对连续性。若任意满足 \mu(E)=0 的可测集 E ,都使得 \nu(E)=0 ,则称广义测度 \nu 相对于 \mu 是绝对连续的,记作 \nu\ll\mu 。这里 \mu 是测度空间 X 上的正测度。这个定义当然还是从Lebesgue积分来的: \nu(E)=\int_Ef\mathrm{d}\mu ,若 \mu(E)=0 ,零测集上的积分为零, \nu(E)=0

至于这个“绝对连续”何来勇气自称为绝对连续,是有理有据的:

命题 \nu 是有限的广义测度,那么 \nu\ll\mu ,当且仅当任意 \varepsilon>0 ,存在 \delta>0 ,使得任意满足 \mu(E)<\delta 的可测集 E|\nu(E)|<\varepsilon 成立。

带入 \nu(E)=\int_Ef\mathrm{d}\mu ,这命题给出的绝对连续性条件就是 |\int_Ef\mathrm{d}\mu|<\varepsilon ,而Lebesgue积分的绝对连续性条件是 \int_A|f|\mathrm{d}\mu<\varepsilon ,由于 |\int_Xf\mathrm{d}\mu|\leqslant\int_X|f|\mathrm{d}\mu ,只能说Lebesgue积分的绝对连续性蕴含了按Lebesgue积分定义的广义测度的绝对连续性。

当然命题的题设给出的 \varepsilon-\delta 条件直接表明 \nu\ll\mu ,所以我们只需要证明 \nu\ll\mu 能推出 \varepsilon-\delta 条件。假设 \varepsilon-\delta 条件不成立,也就是说,存在一个 \varepsilon>0 ,此时不存在任何的 \delta>0 ,使得任何满足 \mu(E)<\delta 的可测集 E|\nu(E)|<\varepsilon 成立。那么对任意正整数 k ,都存在一个可测集 A_k 使得 \nu(A_k)\geqslant\varepsilon 并且 \mu(A_k)\leqslant\frac{1}{2^k} 。令 B=\bigcap_{k=1}^\infty\bigcup_{i=k}^\infty A_i ,那么 \mu(B)=0 ,但 \nu(B)\geqslant\varepsilon ,与 \nu\ll\mu 矛盾。

现在我们可以给出Radon-Nikodym定理。

定理(Radon-Nikodym) (X,\mathscr{A},\mu)\sigma -有限的测度空间, \nuX 上的 \sigma -有限的广义测度, \nu\ll\mu ,那么存在Lebesgue可测的函数 f:X\to\bar{\mathbb{R}} 使得 f^+,f^- 的二者至少其一是Lebesgue可积的,并且 \nu(E)=\int_Ef\mathrm{d}\mu 对任意可测集 E\in\mathscr{A} 成立。

证明可以参考这里。也就是说在满足一定条件的时候,所有的广义测度都可以用适当的Lebesgue积分来表示。把使得 \nu(E)=\int_Ef\mathrm{d}\mu 成立的 f 记为 \frac{\mathrm{d}\nu}{\mathrm{d}\mu} ,称其为 \nu 相对 \mu 的Radon-Nikodym导数。由于Lebesgue积分的特性,我们可以把所有几乎处处等于 \frac{\mathrm{d}\nu}{\mathrm{d}\mu} 的Lebesgue可积函数也称为Radon-Nikodym导数。这里要稍微强调一下,由于现在有两个测度,所以必须指明“几乎处处”是相对于哪一个测度的。当然在这里,相对于 \mu 几乎处处等于 \frac{\mathrm{d}\nu}{\mathrm{d}\mu} 才能符合Radon-Nikodym导数的内涵。

这里测度 \mu\sigma -有限的,意味着 X 可以表示成可数多个可测集 \{X_i\} 的并集 X=\bigcup_{i=1}^\infty X_i ,并且每个 X_i 都是有限测度的: \mu(X_i)<\infty 。当然有限的测度一定是 \sigma -有限的。

引理\mathbb{R}^n 上的Lebesgue测度是 \sigma -有限的。

首先 \mathbb{R} 上的Lebesgue测度是 \sigma -有限的,因为 \mathbb{R}=\bigcup_{i=1}^\infty[-i,i] ,而这些闭区间的Lebesgue测度 \lambda([-i,i])=2i<\infty 。对于一般的情况,取立方体 [-i,i]^n:=\{x=(x_1,\cdots,x_n)|-i\leqslant x_j\leqslant i,j=1,\cdots,n\} ,那么 \mathbb{R}^n=\bigcup_{i=1}^\infty[-i,i]^n ,而这些立方体 \lambda_n([-i,i]^n)=(2i)^n<\infty

我们来证明,若 \mu_1,\mu_2,\mu_3 都是 \sigma -有限的正测度,且 \mu_1\ll\mu_2\mu_2\ll\mu_3 ,那么 \frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2}\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}=\frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_3} 。由于 \mu_1\mu_2 都是正测度,所以 \frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2} 是非负的Lebesgue可积函数,从而根据简单函数逼近定理,存在一列递增的非负可测简单函数 \{\phi_n\} 逐点收敛到 \frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2} ,而单调收敛定理就指出 \lim_{n\to\infty}\int_E\phi_n\mathrm{d}\mu_2=\int_E\frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2}\mathrm{d}\mu_2 对任意可测集 E 成立。由于 \frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3} 也是非负的,所以 \{\phi_n\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\} 也是递增的Lebesgue可积函数列,从而 \lim_{n\to\infty}\int_E\phi_n\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\mathrm{d}\mu_3=\int_E\frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2}\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\mathrm{d}\mu_3 。若 F 是另外的可测集,那么 \int_E\chi_F\mathrm{d}\mu_2=\mu_2(E\cap F) =\int_{E\cap F}\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\mathrm{d}\mu_3 =\int_{E}\chi_F\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\mathrm{d}\mu_3 ,而 \phi_n 是简单函数,所以 \int_E\phi_n\mathrm{d}\mu_2=\int_E\phi_n\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}\mathrm{d}\mu_3 ,取  n\to\infty 的极限就得到了 \frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_2}\frac{\mathrm{d}\mu_2}{\mathrm{d}\mu_3}=\frac{\mathrm{d}\mu_1}{\mathrm{d}\mu_3}

利用Radon-Nikodym定理,我们可以把任意的 \sigma -有限正测度分解成绝对连续与相互奇异的部分。若 \mu,\nu 是相互奇异的测度,则记 \mu\bot\nu 。令 \mu,\nu 两者都是 \sigma -有限的测度,令 \varsigma=|\mu|+|\nu| ,那么 \mu\ll\varsigma\nu\ll\varsigma 。根据Radon-Nikodym定理,存在Lebesgue可积的函数 f_\mu=\frac{\mathrm{d}\mu}{\mathrm{d}\varsigma}f_\nu=\frac{\mathrm{d}\nu}{\mathrm{d}\varsigma} 。把所有 f_\mu(x)=0 的点的集合记作 N ,并且在 X\backslash N 上定义 f(x):=\frac{f_\nu(x)}{f_\mu(x)} (当然,这个 f 只在 f_\nuf_\mu 都有定义的地方才有定义,但此二者是Lebesgue可积的,所以没有定义的集合只是一个零测集)。令 \mu_0(E):=\nu(E\cap N) ,那么 \int_Ef\chi_{X\backslash N}\mathrm{d}\mu+\mu_0(E) =\int_{(X\backslash N)\cap E}f\mathrm{d}\mu+\nu(E\cap N) =\int_{(X\backslash N)\cap E}\frac{\mathrm{d}\nu}{\mathrm{d}\mu}\mathrm{d}\mu+\nu(E\cap N) =\nu({(X\backslash N)\cap E})+\nu(E\cap N)=\nu(E) 。注意到 \mu_0\bot\mu ,因为 \mu(N)=\int_{N}f\mathrm{d}\mu =\int_{N}0\mathrm{d}\mu=0 。这就是Lebesgue分解定理:

定理(Lebesgue-Radon-Nikodym) \mu,\nu\sigma -有限的正测度,那么存在相对于 \mu Lebesgue可积的函数 f 使得 \nu(E)=\int_Ef\mathrm{d}\mu+\mu_0 ,其中 \mu_0\bot\mu

乘积测度

本节里我们只讨论集合的乘积测度,而不讨论一般的拓扑空间的乘积上的乘积测度,因为两个Borel代数的乘积与拓扑空间的积的Borel代数会不一样大。这会导向描述集合论。

(X,\mathscr{A},\mu)(Y,\mathscr{B},\nu) 是两个测度空间。定义 \varrho:2^{X\times Y}\to\bar{\mathbb{R}} 是按照 \varrho(S)=\inf\{\sum_{i=1}^\infty\mu(A_i)\nu(B_i)\} 定义的实函数,其中 A_i\in\mathscr{A}B_i\in\mathscr{B}S\subset\bigcup_{i=1}^\infty(A_i\times B_i)\inf 是对所有这种 S 的可数覆盖取的。我们来验证 \varrho 是乘积空间 X\times Y 上的外测度,也就是非负性、空集零测性、单调性和可数次可加性。 \varrho 的非负性和空集零测性是显然的,单调性是可数次可加的推论,所以只需要证明可数次可加性。假设 S\subset\bigcup_{i=1}^\infty S_i ,若 \varrho(S)\leqslant\sum_{i=1}^\infty\varrho(S_i) 则能说明可数次可加。若有某个 S_i 使得 \varrho(S_i)=\infty 则不证自明。设所有的 S_i 都使得 \varrho(S_i)<\infty ,对于任意 \varepsilon>0 ,可以找到一列 \{A_j^i\times A^i_j\} 覆盖 S_i ,但 \sum_{j=1}^\infty\mu(A_j^i)\nu(B_j^i)<\varrho(S_i)+\frac{\varepsilon}{2^k} ,从而立刻就知道 \varrho(S)\leqslant\sum_{i=1}^\infty\varrho(S_i)+\varepsilon

实际上在证明 \varrho 是外测度之前,要先说明 \mathscr{A}\times\mathscr{B}:=\{A\times B|A\in\mathscr{A},B\in\mathscr{B}\} 是子集代数,即“空、并、差”三条。并运算和差是封闭的: (A_1\times B_1)\cup(A_2\times B_2)=(A_1\cup A_2)\times (B_1\cup B_2)(X\times Y)\backslash(A\times B)=((X\backslash A)\times Y)\cup(X\times(Y\backslash  B)) ,这式子的证明可以参考此处。根据外测度的性质,所有的 \varrho -可测集构成了一个 \sigma -代数,记其为 \mathscr{A}\otimes\mathscr{B}

定理 (X,\mathscr{A},\mu)(Y,\mathscr{B},\nu) 是完备测度空间, A\in\mathscr{A}B\in\mathscr{B} ,那么 A\times B\in\mathscr{A}\otimes\mathscr{B} ,并且 \varrho(A\times B)=\mu(A)\nu(B)

这个定理的证明远比看上去复杂,并且引入了额外的条件:测度空间得是完备的。证明可以参考这里

另一种构造方法是先定义 \mathscr{A}\otimes\mathscr{B} ,如此不需要从一开始就把完备的条件提出来,但是需要 \sigma -有限的条件。若 (X,\mathscr{A})(Y,\mathscr{B}) 是两个可测空间,称 \mathscr{A}\otimes\mathscr{B}:=\mathcal{S}(\mathscr{A}\times\mathscr{B}) ,也就是说所有形如 A\times B 的集合生成的 X\times Y 的极小 \sigma -代数,是 \sigma -代数 \mathscr{A}\mathscr{B} 的乘积 \sigma -代数。称形如 A\times B 的集合是可测矩形。若可测矩形 A\times B 可以被分割至多可数个两两不相交的可测矩形 A_i\times B_i ,那么 \chi_{A\times B}(x,y)=\sum_i\chi_{A_i}(x)\chi_{B_i}(y) ,对 x 积分,得 \int_X\chi_A\chi_B\mathrm{d}\mu=\mu(A)\chi_B(y)=\sum_{i}\mu(A_i)\chi_{B_i}(y) ,再对 y 积分,得 \sum_{i}\mu(A_i)\nu(B_i)=\mu(A)\nu(B) 。这就是定义上面那个外测度的最简单想法。注意到,要使得 \sum_{i}\mu(A_i)\nu(B_i) 含有一丁点信息,至少需要每个 \mu(A_i)<\infty\nu(B_i)<\infty ,而这恰好引入了测度 \sigma -有限的概念。

根据上面,按照 (\mu\times \nu)(A\times B):=\mu(A)\nu(B) 定义的 \mu\times \nu:\mathscr{A}\times\mathscr{B}\to[0,\infty] 是可数可加的,从而根据第六章里的Carathéodory-Hahn延拓定理,其外测度 (\mu\times\nu)^* 在所有 \mu\times\nu -可测集构成的 \sigma -代数上是测度。由于 \mathscr{A}\otimes\mathscr{B} 是极小 \sigma -代数,所以可以把 (\mu\times\nu)^* 限制在 \mathscr{A}\otimes\mathscr{B} 上,记其为 \mu\otimes\nu ,称其为乘积测度。当然, \mathscr{A}\times\mathscr{B}\subset \mathscr{A}\otimes\mathscr{B} ,而在 \mathscr{A}\times\mathscr{B}\mu\otimes\nu=\mu\times\nu ,这也都是前面有的结论。

现在要在乘积测度空间 (X\times Y,\mathscr{A}\otimes\mathscr{B},\mu\otimes\nu) 上做积分。一个朴素的想法是把重积分转化成累次积分: \int_{X\times Y}f\mathrm{d}(\mu\otimes\nu)=\int_X\Big(\int_Yf(x,y)\mathrm{d}\nu(y)\Big)\mathrm{d}\mu(x) ,也就是先对自变量 y 积分,得到一个 X\to\bar{\mathbb{R}} 的函数,然后再积分。那么首先, f(x,y) 固定 x 得到的 f_x(y) 是可测的吗?这是值得研究的。

命题S\subset \mathscr{A}\otimes\mathscr{B} ,那么 S_x\in\mathscr{B}S_y\in\mathscr{A} 对任意的 x\in Xy\in Y 成立。

这里的 S_x:=\{x\in X|(x,y)\in S\} 被称为截面。同理可以定义 S_y 。要证明此命题只需要指出所有满足题设但不一定在 \mathscr{A}\otimes\mathscr{B} 里的 S 构成的集合 \mathcal{F}\sigma -代数,然后根据 \mathscr{A}\otimes\mathscr{B} 的极小性,立刻推出 \mathscr{A}\otimes\mathscr{B}\subset\mathcal{F} 。而 \mathcal{F}\sigma -代数这件事几乎是显然的。

命题 f:X\times Y\to\bar{\mathbb R}\mathscr{A}\otimes\mathscr{B} 可测的,那么任意 x\in X 都使得 f_x\mathscr{B} 可测的,任意 y\in Y 都使得 f_y\mathscr{A} 可测的。

这里 f_x(y):=f(x,y) 。这个命题几乎是上一条命题的立刻推论,因为 (f_x)^{-1}(C)=(f^{-1}(C))_x ,这里 C 是形如 \{(x,y)\in X\times Y|f(x,y)<c\} 的集合。

在证明Fubini定理时需要用到单调类引理。称子类 \mathcal{M}\subset 2^X 是单调类,若可数递增列的并集和可数递减列的交集是封闭的,也就是说任意递增列 E_1\subset E_2\subset\cdots 都使得 \bigcup_{i=1}^\infty E_1\in\mathcal{M} ,若 E_i\in\mathcal{M} ;任意递减列 E_1\supset E_2\supset\cdots 都使得 \bigcap_{i=1}^\infty E_1\in\mathcal{M} ,若 E_i\in\mathcal{M} 。据定义 \sigma -代数一定是单调类。据定义易看出两个单调类的交集族仍是单调类,所以可以定义极小单调类和某个集族生成的单调类。

定理 子集代数生成的极小单调类就是子集代数生成的极小 \sigma -代数。

据此,可以直接利用单调类的定义来构造 \sigma -代数。由于 \sigma -代数是单调类,所以只需要证明单调类是 \sigma -代数。但利用单调类的定义来构造可数并封闭是简单的:令 \{E_i\}\subset\mathcal{M} 是任意的可数多个集合,那么 \{\bigcup_{i=1}^kE_i\} 是递增列,从而 \bigcup_{i=1}^\infty E_i=\bigcup_{k=1}^\infty(\bigcup_{i=1}^k E_i)\in\mathcal{M} 。从而只需要证明单调类是子集代数。对于任意 A\in\mathcal{M} ,定义 \mathcal{M}(A):=\{E\in\mathcal{M}|A\backslash E,E\backslash A,A\cup E\in\mathcal{M}\} ,由于单调列的极限性质可以和这三个运算交换,所以 \mathcal{M}(A) 仍是单调类,只要它非空。由于这个定义里 AE 的对称性,可以直接看出 E\in\mathcal{M}(A) 当且仅当 A\in\mathcal{M}(E) 。若 E,F\in\mathcal{A} ,其中 \mathcal{A} 是生成 \mathcal{M} 的子集代数,那么据定义,立刻有 E\in\mathcal{M}(F) ,而这对任意 E\in\mathcal{A} 都成立,所以 \mathcal{A}\subset\mathcal{M}(F) 。而 \mathcal{M} 是极小的,从而 \mathcal{A\subset M\subset M}(F) ,所以若 E\in\mathcal{M}F\in\mathcal{A} ,则 E\in\mathcal{M}(F) ,而此式成立当且仅当 F\in\mathcal{M}(E) ,而 F\in\mathcal{A} 是任意的,所以最后得到 \mathcal{M}\subset \mathcal{M}(E) 。而这个式子对于任意 E\in\mathcal{M} 都成立,这恰好说明 \mathcal{M} 对于 \mathcal{M}(E) 里的三种运算都封闭,从而是子集代数。

命题 (X,\mathscr{A},\mu)(Y,\mathscr{B},\nu)\sigma -有限的测度空间, S\in\mathscr{A\otimes B} ,那么按照 x\to\nu(S_x) 定义的函数是 \mathscr{A} 可测的,按照 y\to\mu(S_y) 定义的函数是 \mathscr{B} 可测的,且 (\mu\otimes\nu)(S)=\int_X\nu(S_x)\mathrm{d}\mu(x)=\int_Y\mu(S_y)\mathrm{d}\nu(y)

我们只需要证明 \mu,\nu 都是有限测度的情况。若这两者都是 \sigma -有限的测度,利用单调收敛定理,结合有限测度的情况就得到想要的结论。考虑 S=A\times B ,其中 A\in\mathscr{A}B\in\mathscr{B} ,那么 \nu(S_x)=\chi_A(x)\nu(B)\mu(S_y)=\mu(A)\chi_B(y) ,当然是可测的。我们把所有使得 x\to\nu(S_x)y\to\mu(S_y) 是可测函数的 S\in\mathscr{A\otimes B} 的集族记作 \mathcal{F} ,根据单调类引理,若 \mathcal{F}\mathscr{A\times B} 生成的极小单调类,则 \mathcal{F}=\mathscr{A\otimes B} 。令 \{E_n\}\subset\mathcal{F} 是递增列,并令 E=\bigcup_{i=1}^\infty E_if_n(y):=\mu((E_n)_y) ,那么可测函数列 \{f_n\} 逐点收敛到 f(y):=\mu(E_y) ,从而 f\mathscr{B} 可测函数,根据单调收敛定理, \int_Y\mu(E_y)\mathrm{d}\nu(y)=\lim_{n\to\infty}\int_Y\mu((E_n))_y\mathrm{d}\nu(y)=\lim_{n\to\infty}(\mu\otimes\nu)(E_n) =(\mu\otimes\nu)(E) 。类似地可以得到 \int_X\nu(E_x)\mathrm{d}\mu(x)=(\mu\otimes\nu)(E) ,从而 E\in\mathcal{F} 。对于递减列,只需把单调收敛定理换成控制收敛定理。这就证明了命题。

根据积分的线性性质和可数可加性,可以毫无顾虑地写下 \int_{X\times Y}\phi\mathrm{d}(\mu\otimes\nu)=\int_X\Big(\int_Y \phi_x(y)\mathrm{d}\nu(y)\Big)\mathrm{d}\mu(x) =\int_Y\Big(\int_X \phi_y(x)\mathrm{d}\mu(x)\Big)\mathrm{d}\nu(y) ,其中 \phi:X\times Y\to\mathbb{R} 是简单函数。利用简单函数逼近定理和单调收敛定理,立刻得到:

定理(Tonelli) (X,\mathscr{A},\mu)(Y,\mathscr{B},\nu)\sigma -有限的测度空间, f:X\times Y\to\bar{\mathbb{R}} 是非负的Lebesgue可积函数,那么 g(x):=\int_Yf_x\mathrm{d}\nuh(y):=\int_Xf_y\mathrm{d}\mu 也是Lebesgue可积的函数,并且 \int_{X\times Y}f\mathrm{d}(\mu\otimes\nu)=\int_Xg\mathrm{d}\mu =\int_X\Big(\int_Y f_x(y)\mathrm{d}\nu(y)\Big)\mathrm{d}\mu(x) =\int_Yh\mathrm{d}\nu=\int_Y\Big(\int_X f_y(x)\mathrm{d}\mu(x)\Big)\mathrm{d}\nu(y)

据此立刻有:

定理(Fubini) (X,\mathscr{A},\mu)(Y,\mathscr{B},\nu)\sigma -有限的测度空间,f:X\times Y\to\bar{\mathbb{R}} 是Lebesgue可积函数,那么相对于 \mu 几乎所有 x 都使得 f_x(Y,\mathscr{B},\nu) 上Lebesgue可积函数,相对于 \nu 几乎所有 y 都使得 f_y(X,\mathscr{A},\mu) 上Lebesgue可积函数,并且 \int_{X\times Y}f\mathrm{d}(\mu\otimes\nu)=\int_X(\int_Yf_x\mathrm{d}\nu)\mathrm{d}\mu = \int_Y(\int_Xf_y\mathrm{d}\mu )\mathrm{d}\nu

从而完成了本节的预定任务。  \iint_{X\times Y} f\mathrm{d}\mu \mathrm{d}\nu:=\int_{X\times Y}f\mathrm{d}(\mu\otimes\nu) 是重积分常用的记法。

作为一个例子,考虑 \mathbb{R}^{n+m} 上的Lebesgue测度,我们来证明高维Lebesgue测度可以被看作乘积测度:

命题 n,m 是正整数,那么 \lambda_{n+m}=\lambda_n\otimes\lambda_m

利用本节最开始的外测度构造最容易证明。简要地说,考虑外测度 \varrho(E)=\inf\{\sum_{i=1}^\infty\lambda_n(A_i)\lambda_m(B_i)\} ,若能证明 \varrho=(\lambda_{n+m})^* 就证明了命题。任取 \varepsilon>0 ,令 A\subset\mathbb{R}^nB\subset\mathbb{R}^m 是可测集。根据可测集的逼近定理,存在开集 U\supset AV\supset B 使得 \lambda_n(U\backslash A)<\varepsilon\lambda_m(V\backslash B)<\varepsilon 成立,从而 \lambda_n(U)\lambda_m(V)\leqslant\lambda_n(A)\lambda_m(B)+\varepsilon(\lambda_n(A)+\lambda_m(B))+\varepsilon^2 。若 E\subset\mathbb{R}^{n+m} 是有界集, E\subset\bigcup_{i=1}^\infty (A_i\times B_i) ,且 \{\lambda_n(A_i)\}\{\lambda_m(B_i)\} 是有解的,那么对于每个 A_i,B_i ,都存在开集 U_i,V_i 使得 \sum_{i=1}^\infty\lambda_n(A_i)\lambda_m(B_i)\geqslant\sum_{i=1}^\infty\lambda_n(U_i)\lambda_m(V_i)-\varepsilon ,而开集 U_i\times V_i 又能用立方体来逼近: U_i\times V_i=\bigcup_{k=1}^\infty I^i_k\times J^i_k ,从而 \lambda_n(U_i)\lambda_m(V_i)=\sum_{k=1}^\infty\lambda_n(I^i_k)\lambda_m(J^i_k)=\sum_{k=1}^\infty\lambda_{n+m}(I^i_k\times J^i_k) 。能使用立方体进行估计,基本就已经完成了证明。根据此式,立刻得 \varrho(E)\geqslant(\lambda_{n+m})^*(E) 。而 \varrho(E)\leqslant(\lambda_{n+m})^*(E) 是显然的。若 E 是无界集,那么 \varrho(E)\geqslant(\lambda_{n+m})^*(E\cap B_j(0)) ,其中 j 是任意正整数。由于Lebesgue外测度是Carathéodory外测度从而是正规外测度,存在一个可测集 A_j\supset E\cap B_j(0) 使得 \lambda_{n+m}(A_j)=(\lambda_{n+m})^*(E\cap B_j(0)) 。令 A=\bigcup_{j=1}^\infty A_j ,那么 (\lambda_{n+m})^*(E)\leqslant\lambda_{n+m}(A) =\lim_{j\to\infty}\lambda_{n+m}(A_j) =\lim_{j\to\infty}(\lambda_{n+m})^*(E\cap B_{j}(0)) \leqslant(\lambda_{n+m})^*(E) ,从而 \lim_{j\to\infty}(\lambda_{n+m})^*(E\cap B_{j}(0))=(\lambda_{n+m})^*(E) ,进而仍然得到 \varrho(E)\geqslant(\lambda_{n+m})^*(E)

发布于 07-26

文章被以下专栏收录