From eb3a95832417c5e65f0f6fed06e74cb9b5f24d39 Mon Sep 17 00:00:00 2001 From: Alexander Luzgarev Date: Thu, 9 Jun 2016 22:05:14 +0300 Subject: [PATCH] Initial commit --- .gitignore | 14 + algebra.tex | 161 ++++ complex-numbers.tex | 571 +++++++++++ euclidean-spaces.tex | 2135 ++++++++++++++++++++++++++++++++++++++++++ group-theory.tex | 1421 ++++++++++++++++++++++++++++ jordan-form.tex | 1934 ++++++++++++++++++++++++++++++++++++++ linear-algebra.tex | 1940 ++++++++++++++++++++++++++++++++++++++ linear-maps.tex | 1564 +++++++++++++++++++++++++++++++ multilinear.tex | 1122 ++++++++++++++++++++++ number-theory.tex | 1298 +++++++++++++++++++++++++ polynomials.tex | 1483 +++++++++++++++++++++++++++++ set-theory.tex | 828 ++++++++++++++++ vector-spaces.tex | 957 +++++++++++++++++++ 13 files changed, 15428 insertions(+) create mode 100644 .gitignore create mode 100644 algebra.tex create mode 100644 complex-numbers.tex create mode 100644 euclidean-spaces.tex create mode 100644 group-theory.tex create mode 100644 jordan-form.tex create mode 100644 linear-algebra.tex create mode 100644 linear-maps.tex create mode 100644 multilinear.tex create mode 100644 number-theory.tex create mode 100644 polynomials.tex create mode 100644 set-theory.tex create mode 100644 vector-spaces.tex diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..9245df6 --- /dev/null +++ b/.gitignore @@ -0,0 +1,14 @@ +*~ +.DS_Store +*.aux +*.fdb_latexmk +*.fls +*.log +*.out +*.pdf +*.synctex.gz +*.toc +*.brf +*.idx +*.ind +*.ilg diff --git a/algebra.tex b/algebra.tex new file mode 100644 index 0000000..985af8e --- /dev/null +++ b/algebra.tex @@ -0,0 +1,161 @@ +\documentclass[12pt]{article} +\usepackage[T2A]{fontenc} +\usepackage[utf8]{inputenc} +\usepackage[russian]{babel} +%\usepackage{amsfonts} +\usepackage{amssymb} +\usepackage{amsmath} +\usepackage{amsthm} +\usepackage{ccfonts,eulervm,microtype} +\renewcommand{\bfdefault}{sbc} + +\usepackage[margin=0.7in,bmargin=1.2in]{geometry} +\usepackage{multicol} + +\usepackage{hyperref} + +\usepackage{mathabx} + +\usepackage{tikz-cd} +\usepackage{tikz} +\usetikzlibrary{arrows.meta,calc} + +\pagestyle{plain} + +\theoremstyle{plain} +\newtheorem{theorem}{Теорема}[subsection] +\newtheorem{lemma}[theorem]{Лемма} +\newtheorem{proposition}[theorem]{Предложение} +\newtheorem{exercise}[theorem]{Упражнение} +\newtheorem{corollary}[theorem]{Следствие} + +\theoremstyle{remark} +\newtheorem{example}[theorem]{Пример} +\newtheorem{examples}[theorem]{Примеры} +\newtheorem{remark}[theorem]{Замечание} + +\theoremstyle{definition} +\newtheorem{definition}[theorem]{Определение} + + +\renewcommand{\emptyset}{\varnothing} +\newcommand\mbZ{\mathbb Z} +\newcommand\ph{\varphi} +\newcommand\trleq{\trianglelefteq} +\newcommand\isom{\cong} +%\def\l{\lambda} +%\def\m{\mu} +\newcommand\la{\langle} +\newcommand\ra{\rangle} +\newcommand\mb{\mathbb} +\newcommand\mc{\mathcal} +\newcommand\divs{\,\lower.4ex\vdots\,} +\newcommand\ol{\overline} +\newcommand\eps{\varepsilon} + +\DeclareMathOperator{\ev}{ev} +\DeclareMathOperator{\id}{id} +\DeclareMathOperator{\Ker}{Ker} +\DeclareMathOperator{\Ree}{Re} +\DeclareMathOperator{\Img}{Im} +\DeclareMathOperator{\Arg}{Arg} +\DeclareMathOperator{\End}{End} +\DeclareMathOperator{\Aut}{Aut} +\DeclareMathOperator{\GL}{GL} +\DeclareMathOperator{\SL}{SL} +\DeclareMathOperator{\Hom}{Hom} +\DeclareMathOperator{\sgn}{sgn} +\DeclareMathOperator{\ord}{ord} +\DeclareMathOperator{\mmod}{mod} +\DeclareMathOperator{\cchar}{char} + +\DeclareMathOperator{\logn}{ln} +\DeclareMathOperator{\Logn}{Ln} +\DeclareMathOperator{\Frac}{Frac} + +\DeclareMathOperator{\inv}{inv} +\DeclareMathOperator{\adj}{adj} +\DeclareMathOperator{\rk}{rk} +\DeclareMathOperator{\pr}{pr} + +\DeclareMathOperator{\pow}{pow} +%\DeclareMathOperator{\deg}{deg} +\DeclareMathOperator{\Fix}{Fix} + +\DeclareMathOperator{\Map}{Map} +\DeclareMathOperator{\const}{const} + + +\newcommand\tld{\widetilde} +\newcommand\rsa{\rightsquigarrow} +\newcommand\mbC{\mathbb C} +\newcommand\mbR{\mathbb R} + +\newcommand\literature[1]{{\small{\sc Литература}: #1}} + +\newcommand\dfn[1]{{\bf #1}} + +\makeindex + +%\includeonly{multilinear} + +\begin{document} + +\title{Алгебра и теория чисел\footnote{Конспект + лекций для механиков, 2014--2015 учебный год; предварительная + версия}} +\author{Александр Лузгарев} +\date{} + +\maketitle + +\tableofcontents + +\vfill + +В начале каждого подраздела указана вспомогательная +литература. Обозначения: + +\begin{itemize} +\item {}[F] Д. К. Фаддеев, {\it Лекции по алгебре}, М.: Наука, 1984. +\item {}[K1] А. И. Кострикин, {\it Введение в алгебру. Часть I. Основы + алгебры}, 3-е изд. --- М.: ФИЗМАТЛИТ, 2004. +\item {}[K2] А. И. Кострикин, {\it Введение в алгебру. Часть II. Линейная + алгебра}, М.: ФИЗМАТЛИТ, 2000. +\item {}[K3] А. И. Кострикин, {\it Введение в алгебру. Часть + III. Основные структуры}, М.: ФИЗ\-МАТЛИТ, 2004. +\item {}[vdW] Б. Л. ван дер Варден, {\it Алгебра}, М.: Мир, 1976. +\item {}[Bog] О. В. Богопольский, {\it Введение в теорию групп}, + Москва--Ижевск: Институт компьютерных исследований, 2002. +\item {}[KM] А. И. Кострикин, Ю. И. Манин, {\it Линейная алгебра и + геометрия}, М.: Наука, 1986. +\item {}[V] И. М. Виноградов, {\it Основы теории чисел}, М., 1952. +\item {}[B] А. А. Бухштаб, {\it Теория чисел}, М.: Просвещение, 1966. +\end{itemize} +% И. М. Гельфанд, Лекции по линейной алгебре. +% Халмош, Конечномерные векторные пространства. + + +\vfill\eject + +\include{set-theory} +\include{number-theory} +\include{complex-numbers} +\include{polynomials} +\include{linear-algebra} +\include{vector-spaces} +\include{linear-maps} +\include{jordan-form} +\include{euclidean-spaces} +\include{group-theory} +\include{multilinear} + +\clearpage +\addcontentsline{toc}{section}{\indexname} +\input{algebra.ind} + +\end{document} + +% группа углов как пример фактор-группы + + diff --git a/complex-numbers.tex b/complex-numbers.tex new file mode 100644 index 0000000..35571ba --- /dev/null +++ b/complex-numbers.tex @@ -0,0 +1,571 @@ +\section{Комплексные числа} + +\subsection{Определение комплексных чисел} + +\literature{[F], гл. II, \S~1, пп. 1--5; [K1], гл. 5, \S~1, пп. 1--2.} + +Комплексные числа представляют собой расширение поля вещественных +чисел, обладающее гораздо более приятными алгебраическими +свойствами. Наш подход к определению комплексных чисел +аксиоматический~--- мы сначала описываем некоторое множество с +операциями, которое оказывается полем, а потом показываем, что оно +содержит вещественные числа и задумываемся о мотивации. + +\begin{definition}\label{def_complex} +Рассмотрим множество $\mb R\times\mb R$ пар вещественных чисел. +Введем на нем операции сложения и умножения: +\begin{align*} +&(a,b)+(c,d)=(a+c,b+d),\\ +&(a,b)\cdot (c,d)=(ac-bd,ad+bc). +\end{align*} +\end{definition} + +\begin{theorem}\label{complex_ring} +Множество с операциями, определенное в~\ref{def_complex}, является +ассоциативным коммутативным кольцом с единицей. +\end{theorem} +\begin{proof} +Необходимо проверить восемь аксиом из определения~\ref{def:ring}. +\begin{enumerate} +\item $((a,b)+(c,d))+(e,f)=(a+c,b+d)+(e,f)=((a+c)+e,(b+d)+f)$, + $(a,b)+((c,d)+(e,f))=(a,b)+(c+e,d+f)=(a+(b+c),d+(e+f))$. Полученные + выражения равны, поскольку сложение вещественных чисел ассоциативно. +\item Нейтральным элементом по сложению является пара + $(0,0)$. Действительно, $(a,b)+(0,0)=(a+0,b+0)=(a,b)$, и по + коммутативности сложения (аксиома 4) то же верно, если складывать в + другом порядке. +\item Противоположным элементом к паре $(a,b)$ является пара + $(-a,-b)$. Действительно, $(a,b)+(-a,-b)=(a+(-a),b+(-b))=(0,0)$. +\item $(a,b)+(c,d)=(a+c,b+d)=(c+a,d+b)=(c,a)+(d,b)$. +\item $((a,b)\cdot(c,d))\cdot(e,f)=(ac-bd,ad+bc)\cdot(e,f) + =((ac-bd)e-(ad+bc)f,(ac-bd)f+(ad+bc)e)$. С другой стороны, + $(a,b)\cdot((c,d)\cdot(e,f))=(a,b)\cdot(ce-df,cf+de) + =(a(ce-df)-b(cf+de),a(cf+de)+b(ce-df))$. Раскрытие скобок + показывает, что полученные выражения равны. +\item Нейтральным элементом по умножению является пара + $(1,0)$. Действительно, $(a,b)\cdot(1,0)=(a\cdot-b\cdot 0,a\cdot + 0+b\cdot 1=(a,b)$, и этого достаточно в силу коммутативности + умножения (аксиома 7). +\item $(a,b)\cdot (c,d)=(ac-bd,ad+bc)$ и $(c,d)\cdot + (a,b)=(ca-db,cb+da)$. +\item $(a,b)\cdot ((c,d)+(e,f))=(a,b)\cdot + (c+e,d+f)=(a(c+e)-b(d+f),a(d+f)-b(c+e))$. С другой стороны, + $(a,b)\cdot (c,d) + (a,b)\cdot (e,f)=(ac-bd,ad+bc)+(ae-bf,af+be) + =(ac-bd+ae-bf,ad+bc+af+be)$. Раскрытие скобок показывает, что + полученные выражения равны; и этого достаточно в силу + коммутативности умножения (аксиома 7). +\end{enumerate} +\end{proof} + +\begin{definition} +Множество таких пар вещественных чисел с определенными +в~\ref{def_complex} операциями +обозначается через $\mb C$; его элементы называются \dfn{комплексными + числами}\index{комплексное число}. +\end{definition} + +\begin{remark} +Множество вещественных чисел можно считать +подмножеством множества комплексных чисел: число $a\in\mb R$ можно +рассматривать как комплексное число $(a,0)$. При этом введенные нами +операции на парах превращаются в обычные операции над комплексными +числами: действительно, $(a,0)+(b,0)=(a+b,0)$ и $(a,0)\cdot +(b,0)=(ab,0)$; единица $(1,0)$ и нуль $(0,0)$ в множестве комплексных +чисел являются вещественными числами $1$ и $0$. Заметим также, что +$a\cdot (c,d)=(a,0)\cdot (c,d)=(ac,ad)$. +\end{remark} + +\begin{definition} +Пусть $z=(a,b)$~--- комплексное число; запишем +$z=(a,b)=(a,0)+(0,b)=a+b\cdot(0,1)$. Комплексное число $(0,1)$ +обозначается через $i$ и называется \dfn{мнимой единицей}\index{мнимая + единица}; основанием +этому служит тому, что $i^2=-1$. Запись +$z=a+bi$ называется \dfn{алгебраической формой записи комплексного + числа}\index{комплексное число!алгебраическая форма записи}, +вещественные числа $a$ и $b$~--- \dfn{вещественной + частью}\index{вещественная часть} и +\dfn{мнимой частью}\index{мнимая часть} комплексного числа $z$ +соответственно. Обозначения: $a=\Ree(z)$, $b=\Img(z)$. +\end{definition} + +\begin{remark} +Теперь мы можем забыть про интерпретацию комплексного числа как пары +вещественных чисел и считать, что комплексное число~--- это выражение +вида $a+bi$ с вещественными $a,b$. При этом введенные нами +в~\ref{def_complex} операцию переписываются в алгебраической форме +следующим образом: +\begin{align*} +(a+bi)+(c+di)&=(a+c)+(b+d)i,\\ +(a+bi)\cdot (c+di)&=(ac-bd)+(ad+bc)i. +\end{align*} +Иными словами, комплексные числа~--- это выражения вида $a+bi$, +которые складываются и перемножаются согласно обычным правилам +обращения с числами с учетом равенства $i^2=-1$. +\end{remark} + +\subsection{Комплексное сопряжение и модуль} + +\literature{[F], гл. II, \S~1, пп. 3--5, \S~2, пп. 1--4; [K1], гл. 5, \S~1, п. 3.} + +\begin{definition} +Сопоставим комплексному числу $z=a+bi$ комплексное число +$\overline{z}=a-bi$. Полученное отображение $\mb C\to\mb C$ называется +\dfn{сопряжением}\index{сопряжение}, а число $\overline{z}$~--- \dfn{сопряженным} к +числу $z$. +\end{definition} + +\begin{proposition}[Свойства сопряжения] +Для любых комплексных чисел $z,w\in\mb C$ выполняются следующие свойства: +\begin{enumerate} +\item $\overline{z+w}=\overline{z}+\overline{w}$; +\item $\overline{z\cdot w}=\overline{z}\cdot\overline{w}$; +\item $\overline{\overline{z}}=z$; +\item $z=\overline{z}$ тогда и только тогда, когда $z\in\mb R$; +\item $\overline{z}\cdot z=z\cdot\overline{z}$~--- неотрицательное + вещественное число; оно равно нулю тогда и только тогда, когда + $z=0$. +\end{enumerate} +\end{proposition} +\begin{proof} +Пусть $z=a+bi$, $w=c+di$. +\begin{enumerate} +\item $\ol{(a+bi)+(c+di)}=\ol{(a+c)+(b+d)i}=(a+c)-(b+d)i$, + $\ol{a+bi}+\ol{c+di}=(a-bi)+(c-di)=(a+c)-(b+d)i$. +\item $\ol{(a+bi)(c+di)}=\ol{(ac-bd)+(ad+bc)i}=(ac-bd)-(ad+bc)i$, + $\ol{a+bi}\cdot\ol{c+di}=(a-bi)(c-di)=(ac-bd)-(ad+bc)i$. +\item $\ol{\ol{z}}=\ol{a-bi}=a+bi$. +\item Если $z\in\mb R$, то $z=a+0i$ и $\ol{z}=a-0i=z$. Обратно, если + $a+bi=a-bi$, то $b=-b$, откуда $b=0$ и $z=a\in\mb R$. +\item $z\cdot\ol{z}=(a+bi)(a-bi)=(a^2+b^2)+(-ab+ba)i=a^2+b^2\geq 0$, и + $a^2+b^2=0$ тогда и только тогда, когда $a=b=0$, то есть, когда $z=0$. +\end{enumerate} +\end{proof} + +\begin{definition}\label{dfn:absolute_value_complex} +Поскольку $z\cdot\overline{z}$~--- неотрицательное вещественное число, +из него можно извлечь (также неотрицательный) квадратный корень. Этот +корень называется \dfn{модулем}\index{модуль} комплексного числа $z$ и +обозначается +через $|z|$; таким образом, $z\cdot\overline{z}=|z|^2$. Если +$z=a+bi$~--- алгебраическая форма записи комплексного числа, то +$|z|=\sqrt{a^2+b^2}$. +\end{definition} + +\begin{proposition} +Множество $\mb C$ комплексных чисел является полем. +\end{proposition} +\begin{proof} +После доказательства теоремы~\ref{complex_ring} остается проверить +наличие обратного по умножению у каждого ненулевого элемента. Пусть +$z\in\mb C$, $z\neq 0$. Тогда $|z|\neq 0$. Рассмотрим число +$z'=\frac{1}{|z|^2}\overline{z}$; легко видеть, что $z\cdot z'=z'\cdot +z=1$. +\end{proof} + +\begin{remark} +Таким образом, в множестве комплексных чисел можно делить на ненулевые +элементы: $z/w=zw^{-1}$. Также определена операция возведения в целую +степень: если $n>0$, то $z^n=\underbrace{z\cdot\dots\cdot z}_{n}$, +если $n<0$ (и $z\neq 0$), то $z^n=\underbrace{z^{-1}\cdot\dots\cdot z^{-1}}_{-n}$, +если же $n=0$, то $z^0=1$. Нетрудно видеть, что эта операция +удовлетворяет обычным свойствам возведения в степень, типа +$z^{m+n}=z^m\cdot z^n$ и $(zw)^n=z^nw^n$. +\end{remark} + +\begin{proposition}[Свойства модуля комплексных + чисел]\label{prop_abs_properties} +\hspace{1em} +\begin{enumerate} +\item $|z|\cdot |w|=|z\cdot w|$; +\item если $w\neq 0$, то $|z|/|w|=|z/w|$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item $|zw|=\sqrt{(zw)(\ol{zw})} +=\sqrt{z\cdot w\cdot\ol{z}\cdot\ol{w}} +=\sqrt{z\ol{z}\cdot w\ol{w}}=\sqrt{z\ol{z}}\sqrt{w\ol{w}} +=|z|\cdot|w|$. +\item Домножая на $|w|$, получаем, что нужно доказать $|z|=|z/w|\cdot + |w|$, что следует из первой части. +\end{enumerate} +\end{proof} + +\begin{remark} +Комплексные числа удобно изображать в виде точек плоскости. Рассмотрим +декартову систему координат на плоскости и сопоставим комплексному +числу $a+bi$ вектор с координатами $(a,b)$ (то есть, радиус-вектор +точки $(a,b)$). Сложение векторов (как и комплексных чисел) происходит +покоординатно, поэтому сумма векторов изображает сумму комплексных +чисел. Модуль комплексного числа в силу теоремы Пифагора равен длине +соответствующего вектора. +\end{remark} + +\begin{proposition}[Неравенство треугольника] +Для любых комплексных чисел $z_1,z_2,z_3$ выполнено неравенство +$|z_1-z_2|+|z_2-z_3|\geq |z_3-z_1|$. +\end{proposition} +\begin{proof} +Обозначим $z=z_1-z_2$, $w=z_2-z_3$; нужно доказать, что $|z|+|w|\geq +|z+w|$. Заметим, что если $z+w=0$, неравенство очевидно. +Запишем $1=\frac{z}{z+w}+\frac{w}{z+w}$. Согласно правилу сложения +комплексных чисел, +$\Ree{1}=\Ree(\frac{z}{z+w})+\Ree(\frac{w}{z+w})$. Заметим, что +$\Ree(z)\leq |z|$ для любого комплексного числа $z$, поэтому +$\Ree{1}\leq |\frac{z}{z+w}|+|\frac{w}{z+w}|$. Домножая на +знаменатель, получаем необходимое неравенство. +\end{proof} + +% 29.10.2014 + +\subsection{Тригонометрическая форма записи комплексного числа} + +\literature{[F], гл. II, \S~2, пп. 1--6; [K1], гл. 5, \S~1, п. 4.} + +\begin{definition}\label{dfn:trigonometric_form} +Пусть $z=a+bi\in\mb C$~--- ненулевое комплексное число. Обозначим +через $r=\sqrt{a^2+b^2}$ модуль числа $z$. Вещественные +числа $a/r$ и +$b/r$ таковы, что сумма их квадратов равна $1$. Поэтому +найдется такой угол $\ph$, что $a/r=\cos(\ph)$, +$b/r=\sin(\ph)$. Такой угол $\ph$ называется +\dfn{аргументом}\index{аргумент} +комплексного числа $z$. Заметим, что при этом +$$ +z=|z|\cdot z/|z|=|z|(\frac{a}{r}+\frac{b}{r}i)=|z|(\cos(\ph)+i\sin(\ph)). +$$ +Выражение $z=r(\cos(\ph)+i\sin(\ph))$ называется +\dfn{тригонометрической формой записи комплексного + числа}\index{комплексное число!тригонометрическая + форма}. Обозначение: $\ph=\arg(z)$. Как обычно, +можно считать, что аргумент (как и любой угол) записывается +вещественным числом с точностью до $2\pi k$, $k\in\mb Z$. Если выбрать +представитель в полуинтервале $[0,2\pi)$, получим то, что называется +\dfn{главным значением аргумента}\index{аргумент!главное значение}, оно обозначается через $\Arg(z)$ +Обратно, по +модулю $r$ и аргументу $\ph$ комплексное число $z$ однозначно +восстанавливается: $z=a+bi$, $a=r\cos(\ph)$, $b=r\sin(\ph)$. +\end{definition} + +{\small +Обратите внимание на необходимость осторожного обращения с понятием +угол. Аргумент комплексного числа $z$, вообще говоря, является не +вещественным числом, а углом (позднее мы придадим этому точный смысл: +$\arg(z)$~--- элемент {\it группы углов}, +см.~пример~\ref{examples:group}(\ref{item:group_of_angles})). Этот угол можно +записать вещественным числом, но не однозначным образом: некоторые +вещественные числа записывают одинаковые углы. Например, числа $0$, +$2\pi$, $-2\pi$, $4\pi$, $-4\pi$,\dots ~--- это разные формы записи +одного и того же угла. При этом два вещественных числа $\alpha$ и +$\beta$ записывают один и тот же угол если и только если они +отличаются на целое кратное $2\pi$: $\alpha-\beta = 2\pi k$ для +некоторого $k\in\mb Z$. Это похоже на делимость целых чисел: $\alpha$ +и $\beta$ задают один угол, если их разность <<делится>> на +$2\pi$. Это наводит на мысль, что углы~--- это классы эквивалентности +по описанному отношению <<сравнимости по модулю $2\pi$>>. +} + +\begin{proposition}[Единственность тригонометрической формы записи]\label{prop_trig_unique} +Пусть $r,r'$~--- положительные вещественные числа, $\ph,\ph'$~--- +углы, $z=r(\cos(\ph)+i\sin(\ph))$, $z'=r'(\cos(\ph')+i\sin(\ph'))$ +Равенство комплексных чисел +$z=z'$ выполнено тогда и +только тогда, когда $r=r'$ и $\ph=\ph'$. +\end{proposition} +\begin{proof} +Модуль комплексного числа $z$ равен +\begin{align*} +\sqrt{(r\cos(\ph))^2+(r\sin(\ph))^2}&=\sqrt{(r^2((\cos(\ph))^2+(\sin(\ph))^2))}\\ +&=r; +\end{align*} +аналогично, модуль комплексного числа $z'$ равен $r'$. Если $z=z'$, то +$r=r'$, откуда $z/r=z'/r'$. Значит, +$\cos(\ph)+i\sin(\ph)=\cos(\ph')+i\sin(\ph')$, откуда +$\cos(\ph)=\cos(\ph')$ и $\sin(\ph)=\sin(\ph')$. Но если у двух углов +совпадают синусы и совпадают косинусы, то они равны. Поэтому и +$\ph=\ph'$. +Обратно, если $r=r'$ и $\ph=\ph'$, то очевидно, что $z=z'$. +\end{proof} + +\begin{remark} +Таким образом, $z$ можно задавать не парой вещественных чисел, а парой +$(|z|,\arg(z))$, состоящей из положительного вещественного числа и +угла. Единственное исключение~--- случай $z=0$: у нуля модуль равен +нулю, а аргумент вообще не определен. Чем полезно такое задание? В +алгебраической форме записи комплексные числа легко складывать: +вещественные части складываются и мнимые части +складываются. Оказывается, в тригонометрической форме записи +комплексные числа легко перемножать. +\end{remark} + +\begin{theorem}\label{thm_complex_mult} +При перемножении комплексных чисел их модули перемножаются, а +аргументы складываются. Иными словами, если $z,w\in\mb C^*$, то +$|zw|=|z|\cdot |w|$ и $\arg(zw)=\arg(z)+\arg(w)$. +\end{theorem} +\begin{proof} +Первое утверждение было доказано в +предложении~\ref{prop_abs_properties}. Обозначим $\ph=\arg(z)$, +$\psi=\arg(w)$. Заметим, что +\begin{align*} +zw&=|z|(\cos(\ph)+i\sin(\ph))|w|(\cos(\psi)+i\sin(\psi))\\ +&=|z|\cdot |w|(\cos(\ph)\cos(\psi)-\sin(\ph)\sin(\psi)+i(\cos(\ph)\sin(\psi)+\sin(\ph)\cos(\ph)))\\ +&=|z|\cdot |w|(\cos(\ph+\psi)+i\sin(\ph+\psi)). +\end{align*} +С другой стороны, $zw=|zw|\cdot (\cos(\arg(zw))+i\sin(\arg(zw)))$. +По предложению~\ref{prop_trig_unique} из этого следует, что +$|zw|=|z|\cdot |w|$ (что мы знали и раньше) и +$\arg(zw)=\ph+\psi=\arg(z)+\arg(w)$, что и требовалось. +\end{proof} + +\begin{corollary}\label{cor_complex_inverse} +Для любого ненулевого комплексного числа $z=r(\cos(\ph)+i\sin(\ph))$ имеем +$z^{-1}=r^{-1}(\cos(-\ph)+i\sin(-\ph))$. +\end{corollary} + +\begin{corollary} +При делении комплексных чисел их модули делятся, а аргументы вычитаются. +\end{corollary} + +\begin{corollary}[Формула де Муавра]\label{thm_de_moivre} +Для любого ненулевого комплексного числа $z=r(\cos(\ph)+i\sin(\ph))$ +и любого целого $n$ имеет место равенство $z^n=r^n(\cos(n\ph)+i\sin(n\ph))$. +\end{corollary} +\begin{proof} +Для $n=0$ равенство очевидно; для $n>0$ следует из +теоремы~\ref{thm_complex_mult} по индукции, а случай отрицательного +$n$ сводится к случаю положительного при помощи равенства +$z^n=(z^{-1})^{-n}$ и следствия~\ref{cor_complex_inverse}. +\end{proof} + +\subsection{Корни из комплексных чисел} + +\literature{[F], гл. II, \S~3, пп. 1--2; [K1], гл. 5, \S~1, п. 4.} + +Пусть $n$~--- положительное натуральное число, $w\in\mb C$. Посмотрим +на решения уравнения $z^n=w$. Во-первых, заметим, что если $w=0$, то +и $z=0$ (иначе из равенства $z^n=0$ делением на $z^n$ получаем +$1=0$). Пусть теперь $w\neq 0$. Запишем $w$ и $z$ в тригонометрической +форме: $w=r(\cos(\ph)+i\sin(\ph))$, +$z=|z|\cdot(\cos(\arg(z))+i\sin(\arg(z)))$. +По формуле де Муавра (\ref{thm_de_moivre}) +$z^n=|z|^n\cdot(\cos(n\arg(z))+i\sin(n\arg(z)))$. Приравнивая $z^n$ к +$w$ и пользуясь единственностью тригонометрической записи +(\ref{prop_trig_unique}), получаем, что $|z|^n=r$ и +$n\arg(z)=\ph$. Отсюда следует, что $|z|=r^{1/n}$. Кроме того, +равенство углов $n\arg(z)=\ph$ означает равенство $n\psi=\ph+2\pi k$, +где $\psi$~--- некоторый числовой представитель угла $\arg(z)$, а +$k$~--- целое число. +Значит, $\psi=(\ph+2\pi k)/n$. + +\begin{theorem}\label{thm_roots_of_complex_number} +Пусть $w=r(\cos(\ph)+i\sin(\ph))\in\mb C^*$, $n$~--- положительное натуральное +число. Существует ровно $n$ комплексных чисел $z$ таких, что $z^n=w$; +можно записать их так: +$$ +z=r^{1/n}\left(\cos\left(\frac{\ph+2\pi k}{n}\right) + + i\sin\left(\frac{\ph+2\pi k}{n}\right)\right), +$$ +где $k=0,1,\dots,n-1$. +\end{theorem} +\begin{proof} +Выше мы проверили, что решения уравнения $z^n=w$ имеют вид +$$ +z_k=r^{1/n}\left(\cos\left(\frac{\ph+2\pi k}{n}\right) + + i\sin\left(\frac{\ph+2\pi k}{n}\right)\right). +$$ +Осталось разобраться с их количеством и устранить неоднозначность: +дело в том, что при различных целых $k$ эта формула часто дает +одинаковые значения $z$. А именно, $z_k=z_l$ тогда и только тогда, +когда углы $(\ph+2\pi k)/n$ и $(\ph+2\pi l)/n$ совпадают. А это +происходит тогда, когда их числовые значения отличаются на целое +кратное $2\pi$: $(\ph+2\pi k)/n=(\ph+2\pi l)/n+2\pi t$, откуда +$\ph+2\pi k=\ph+2\pi l+2\pi tn$ и $k-l=tn$, то есть, $k\equiv +l\pmod{n}$. Значит различных значений $z$ столько же, сколько классов +вычетов по модулю $n$, и можно выбрать $z_k$, соответствующие +различным представителям $k$ этих классов вычетов +(см.~\ref{rem_cong_representatives}), например, $k=0,1,\dots,n-1$. +\end{proof} + +\subsection{Корни из единицы} + +\literature{[F], гл. II, \S~4, пп. 1--4.} + +Пусть $n$~--- положительное натуральное число. Посмотрим на решения +уравнения $z^n=1$ в комплексных числах. + +\begin{definition} +Пусть $n\in\mb N$, $n\geq 1$. Комплексное число $z\in\mb C$ называется +\dfn{корнем $n$-ой степени из $1$}\index{корень!степени $n$}, если $z^n=1$. Множество всех корней +степени $n$ из $1$ обозначается через $\mu_n$. +\end{definition} + +\begin{proposition}[Свойства корней $n$-ой степени из 1] +Для каждого натурального $n\geq 1$ существуют ровно $n$ корней степени $n$ +из $1$; это числа +$\eps_0^{(n)},\eps_1^{(n)},\dots,\eps_{n-1}^{(n)}$, где +$$ +\eps_k^{(n)}=\cos(\frac{2\pi k}{n})+i\sin(\frac{2\pi k}{n}). +$$ +При этом произведение двух корней степени $n$ из $1$ является корнем +степени $n$ из $1$; обратный к корню степени $n$ из $1$ является +корнем степени $n$ из $1$. +\end{proposition} +\begin{proof} +Формула для $\eps_k^{(n)}$ немедленно следует из +теоремы~\ref{thm_roots_of_complex_number} (с учетом того, что $|1|=1$ +и $\arg(1)=0$. +Если $z,w\in\mu_n$, то $z^n=1$, +$w^n=1$, откуда $(zw)^n=z^n\cdot w^n=1$, поэтому и $zw\in\mu_n$. Кроме +того, $(z^{-1})^n=(z^n)^{-1}=1$, поэтому и $z^{-1}\in\mu_n$. +\end{proof} + +\begin{remark}[Геометрическая интерпретация корней из единицы]\label{rem:roots_of_unity_geometry} +Из формулы для $\eps_k^{(n)}$ видно, что модули всех корней степени +$n$ из $1$ равны единице, а аргументы равны +$0,2\pi/n,4\pi/n,\dots,2(n-1)\pi/n$, то есть, образуют арифметическую +прогрессию с разностью $2\pi/n$. Значит, на комплексной плоскости +точки $\eps_k^{(n)}$ лежат на окружности с центром в $0$ и радиусом 1, +и углы $\angle AOB$ для двух соседних точек $A$, $B$, равны +$2\pi/n$. Из этого следует, что точки $\eps_k^{(n)}$ лежат в вершинах +правильного $n$-угольника с центром в $0$. Кроме того, так как +$\eps_0^{(n)}=1$, число $1$ является одной из вершин этого $n$-угольника. +\end{remark} + +\begin{remark} +Вернемся к уравнению $z^n=w$ для комплексного числа $w\neq 0$. Пусть +$z_0$~--- некоторое решение этого уравнения; тогда $z_0^n=w$ и, +разделив первоначальное уравнение на это равенство, получаем +$z^n/z_0^n=w/w=1$, откуда $(z/z_0)^n=1$, то есть, $z/z_0$ является +корнем степени $n$ из $1$. Поэтому $z/z_0=\eps_k^{(n)}$ для некоторого +$k$, и $z=z_0\eps_k^{(n)}$. Таким образом, любое решение уравнения +$z^n=w$ отличается от некоторого фиксированного решения $z_0$ +домножением на корень степени $n$ из $1$. +\end{remark} + +\begin{definition} +Корень $n$-ой степени из $1$ называется +\dfn{первообразным}\index{корень!первообразный}, если он +не является корнем из $1$ никакой меньшей, чем $n$, степени. Иными +словами, $z$ называется первообразным корнем степени $n$ из $1$, если +$z^n=1$ и $z^m\neq 1$ при $0m$; тогда $\eps^k/\eps^m=\eps^{k-m}=1$. Из +определения первообразного корня следует, что $k=m$. +\end{proof} + +% 05.11.2014 + +\begin{proposition}\label{prop_primitive_root_criteria} +Пусть $n\geq 1$~--- натуральное число, $0\geq k\geq n-1$. +Корень $\eps_k^{(n)}$ степени $n$ из $1$ является первообразным тогда +и только тогда, когда $\gcd(k,n)=1$. +\end{proposition} +\begin{proof} +Обозначим $\eps=\eps_1^{(n)}$. Нетрудно видеть, что $\eps_k^{(n)}=\eps^k$. +Если $\gcd(k,n)=d>1$, то +$(\eps_k^{(n)})^{n/d}=(\eps^k)^{n/d}=\eps^{kn/d}=(\eps^n)^{k/d}=1^{k/d}=1$ +(здесь важно, что $k/d$~--- целое число). Это значит, что +$\eps_k^{(n)}$ является корнем степени $n/d$ из $1$, и, поскольку $n/d> и <<угла>>; наоборот, чуть позже мы +{\it определим} слова <<длина>> и <<угол>> в терминах билинейных форм. + +\begin{example}\label{example:standard_bilinear_form} +Пусть $k$~--- произвольное поле, $V=k^n$~--- пространство столбцов +высоты $n$ над $k$. Определим форму $B\colon V\times V\to k$ формулой +$B(u,v) = u_1v_1 + \dots + u_nv_n$. Иными словами, $B(u,v) = u^Tv$. +Нетрудно видеть, что эта форма билинейна +\begin{align*} +&B(u_1+u_2,v) = (u_1+u_2)^Tv = u_1^Tv + u_2^Tv = B(u_1,v) + B(u_2,v)\\ +&B(u\lambda,v)=(u\lambda)^Tv=\lambda(u^Tv)=\lambda B(u,v)\\ +&B(u,v_1+v_2) = u^T(v_1+v_2) = u^Tv_1 + u^Tv_2 = B(u,v_1) + B(u,v_2)\\ +&B(u,v\lambda)=u^T(v\lambda)=\lambda(u^Tv)=\lambda B(u,v) +\end{align*} +и симметрична +$$ +B(u,v) = B(u,v)^T = (u^Tv)^T = v^Tu = B(v,u). +$$ +\end{example} + +Возьмем теперь в предыдущем примере в качестве $k$ поле вещественных +чисел $\mb R$. Заметим, что скалярное произведение вектора на себя +является неотрицательным числом: $B(u,u) = u_1^2 + \dots + u_n^2\geq +0$; более того, $B(u,u) = 0$ только для $u=0$. + +\begin{definition} +Пусть $V$~--- векторное пространство над $\mb R$. Билинейная форма +$B\colon V\times V\to\mb R$ называется \dfn{неотрицательно + определенной}\index{форма!неотрицательно определенная}, если +$B(u,u)\geq 0$ для всех $u\in V$. Форма $B$ +называется \dfn{положительно + определенной}\index{форма!положительно определенная}, если она +неотрицательно определена и из $B(u,u)=0$ следует, что $u=0$. +\end{definition} + +\begin{definition} +Векторное пространство $V$ над полем $\mb R$ вместе с положительно +определенной симметрической билинейной формой $B\colon V\times V\to\mb +R$ называется \dfn{эвклидовым + пространством}\index{пространство!эвклидово}, а форма $B$ называется +\dfn{эвклидовым скалярным произведением} на $V$. +\end{definition} + +\begin{remark}\label{rem:euclidean_subspace} +Любое подпространство $W\leq V$ эвклидова пространства $(V,B)$ само +является эвклидовым пространством относительно скалярного произведения +$B|_{W\times W}\colon W\times W\to\mb R$, которое мы часто будем +обозначать той же буквой $B$. Действительно, нетрудно проверить, что +$B|_{W\times W}$~--- симметрическая билинейная форма, и положительная +определенность формы $B|_{W\times W}$ сразу следует из положительной +определенности формы $B$. +\end{remark} + +\subsection{Унитарные пространства} + +\literature{[F], гл. XIII, \S~1, пп. 1, 3, [K2], гл. 3, \S~2, п. 2; + [KM], ч. 2, \S~2, пп. 1--3; \S~6, п. 1.} + +В связи с возникновением квантовой механики в первой половине XX века +большое практическое значение стало придаваться векторным +пространствам над полем комплексных чисел $\mb C$. +Что будет аналогом положительно определенных билинейных форм в этом +случае? Заметим, что прямой перенос определения на комплексный случай +не работает: если $V$~--- векторное пространство над полем $\mb C$ и +$B\colon V\times V\to\mb C$~--- билинейная форма, то +$B(iv,iv) = -B(v,v)$ для всех $v\in V$. + +\begin{definition} +Отображение $B\colon V\times V\to\mb C$ называется +\dfn{полуторалинейной формой}\index{форма!полуторалинейная}, если оно +{\it линейно} по второму аргументу и +{\it полулинейно} по первому аргументу: +\begin{align*} +&B(u,v_1+v_2) = B(u,v_1) + B(u,v_2)\\ +&B(u,v\lambda) = B(u,v)\lambda\\ +&B(u_1+u_2,v) = B(u_1,v) + B(u_2,v)\\ +&B(u\lambda,v) = \ol\lambda B(u,v) +\end{align*} +для всех $u,v,u_1,u_2,v_1,v_2\in V$ и всех $\lambda\in\mb C$. +\end{definition} + +Аналог условия симметричности формы также должен отличаться от +билинейного случая, поскольку теперь $B(u,v\lambda)=\lambda B(u,v)$, +но $B(v\lambda,u) = \ol\lambda B(v,u)$. + +\begin{definition} +Полуторалинейная форма $B\colon V\times V\to\mb C$ называется +\dfn{эрмитовой}\index{форма!эрмитова}, если для всех $u,v\in V$ +выполнено $B(u,v) = \overline{B(v,u)}$. +\end{definition} + +\begin{remark}\label{rem:hermitian_square_is_real} +Заметим, что если $B$~--- эрмитова форма на $V$, то $B(u,u) = +\ol{B(u,u)}$ для всех $u\in V$, поэтому $B(u,u)$~--- вещественное число. +\end{remark} + +\begin{example}\label{example:standard_sesquilinear_form} +Пусть $V=\mb C^n$~--- пространство столбцов +высоты $n$ над $k$. Определим форму $B\colon V\times V\to\mb C$ +формулой $B(u,v) = \ol{u_1}v_1 + \dots + \ol{u_n}v_n$. Иными словами, +$B(u,v) = \ol{u}^Tv$. +Нетрудно видеть, что эта форма полуторалинейная +\begin{align*} +&B(u,v_1+v_2) = u^T(v_1+v_2) = \ol{u}^Tv_1 + \ol{u}^Tv_2 = B(u,v_1) + +B(u,v_2)\\ +&B(u,v\lambda)=\ol{u}^T(v\lambda)=\lambda(\ol{u}^Tv)=\lambda B(u,v)\\ +&B(u_1+u_2,v) = \ol{(u_1+u_2)}^Tv = \ol{u_1}^tv + \ol{u_2}^Tv = B(u_1,v) ++ B(u_2,v)\\ +&B(u\lambda,v)=\ol{(u\lambda)}^Tv=\ol\lambda(\ol{u}^Tv)=\ol\lambda B(u,v)\\ +\end{align*} +и эрмитова +$$ +\ol{B(u,v)} = \ol{B(u,v)}^T = \ol{(\ol{u}^Tv)}^T = \ol{v^T\ol{u}} = +\ol{v}^Tu = B(v,u). +$$ +Заметим, что $B(u,u) = \ol{u_1}u_1 + \dots + \ol{u_n}u_n += |u_1|^2 + \dots + |u_n|^2 \geq 0$; более того, $B(u,u) = 0$ только +для $u=0$. +\end{example} + +\begin{definition} +Пусть $V$~--- векторное пространство над $\mb C$. Эрмитова +форма $B\colon V\times V\to\mb C$ называется \dfn{неотрицательно + определенной}\index{форма!неотрицательно определенная}, если +$B(u,u)\geq 0$ для всех $u\in V$. Форма $B$ +называется \dfn{положительно + определенной}\index{форма!положительно определенная}, если она +неотрицательно определена и из $B(u,u)=0$ следует, что $u=0$. +\end{definition} + +\begin{definition} +Векторное пространство $V$ над полем $\mb C$ вместе с положительно +определенной эрмитовой формой $B\colon V\times V\to\mb +C$ называется \dfn{унитарным + пространством}\index{пространство!унитарное}, а форма $B$ называется +\dfn{эрмитовым скалярным произведением} на $V$. +\end{definition} + +\begin{remark} +Как и в эвклидовом случае +(см. замечание~\ref{rem:euclidean_subspace}), любое подпространство +$W\leq V$ унитарного +пространства $(V,B)$ само +является унитарным пространством относительно скалярного произведения +$B|_{W\times W}\colon W\times W\to\mb C$, которое мы часто будем +обозначать той же буквой $B$. +\end{remark} + +В дальнейшем мы будем параллельно развивать теорию эвклидовых и +унитарных пространств; мы будем обозначать через $k$ поле $\mb R$ или +$\mb C$. Заметим, что и для эвклидовых, и для унитарных пространств +выполнены тождества $B(u,v\lambda) = B(u,v)\lambda$ и $B(u\lambda,v) = +\ol\lambda B(u,v)$; отличие лишь в том, что для эвклидовых пространств +константа $\lambda$ является вещественной, поэтому $\ol\lambda = +\lambda$. Кроме того, условия симметричности и эрмитовости также можно +записать в единообразном виде: $B(u,v) = \ol{B(v,u)}$. + + +\subsection{Норма} + +\literature{[F], гл. XII, \S~1, пп. 1--3, [K2], гл. 3, \S~1, п. 2; + \S~2, п. 2; [KM], ч. 2, \S~2, п. 4; \S~5, пп. 2--5; \S~6, пп. 4--7.} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, $v\in +V$. Будем называть число +$||v|| = \sqrt{B(v,v)}$ \dfn{длиной}\index{длина вектора} $v$. +\end{definition} + +\begin{lemma}\label{lem:triangle_inequality} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, $u,v,\in V$. Тогда +\begin{enumerate} +\item ({\it Однородность нормы}). $||\lambda v|| = |\lambda|\cdot + ||v||$ для любого $\lambda\in k$. +\item ({\it Теорема Пифагора}). Если $B(u,v)=0$, то $||u+v||^2 = ||u||^2 + + ||v||^2$. +\item ({\it Неравенство Коши--Буняковского--Шварца}). +$|B(u,v)|\leq ||u||\cdot ||v||$, причем равенство достигается тогда и +только тогда, когда векторы $u$ и $v$ пропорциональны. +\item ({\it Неравенство треугольника}). $||u||+||v||\geq ||u+v||$; +\end{enumerate} +\end{lemma} +\begin{proof} +Заметим, что для $v=0$ все утверждения леммы очевидны. Поэтому далее +мы будем считать, что $v\neq 0$. + +Однородность нормы следует из полуторалинейности: +$$ +||\lambda v||^2 = B(\lambda v,\lambda v) = +\lambda\ol{\lambda}B(v,v) = |\lambda|^2\cdot ||v||^2. +$$ + +Заметим, что $||u+v||^2 = B(u+v,u+v) = B(u,u) + B(u,v) + +\ol{B(u,v)} + B(v,v)$, и при $B(u,v)=0$ получаем в точности теорему +Пифагора. + +Для доказательства неравенства Коши--Буняковского--Шварца положим +$$ +w = u - \frac{B(u,v)}{B(v,v)}v +$$ +и заметим, что $$B(w,v) = B(u-\frac{B(u,v)}{B(v,v)}v,v) + = B(u,v) - \frac{B(u,v)}{B(v,v)}B(v,v) = 0.$$ +Это означает, что векторы $v$ и $w$ ортогональны. Поэтому и вектор +$\frac{B(u,v)}{B(v,v)}v$ ортогонален вектору $w$. Применим к этой паре +векторов теорему Пифагора: +$$ +||u||^2 = ||w||^2 + ||\frac{B(u,v)}{B(v,v)}v||^2 = ||w||^2 + +\frac{|B(u,v)|^2}{||v||^2} \geq \frac{|B(u,v)|^2}{||v||^2}, +$$ +откуда $|B(u,v)|\leq ||u||\cdot ||v||$. +Если достигается равенство, то $||w||=0$, откуда $w=0$ и $u$ +пропорционально $v$; обратно, если $u$ пропорционально $v$, то +в неравенстве Коши--Буняковского--Шварца имеет место равенство. + +Посмотрим на выражение для $B(u+v,u+v)$: +\begin{align*} +||u+v||^2 &= B(u+v,u+v)\\ +&= B(u,u) + B(u,v) + \ol{B(u,v)}+ B(v,v)\\ +&= ||u||^2 + 2\Ree(B(u,v)) + ||v||^2 \leq ||u||^2 + 2|B(u,v)| + ||v||^2\\ +&\leq ||u||^2 +2||u||\cdot ||v|| + ||v||^2\\ +&= (||u||+||v||)^2. +\end{align*} +Извлекая корень из обеих частей, получаем неравенство треугольника. +\end{proof} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово пространство. +Лемма~\ref{lem:triangle_inequality} показывает, что для ненулевых +векторов $u,v\in V$ выражение $\frac{B(u,v)}{||u||\cdot ||v||}$ лежит +на отрезке $[-1,1]$ и потому является косинусом некоторого однозначно +определенного угла $\ph\in [0,\pi]$. Этот угол называется \dfn{углом + между векторами}\index{угол между векторами} $u$ и $v$. Обозначение: +$\ph = \angle(u,v)$. Обратите внимание, что это определение не +работает для унитарного пространства: $B(u,v)$ может оказаться +комплексным. Однако, имеет смысл рассматривать выражение +$\frac{|B(u,v)|}{||u||\cdot ||v||}$; оно лежит на отрезке $[0,1]$ и +потому является косинусом некоторого однозначно определенного угла +$\ph\in[0,\frac{\pi}{2}]$. +\end{definition} + +\begin{remark} +Заметим, что угол $\angle(u,v)$ равен $\pi/2$ тогда и только тогда, +когда $B(u,v)=0$, то есть, когда векторы $u$ и $v$ ортогональны в смысле +определения~\ref{def:bilinear_form}. +\end{remark} + + +\subsection{Матрица Грама} + +\literature{[F], гл. XIII, \S~1, п. 4; [KM], ч. 2, \S~2, пп. 2--3; + [KM], ч. 2, \S~3, п. 8.} + +Пусть $(V,B)$~--- конечномерное пространство над полем $k$ с формой, +билинейной в +случае $k=\mb R$ и полуторалинейной в случае $k=\mb C$. Пусть +$\mc E = (e_1,\dots,e_n)$~--- базис $V$. +Запишем векторы $u,v\in V$ в этом базисе: +$u = e_1u_1 + \dots + e_nu_n$, +$v = e_1v_1 + \dots + e_nv_n$. +Подставим эти выражения в $B(u,v)$: +$$ +B(u,v) = B(e_1u_1+\dots+e_nu_n, e_1v_1+\dots+e_nv_n) += \sum_{i,j=1}^n B(e_iu_i,e_jv_j) += \sum_{i,j=1}^n \ol{u_i}v_j B(e_i,e_j). +$$ +Это означает, что форма $B$ полностью определяется своими значениями +на базисных векторах. +Полученное выражение можно записать в матричной форме: +$$ +B(u,v) = \ol{[u]}^T (B(e_i,e_j))_{i,j=1}^n [v], +$$ +где через $[u],[v]$ мы обозначаем столбцы координат векторов $u,v$ в +базисе $\mc E$. +Матрица, составленная из скалярных произведений $B(e_i,e_j)$ базисных +векторов, называется +\dfn{матрицей Грама} формы $B$ в базисе $\mc E$. +Обозначим ее через $G$. +Мы получили, что +$B(u,v) = \ol{[u]}^T G [v]$ для всех $u,v\in V$. + +Пока мы использовали только билинейность/полуторалинейность формы +$B$. Если форма $B$ симметрична/эрмитова, то +$\ol{B(v,u)} = \ol{B(v,u)}^T = \ol{(\ol{[v]}^T G [u])^T} += \ol{[u]^T G^T \ol{[v]}} = \ol{[u]}^T \ol{G}^T [v]$. Сравним это с +выражением $B(u,v) = \ol{[u]}^T G [v]$: +$$ +\ol{[u]}^T \ol{G}^T [v] = \ol{[u]}^T G [v]\quad\text{ для всех $u,v\in V$}. +$$ +Подставляя в качестве $u,v$ базисные векторы $e_1,\dots,e_n$, +получаем, что матрицы $\ol{G}^T$ и $G$ совпадают: +$$ +\ol{G}^T = G. +$$ +Для случая эвклидова пространства, конечно, это равенство означает, +что $G^T = G$. + +\begin{definition} +Матрица $A$ над произвольным полем называется \dfn{симметрической}\index{матрица!симметрическая}, +если $A^T = A$. Матрица $A$ над полем комплексных чисел называется +\dfn{эрмитовой}\index{матрица!эрмитова}, если $\ol{A}^T = A$. +\end{definition} + +Таким образом, мы показали, что матрица Грама симметрической +билинейной формы является симметрической, а матрица Грама эрмитовой +билинейной формы является эрмитовой. + +Обратно, по любой симметрической матрице над $\mb R$ можно построить +симметрическую билинейную форму, а по любой эрмитовой матрице над $\mb +C$~--- эрмитову полуторалинейную форму. Действительно, мы можем +обобщить примеры~\ref{example:standard_bilinear_form} +и~\ref{example:standard_sesquilinear_form}. +Пусть $G\in M(n,k)$~--- симметрическая или эрмитова матрица. На +пространстве столбцов $V=k^n$ высоты $n$ определим форму +$B\colon V\times V\to k$ равенством +$$ +B(u,v) = \ol{u}^TGv. +$$ +Нетрудно проверить, что эта форма билинейна в случае $k=\mb R$ и +полуторалинейна в случае $k=\mb C$: +\begin{align*} +&B(u,v_1+v_2) = \ol{u}^T G(v_1+v_2) = \ol{u}^TGv_1 + \ol{u}^TGv_2 = +B(u,v_1) + B(u,v_2)\\ +&B(u,v\lambda) = \ol{u}^T G(v\lambda) = (\ol{u}^TGv)\lambda = B(u,v)\lambda\\ +&B(u_1+u_2,v) = \ol{u_1+u_2}^T Gv = \ol{u_1}^TGv + \ol{u_2}^TGv = +B(u_1,v) + B(u_2,v)\\ +&B(u\lambda,v) = \ol{u\lambda}^T Gv = \ol\lambda(\ol{u}^TGv) = +\ol\lambda B(u,v) +\end{align*} +Кроме того, для симметрической матрицы $G$ имеем +$$ +B(v,u) = B(v,u)^T = (v^T G u)^T = u^TG^Tv = u^TGv = B(u,v), +$$ +а для эрмитовой~--- +$$ +\ol{B(v,u)} = \ol{B(v,u)}^T = (\ol{\ol{v}^TGu})^T = \ol{u}^T\ol{G}^Tv += \ol{u}^T G v = B(u,v). +$$ +Поэтому форма $B$ является симметрической или эрмитовой +соответственно. По определению исходная матрица $G$ является матрицей +Грама полученной формы $B$ в стандартном базисе пространства столбцов. + +Естественно поставить вопрос: как меняется матрица Грама при замене +базиса в пространстве $V$? +Напомним, что если $\mc E=\{e_1,\dots,e_n\}$ и $\mc F= +\{f_1,\dots,f_n\}$~--- два базиса в пространстве $V$, то {\it + матрица перехода} $(\mc E\rsa\mc F)$ от базиса $\mc E$ к базису +$\mc F$ устроена так: +в столбце с номером $j$ стоят координаты вектора $f_j$ в базисе $\mc E$ +(см. определение~\ref{def:change_of_basis_matrix}). + +\begin{theorem}[Преобразование матрицы Грама при замене базиса]\label{thm:Gram_matrix_change_of_coordinates} +Пусть $\mc E, \mc F$~--- два базиса конечномерного пространства $V$ +над полем $k$, $C = (\mc E\rsa\mc F)$~--- матрица перехода от $\mc E$ +к $\mc F$, $B\colon V\times V\to k$~--- билинейная или +полуторалинейная форма на $V$. Пусть $G_{\mc E}$ и $G_{\mc F}$~--- +матрицы Грама формы $B$ в базисах +$\mc E$ и $\mc F$ соответственно. Тогда +$$ +G_{\mc F} = \ol{C}^T G_{\mc E}C. +$$ +\end{theorem} + +\begin{proof} +Пусть $u,v\in V$. По теореме~\ref{thm:change_of_coordinates} +координаты векторов в базисах $\mc E$, $\mc F$ связаны следующим +образом: +$[v]_{\mc E} = C\cdot [v]_{\mc F}$, +$[u]_{\mc E} = C\cdot [u]_{\mc F}$. +Поэтому +$$ +B(u,v) = \ol{[u]_{\mc E}}^T G_{\mc E}[v]_{\mc E} = +\ol{C\cdot[u]_{\mc F}}^T G_{\mc E}C\cdot [v]_{\mc F} = +\ol{[u]_{\mc F}}^T\ol{C}^T G_{\mc E}C\cdot [v]_{\mc F} +$$ +С другой стороны, +$$ +B(u,v) = \ol{[u]_{\mc F}}^T G_{\mc F}[v]_{\mc F}. +$$ +Получаем, что $\ol{[u]_{\mc F}}^T\ol{C}^T G_{\mc E}C\cdot [v]_{\mc F} += \ol{[u]_{\mc F}}^T G_{\mc F}[v]_{\mc F}$ для всех $u,v\in +V$. Подставляя в качестве $u,v$ всевозможные пары векторов базиса $\mc +F$, получаем необходимое равенство матриц. +\end{proof} + +Отметим, что матрица Грама скалярного +произведения обратима. + +\begin{proposition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. Тогда матрица +Грама формы $B$ в любом базисе является обратимой. +\end{proposition} +\begin{proof} +Выберем произвольный базис $\mc E$ пространства $V$ и запишем матрицу +Грама $G=G_{\mc E}\in M(n,k)$ скалярного произведения $B$ в этом +базисе. Если она необратима, то (по теореме +Кронекера--Капелли~\ref{thm_kronecker_kapelli_2}) уравнение +$GX=0$ имеет ненулевое решение: найдется столбец +$X_0\in k^n\setminus\{0\}$, для которого +$GX_0=0$. Такой столбец является столбцом координат некоторого +ненулевого вектора $v_0\in V$. Но тогда +$B(v_0,v_0) = \ol{[v_0]_{\mc E}}^T\cdot G\cdot [v_0]_{\mc E} = +\ol{X_0}^TGX_0 = 0$, что противоречит положительной определенности +формы $B$. +\end{proof} + +\subsection{Процесс ортогонализации Грама--Шмидта} + +\literature{[F], гл. XIII, \S~1, пп. 5, 6; \S~2, п. 1; [K2], гл. 3, + \S~1, п. 3; \S~2, п. 3; [KM], ч. 2, \S~3, п. 6; \S~4, пп. 2--4.} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. +Базис $(e_1,\dots,e_n)$ пространства $V$ называется +\dfn{ортогональным}\index{базис!ортогональный}, если все его векторы +попарно ортогональны: +$e_i\perp e_j$ при $i\neq j$. Этот базис называется +\dfn{ортонормированным}\index{базис!ортонормированный}, если он +ортогонален и длина каждого вектора равна единице: $||e_i||=1$ для +всех $i$. +\end{definition} + +\begin{lemma}\label{lem:orthogonality_implies_independency} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. Если ненулевые +векторы $e_1,\dots,e_n\in V$ попарно ортогональны, +то они линейно независимо. Если, кроме того, $\dim V=n$, то векторы +$e_1,\dots,e_n$ образуют ортогональный базис. +\end{lemma} +\begin{proof} +Предположим, что $e_1\lambda_1 + \dots + +e_n\lambda_n = 0$~--- нетривиальная линейная комбинация этих векторов, +равная нулю. Домножим это равенство скалярно на $e_i$: +$$ +B(e_i,e_1\lambda_1 + \dots + e_n\lambda_n) = 0. +$$ +Пользуясь линейностью по второму аргументу и попарной ортогональностью +векторов $e_i$, получаем равенство $\lambda_i B(e_i,e_i) = 0$. Так как +$e_i\neq 0$, получаем, что $\lambda_i=0$ для всех $i=1,\dots,n$. + +Если $\dim V = n$, мы получаем $n$ линейно независимых векторов в +$n$-мерном векторном пространстве. Из +предложения~\ref{prop:dimension_is_monotonic} следует, что они +образуют базис (действительно, размерность их линейной оболочки +совпадает с размерностью $V$, поэтому эта линейная оболочка равна $V$). +\end{proof} + +\begin{remark} +По определению матрица Грама формы $B$ в базисе $\mc E = +(e_1,\dots,e_n)$ составлена из +скалярных произведений $B(e_i,e_j)$. Поэтому базис $\mc E$ +ортогонален тогда и только тогда, когда матрица Грама скалярного +произведения в этом базисе диагональна; базис $\mc E$ ортонормирован +тогда и только тогда, когда матрица Грама скалярного произведения в +этом базисе единична. +\end{remark} + +Таким образом, если нам дано эвклидово или унитарное пространство, +часто удобно выбрать в нем ортогональный базис: в нем скалярное +произведение задается простыми формулами через координаты векторов +(см. примеры~\ref{example:standard_bilinear_form} +и~\ref{example:standard_sesquilinear_form}: стандартные базисы +пространства столбцов являются ортонормированными относительно +рассматриваемых там форм). + +\begin{lemma}[Процесс ортогонализации Грама--Шмидта]\label{lem:Gram_Schmidt} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$e_1,\dots,e_{n-1}$~--- семейство попарно ортогональных ненулевых векторов, +$v\notin\la e_1,\dots,e_{n-1}\ra$. Тогда существует вектор $e_n\in V$ +такой, что $e_n$ ортогонален всем векторам $e_1,\dots,e_{n-1}$ и, +кроме того, $\la e_1,\dots,e_{n-1},v\ra = \la e_1,\dots,e_{n-1},e_n\ra$. +\end{lemma} +\begin{proof} +Будем искать вектор $e_n$ в виде +$$ +e_n = v - e_1\lambda_1 - e_2\lambda_2 - \dots - e_{n-1}\lambda_{n-1}. +$$ +Подберем коэффициенты $\lambda_1,\dots,\lambda_{n-1}\in k$ так, чтобы +$e_n$ был ортогонален каждому $e_i$, $i=1,\dots,n-1$. Посмотрим на +скалярное произведение $e_n$ и $e_i$. Поскольку $e_i$ ортогонален +всем векторам из $e_1,\dots,e_{n-1}$, кроме $e_i$, получаем +$$ +B(e_i,e_n) = B(e_i,v) - B(e_i,e_i)\lambda_i. +$$ +Положим теперь $\lambda_i = \frac{B(e_i,v)}{B(e_i,e_i)}$; заметим, что +$B(e_i,e_i)\neq 0$, поскольку $e_i\neq 0$. Мы добились того, что +$e_n\perp e_i$ для всех $i=1,\dots,n-1$. Кроме того, $v$ выражается +через $e_1,\dots,e_n$, поэтому $v\in\la e_1,\dots,e_n\ra$, и +$e_n$ выражается через $e_1,\dots,e_{n-1},v$, поэтому $e_n\in\la +e_1,\dots,e_{n-1},v\ra$. Это и означает равенство нужных линейных оболочек. +\end{proof} + +\begin{corollary}\label{cor:Gram_Schmidt_1} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, и пусть +$\mc F = (f_1,\dots,f_n)$~--- базис $V$. Тогда существует +ортогональный базис $\mc E = (e_1,\dots,e_n)$ пространства $V$ такой, +что $\la e_1,\dots,e_k\ra = \la f_1,\dots,f_k\ra$ для всех $k=1,\dots,n$. +\end{corollary} +\begin{proof} +Индукция по $n$. Для $n=1$ утверждение очевидно: достаточно взять $e_1 += f_1$. Пусть утверждение доказано для всех пространств размерности не +выше $n-1$, и мы взяли пространство $V$ размерности $n$. +Рассмотрим в нашем пространстве $V$ линейную оболочку +векторов $f_1,\dots,f_{n-1}$: $W = \la f_1,\dots,f_{n-1}\ra$. По +предположению индукции найдется ортогональный базис +$e_1,\dots,e_{n-1}$ пространства $W$ такой, что $\la e_1,\dots,e_k\ra += \la f_1,\dots,f_k\ra$ для всех $k=1,\dots,n-1$. + +Применим лемму~\ref{lem:Gram_Schmidt} к набору $e_1,\dots,e_{n-1}$ и +вектору $f_n$. Мы найдем вектор $e_n$ такой, что $e_1,\dots,e_n$~--- +ортогональная система векторов, и $\la e_1,\dots,e_n\ra = \la +f_1,\dots,f_n\ra = v$, то есть, $e_1,\dots,e_n$~--- базис +$V$. Очевидно, что условие $\la e_1,\dots,e_k\ra = \la +f_1,\dots,f_k\ra$ теперь выполняется для всех $k=1,\dots,n$. +\end{proof} + +\begin{corollary}\label{cor:orthogonal_basis_exists} +В любом [конечномерном] эвклидовом или унитарном пространстве +существует ортогональный (и даже ортонормированный) базис. +\end{corollary} +\begin{proof} +Применим следствие~\ref{cor:Gram_Schmidt_1} к произвольному базису +пространства $V$. Получим ортогональный базис $e_1,\dots,e_n$. Положим +$e'_i = e_i/||e_i||$; легко видеть, что $||e'_i|| = 1$ и векторы +$e'_1,\dots,e'_n$ все еще попарно ортогональны. Мы получили +ортонормированный базис пространства $V$. +\end{proof} + +\begin{corollary}\label{cor:orthogonal_basis_extension} +Пусть $V$~--- эвклидово или унитарное пространства, $W\leq V$~--- +подпространство в $V$. Любой ортогональный базис подпространства $W$ +можно дополнить до ортогонального базиса пространства $V$. +\end{corollary} +\begin{proof} +Как и в доказательстве следствия~\ref{cor:Gram_Schmidt_1}, +воспользуемся леммой~\ref{lem:Gram_Schmidt} для индуктивного +построения нужного базиса. +\end{proof} + +\subsection{Ортогональные и унитарные матрицы} + +\literature{[F], гл. XIII, \S~1, п 7; [K2], гл. 3, \S~1, п. 5; \S~2, + п. 4.} + +В этом разделе мы выясним, что матрица перехода между ортогональными +базисами является ортогональной в эвклидовом случае и унитарной в +унитарном случае. + +\begin{definition} +Матрица $C\in M(n,\mb R)$ называется +\dfn{ортогональной}\index{матрица!ортогональная}, если $C\cdot C^T = +C^T\cdot C = E$. Матрица $C\in M(n,\mb C)$ называется +\dfn{унитарной}\index{матрица!унитарная}, если $C\cdot \ol{C}^T = +\ol{C}^T\cdot C = E$. +\end{definition} + +\begin{remark} +Конечно, условия ортогональности и унитарности матрицы записываются +единообразно ($C\cdot\ol{C}^T=\ol{C}^T\cdot C=E$), если помнить, что +$\ol{C}=C$ для $C\in M(n,\mb R)$. +\end{remark} + +\begin{lemma}\label{lem:orthogonal_equivalencies} +Для матрицы $C\in M(n,\mb R)$ следующие условия равносильны: +\begin{enumerate} +\item $C$ ортогональна +\item $C^T$ ортогональна +\item столбцы $C$ образуют ортонормированный базис в + эвклидовом пространстве $\mb R^n$ со стандартным эвклидовым + скалярным произведением + (пример~\ref{example:standard_bilinear_form}). +\item строки $C$ образуют ортонормированный базис в эвклидовом + пространстве ${}^n\mb R$ со стандартным эвклидовым скалярным + произведением. +\end{enumerate} +\end{lemma} + +\begin{lemma}\label{lem:unitary_equivalencies} +Для матрицы $C\in M(n,\mb C)$ следующие условия равносильны: +\begin{enumerate} +\item $C$ унитарна +\item $\ol{C}^T$ унитарна +\item столбцы $C$ образуют ортонормированный базис в унитарном + пространстве $\mb C^n$ со стандартным эрмитовым скалярным + произведением (пример~\ref{example:standard_sesquilinear_form}). +\item строки $C$ образуют ортонормированный базис в унитарном + пространстве ${}^n\mb C$ со стандартным эрмитовым скалярным + произведением. +\end{enumerate} +\end{lemma} + +\begin{proof} +Мы докажем только вариант для унитарной матрицы. +\begin{itemize} +\item[$(1)\Leftrightarrow (2)$] Очевидно из определения. +\item[$(1)\Rightarrow (3)$] Посмотрим на равенство $\ol{C}^T\cdot + C=E$. Оно означает, что при умножении $i$-ой строки матрицы + $\ol{C}^T$ на $j$-й столбец матрицы $C$ мы получим + $\delta_{ij} = \begin{cases}1,&i=j,\\0,&i\neq j.\end{cases}$. То + есть, при стандартном эрмитовом скалярном произведении $i$-го + столбца матрицы $C$ на ее $j$-й столбец получается $\delta_{ij}$. Это + означает, что столбцы матрицы $C$ попарно ортогональны и, кроме того, + длина каждого столбца равна $1$. В частности, все столбцы + ненулевые. По лемме~\ref{lem:orthogonality_implies_independency} эти + столбцы образуют ортонормированный базис в $\mb C^n$. +\item[$(3)\Rightarrow (1)$] Мы знаем, что стандартное эрмитово + скалярное произведение $i$-го столбца матрицы $C$ на ее $j$-й + столбец равно $\delta_{ij}$. Но в точности это произведение стоит в + позиции $(i,j)$ матрицы $\ol{C}^T\cdot C$; поэтому $\ol{C}^T\cdot C + = E$. Заметим, что $1 = \det(E) = \det(\ol{C}^T\cdot C) = + \ol\det(C)\cdot\det(C)$, поэтому $\det(C)$ отличен от нуля и, стало + быть, матрица $C$ обратима. Из равенства $\ol{C}^T\cdot C = E$ + теперь следует, что $C^{-1} = \ol{C}^T$, и поэтому $C\cdot\ol{C}^T = + E$. +\item[$(2)\Leftrightarrow (4)$] Применим только что доказанную + равносильность $(1)\Leftrightarrow (3)$ к матрице $C^T$; осталось + только заметить, что сопряжение не меняет выполнение свойства $(3)$: + если $e_1,\dots,e_n$~--- ортонормированный базис унитарного + пространства $\mb C^n$, то и $\ol{e_1},\dots,\ol{e_n}$~--- + ортонормированный базис того же пространства. +\end{itemize} +\end{proof} + +\begin{theorem} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. +Пусть $\mc E$, $\mc F$~--- ортогональные базисы $V$, и +$C=(\mc E\rsa\mc F)$~--- матрица перехода между ними. Тогда матрица +$C$ ортогональна в случае эвклидова пространства и унитарна в случае +унитарного пространства. +\end{theorem} +\begin{proof} +По теореме~\ref{thm:Gram_matrix_change_of_coordinates} выполнено +$G_{\mc F} = \ol{C}^T\cdot G_{\mc E}\cdot C$, где +$G_{\mc E}$, $G_{\mc F}$~--- матрицы Грама формы $B$ в базисах $\mc E$, +$\mc F$ соответственно. Но базисы $\mc E$, $\mc F$ ортогональны, +поэтому $G_{\mc E} = G_{\mc F} = E$. Значит, $E = \ol{C}^T\cdot C$, и +матрица $C$ ортогональна в эвклидовом случае и унитарна в унитарном +случае. +\end{proof} + +\subsection{Ортонормированные базисы} + +Введенное выше понятие ортонормированного базиса чрезвычайно полезно: +в этом разделе мы увидим, что использование таких базисов упрощает вычисления. + +\begin{lemma}\label{lem:orthonormal-basis-coordinates} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$e_1,\dots,e_n$~--- ортонормированный базис $V$, +$v\in V$~--- произвольный вектор, и $v = e_1\alpha_1 + \dots + e_n\alpha_n$~--- +его разложение по этому базису. +Тогда $\alpha_i = B(e_i,v)$ и +$||v||^2 = |\alpha_1|^2 + \dots + |\alpha_n|^2$. +\end{lemma} +\begin{proof} +Домножим равенство $v = e_1\alpha_1 + \dots + e_n\alpha_n$ +скалярно на $e_i$: +$$ +B(e_i,v) = B(e_i, e_1\alpha_1 + \dots + e_n\alpha_n). +$$ +Воспользовавшись линейностью $B$ по второму аргументу и ортонормированностью +базиса $e_1,\dots,e_n$, получаем, что $B(e_i,v) = B(e_i,e_i\alpha_i) = \alpha_i$. +Заметим, что векторы $e_1\alpha_1,\dots,e_n\alpha_n$ попарно ортогональны и +$||e_i\alpha_i|| = |\alpha_i|$. Доказательство завершается индукцией по $n$ +с применением теоремы Пифагора. +\end{proof} + +Пусть $(V,B)$~--- конечномерное эвклидово или унитарное пространство, +$u\in V$~--- некоторый фиксированный вектор. Рассмотрим отображение +$B(u,{-})\colon V\to k$, $v\mapsto B(u,v)$. Линейность формы $B$ по второму +аргументу означает, что полученное отображение линейно, то есть, +лежит в $\Hom_k(V,k)$. Оказывается, верно и обратное: любое линейное отображение +из $V$ в основное поле $k$ имеет вид $B(u,{-})$ для некоторого вектора $u\in V$. + +Заметим, что если фиксированный вектор $u$ поставить на второе место, то +мы получим {\em полулинейное} отображение $B({-},u)\colon V\to k$ +(оно обладает свойством аддитивности, а скаляр выносится с сопряжением). Аналогично, +любое полулинейное отображение из $V$ в $k$ имеет вид $B({-},u)$ +для некоторого вектора $u\in V$. + +\begin{theorem}[Теорема Риса]\label{thm:Riesz_theorem} +Пусть $(V,B)$~--- конечномерное эвклидово или унитарное пространство. +Если $\ph\colon V\to k$~--- линейное отображение, то существует +единственный вектор $u\in V$ такой, что $\ph(v) = B(u,v)$ для всех $v\in V$. +Если $\ph\colon V\to k$~--- полулинейное отображение, то существует +единственный вектор $u\in V$ такой, что $\ph(v) = B(v,u)$ для всех $v\in V$. +\end{theorem} +\begin{proof} +Пусть $\ph\colon V\to k$~--- линейное отображение. +Выберем некоторый ортонормированный базис $e_1,\dots,e_n$ пространства $V$. +Пусть $v\in V$~--- произвольный вектор. +Тогда по лемме~\ref{lem:orthonormal-basis-coordinates} +$$ +v = e_1 B(e_1,v) + e_2 B(e_2,v) + \dots + e_n B(e_n,v). +$$ +Применяя к этому равенству отображение $\ph$ и пользуясь его линейностью, получаем +\begin{align*} +\ph(v) &= \ph(e_1 B(e_1,v) + e_2 B(e_2, v) + \dots + e_n B(e_n,v)) \\ +&= \ph(e_1)B(e_1,v) + \ph(e_2)B(e_2,v) + \dots + \ph(e_n B(e_n) \\ +&= B(e_1\overline{\ph(e_1)} + e_2\overline{\ph(e_2)} + \dots + e_n\overline{\ph(e_n)},v). +\end{align*} +Заметим, что первый аргумент полученного выражения не зависит от $v$. +Положив $u = e_1\overline{\ph(e_1)} + e_2\overline{\ph(e_2)} + \dots ++ e_n\overline{\ph(e_n)}$, получаем, +что $\ph(v) = B(u,v)$ для произвольного $v\in V$. Осталось показать, что такой +вектор $u$ единственный. Предположим, что нашелся еще один вектор $u'\in V$ +такой, что $\ph(v) = B(u',v)$ для всех $v\in V$. +Но тогда $B(u,v) = \ph(v) = B(u',v)$, откуда $B(u-u',v) = 0$ для всех $v\in V$. +В частности, это так для $v = u-u'$, и получаем $B(u-u',u-u') = 0$. +Но форма $B$ положительно определена, и потому $u-u'=0$, то есть, $u=u'$. + +Пусть теперь отображение $\ph\colon V\to k$ полулинейно. Тогда +отображение $\overline\ph\colon V\to k$, $v\mapsto \overline{\ph(v)}$, +линейно, и к нему можно применить доказанное выше: существует единственный вектор +$u\in V$ такой, что $\overline\ph(v) = B(u,v)$ для всех $u\in V$. +Но равенство $\overline\ph(v) = B(u,v)$ равносильно равенству +$\ph(v) = B(v,u)$. +\end{proof} + +\begin{remark} +Заметим, что полученное выражение +$u = e_1\overline{\ph(e_1)} + \dots + e_n\overline{\ph(e_n)}$ +для вектора $u$ с виду зависит от выбора базиса $e_1,\dots,e_n$. +С другой стороны, мы показали, что вектор $u$ с указанными свойствами +единственный. Получается, что это выражение на самом деле одинаково +во всех базисах пространства $V$. +\end{remark} + +\subsection{Ортогональное дополнение} + +\literature{[F], гл. XIII, \S~2, п. 2; [K2], гл. 3, \S~1, п. 3; \S~2, + п. 3; [KM], ч. 2, \S~3, пп. 1--2.} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, $U\subseteq V$~--- +произвольное подмножество. +\dfn{Ортогональным дополнением}\index{ортогональное дополнение} к подмножеству +$U$ в $V$ называется +$U^\perp = \{v\in V\mid \forall u\in U\;\; B(u,v) = 0\}$. +\end{definition} + +\begin{proposition}\label{prop:orthogonal-complement-properties} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$U\subseteq V$~--- подмножество в $V$. Тогда +\begin{enumerate} +\item $U^\perp$ является подпространством в $V$; +\item $\{0\}^\perp = V$, $V^\perp = \{0\}$; +\item $U\cap U^\perp \subseteq\{0\}$; +\item если $U\subseteq W$~--- два подмножества в $V$, то $W^\perp\subseteq U^\perp$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Если $v_1,v_2$ лежат в $U^\perp$, то для любого $u\in U$ выполнено + $B(u,v_1) = B(u,v_2) = 0$. Поэтому для любых $\lambda_1,\lambda_2\in + k$ выполнено $B(u,v_1\lambda_1+v_2\lambda_2) = B(u,v_1)\lambda_1 + + B(u,v_2)\lambda_2 = 0$, и $v_1\lambda_1+v_2\lambda_2\in + U^\perp$. Это доказывает, что $U^\perp\leq V$. +\item Любой вектор $V$ ортогонален $0$, поэтому $\{0\}^\perp = V$. Если + вектор $v\in V$ ортогонален всем векторам из $V$, то, в частности, + он ортогонален самому себе, то есть, $B(v,v)=0$. В силу + положительной определенности формы $B$ из этого следует, что + $v=0$. Это доказывает, что $V^\perp = \{0\}$. +\item Пусть $v\in U\cap U^\perp$. Условие $v\in U^\perp$ означает, + что $B(u,v) = 0$ для всех $u\in U$, в частности, для $u=v$. + Поэтому $B(v,v)=0$. В силу положительной определенности формы $B$ + получаем, что $v=0$. +\item Пусть $v\in W^\perp$. Тогда $B(u,v) = 0$ для всех $u\in W$. В частности, + это так для всех $u\in U$. Поэтому $v\in U^\perp$. +\end{enumerate} +\end{proof} + +\begin{proposition}\label{prop:orthogonal-complement-properties-findim} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$U\leq V$~--- конечномерное подпространство в $V$. Тогда +\begin{enumerate} +\item\label{num:orth-comp-prop-findim-1} $V = U\oplus U^\perp$; +\item если, кроме того, $V$ конечномерно, то $\dim (U^\perp) = \dim (V) - \dim (U)$; +\item $(U\perp)^\perp = U$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Пусть $e_1,\dots,e_m$~--- некоторый ортонормированный базис + подпространства $U$ (такой существует по + следствию~\ref{cor:orthogonal_basis_exists}). + Возьмем произвольный вектор $v\in V$, обозначим + $$ + u = e_1 B(e_1,v) + \dots + e_m B(e_m,v) \in U, + $$ + и положим $w = v-u$. + Заметим, что $w\in U^\perp$. Действительно, + \begin{align*} + B(e_i,w) &= B(e_i,v-u) \\ + &= B(e_i,v) - B(e_i,u) \\ + &= B(e_i,v) - B(e_i,e_1 B(e_1,v) + \dots + e_m B(e_m,v)) \\ + &= B(e_i,v) - B(e_i,v) \\ + &= 0 + \end{align*} + (мы воспользовались ортонормированностью базиса $e_1,\dots,e_m$). + Эта выкладка показывает, что $w$ ортогонален каждому из векторов + $e_1,\dots,e_m$; поэтому $w$ ортогонален и любой их линейной комбинации, + то есть, любому вектору подпространства $U$. + Итак, мы получили представление $v = u + w$, где $u\in U$, $w\in U^\perp$, + для произвольного вектора $v\in V$. Это означает, что $V = U + U^\perp$. + В предложении~\ref{prop:orthogonal-complement-properties} мы уже показали, + что $U\cap U^\perp \subseteq \{0\}$, и в нашем случае $U,U^\perp$ содержат $0$, + то есть, на самом деле $U\cap U^\perp = \{0\}$. + По предложению~\ref{prop:direct-sum-criteria-for-2} из этого следует, что + $V = U\oplus U^\perp$. +\item По следствию \ref{cor:direct-sum-dimension} и по уже доказанному, + имеем $\dim(V) = \dim(U) + \dim(U^\perp)$. +\item Покажем сначала, что $U\subseteq (U^\perp)^\perp$ (на самом деле, это + верно даже без условия конечномерности $U$). Пусть $u\in U$; мы хотим проверить, + что $u\in (U^\perp)^\perp$, то есть, что $u$ ортогонален любому вектору + из $U^\perp$. Пусть $w$~--- произвольный вектор из $U^\perp$. По определению + это означает, что он ортогонален любому вектору из $U$, в частности, вектору $u$: + $B(u,w) = 0$. Но тогда и $B(w,u) = 0$, то есть, $u$ ортогонален $w$, что и + требовалось. + + Осталось проверить обратное включение: возьмем произвольный вектор + $v\in (U^\perp)^\perp$ и покажем, что $v\in U$. + По первому пункту мы можем представить $v$ в виде $v = u + w$, + где $u\in U$ и $w\in U^\perp$. Тогда $w = v - u$, и отсюда + $B(w, w) = B(w, v - u)$. При этом $w\in U^\perp$, $v\in (U^\perp)^\perp$, + и $u\in U\subseteq (U^\perp)^\perp$ (мы пользуемся уже доказанным включением). + Значит, скалярное произведение $w$ на $v-u$ равно нулю, откуда $B(w,w)=0$, + откуда следует, что $w=0$. + Поэтому $v = u\in U$, что и требовалось. +\end{enumerate} +\end{proof} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$U\leq V$~--- конечномерное подпространство. +Возьмем произвольный вектор $v\in V$. +По предложению~\ref{prop:orthogonal-complement-properties-findim} +существует единственное разложение вида +$v = u + u'$, где $u\in U$, $u'\in U^\perp$. +Так определенный вектор $u\in U$ мы будем называть +\dfn{ортогональной проекцией} вектора $v$ на подпространство $U$ +и обозначать через $\pr_U(v)$. +Мы получили, таким образом, отображение +$\pr_U\colon V\to V$, которое каждому вектору $v\in V$ +сопоставляет его проекцию на подпространство $U$ +(рассмотренную как элемент объемлющего пространства $V$). +\end{definition} + +\begin{theorem}\label{thm:orth-proj-properties} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$U\leq V$~--- конечномерное подпространство, $v\in V$. +\begin{enumerate} +\item\label{num:orth-proj-props-1} +Отображение $\pr_U\colon V\to V$ является линейным. +\item\label{num:orth-proj-props-2} +Если $v\in U$, то $\pr_U(v) = v$. +\item\label{num:orth-proj-props-3} +Если $v\in U^\perp$, то $\pr_U(v) = 0$. +\item $\Img(\pr_U) = U$. +\item $\Ker(\pr_U) = U^\perp$. +\item $v - \pr_U(v) \in U^\perp$. +\item $\pr_U\circ\pr_U = \pr_U$. +\item $||\pr_U(v)|| \leq ||v||$. +\item Если $e_1,\dots,e_n$~--- любой ортонормированный базис $U$, +то $\pr_U(v) = e_1 B(e_1,v) + \dots + e_n B(e_n,v)$. +\end{enumerate} +\end{theorem} +\begin{proof} +\begin{enumerate} +\item Пусть $v_1,v_2\in V$, причем $v_1 = u_1 + w_1$ +и $v_2 = u_2 + w_2$, где $u_1,u_2\in U$, $w_1,w_2\in U^\perp$. +Тогда $v_1+v_2 = (u_1+u_2) + (w_1+w_2)$, и $u_1+u_2\in U$, +$w_1+w_2\in U^\perp$. По определению +$\pr_U(v_1) = u_1$, $\pr_U(v_2) = u_2$ и +$\pr_U(v_1+v_2) = u_1 + u_2 = \pr_U(v_1) + \pr_U(v_2)$. +Мы показали аддитивность отображения $\pr_U$. Если $v\in U$ +и $v = u + w$ для $u\in U$, $w\in U^\perp$, то +$v\lambda = u\lambda + w\lambda$, откуда следует и однородность +$\pr_U$. +\item Если $v\in U$, то $v = v + 0$, где $v\in U$, $0\in U^\perp$. +\item Если $v\in U^\perp$, то $v = 0 + v$, где $0\in U$, $v\in U^\perp$. +\item В пункте (\ref{num:orth-proj-props-2}) мы показали, +что $U\subseteq\Img(\pr_U)$. Обратное включение выполнено +по определению отображения $\pr_U$. +\item В пункте (\ref{num:orth-proj-props-3}) мы показали, +что $U^\perp\subseteq\Ker(\pr_U)$. Обратно, если +$\pr_U(v) = 0$, то $v = 0 + w$, где $w\in U^\perp$. +\item По определению $v = u + w$, где $u\in U$, $w\in U^\perp$ +и $u = \pr_U(v)$. Поэтому $v - \pr_U(v) = v - u = w\in U^\perp$. +\item Пусть $\pr_U(v) = u\in U$. Тогда $\pr_U(u) = u$ +по пункту~(\ref{num:orth-proj-props-2}), что и требовалось. +\item $v = \pr_U(v) + w$, где $w\in U^\perp$, и потому векторы +$\pr_U(v)$ и $w$ ортогональны. По теореме Пифагора +$||v||^2 = ||\pr_U(v)||^2 + ||w||^2$, откуда следует нужное неравенство. +\item Запишем $v = u + (v-u)$, +где $u = e_1B(e_1,v) + \dots + e_n B(e_n,v)$. Как и в доказательстве +пункта~(\ref{num:orth-comp-prop-findim-1}) +предложения~\ref{prop:orthogonal-complement-properties-findim}, +получаем, что $v-u$ ортогонально каждому из $e_1,\dots,e_n$, +и потому $v-u\in U^\perp$, в то время как, очевидно, +$u\in U$. По определению тогда $\pr_U(v) = u$, что и требовалось. +\end{enumerate} +\end{proof} + +\subsection{Сопряженные отображения} + +\literature{[F], гл. XIII, \S~4, п. 2; [K2], гл. 3, \S~3, п. 1; [KM], + ч. 2, \S~8, пп. 1--3.} + +\begin{definition} +Пусть $(V,B)$ и $(V',B')$~--- эвклидовы или унитарные пространства, +$\ph\colon V\to V'$~--- линейное отображение. +Линейное отображение $\ph^*\colon V'\to V$ называется +\dfn{сопряженным}\index{сопряженное отображение} к +отображению $\ph$, если $B'(\ph(v),v') = B(v,\ph^*(v'))$ для всех +векторов $v\in V$ и $v'\in V'$. +\end{definition} + +Покажем, что у каждого линейного отображения между эвклидовыми или +унитарными пространствами имеется единственное сопряженное. + +\begin{proposition} +Пусть $(V,B)$ и $(V',B')$~--- эвклидовы или унитарные пространства, +$\ph\colon V\to V'$~--- линейное отображение. Существует линейное +отображение $\ph^*\colon V'\to V$ сопряженное к $\ph$. Кроме того, такое +линейное отображение единственно. +\end{proposition} + +\begin{proof} +Пусть $v'\in V'$. Рассмотрим отображение $f\colon V\to k$, которое +сопоставляет вектору $v\in V$ скаляр $B'(\ph(v),v')$. Покажем, что +$f$~--- полулинейное отображение. Действительно, $f(v_1\lambda_1 + +v_2\lambda_2) = B'(\ph(v_1\lambda_1+v_2\lambda_2),v') += B'(\ph(v_1)\lambda_1+\ph(v_2)\lambda_2,v') += \ol{\lambda_1}B'(\ph(v_1),v') + \ol{\lambda_2}B'(\ph(v_2),v') += \ol{\lambda_1}f(v_1) + \ol{\lambda_2}f(v_2)$. +По теореме Риса~\ref{thm:Riesz_theorem} найдется вектор +$v_f\in V$ такой, что $B(v,v_f) = f(v) = B'(\ph(v),v')$ +для всех $v\in V$. Положим $\ph^*(v') = v_f$. + +Таким образом, для каждого $v'\in V'$ мы нашли вектор $\ph^*(v')\in V$ +такой, что $B(v,\ph^*(v')) = B'(\ph(v),v')$ для всех $v\in V$. +Проверим, что полученное отображение $\ph^*\colon V'\to V$ является +линейным. Действительно. +\begin{align*} +B(v,\ph^*(v'_1)\lambda_1+\ph^*(v'_2)\lambda_2) +&= B(v,\ph^*(v'_1))\lambda_1 + B(v,\ph^*(v'_2))\lambda_2\\ +&= B'(\ph(v),v'_1)\lambda_1 + B'(\ph(v),v'_2))\lambda_2\\ +&= B'(\ph(v),v'_1\lambda_1 + v'_2\lambda_2). +\end{align*} +С другой стороны, по определению $\ph^*$ выполнено +$B(v,\ph^*(v'_1\lambda_1 + v'_2\lambda_2)) += B'(\ph(v),v'_1\lambda_1 + v'_2\lambda_2)$. +Поэтому $B(v,\ph^*(v'_1\lambda_1+v'_2\lambda_2)) = +B(v,\ph^*(v'_1)\lambda_1 - +\ph^*(v'_2)\lambda_2)$ для всех $v\in V$, откуда следует, что +$\ph^*(v'_1\lambda_1+v'_2\lambda_2) = \ph^*(v'_1)\lambda_1 - +\ph^*(v'_2)\lambda_2$. + +Осталось показать единственность отображения $\ph^*$ с указанным +свойством. Но если $\tld{\ph^*}$~--- другое такое отображение, то +$B(v,\ph^*(v')) = B'(\ph(v),v') = B(v,\tld{\ph^*}(v'))$ +для всех $v\in V$, $v'\in V'$. +Из этого следует, что $\ph^*(v') = +\tld{\ph^*}(v')$ для каждого $v'$. +\end{proof} + +\begin{proposition} +Пусть $(V,B)$ и $(V',B')$~--- эвклидовы или унитарные пространства, +$\ph,\psi\colon V\to V'$~--- линейные отображения, +$\lambda\in k$. Тогда +\begin{enumerate} +\item $(\ph+\psi)^* = \ph^*+\psi^*$; +\item $(\lambda\ph)^* = \ol\lambda\ph^*$; +\item $(\ph^*)^* = \ph$; +\item $(\id_V)^* = \id_V$; +\item если $\eta\colon V'\to V''$~--- еще одно линейное отображение +(где $(V'',B'')$~--- эвклидово или унитарное пространство), то +$(\eta\circ\ph)^* = \ph^*\circ\eta^*$ +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Пусть $v\in V$, $v'\in V'$. Тогда +\begin{align*} +B(v,(\ph+\psi)^*(v')) &= B'((\ph+\psi)(v),v') \\ +&= B'(\ph(v) + \psi(v),v') \\ +&= B'(\ph(v),v') + B(\psi(v),v') \\ +&= B(v,\ph^*(v')) + B(v,\psi^*(v')) \\ +&= B(v,\ph^*(v')+\psi^*(v')), +\end{align*} +откуда следует, что $(\ph+\psi)^*(v') = \ph^*(v') + \psi^*(v')$, +что и требовалось. +\item Пусть $v\in V$, $v'\in V'$. Тогда +$$ +B(v,(\lambda\ph)^*(v')) = B'(\lambda\ph(v),v') = +\ol\lambda B'(\ph(v),v') = \ol\lambda B(v,\ph^*(v')) = +B(v,\ol\lambda\ph^*(v')), +$$ +откуда $(\lambda\ph)^*(v') = \ol\lambda\ph^*(v')$, что и требовалось. +\item Пусть $v\in V$, $v'\in V'$. Тогда +$$ +B'(v',((\ph^*)^*(v)) = B(\ph^*(v'),v) = \ol{B(v,\ph^*(v'))} +=\ol{B'(\ph(v),v')} = B'(v',\ph(v)), +$$ +откуда $((\ph^*)^*(v) = \ph(v)$, что и требовалось. +\item Пусть $v,w\in V$. Тогда +$$ +B(v,(\id_V)^*(w)) = B(\id_V(v),w) = B(v,w) = B(v,\id_V(w)), +$$ +откуда $(\id_V)^*(w) = \id_V(w)$, что и требовалось. +\item Пусть $v\in V$, $v''\in V''$. Тогда +\begin{align*} +B(v,(\eta\circ\ph)^*(v'')) &= B''((\eta\circ\ph)(v),v'') \\ +&= B''(\eta(\ph(v)),v'') \\ +&= B'(\ph(v),\eta^*(v'')) \\ +&= B(v,\ph^*(\eta^*(v''))) \\ +&= B(v,(\ph^*\circ\eta^*)(v'')), +\end{align*} +откуда $(\eta\circ\ph)^*(v'') = (\ph^*\circ\eta^*)(v'')$, +что и требовалось. +\end{enumerate} +\end{proof} + +Выясним, как выглядит матрица сопряженного отображения в +ортонормированных базисах. + +\begin{proposition}\label{prop:adjoint_matrix} +Пусть $(V,B)$, $(V',B')$~--- эвклидовы или унитарные пространства, +$\mc E$~--- ортонормированный базис пространства $V$, $\mc E'$~--- +ортонормированный базис пространства $V'$. +Для любого линейного отображения $\ph\colon V\to V'$ выполнено +$[\ph^*]_{\mc E',\mc E} = \ol{[\ph]_{\mc E,\mc E'}}^T$. +\end{proposition} +\begin{proof} +Обозначим $A=[\ph]_{\mc E,\mc E'}$, $A^*=[\ph^*]_{\mc E',\mc E}$. +По основному свойству матрицы линейного отображения +(теорема~\ref{thm:matrix-multiplied-by-vector}) для любых векторов +$v\in V$, $v'\in V'$ выполнено +$A\cdot [v]_{\mc E} = [\ph(v)]_{\mc E'}$ +и $A^*\cdot [v']_{\mc E'} = [\ph^*(v')]_{\mc E}$. +Матрицы Грама форм $B$ и $B'$ единичны, поэтому +$$ +\ol{[\ph(v)]_{\mc E'}}^T\cdot [v']_{\mc E'} = B'(\ph(v),v') = +B(v,\ph^*(v')) = +\ol{[v]_{\mc E}}^T\cdot [\ph^*(v')]_{\mc E}. +$$ +Подставляя сюда выражения для столбцов координат $\ph(v)$ и +$\ph^*(v')$, получаем +$$ +\ol{A\cdot[v]_{\mc E}}^T\cdot [v']_{\mc E'} = \ol{[v]_{\mc E}}^T\cdot +A^*\cdot [v']_{\mc E'}, +$$ +откуда +$$ +\ol{[v]_{\mc E}}^T\cdot\ol{A}^T\cdot [v']_{\mc E'} = \ol{[v]_{\mc E}}^T\cdot +A^*\cdot [v']_{\mc E'}. +$$ +Это равенство верно для всех $v\in V$, $v'\in V'$. Пусть теперь $v$ +пробегает все векторы базиса $\mc E$, а $v'$ пробегает все векторы +базиса $\mc E'$. Получаем равенство матриц +$A^* = \ol{A}^T$. +\end{proof} + +\subsection{Самосопряженные операторы} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. +Линейный оператор $T\colon V\to V$ называется \dfn{самосопряженным}, +если $T^* = T$. Иными словами, $T$ самосопряжен, если +$B(T(v),w) = B(v,T(w))$ для всех $v,w\in V$. +\end{definition} + +\begin{proposition} +Все собственные числа самосопряженного оператора вещественны. +\end{proposition} +\begin{proof} +Пусть $T\colon V\to V$~--- самосопряженный оператор, +$\lambda\in k$~--- собственное число оператора $T$, +и $v\in V$~--- соответствующий ему собственный вектор, +то есть, $T(v) = v\lambda$ и $v\neq 0$. +Тогда +$$ +\lambda ||v||^2 = \lambda B(v,v) = B(v,v\lambda) += B(v,T^*(v)) = B(T(v),v) = B(v\lambda,v) = \ol\lambda B(v,v) += \ol\lambda ||v||^2 +$$ +При этом $||v||^2\neq 0$, и потому $\lambda=\ol\lambda$. +\end{proof} + +Следующие две леммы верны только для унитарных пространств, +но не для эвклидовых +(см. замечание~\ref{rem:complex-unitary-counterexample}). + +\begin{lemma}\label{lem:complex-unitary-1} +Пусть $V$~--- унитарное пространство (внимание!), +$T\colon V\to V$~--- линейный оператора. +Предположим, что $B(T(v),v) = 0$ для всех $v\in V$. +Тогда $T = 0$. +\end{lemma} +\begin{proof} +Пусть $u,v\in V$. +Заметим, что +$$ +B(T(u),v) = +\frac{B(T(u+v),u+v) - B(T(u-v),u-v) - iB(T(u+vi),u+vi) + iB(T(u-vi),u-vi)}{4} +$$ +(это можно проверить прямым вычислением). +В правой части стоят выражения вида $B(T(w),w)$, которые +по предположению равны нулю. Значит, $B(T(u),v)=0$. +В частности, это так для $v = T(u)$; получаем, что $T(u)=0$ +для всех $u\in V$, откуда $T=0$. +\end{proof} + +\begin{remark}\label{rem:complex-unitary-counterexample} +Заметим, что лемма~\ref{lem:complex-unitary-1} неверна для +эвклидовых пространств: линейный оператор $\mb R^2\to\mb R^2$, +осуществляющий поворот на $\pi/2$, служит контрпримером. +\end{remark} + +\begin{lemma} +Пусть $V$~--- унитарное пространство (внимание!), +$T\colon V\to V$~--- линейный оператор. +Оператор $T$ самосопряжен тогда и только тогда, когда +скалярное произведение $B(T(v),v)$ вещественно +для всех $v\in V$. +\end{lemma} +\begin{proof} +Пусть $v\in V$. +Тогда +$$ +B(T(v),v) - \ol{B(T(v),v)} = B(T(v),v) - B(v,T(v)) += B(T(v),v) - B(T^*(v),v) += B((T-T^*)(v),v). +$$ +Если $B(T(v),v)\in\mb R$ для всех $v\in V$, то правая часть +всегда равна нулю, и по лемме~\ref{lem:complex-unitary-1} +из этого следует, что $T-T^*=0$. + +Обратно, если $T = T^*$, то правая часть всегда равна нулю, +и потому $B(T(v),v) = \ol{B(T(v),v)}$ для всех $v\in V$, +откуда $B(T(v),v)\in\mb R$. +\end{proof} + +\begin{remark} +Замечание~\ref{rem:complex-unitary-counterexample} показывает, +что на эвклидовом пространстве оператор $T$ может удовлетворять +тождеству $B(T(v),v)=0$ для всех $v\in V$. Однако, +этого не может случиться для самосопряженного оператора. +\end{remark} + +\begin{lemma}\label{lem:selfadjoint-zero-characterisation} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$T\colon V\to V$~--- самосопряженный оператор. +Если $B(T(v),v) = 0$ для всех $v\in V$, то $T=0$. +\end{lemma} +\begin{proof} +Для унитарного пространства это уже доказано +в лемме~\ref{lem:complex-unitary-1}. Если же $V$ эвклидово, то +$$ +B(T(u),v) = \frac{B(T(u+v),u+v) - B(T(u-v),u-v)}{4} +$$ +для всех $u,v\in V$, +что проверяется прямым вычислением с использованием +равенств $B(T(v),u) = B(v,T(u)) = B(T(u),v)$ +(здесь мы используем самосопряженность $T$). +По предположению правая часть равна нулю, поэтому +$B(T(u),v)=0$ для всех $u,v\in V$; в частности, это так +для $v = T(u)$, откуда следует, что $T=0$. +\end{proof} + +\subsection{Нормальные операторы} + +\literature{[F], гл. XIII, \S~4, п. 3; [K2], гл. 3, \S~3, п. 7; [KM], + ч. 2, \S~8, п. 11.} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. +Линейный оператор $T\colon V\to V$ называется +\dfn{нормальным}\index{оператор!нормальный}, если он коммутирует со +своим сопряженным: $T^*\circ T = T\circ T^*$. +\end{definition} + +\begin{remark} +Очевидно, что любой самосопряженный оператор нормален. +\end{remark} + +\begin{lemma}[Свойства нормальных операторов] +\begin{enumerate} +\item Тождественный оператор нормален. +\item Сопряженный к нормальному оператору нормален. +\end{enumerate} +\end{lemma} +\begin{proof} +Очевидно. +\end{proof} + +\begin{lemma}\label{prop:normal-operator-equiv} +Пусть $(V,B)$~--- эвклидово или унитарное пространство. +Оператор $T\colon V\to V$ нормален тогда и только тогда, когда +$||T(v)|| = ||T^*(v)||$ для всех $v\in V$. +\end{lemma} +\begin{proof} +Заметим, что оператор $T^*\circ T - T\circ T^*$ самосопряжен. +По лемме~\ref{lem:selfadjoint-zero-characterisation} +равенство $T^*\circ T - T\circ T^*$ равносильно тому, +что $B((T^*\circ T - T\circ T^*)(v),v) = 0$ для всех $v\in V$, +что равносильно равенству +$B(T^*(T(v)),v) = B(T(T^*(v)),v)$ для всех $v\in V$. +Но $B(T^*(T(v)),v) = ||T(v)||^2$ и $B(T(T^*(v)),v) = ||T^*(v)||^2$. +\end{proof} + +\begin{proposition}\label{prop:normal-operator-adjoint-eigenvalues} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$T\colon V\to V$~--- нормальный оператор, и $v\in V$~--- собственный +вектор оператора $T$, соответствующий собственному числу $\lambda$. +Тогда $v$ является и собственным вектором оператора $T^*$, +соответствующим собственному числу $\ol\lambda$. +\end{proposition} +\begin{proof} +Из нормальности $T$ следует, что и оператор $T - \lambda\id_V$ +нормален (проверьте это!). +По лемме~\ref{prop:normal-operator-equiv} тогда +$||(T-\lambda\id_V)(v)|| = ||(T-\lambda\id_V)^*(v)||$. +Но левая часть по предположению равна нулю, +а правая часть равна $||(T^*-\ol\lambda\id_V)(v)||$. +\end{proof} + +\begin{proposition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$T\colon V\to V$~--- нормальный оператор. Тогда собственные векторы +$T$, соответствующие различным собственным числам, ортогональны. +\end{proposition} +\begin{proof} +Пусть $\lambda\neq\mu$~--- два различных собственных числа +оператора $T$, и пусть $u,v\in V$~--- соответствующие им +собственные векторы: $T(u) = u\lambda$, $T(v) = v\mu$. +По предложению~\ref{prop:normal-operator-adjoint-eigenvalues} +теперь $T^*(u) = u\ol\lambda$. +Поэтому $(\lambda-\mu)B(u,v) = B(u\ol\lambda,v) - B(u,v\mu) += B(T(u),v) - B(u,T^*(v)) = 0$. +Поскольку $\lambda\neq\mu$, из этого равенства следует, что +$B(u,v)=0$, что и требовалось. +\end{proof} + +\subsection{Спектральные теоремы} + +\literature{[F], гл. XIII, \S~5; [K2], гл. 3, \S~3, пп. 3, 6; [KM], + ч. 2, \S~7, пп. 4--5; \S~8, пп. 2--6, 8.} + +\begin{theorem}[Спектральная теорема для нормальных операторов в +унитарном пространстве]\label{thm:spectral-unitary} +Пусть $(V,B)$~--- унитарное пространство, +$T\colon V\to V$~--- линейный оператор. +Следующие условия равносильны: +\begin{enumerate} +\item оператор $T$ нормален; +\item у $V$ есть ортонормированный базис, состоящий из собственных +векторов оператора $T$; +\item матрица оператора $T$ в некотором ортонормированном базисе +$V$ диагональна. +\end{enumerate} +\end{theorem} +\begin{proof} +Очевидно, что $(2)\Leftrightarrow(3)$ (см. также +доказательство теоремы~\ref{thm:diagonalizable-equivalent}). +Покажем, что из (3) следует (1). Пусть матрица $t$ в некотором +ортонормированном базисе $\mc B$ диагональна. +По предложению~\ref{prop:adjoint_matrix} +матрица $T^*$ тогда получается из матрицы $T$ транспонированием +и сопряжением, и потому тоже диагональна. Но любые две диагональные +матрицы коммутируют; поэтому $T$ коммутирует с $T^*$, +то есть, $T$ нормален. + +Пусть теперь выполняется (1): оператор $T$ нормален. +По теореме о жордановой форме~\ref{thm:jordan-form} существует +базис $\mc B = (v_1,\dots,v_n)$ пространства $V$, в котором матрица $T$ +верхнетреугольна. Применим к этому базису процесс ортогонализации +Грама--Шмидта: мы получим ортонормированный базис +$\mc E = (e_1,\dots,e_n)$. +По предложению~\ref{prop:ut-equivalent-defs} верхнетреугольность +матрицы $T$ в базисе $\mc B$ равносильна тому, что +все подпространства вида $\la v_1,\dots,v_i\ra$ являются +$T$-инвариантными. Но в процессе ортогонализации +мы получили базис, для которого +$\la e_1,\dots,e_i\ra = \la v_1,\dots,v_i\ra$, +а инвариантность этих подпространств равносильна +верхнетреугольности матрицы $T$ в ортонормированном базисе $\mc E$. + +Итак, матрица оператора $T$ в базисе $\mc E$ верхнетреугольна: +$$ +[T]_{\mc E} = \begin{pmatrix} +a_{11} & a_{12} & \dots & a_{1n} \\ +0 & a_{22} & \dots & a_{2n} \\ +\vdots & \vdots & \ddots & \vdots \\ +0 & 0 & \dots & a_{nn} +\end{pmatrix} +$$ +Покажем, что она на самом деле +не только верхнетреугольна, но и диагональна. +Мы знаем, что матрица оператора $T^*$ в том же базисе выглядит так: +$$ +[T^*]_{\mc E} = \overline{[T]_{\mc E}}^T\begin{pmatrix} +\ol{a_{11}} & 0 & \dots & 0 \\ +\ol{a_{12}} & \ol{a_{22}} & \dots & 0 \\ +\vdots & \vdots & \ddots & \vdots \\ +\ol{a_{1n}} & \ol{a_{2n}} & \dots & \ol{a_{nn}} +\end{pmatrix} +$$ +Самое время воспользоваться нормальностью оператора $T$. +Посмотрим внимательно, что стоит в левом верхнем углу матриц, +полученных перемножением $[T]_{\mc E}$ и $[T^*]_{\mc E}$. +Нетрудно видеть, что у матрицы $[T^*]\cdot [T]$ в позиции $(1,1)$ +стоит $|a_{11}|^2$, а у матрицы $[T]\cdot [T^*]$~--- +$|a_{11}|^2 + |a_{12}|^2 + \dots + |a_{1n}|^2$, +сумма квадратов модулей элементов первой строки матрицы $[T]$. +Но эти выражения должны быть равны, и все входящие в них слагаемые~--- +неотрицательные вещественные числа. Поэтому +$a_{12} = \dots = a_{1n} = 0$. Значит, в первой строке матрицы $[T]$ +на самом деле только один ненулевой элемент: диагональны. +Вооружившись этим знанием, проследим теперь за позицией $(2,2)$. +Перемножая матрицы в одном порядке, получаем $|a_{22}|^2$, +а в другом~--- сумму квадратов элементов второй строки матрицы $[T]$. +Из этого следует, что и во второй строке матрица $[T]$ не отличается +от диагональной. Продолжая этот процесс, получаем, +что $[T]_{\mc E}$ диагональна, что и требовалось. +\end{proof} + +Теперь обратимся к случаю эвклидового пространства. Как мы знаем, +жорданова форма для оператора на вещественном пространстве уже не +обязана быть верхнетреугольной, поэтому для переноса спектральной +теоремы на эвклидов случай придется действовать обходным путем. +Сначала мы разберемся с самосопряженными операторами. +Для этого нам понадобится следующая лемма, в основе которой лежит +несложное вычисление, известное вам со школы: +$$ +x^2 + bx + c = \left(x+\frac{b}{2}\right)^2 + +\left(c-\frac{b^2}{4}\right). +$$ + +\begin{lemma}\label{lem:quadratic-operator-invertible} +Пусть $T\colon V\to V$~--- самосопряженный линейный оператор +на эвклидовом или унитарном пространстве $V$, +и числа $b,c\in\mb R$ таковы, что $b^2-4c<0$. +Тогда оператор $T^2 + bT + c\id_V$ обратим. +\end{lemma} +\begin{proof} +Пусть $v\in V$. Тогда +\begin{align*} +B((T^2 + bT + c\id_V)(v),v) &= B(T^2(v),v) + bB(T(v),v) + cB(v,v) \\ +&= B(T(v),T(v)) + bB(T(v),v) + c||v||^2 \\ +&\geq ||T(v)||^2 - |b|\cdot ||T(v)||\cdot ||v|| + c||v||^2 +\end{align*} +в силу неравенства Коши--Буняковского--Шварца: +$-||T(v)||\cdot ||v|| \leq B(T(v),v) \leq ||T(v)||\cdot ||v||$. +Полученное выражение можно переписать так: +$$ +\left(||T(v)|| - \frac{|b|\cdot ||v||}{2}\right)^2 + +\left(c-\frac{b^2}{4}\right)||v||^2, +$$ +и видно, что оно (при нашем условии на $b$ и $c$) неотрицательно. +Поэтому оператор $T^2 + bT + c\id$ инъективен, значит, и биективен. +\end{proof} + +\begin{remark} +Мы знаем, что у любого оператора на комплексном пространстве есть +собственное число. +Поэтому следующую лемму достаточно доказать только для случая +эвклидово пространств. +\end{remark} + +\begin{lemma}\label{lem:real-self-adjoint-has-eigenvalue} +Пусть $V \neq \{0\}$~--- эвклидово пространство, $T\colon V\to V$~--- +самосопряженный линейный оператор. Тогда у $T$ есть собственное +число. +\end{lemma} +\begin{proof} +Пусть $\dim(V) = n$. Рассмотрим минимальный многочлен оператора $T$: +$$ +f = a_0 + a_1x + \dots + a_nx^n \in k[x] +$$ +(см. определение~\ref{dfn:minimal-polynomial}). +По теореме~\ref{thm_irreducible_real} его можно разложить на множители +вида +$$ +f = c(x^2 + b_1x + c_1)\dots (x^2 + b_Mx c_M) +(x-\lambda_1)\dots(x-\lambda_m), +$$ +где $c\neq 0$, $b_j,c_j,\lambda_j$~--- вещественные числа, причем +$b_j^2 - 4c_j < 0$. Поэтому +$$ +0 = f(T)(v) = c(T^2 + b_1T + c_1\id)\dots(T^2+b_MT+c_M\id) +(T-\lambda_1\id)\dots(T-\lambda_m\id)(v). +$$ +По лемме~\ref{lem:quadratic-operator-invertible} множители вида +$T^2 + b_jT + c_j\id$ обратимы. Поэтому +$$ +0 = (T-\lambda_1\id)\dots (T-\lambda_m\id)(v). +$$ +Значит, хотя бы один из операторов $T-\lambda_j\id$ неинъективен. +Это и означает, что у $T$ есть собственное число. +\end{proof} + +\begin{remark} +Позже мы увидим (см.~\ref{prop:normal-operator-invariant-subspaces}), +что в следующем предложении можно +заменить условие самосопряженности оператора на условие нормальности. +\end{remark} + +\begin{proposition}\label{prop:orthogonal-complement-invariant} +Пусть $T\colon V\to V$~--- самосопряженный оператор на эвклидовом или +унитарном пространстве, и пусть $U\leq V$~--- $T$-инвариантное +подпространство. +Тогда +\begin{enumerate} +\item подпространство $U^\perp$ также $T$-инвариантно; +\item оператор $T|_U$ самосопряжен; +\item оператор $T|_{U^\perp}$ самосопряжен. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item +Пусть $v\in U^\perp$. Нам хочется показать, что $T(v)\in U^\perp$. +Возьмем любой вектор $u\in U$ и посмотрим на $B(T(v),u)$. +Из самосопряженности $T$ следует, +что $B(T(v),u) = B(v,T(u))$. Но по условию $T(u)\in U$, значит, +мы получили $0$. +\item Если $u,v\in U$, то $B((T|_U)(u),v) = B(T(u),v) = B(u,T(v)) += B(u,(T|_U)(v))$. +\item Применим результат второго пункта к $U^\perp$ вместо $U$. +\end{enumerate} +\end{proof} + +\begin{theorem}[Спектральная теорема для самосопряженных операторов в +эвклидовых пространствах]\label{thm:spectral-real-self-adjoint} +Пусть $(V,B)$~--- эвклидово пространство, +$T\colon V\to V$~--- линейный оператор. +Следующие условия равносильны: +\begin{enumerate} +\item оператор $T$ самосопряжен; +\item у $V$ есть ортонормированный базис, состоящий из собственных +векторов оператора $T$; +\item матрица оператора $T$ в некотором ортонормированном базисе +$V$ диагональна. +\end{enumerate} +\end{theorem} +\begin{proof} +Мы уже знаем, что $(2)\Leftrightarrow (3)$. Предположим, что +выполняется $(3)$: матрица оператора $T$ в некотором базисе +диагональна. Но диагональная матрица совпадает со своей +транспонированной, поэтому $T=T^*$, откуда следует $(1)$. + +Теперь мы докажем. что из $(1)$ следует $(2)$ индукцией по размености +пространства $V$. +Если $\dim(V)=1$, утверждение очевидно. +Пусть теперь $\dim(V) > 1$, и оператора $T$ самосопряжен. +По лемме~\ref{lem:real-self-adjoint-has-eigenvalue} у $T$ есть +собственное число и, стало быть, собственный вектор $u$. +Поделив его на $||u||$, можно считать, что $||u|| = 1$. +Подпространство $U = \la u\ra$ тогда является $T$-инвариантным, и по +предложению~\ref{prop:orthogonal-complement-invariant} +подпространство $U^\perp$ тоже $T$-инвариантно, +и оператор $T|_{U^\perp}$ самосопряжен. +По предположению индукции у $U^\perp$ есть ортонормальный базис, +состоящий из собственных векторов оператора $T|_{U^\perp}$. +Присоединив к нему $u$, получаем ортонормальный базис $U^\perp$, +состоящий из собственных векторов оператора $T$. +\end{proof} + +Теперь мы готовы описать нормальные операторы на двумерных эвклидовых +пространствах. + +\begin{proposition}\label{prop:real-normal-not-self-adjoint-dim-2} +Пусть $V$~--- эвклидово пространство размерности $2$, +$T\colon V\to V$~--- линейный оператор. +Следующие условия равносильны: +\begin{enumerate} +\item $T$ нормален, но не самосопряжен; +\item матрица $T$ в любом ортонормальном базисе $V$ имеет вид +$$ +\begin{pmatrix} a & -b \\ b & a\end{pmatrix}, +$$ +где $b\neq 0$; +\item матрица $T$ в некотором ортонормальном базисе $V$ имеет вид +$$ +\begin{pmatrix} a & -b \\ b & a\end{pmatrix}, +$$ +где $b > 0$. +\end{enumerate} +\end{proposition} +\begin{proof} +$(1)\Rightarrow (2)$. Пусть $e_1,e_2$~--- ортонормальный базис +пространства $V$, и пусть матрица $T$ в этом базисе имеет вид +$$ +\begin{pmatrix}a & c\\b & d\end{pmatrix}. +$$ +Тогда $||T(e_1)||^2 = a^2 + b^2$, $||T^*(e_1)||^2 = a^2 + c^2$. +По предложению~\ref{prop:normal-operator-equiv} эти числа равны, +откуда $c = \pm b$. Если $c=b$, то $T$ самосопряжен (его матрица +симметричны), поэтому $c = -b$, при этом $b\neq 0$. +Перемножим теперь матрицы +$T$ и $T^*= T^T$ в одном и в другом порядке. Результаты должны +совпасть, но в правом верхнем углу у одной матрицы стоит $bd$, а у +другой $ab$. Значит, $a=d$, и мы получили матрицу нужного вида. + +$(2)\Rightarrow (3)$. Если в нашем базисе уже $b>0$, то все доказано, +а если нет~--- поменяем знак у второго базисного вектора. + +$(3)\Rightarrow (1)$. Если $T$ имеет указанный вид, то видно, что $T$ +не самосопряжен. Перемножая матрицы $T$ и $T^*$ видим, что $T$ +нормален. +\end{proof} + +\begin{proposition}\label{prop:normal-operator-invariant-subspaces} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$T\colon V\to V$~--- нормальный оператор, $U\leq V$~--- +$T$-инвариантное подпространство. Тогда +\begin{enumerate} +\item подпространство $U^\perp$ тоже $T$-инвариантно; +\item подпространство $U$ $T^*$-инвариантно; +\item $(T|_U)^* = (T^*)|_U$; +\item операторы $T|_U$ и $T|_{U^\perp}$ нормальны. +\end{enumerate} +\end{proposition} +\begin{proof} +Пусть $e_1,\dots,e_m$~--- какой-нибудь ортонормированный базис +$U$. Дополним его до ортонормированного базиса $\mc B$ пространства +$V$ векторами $f_1,\dots,f_n$. Матрица оператора $T$ имеет в этом +базисе следующий вид: +$$ +[T]_{\mc B} = \begin{pmatrix} A & B \\ 0 & C\end{pmatrix}, +$$ +где $A$~--- блок размера $m\times m$, а $C$~--- блок размера +$n\times n$. +Нетрудно понять, что $||T(e_j)||^2$ равняется сумме квадратов модулей +элементов $j$-го столбца матрицы $A$. Складывая по всем $j$, +получаем, что $\sum_j||T(e_j)||^2$ равна сумме квадратов модулей всех +элементов матрицы $A$. +С другой стороны, $||T^*(e_j)||^2$ равна сумме квадратов модулей +элементов $j$-й строки матрицы $A$ и $j$-й строки матрицы $B$. +Складывая по всем $j$, получаем, что $\sum_j||T^*(e_j)||^2$ равна +сумме квадратов модулей всех элементов матрицы $A$ и всех элементов +матрицы $B$. +Из равенства $||T(e_j)|| = ||T^*(e_j)||$ +(предложение~\ref{prop:normal-operator-equiv}) теперь следует, +что $B$~--- нулевая матрица. Теперь из вида матрицы оператора $T$ +можно заключить, что $U^\perp$ $T$-инвариантно. Написав матрицу +оператора $T^*$, можно заметить, что $U$ еще и $T^*$-инвариантно. + +Докажем $(3)$. Пусть $S = T|_U\colon U\to U$. Возьмем $v\in U$. +Тогда $B(u,S^*(v)) = B(S(u),v) = B(T(u),v) = B(u,T^*(v)$ для всех +$u\in U$. Мы уже знаем, что $T^*(v)\in U$, поэтому из приведенного +равенства следует, что $S^*(v) = T^*(v)$. +Это выполнено для всех $v\in U$, потому +$(T|_U)^* = (T^*)|_U$. + +Наконец, для доказательства $(4)$ можно заметить, что $T$ коммутирует +с $T^*$, и потому $T|_U$ коммутирует с $(T|_U)^* = (T^*)|_U$; +подставляя $U^\perp$ вместо $U$, видим, что и +$T|_{U^\perp}$ нормален. +\end{proof} + +\begin{theorem}[Спектральная теорема для нормальных операторов в +эвклидовом пространстве]\label{thm:spectral-euclidean} +Пусть $(V,B)$~--- эвклидово пространство, и пусть $T\colon V\to V$~--- +линейный оператор. +Следующие условия равносильны: +\begin{enumerate} +\item оператор $T$ нормален; +\item существует ортонормированный базис пространства $V$, в котором +матрица оператора $T$ блочно-диагональна, причем каждый блок имеет +либо размер $1\times 1$, либо размер $2\times 2$ и вид +$$ +\begin{pmatrix} a & -b \\ b & a\end{pmatrix}, +$$ +где $b > 0$. +\end{enumerate} +\end{theorem} +\begin{proof} +$(2)\Rightarrow (1)$: несложно проверить, что матрица такого вида +коммутирует со своей сопряженной. + +Докажем $(1)\Rightarrow (2)$ индукцией по размерности $V$. +Случай $\dim(V)=1$ тривиален, а случай $\dim(V) = 2$ следует из +спектральной теоремы~\ref{thm:spectral-real-self-adjoint} для +самосопряженного оператора, и из +предложения~\ref{prop:real-normal-not-self-adjoint-dim-2} +для остальных. + +Пусть теперь $\dim(V) > 2$. +Если у оператора $T$ есть одномерное инвариантное подпространство +(иными словами, есть собственное число), обозначим его через $U$. +Если же нет, то +по предложению~\ref{prop:real-operator-invariant-subspace} у него +есть двумерное инвариантное подпространство, и тогда мы обозначим его +через $U$. +Если $\dim(U) = 1$, выберем в $U$ вектор нормы $1$~--- это будет +ортонормированным базисом подпространства $U$; если же $\dim(U) = 2$, +то оператор $T|_U$ нормален +(по предложению~\ref{prop:normal-operator-invariant-subspaces}), но не +самосопряжен (иначе у $T|_U$ было бы собственное число +по лемме~\ref{lem:real-self-adjoint-has-eigenvalue}), и в этом случае +можно применить +предложение~\ref{prop:real-normal-not-self-adjoint-dim-2}. + +В любом случае, мы нашли ортонормированный базис в инвариантном +подпространстве $U$, причем подпространство $U^\perp$ $T$-инвариантно, +и оператор $T|_{U^\perp}$ нормален +(по предожению~\ref{prop:normal-operator-invariant-subspaces}). +По предположению индукции у $U^\perp$ есть ортонормированный базис с +нужными свойствами; приписывая к нему выбранный базис $U$, +получаем нужный базис всего пространства $V$. +\end{proof} + + +\subsection{Самосопряженные, кососимметрические, унитарные, + ортогональные операторы} + +\literature{[F], гл. XIII, \S~5; [K2], гл. 3, \S~3, пп. 3, 6; [KM], + ч. 2, \S~7, пп. 1--2, 4; \S~8, пп. 2--6.} + +Сейчас мы применим знания, полученные при изучении нормальных +операторов, к некоторым частным случаям. + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$a\colon V\to V$~--- линейный оператор. +Оператор $a$ называется +\dfn{самосопряженным}\index{оператор!самосопряженный}, если он +совпадает со своим сопряженным: $a = a^*$. Оператор $a$ называется +\dfn{кососимметрическим}\index{оператор!кососимметрический}, если он +противоположен своему сопряженному: +$a = -a^*$. Если выполняется равенство $a\circ a^* = a^*\circ a = +\id_V$, то оператор $a$ называется +\dfn{унитарным}\index{оператор!унитарный} в случае унитарного +пространства и \dfn{ортогональным}\index{оператор!ортогональный} в +случае эвклидового пространства. +\end{definition} + +\begin{remark} +Нетрудно видеть, что самосопряженные, кососимметрические, унитарные, +ортогональные операторы являются нормальными. +\end{remark} + +\begin{theorem}\label{thm:unitary_canonical_forms} +Пусть $(V,B)$~--- конечномерное унитарное пространство, +$a\colon V\to V$~--- линейный оператор. +\begin{enumerate} +\item Оператор $a$ является самосопряженным тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ диагональна, и все ее +диагональные элементы вещественны. +\item Оператор $a$ является кососимметрическим тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ диагональна, и все ее +диагональные элементы~--- чисто мнимые комплексные числа. +\item Оператор $a$ является унитарным тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ диагональна, и все ее +диагональные элементы~--- комплексные числа, равные по модулю $1$. +\end{enumerate} +\end{theorem} +\begin{proof} +Если оператор самосопряженный, кососимметрический, нормальный, то по +теореме~\ref{thm:spectral-unitary} существует базис, в котором его +матрица диагональна. Если он самосопряжен, то каждый диагональный +блок $1\times 1$ самосопряжен, поэтому в нем стоит комплексное число +$\lambda$ такое, что $\lambda=\ol\lambda$, то есть, $\lambda\in\mb R$. +Аналогично, из кососимметричности следует, что $\lambda$ чисто мнимое, +а из унитарности~--- то, что $|\lambda|^2 = \lambda\ol\lambda = 1$. + +Обратно, если все диагональные элементы матрицы имеют указанный вид, +то прямая проверка показывает, что оператор $a$ обладает +соответствующим свойством. +\end{proof} + +\begin{theorem}\label{thm:euclidean_canonical_forms} +Пусть $(V,B)$~--- конечномерное эвклидово пространство, +$a\colon V\to V$~--- линейный оператор. +\begin{enumerate} +\item Оператор $a$ является самосопряженным тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ диагональна. +\item Оператор $a$ является кососимметрическим тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ имеет блочно-диагональный +вид, и каждый блок выглядит как $(0)$ или $\begin{pmatrix} 0 & -b + \\ b & 0\end{pmatrix}$ для $b\in\mb R$, $\beta > 0$. +\item Оператор $a$ является ортогональным тогда и +только тогда, когда существует ортонормированный базис пространства +$V$, в котором матрица оператора $a$ имеет блочно-диагональный +вид, и каждый блок выглядит как $(1)$, $(-1)$ +или $\begin{pmatrix}a&-b\\ b & a\end{pmatrix}$ для +$a,b\in\mb R$, $b > 0$, $a^2 + b^2 = 1$. +\end{enumerate} +\end{theorem} +\begin{proof} +Если оператор самосопряженный, кососимметрический, нормальный, то по +теореме~\ref{thm:spectral-euclidean} существует базис, в котором его +матрица блочно-диагональна, с блоками вида +$$ +\begin{pmatrix} +a & -b\\ +b & a +\end{pmatrix}, +$$ +где $b>0$. +Если он самосопряжен, то каждый диагональный блок самосопряжен, что +для блока $2\times 2$ указанного вида означает, что $b=-b$, +что невозможно. Поэтому остаются только блоки размера $1\times 1$, +что означает диагональность матрицы. Аналогично, из кососимметричности +для блока $2\times 2$ следует, что $a=0$, а для блока $(\lambda)$ +размера $1\times 1$~--- что $\lambda = 0$. Наконец, из ортогональности +для блока $2\times 2$ следует, что $s^2+b^2=1$, а для блока +$(\lambda)$~--- что $\lambda^2=1$, откуда следует, что $\lambda=\pm 1$. + +Обратно, если матрица оператора состоит из блоков указанного вида, +нетрудно проверить, что оператор обладает соответствующим свойством. +\end{proof} + +\begin{definition} +Пусть $(V,B)$~--- эвклидово или унитарное пространство, +$a\colon V\to V$~--- линейный оператор. +Будем говорить, что оператор $a$ \dfn{сохраняет скалярное + произведение}\index{оператор!сохраняет скалярное произведение}, +если $B(a(u),a(v))=B(u,v)$ для любых $u,v\in V$. +Оператор $a$ называется \dfn{изометрией}\index{изометрия}, если +$||a(v)|| = ||v||$ для всех $v\in V$. +\end{definition} + +\begin{lemma}\label{lem:isometry_equiv} +Пусть $a\colon V\to V$~--- линейный оператор на эвклидовом или +унитарном пространстве $(V,B)$. Следующие условия равносильны: +\begin{enumerate} +\item $a$ ортогонален (в случае эвклидова пространства) или унитарен + (в случае унитарного пространства); +\item $a$ сохраняет скалярное произведение; +\item $a$ является изометрией. +\end{enumerate} +\end{lemma} +\begin{proof} +\begin{itemize} +\item[$1\Rightarrow 2$] Пусть $a$ ортогонален/унитарен. Тогда + $B(a(u),a(v)) = B(u,a^*(a(v)))$ по определению сопряженного оператора; + из равенства $a^*\circ a = \id$ теперь следует, что $B(a(u),a(v)) = + B(u,v)$. +\item[$2\Rightarrow 1$] Пусть $B(a(u),a(v))= B(u,v)$ для всех $u,v\in + V$. По определению сопряженного оператора $B(a(u),a(v)) = + B(u,a^*(a(v)))$. Стало быть, $B(u,v) = B(u,a^*(a(v)))$ для всех + $u,v\in V$. Значит, вектор $v-a^*(a(v))$ ортогонален всем векторам $u\in V$, + откуда следует, что $v = a^*(a(v))$ для + всех $v\in V$. Поэтому $a^*\circ a = \id$. +\item[$2\Rightarrow 3$] Если $a$ сохраняет скалярное произведение, то, + в частности, $B(a(v),a(v)) = B(v,v)$ для всех $v\in V$. Левая часть + равна $||a(v)||^2$, а правая равна $||v||^2$. Извлекая + [положительные] квадратные корни, получаем, что $a$ является + изометрией. +\item[$3\Rightarrow 2$] Если $a$ является изометрией, то + $B(a(u+\lambda v),a(u+\lambda v)) = B(u+\lambda v,u+\lambda + v)$. Раскроем скобки: + \begin{align*} + &B(a(u),a(u)) + \ol\lambda B(a(v),a(u)) + \lambda B(a(u),a(v)) + + \ol\lambda\lambda B(a(v),a(v))\\ &= B(u,u) + \ol\lambda B(v,u) + + \lambda B(u,v) + \ol\lambda\lambda B(v,v). + \end{align*} + Воспользуемся равенствами $B(a(x),a(x)) = B(x,x)$ и $B(x,y) = + \ol{B(x,y)}$: + $$ + \lambda B(a(u),a(v)) + \ol{\lambda B(a(u),a(v))} = + \lambda B(u,v) + \ol{\lambda B(u,v)}. + $$ + Подставляя $\lambda=1$ и $\lambda = i$, получаем равенства + $$ + 2\Ree(B(a(u),a(v)) = 2\Ree(B(u,v)), \quad + 2\Img(B(a(u),a(v)) = 2\Img(B(u,v)). + $$ + Отсюда следует, что $B(a(u),a(v)) = B(u,v)$, что и требовалось. +\end{itemize} +\end{proof} + +\begin{corollary}[Теорема Эйлера о вращениях трехмерного пространства] +Пусть $V = \mb R^3$~--- трехмерное вещественное пространство со +стандартным эвклидовым скалярным произведением, $a\colon\mb +R^3\to\mb R^3$~--- изометрия на $\mb R^3$. Тогда в некотором +ортогональном базисе матрица оператора $a$ имеет вид +$$ +\begin{pmatrix} +\pm 1 & 0 & 0\\ +0 & \cos(\ph) & \sin(\ph)\\ +0 & -\sin(\ph) & \cos(\ph) +\end{pmatrix} +$$ +для некоторого угла $\ph$. +Если, кроме того, определитель оператора $a$ равен $1$, то элемент в +левом верхнем углу такой матрицы равен $1$. +\end{corollary} +\begin{proof} +По лемме~\ref{lem:isometry_equiv} оператор $a$ ортогонален. По +теореме~\ref{thm:euclidean_canonical_forms} найдется ортогональный +базис $V$, в котором матрица оператора $a$ имеет блочно-диагональный +вид, и блоки имеют вид $(\pm 1)$ или +$\begin{pmatrix}\cos(\ph)&\sin(\ph)\\-\sin(\ph)&\cos(\ph)\end{pmatrix}$. Если +там имеется блок размера $2$, то теорема доказана. Если же все блоки +имеют размер $1$, то среди знаков $\pm 1$ найдется два одинаковых, и +их можно заменить на блок размера $2$ вида +$\begin{pmatrix}\cos(\ph)&\sin(\ph)\\-\sin(\ph)&\cos(\ph)\end{pmatrix}$ +для $\ph=0$ или $\ph = \pi$. Последнее утверждение теоремы очевидно. +\end{proof} + +\begin{corollary}[Приведение вещественной квадратичной формы к + диагональному виду при помощи ортогонального преобразования] +Пусть $(V,B)$~--- эвклидово пространство, и пусть +$q\colon V\times V\to B$~--- симметрическая билинейная +форма. Существует ортогональный базис пространства $V$, в котором +матрица Грама формы $q$ имеет диагональный вид. +\end{corollary} +\begin{proof} +Выберем некоторый ортонормированный базис $\mc B$ пространства $V$; +пусть $Q$~--- матрица Грама формы $q$ в этом базисе. +Поскольку форма $q$ симметрична, матрица $Q$ является симметричной +матрицей: $Q^T = Q$. Рассмотрим $Q$ как матрицу некоторого оператора +$a$ на пространстве $V$; по предложению~\ref{prop:adjoint_matrix} +оператор $q$ самосопряжен. +По теореме~\ref{thm:euclidean_canonical_forms} существует +ортонормированный базис $\mc C$ пространства $V$, в котором матрица +оператора $a$ диагональна. Это означает, что +$C^{-1}QC = D$~--- диагональная матрица, где $C$~--- матрица перехода +от базиса $\mc B$ к базису $\mc C$ +(см. теорему~\ref{thm_matrix_under_change_of_bases}). Кроме того, +поскольку $C$~--- матрица перехода между ортонормированными базисами, +то $C$ ортогональна (лемма~\ref{lem:orthogonal_equivalencies}): $C^T = +C^{-1}$. Но тогда +$D = C^TQC$, и по теореме~\ref{thm:Gram_matrix_change_of_coordinates} +это означает, что $D$~--- матрица Грама +квадратичной формы $q$ в ортонормированном базисе $\mc C$. +\end{proof} + +\begin{remark}\label{rem:self_adjoint_geometry} +Переформулируем утверждение первого пункта +теоремы~\ref{thm:euclidean_canonical_forms} на геометрическом языке. +Если $a$~--- самосопряженный оператор на эвклидовом пространстве $V$, +мы показали, что в некотором ортонормированном базисе его матрица $A$ +имеет диагональный вид. Пусть $\lambda_1,\dots,\lambda_m$~--- все +различные собственные числа $a$; тогда у матрицы $A$ на диагонали +стоят числа $\lambda_1,\dots,\lambda_m$ (возможно, некоторые +встречаются по несколько раз). Очевидно, что собственное +подпространство, соответствующее $\lambda_i$~--- это в точности +линейная оболочка базисных векторов, соответствующих позициям, в +которых на диагонали стоит $\lambda_i$. Поскольку базис +ортонормирован, собственные подпространства, соответствующие различным +собственным числам, попарно ортогональны; кроме того, их прямая сумма +совпадает со всем пространством $V$ (см. также +раздел~\ref{subsect:diagonalizable}). + +Таким образом, каждому самосопряженному оператору на $V$ мы сопоставили +разложение пространства $V$ в ортогональную прямую сумму +собственных подпространств, соответствующих различным собственным +числам этого оператора. +Обратно, если имеется разложение пространства $V$ в ортогональную +прямую сумму подпространств $V=\bigoplus_{i=1}^{m}V_m$ и заданы +различные числа $\lambda_1,\dots,\lambda_m$, то имеется единственный +самосопряженный оператор $a$, который на векторе $v=\sum_{i=1}^m v_i$ (для +$v_i\in V_i$) действует следующим образом: $a(v) = \sum_{i=1}^m +\lambda_i v_i$. Если в каждом подпространстве $V_i$ выбрать +ортонормированный базис, то объединение этих базисов является +ортонормированным базисом пространства $V$, и матрица оператора $a$ в +этом базисе диагональна; на диагонали стоят числа +$\lambda_1,\dots,\lambda_m$, и кратность $\lambda_i$ равна размерности +подпространства $V_i$. + +Мы получили взаимно однозначное соответствие между самосопряженными +операторами и разложениями $V=\bigoplus_{i=1}^m V_i$ с заданными +попарно различными числами $\lambda_1,\dots,\lambda_m$. +\end{remark} + +\subsection{Положительно определенные операторы} + +\literature{[F], гл. XIII, \S~4, п. 4; [K2], гл. 3, \S~3, пп. 8, 9.} + +Пусть $(V,B)$~--- эвклидово или унитарное пространство, $a\colon V\to +V$~--- самосопряженный оператор на нем. +Тогда в силу самосопряженности $B(a(v),v) = B(v,a(v))$ для любого $v\in +V$; с другой стороны, $B(a(v),v) = \overline{B(v,a(v))}$. Поэтому +выражение $B(a(v),v)$ всегда вещественно. + +\begin{definition} +Самосопряженный оператор $a\colon V\to V$ на эвклидовом или унитарном +пространстве $V$ называется \dfn{неотрицательно + определенным}\index{оператор!неотрицательно определенный}, если +$B(a(v),v)\geq 0$ для любого $v\in V$. Оператор $a$ называется +\dfn{положительно +определенным}\index{оператор!положительно определенный}, если он +неотрицательно определен и из +$B(a(v),v)=0$ следует, что $v=0$. +\end{definition} + +\begin{proposition}\label{prop:positive_definition} +Оператор $a\colon V\to V$ на эвклидовом или унитарном пространстве $V$ +неотрицательно определен тогда и только тогда, когда в некотором +ортонормированном базисе матрица этого оператора диагональна, причем +на диагонали стоят неотрицательные вещественные числа. +Оператор $a$ положительно определен тогда и только тогда, когда в +некотором ортонормированном базисе матрица этого оператора +диагональна, причем на диагонали стоят положительные вещественные числа. +\end{proposition} +\begin{proof} +Если $a$ неотрицательно определен, то он (по определению) +самосопряжен, и по теоремам~\ref{thm:unitary_canonical_forms} +и~\ref{thm:euclidean_canonical_forms} существует ортонормированный +базис $\mc B = (e_1,\dots,e_n)$, в котором $a$ имеет +диагональную матрицу +$$ +[a]_{\mc B} = \begin{pmatrix}\lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & + \dots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & + \lambda_n\end{pmatrix}. +$$ +Предположим, что $\lambda_i<0$. Тогда $a(e_i) = \lambda_ie_i$ и +$B(a(e_i),e_i) = \lambda_i B(e_i,e_i) = \lambda_i < 0$, что +противоречит неотрицательной определенности $a$. Если же $a$ +положительно определен, то и случай $\lambda_i=0$ невозможен: если +$\lambda_i=0$, то $B(a(e_i),e_i) = \lambda_i = 0$, в то время как +$e_i\neq 0$. + +Обратно, пусть $a$ в некотором ортонормированном базисе $\mc +B=\{e_1,\dots,e_n\}$ имеет +диагональную матрицу с неотрицательными числами +$\lambda_1,\dots,\lambda_n$ на диагонали. По +теоремам~\ref{thm:unitary_canonical_forms} +и~\ref{thm:euclidean_canonical_forms} мы уже знаем, что $a$ +самосопряжен. Разложим произвольный вектор $v$ по базису $\mc B$: +$v = \sum_i c_i e_i$. +Тогда $a(v) = \sum_i c_i a(e_i) = \sum_i c_i\lambda_i e_i$. +Поэтому +$$ +B(a(v),v) = B(\sum_i c_i\lambda_i e_i,\sum_j c_i e_j) += \sum_{i,j}\overline{c_i}\lambda_i c_j B(e_i,e_j) += \sum_i\lambda_i \overline{c_i}c_i B(e_i,e_i) += \sum_i\lambda_i |c_i|^2 \geq 0. +$$ +Если же все $\lambda_i>0$ и оказалось, что $\sum_i\lambda_i +|c_i|^2=0$, то и $c_i=0$ для всех $i$, откуда $v=0$. +\end{proof} + +\begin{remark}\label{rem:positive_invertible} +Таким образом, положительно определенный оператор всегда является +обратимым: его матрица в некотором базисе имеет +ненулевой определитель. Кроме того, если неотрицательно определенный +оператор обратим, то он положительно определен: у обратимой +диагональной матрицы не может встретиться $0$ на диагонали. +\end{remark} + +\begin{theorem}[Извлечение квадратного корня в классе положительно + определенных операторов]\label{thm:square_root_positive} +Пусть $a\colon V\to V$~--- положительно определенный +оператор на эвклидовом или унитарном пространстве $V$. Существует +единственный положительно определенный оператор +$b\colon V\to V$ такой, что $b^2 = a$. +\end{theorem} +\begin{proof} +По предложению~\ref{prop:positive_definition} найдется базис +$\mc B=(e_1,\dots,e_n)$, такой, что +$$ +[a]_{\mc B} = \begin{pmatrix}\lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & + \dots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & + \lambda_n\end{pmatrix}, +$$ +причем $\lambda_i$~--- положительно вещественные числа. Рассмотрим +оператор $b$, матрица которого в базисе $\mc B$ равна +$$ +[a]_{\mc B} = \begin{pmatrix}\sqrt{\lambda_1} & 0 & \dots & 0 \\ 0 & \sqrt{\lambda_2} & + \dots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & + \sqrt{\lambda_n}\end{pmatrix}. +$$ +Заметим, что $\sqrt{\lambda_i}>0$ для всех $i$, поэтому (снова по +предложению~\ref{prop:positive_definition}) оператор $b$ положительно +определен. Кроме того, очевидно, что $b^2 = a$. + +Нам осталось показать, что такой оператор $b$ единственный. +Пусть $\widetilde{b}$~--- другой оператор с теми же +свойствами: $\widetilde{b}$ положительно определен и $\widetilde{b}^2 += a$. + Воспользуемся замечанием~\ref{rem:self_adjoint_geometry} +для оператора $\widetilde{b}$. А именно, пусть $\mu_1,\dots,\mu_n$~--- +собственные числа оператора $\widetilde{b}$ с учетом кратности. Тогда +$\widetilde{b}$ приводится в некотором базисе к диагональному виду, и +на диагонали стоят положительные числа $\mu_1,\dots,\mu_n$. Но тогда $a = +\widetilde{b}^2$ в этом же базисе имеет диагональный вид, и на +диагонали стоят числа $\mu_1^2,\dots,\mu_n^2$. Значит, собственные +числа оператора $a$ (с учетом кратности) равны +$\mu_1^2,\dots,\mu_n^2$. С другой стороны, мы знаем, что они равны +$\lambda_1,\dots,\lambda_n$. Мы знаем, что $\mu_i>0$ для всех $i$, +поэтому набор $\mu_1,\dots,\mu_n$ совпадает (с точностью до +перестановки) с набором $\sqrt{\lambda_1},\dots,\sqrt{\lambda_n}$. + +Мы получили, что наборы собственных чисел операторов $b$ и +$\widetilde{b}$ совпадают. Осталось показать, что собственные +подпространства для этих операторов, соответствующие одинаковым +собственным числам, совпадают, и воспользоваться соответствием из +замечания~\ref{rem:self_adjoint_geometry}. + +Пусть теперь $V_i$~--- собственное подпространство для оператора $b$, +соответствующее собственному числу $\sqrt{\lambda_i}$. Оно натянуто на те +векторы базиса $\mc B$, которым соответствуют номера столбиков, в +которых в матрице $b$ стоят числа $\sqrt{\lambda_i}$. После возведения +в квадрат матрица остается диагональной, поэтому $V_i$ является +собственным подпространством оператора $a$, соответствующим +собственному числу $\lambda_i$. Но то же самое рассуждение применимо и +к оператору $\widetilde{b}$. Поэтому собственные подпространства для +операторов $b$ и $\widetilde{b}$, соответствующие $\sqrt{\lambda_i}$, +совпадают. +\end{proof} + +Следующая теорема является прямым обобщением того факта, что +любое ненулевое комплексное число $z$ можно (единственным образом) +записать в +тригонометрической форме +(см. определение~\ref{dfn:trigonometric_form}): +$z = |z|\cdot (\cos(\ph)+i\sin(\ph))$. +Здесь +$|z|$~--- положительное вещественное число, а $(\cos(\ph) + +i\sin(\ph))$~--- комплексное число, которое по модулю равно +$1$. Полярное разложение обобщает эту теорему на многомерный случай: +слова <<ненулевое число>> нужно заменить на <<обратимый оператор>>, +слова <<положительное вещественное число>> на <<положительно +определенный оператор>>, а <<комплексное число, равное по модулю +$1$>>~--- на <<унитарный оператор>>. Обратите внимание, что матрица +$1\times 1$ задается ровно одним числом, поэтому при подстановке в +следующую теорему одномерного векторного пространства $V=\mb C$ +действительно получается утверждение о тригонометрической форме +комплексного числа. Вещественный случай еще проще: если +$z\in\mb R\setminus\{0\}$, то $z = |z|\cdot(\pm 1)$; ортогональный +оператор на одномерном пространстве может быть равен лишь $1$ или +$-1$. + +\begin{theorem}[Полярное разложение]\label{thm:polar_decomposition} +Пусть $a\colon V\to V$~--- обратимый оператор на эвклидовом или +унитарном пространстве. Тогда существуют операторы $p,u\colon V\to V$ +такие, что $a = pu$, причем $p$~--- положительно определенный +оператор, а $u$~--- ортогональный или унитарный. Более того, такие +операторы единственны: если $a=p'u'$ для положительно определенного +$p$ и ортогонального/унитарного $u$, то $p=p'$ и $u=u'$. +\end{theorem} +\begin{proof} +Рассмотрим оператор $c = a\circ a^*$. Заметим, что $c$ самосопряжен: +действительно, $c^* = (a\circ a^*)^* = a^{**}\circ a^* = a\circ a^* = +c$. +Кроме того, $c$ неотрицательно определен: +$B(c(v),v) = B((a\circ a^*)(v),v) = B(a(a^*(v)),v) = +B(a^*(v),a^*(v))\geq 0$. +Наконец, поскольку $a$ обратим, то и $a^*$ обратим (их матрицы в +ортонормированном базисе транспонированны, поэтому из обратимости +одной следует обратимость другой), значит, и $c$ обратим; поэтому $c$ +положительно определен (см. замечание~\ref{rem:positive_invertible}). +По теореме~\ref{thm:square_root_positive} из $c$ можно извлечь +квадратный корень: найдется положительно определенный оператор $p$ +такой, что $p^2 = c = a\circ a^*$. В силу положительной определенности +оператор $p$ обратим. +Обозначим теперь $u = p^{-1}a$. Тогда, очевидно, $a = pu$, и осталось +проверить, что $u$~--- ортогональный/унитарный оператор. +Заметим сначала, что $pp^{-1} = \id$, поэтому +$(pp^{-1})^* = \id^* = \id$, откуда $(p^{-1})^* = p^{-1}$. +Поэтому $u\circ u^* = p^{-1}a(p^{-1}a)^* = p^{-1}aa^*(p^{-1})^* = +p^{-1}p^2 p^{-1} = \id$, что и требовалось. + +Наконец, если $pu = a = p'u'$, то $(pu)^* = (p'u')^*$, откуда $u^* p = +(u')^*p'$. Из этого следует, что +$(pu)(u^*p) = (p'u')((u')^*p^*)$, откуда $p^2 = (p')^2$, и в силу +единственности извлечения квадратного корня +(теорема~\ref{thm:square_root_positive}), получаем, что +$p=p'$, и, стало быть, $u=u'$. +\end{proof} + +\begin{remark} +Даже доказательство теоремы~\ref{thm:polar_decomposition} + напоминает доказательство факта про +тригонометрическую форму записи комплексного числа: напомним, что +модуль комплексного числа $z$ определялся как $\sqrt{z\cdot\ol{z}}$ +(см. определение~\ref{dfn:absolute_value_complex}); извлечение корня +возможно в силу неотрицательности $z\cdot\ol{z}$. +\end{remark} diff --git a/group-theory.tex b/group-theory.tex new file mode 100644 index 0000000..9f3d719 --- /dev/null +++ b/group-theory.tex @@ -0,0 +1,1421 @@ +\section{Теория групп} + +\subsection{Определения и примеры} + +\literature{[F], гл.~I, \S~3, п. 1, гл.~X, \S~1, пп. 1--2, \S~5, п. 1; +[K1], гл. 4, \S~2, п. 1; [vdW], гл. 2, \S~6; [Bog], гл. 1, \S~1.} + +Мы уже встречали определение группы (см. определение \ref{def_group}): +\begin{definition}\label{def_group_new} +Множество $G$ с бинарной операцией $\circ\colon G\times G\to G$ +называется +\dfn{группой}\index{группа}, если выполняются следующие свойства: +\begin{itemize} +\item $a\circ (b\circ c)=(a\circ b)\circ c$ для всех $a,b,c\in G$; + (\dfn{ассоциативность}\index{ассоциативность!в группе}); +\item существует элемент $e\in G$ (\dfn{единичный + элемент}\index{единичный элемент!в группе}) такой, что + для любого $a\in G$ + выполнено $a\circ e=e\circ a=a$; +\item для любого $a\in G$ найдется элемент $a^{-1}\in G$ (называемый + \dfn{обратным}\index{обратный элемент!в группе} к $a$) такой, что + $a\circ a^{-1}=a^{-1}\circ a=e$. +\end{itemize} +Группа $G$ называется \dfn{коммутативной}, или +\dfn{абелевой}\index{группа!коммутативная}\index{группа!абелева}, если +$a\circ b=b\circ a$ для всех $a,b\in G$. +\end{definition} + +В прошлом семестре мы некоторое время изучали {\em группу + перестановок} $S(X)$ множества $X$ +(см. определение~\ref{def:symmetric_group}): +\begin{definition}\label{def:symmetric_group_new} +Множество всех биекций из $X$ в $X$ обозначается через $S(X)$ и +называется \dfn{группой перестановок}\index{группа!перестановок} +множества $X$. Тождественное +отображение $\id_X\colon X\to X$ называется \dfn{тождественной + перестановкой}\index{тождественная перестановка}. +Если $X=\{1,\dots,n\}$, мы обозначаем группу $S(X)$ через $S_n$ и +называем ее \dfn{симметрической группой на $n$ + элементах}\index{группа!симметрическая}. +\end{definition} +В разделе~\ref{subsect:permutations} мы видели, что группа $S_n$ +не является абелевой при $n\geq 3$. + +На самом деле мы встречали и другие группы. + +\begin{examples}\label{examples:group} +\hspace{1em} +\begin{enumerate} +\item Пусть $R$~--- кольцо (см.определение~\ref{def:ring}). В + частности, это + означает что на $R$ задана операция сложения. Из определения кольца + сразу следует, что $R$ относительно этой операции сложения является + абелевой группой. Она называется \dfn{аддитивной группой + кольца}\index{группа!кольца, аддитивная}. В + частности, множества $\mb Z$, $\mb Q$, $\mb R$, $\mb C$ являются + абелевыми группами относительно сложения. +\item Пусть $V$~--- векторное пространство над полем $k$ + (см. определение~\ref{def:vector_space}). В частности, на $V$ задана + операция сложения. Относительно этой операции множество $V$ является + абелевой группой. +\item\label{item:group_of_units_of_a_field} + Пусть $k$~--- поле. Тогда умножение является ассоциативной, + коммутативной операцией, единица поля является нейтральным элементом + относительно этой операции, и у каждого ненулевого элемента имеется + обратный. Это означает, что $k^* = k\setminus\{0\}$ является + абелевой группой. Эта группа называется \dfn{мультипликативной + группой поля $k$}\index{группа!поля, мультипликативная}. В + частности, множества $\mb Q^*$, $\mb R^*$, $\mb C$ являются + абелевыми группами относительно умножения. +\item\label{item:group_of_units} Более общо, пусть $R$~--- + ассоциативное кольцо с единицей (не + обязательно коммутативное). Обозначим через $R^*$ множество + {\em двусторонне обратимых} элементов $R$, то есть, множество + элементов $x\in R$ таких, что существует $y\in R$, для которого + $xy=yx=1$. Нетрудно проверить (сделайте это!), что множество $R^*$ + образует группу относительно умножения. Эта группа называется + \dfn{группой обратимых элементов кольца $R$}\index{группа!обратимых + элементов кольца}. В частности, если $R$~--- поле, то все + ненулевые элементы $R$ [двусторонне] обратимы, и мы получаем + мультипликативную группу поля из предыдущего примера. Простейший + пример: $\mb Z^* = \{1,-1\}$. +\item Пусть $k$~--- некоторое поле, $n\geq 1$. Мы знаем, что множество + квадратных матриц размера $n\times n$ образует кольцо относительно + операций сложения и умножения матриц + (см. замечание~\ref{rem:matrix_multiplication_properties}). Группа + обратимых элементов этого кольца обозначается через $\GL(n,k)$ и + называется \dfn{полной линейной группой}\index{группа!полная + линейная}. Таким образом, $\GL(n,k)$ состоит из обратимых матриц + размера $n\times n$, и это группа относительно операции умножения. + В частности, при $n=1$ получаем группу $k^*$ обратимых элементов + поля $k$ (см. пример~\ref{item:group_of_units_of_a_field}). +\item\label{item:special_linear_example} В продолжение предыдущего + примера, рассмотрим подмножество + $\SL(n,k)\subseteq\GL(n,k)$, состоящее из матриц с определителем + $1$. Напомним, что определитель произведения матриц равен + произведению их определителей, и + (см. теорему~\ref{thm:determinant_product}). Более того, если + $x\in\SL(n,k)$~--- матрица с определителем $1$, то и обратная + матрица $x^{-1}$ имеет определитель $1$. Поэтому + множество $\SL(n,k)$ само является группой относительно операции + умножения. Эта группа называется \dfn{специальной линейной + группой}\index{группа!специальная линейная}. +\item\label{item:group_of_angles} + Пусть $\mb T = \{z\in\mb C\mid |z| = 1\}$~--- множество + комплексных чисел с модулем $1$. Это группа по умножению + (поскольку модуль комплексного числа мультипликативен, + см. предложение~\ref{prop_abs_properties}). + Она часто называется \dfn{группой углов}\index{группа!углов}. + Ниже (см.~\ref{???}) мы приведем другое ее описание, не использующее + комплексных чисел. +\item\label{item:geometric_groups} Наиболее архетипичный пример группы + выглядит так: рассмотрим все обратимые преобразования + ({\it автоморфизмы}) некоторого объекта в себя (и/или сохраняющих + {\it нечто}). Это группа + относительно композиции: действительно, композиция преобразований + объекта в себя (сохраняющих {\it нечто}) является преобразованием + объекта в себя (сохраняющим {\it нечто}); композиция преобразований + всегда ассоциативна; тождественное преобразование должно сохранять + {\it нечто} и потому является нейтральным элементом; наконец, мы + потребовали обратимость, поэтому и с обратными элементами нет + проблемы. Рассмотренные выше примеры все сводятся к + этому. Симметрическая группа~--- это просто группа обратимых + преобразований {\it множества} без всякой дополнительной + структуры. $\GL(n,k)$~--- группа преобразований векторного + пространства (сохраняющих структуру векторного пространства~--- + сложение и умножение на скаляры~--- то есть, + {\it линейных}). $\SL(n,k)$~--- группа линейных преобразований + определителя $1$, то есть, {\it сохраняющих ориентированный объем} + (мы узнаем, что это такое, в главе 11). Даже группу целых чисел по + сложению можно интерпретировать схожим образом: рассмотрим целое + число $x$ как сдвиг вещественной прямой (с отмеченными целыми + точками) на $x$ вправо (если $x$ отрицательно, получаем сдвиг + влево). Композиция таких сдвигов в точности соответствует сложению + целых чисел. Такой {\it геометрический взгляд} на теорию групп + чрезвычайно продуктивен: более того, Давид Гильберт + продемонстрировал, что синтетическая геометрия (эвклидова, геометрия + Лобачевского, проективная) целиком вкладывается в теорию групп. +\end{enumerate} +\end{examples} + +\subsection{Подгруппы} + +\literature{[F], гл.~X, \S~1, пп. 3--4, \S~3, п. 6; [vdW], гл. 2, + \S~7; [Bog], гл. 1, \S~1.} + +Ситуация, описанная в примере~\ref{examples:group} +(\ref{item:special_linear_example}), +встречается достаточно часто: +\begin{definition}\label{def:subgroup} +Пусть $G$~--- некоторая группа. Подмножество $H\subseteq G$ называется +\dfn{подгруппой}\index{подгруппа} группы $G$, если выполнены следующие +условия: +\begin{enumerate} +\item если $h,h'\in H$, то $h\circ h'\in H$. +\item если $h\in H$, то $h^{-1}\in H$. +\end{enumerate} +Обозначение: $H\leq G$. +\end{definition} +Заметим, что если $H$~--- подгруппа группы $G$, то множество $H$ само +является группой относительно той же операции (точнее, относительно +{\em ограничения} этой операции на $H$). + +\begin{examples} +\begin{enumerate} +\item В любой группе $G$ имеются подгруппы $\{e\}\leq G$ и $G\leq G$; + подгруппа $\{e\}$ называется + \dfn{тривиальной}\index{подгруппа!тривиальная} и часто обозначается + через $1$ или $0$ (если групповая операция в $G$ записывается + мультипликативно или аддитивно, соответственно). +\item Как мы уже видели выше, $\SL(n,k)\leq\GL(n,k)$. +\item Напомним, что все перестановки из $S_n$ делятся на {\em четные} + и {\em нечетные} (см. определение~\ref{def:permutation_sign}), + причем произведение четных перестановок четно + (теорема~\ref{thm:permutation_sign_product}), и обратная к четной + перестановке четна + (следствие~\ref{cor:permutation_sign_inverse}). Это означает, что + множество четных перестановок образует подгруппу в $S_n$. Она + обозначается через $A_n$ и называется \dfn{знакопеременной + группой}\index{группа!знакопеременная}. +\item Рассмотрим аддитивную группу целых чисел $\mathbb Z$. Пусть + $m\in\mb N$. Множество $m\mb Z = \{mx\mid x\in\mb Z\}$ является + подгруппой в $\mb Z$. Действительно, $mx+my = m(x+y)\in m\mb Z$ и + $-mx = m(-x)\in m\mb Z$. В частности, $0\mb Z = 0$, $1\mb Z = \mb + Z$. + Ниже мы увидим, что любая подгруппа $\mb Z$ + имеет вид $m\mb Z$ для некоторого натурального $m$. +\end{enumerate} +\end{examples} + +\begin{theorem}\label{thm:subgroups_of_z} +Любая подгруппа $G$ аддитивной группы $\mb Z$ целых чисел имеет вид +$m\mb Z$ для некоторого натурального $m$. +\end{theorem} +\begin{proof} +Если $G=\{0\}$, можно взять $m=0$. В противном случае выберем +наименьший по модулю элемент из $G\setminus\{0\}$. Заменив при +необходимости знак, можно считать, что этот элемент больше +нуля. Обозначим его через $m$ и покажем, что $G = m\mb Z$. Во-первых, +для натурального $x$ имеем $mx = \underbrace{m+\dots+m}_{x}\in G$ и +$m(-x) = (-m)x = \underbrace{(-m) + \dots + (-m)}_{x}\in G$; поэтому +$m\mb Z\subseteq G$. Обратно, пусть $g\in G$. Поделим с остатком $g$ +на $m$: $g = mq + r$. При этом $0\leq r < |m| = m$. Поскольку $g\in G$ +и $mq\in G$, получае, что $r = g - mq\in G$. Если $r\neq 0$, это +противоречит минимальности $m$. Значит, $g = mq$ и мы показали, что +$g\in m\mb Z$. Это доказывает обратное включение $G\subseteq m\mb Z$. +\end{proof} + +Полезно знать, что пересечение произвольного (конечного или +бесконечного) набора подгрупп группы $G$ снова является подгруппой в +$G$. +\begin{lemma}\label{lem:intersection_of_subgroups} +Пусть $\{H_i\}_{i\in I}$~--- семейство подгрупп группы $G$. +Обозначим $H=\bigcap_{i\in I} H_i$. Тогда $H\leq G$. +\end{lemma} +\begin{proof} +Если $h,h'\in H$, то $h,h'\in H_i$ и $h^{-1}\in H_i$ для всех $i\in +I$, и поэтому $hh', h^{-1}\in H_i$ для всех $i\in I$, откуда $hh', +h^{-1}\in H$. +\end{proof} + +Весьма важен следующий способ построения подгрупп: пусть $X$~--- +произвольное {\it подмножество} группы $G$. Мы хотим +<<наименьшими усилиями>> расширить $X$ так, чтобы получилась +подгруппа. + +\begin{definition}\label{def:subgroup_spanned} +Пусть $X\subseteq G$~--- подмножество группы $G$. Наименьшая +подгруппа в $G$, содержащая $X$, называется \dfn{подгруппой, + порожденной подмножеством $X$}\index{подгруппа!порожденная + подмножеством}, и обозначается через $\la X\ra$. Более подробно, +$\la X\ra\leq G$~--- такая подгруппа группы $G$, что +$X\subseteq \la X\ra$ и для любой подгруппы $H\leq G$, содержащей $X$, +выполнено $\la X\ra\leq H$. +\end{definition} + +\begin{remark} +Для конечного множества $X=\{x_1,\dots,x_n\}$ мы часто пишем +$\la x_1,\dots,x_n\ra$ вместо $\la \{x_1,\dots,x_n\}\ra$. +\end{remark} + +Определение~\ref{def:subgroup_spanned} хорошо всем, кроме одного: a +priori совершенно не +очевидно, что для данного подмножества $X\subseteq G$ существует +подгруппа $\la X\ra\leq G$ с указанными удивительными свойствами. +Следующее предложение показывает, что это действительно так. +\begin{proposition}\label{prop:subgroup_spanned_as_intersection} +Пусть $G$~--- группа, $X\subseteq G$. Пересечение всех подгрупп в $G$, +содержащих $X$, является подгруппой в $G$, порожденной множеством $X$. +\end{proposition} +\begin{proof} +По лемме~\ref{lem:intersection_of_subgroups} пересечение всех подгрупп +в $G$, содержащих $X$, является подгруппой в $G$. Обозначим ее через +$\la X\ra$ и проверим, что она удовлетворяет +определению~\ref{def:subgroup_spanned}. Действительно, множество $X$ +содержится во всех пересекаемых подгруппах, поэтому содержится в +$\la X\ra$. С другой стороны, если $H\leq G$ содержит $X$, то $H$ +является одной из пересекаемых подгрупп, поэтому полученное +пересечение $\la X\ra$ содержится в $H$. +\end{proof} + +\begin{remark} +Обратите внимание на сходство +предложения~\ref{prop:subgroup_spanned_as_intersection} и определения +линейной оболочки~\ref{dfn:linear-combination-and-span}. Понятие подгруппы, +порожденной множеством элементов $G$, является точным аналогом понятия +линейной оболочки множества элементов векторного +пространства. +\end{remark} + +\begin{lemma} +Пусть $G$~--- группа, $X\subseteq G$. Подгруппа, порожденная +множеством $X$~--- это множество всех произведений элементов $X$ и +обратных к ним: +$$ +\la X\ra = \{y_1y_2\dots y_n\mid y_i\in X\text{ или }y_i^{-1}\in +X\text{ для всех }i=1,\dots,n\}. +$$ +\end{lemma} +\begin{proof} +Обозначим правую часть равенства через $Y$. Докажем сначала, что +$Y\subseteq\la X\ra$. Пусть $y = y_1y_2\dots y_n$~--- некоторый +элемент $Y$; мы знаем, что каждый $y_i$ либо является элементом $X$, +либо является обратным к элементу $X$. +Если $H\leq G$~--- произвольная +подгруппа, содержащая $X$, то $H$ содержит и элементы $y_1,\dots,y_n$, +а потому содержит и их произведение $y$. Значит, $y$ лежит в +пересечении всех таких подгрупп $H$, которое равно $\la X\ra$ по +предложению~\ref{prop:subgroup_spanned_as_intersection}. + +Для доказательства обратного включения заметим, что множество $Y$ само +является подгруппой в $G$, содержащей множество $X$. В силу +определения~\ref{def:subgroup_spanned} из этого следует, что +$\la X\ra\leq Y$. +\end{proof} + +Следующее понятие продолжает эту мысль, вводя аналог +понятия {\it системы образующих} векторного пространства +(см. определение~\ref{dfn:spanning-set}). + +\begin{definition} +Говорят, что группа $G$ \dfn{порождается} множеством $X\subseteq G$, +и что $X$~--- \dfn{система порождающих}\index{система порождающих} +(или \dfn{порождающее множество}\index{порождающее множество}) группы +$G$, если $\la X\ra = G$. +\end{definition} + +\begin{examples} +\begin{enumerate} +\item Предложение~\ref{prop:product_of_transpositions} в точности + показывает, что группа $S_n$ порождается множеством всех + транспозиций, а вместе с + предложением~\ref{prop_odd_number_of_elementary_transpositions} оно + означает, что группа $S_n$ порождается множеством всех элементарных + транспозиций. +\item Группа целых чисел $(\mathbb Z,+)$ порождается одним элементом + $1$. Действительно, любое натуральное число $n$ является + суммой $n$ единиц: $n=\underbrace{1+1+\dots+1}_n$, а любое + отрицательное число $-n$ является суммой $n$ минус единиц: + $-n = \underbrace{(-1)+(-1)+\dots+(-1)}$. +\end{enumerate} +\end{examples} + +\subsection{Классы смежности и нормальные подгруппы} + +\literature{[F], гл.~X, \S~1, пп. 5, \S~2; [K3], гл. 1, \S~2, п. 1; + [vdW], гл. 2, \S\S~8--9; [Bog], гл. 1, \S~2.} + +\begin{definition} +Пусть $G$~--- группа, $H\leq G$~--- ее подгруппа, и $g\in +G$. Множество +$$ +gH = \{gh\mid h\in H\} +$$ +называется \dfn{правым смежным классом элемента $g$ по подгруппе $H$}. +Аналогично, множество +$$ +Hg = \{hg\mid h\in H\} +$$ +называется \dfn{левым смежным классом элемента $g$ по подгруппе $H$}. +\end{definition} + +\begin{proposition}~\label{prop:group_cosets} +Пусть $G$~--- группа, $H\leq G$. +Любые два правых смежных класса по подгруппе $H$ либо не пересекаются, +либо совпадают. Таким образом, группа $G$ разбивается на правые +смежные классы. +Аналогично, любые два левых смежных класса по подгруппе $H$ либо не +пересекаются, либо совпадают. Таким образом, $G$ разбивается на левые +смежные классы. +\end{proposition} +\begin{proof} +Пусть $gH, g'H$~--- два правых смежных класса. Предположим, что они +пересекаются: $x\in gH\cap g'H$. Тогда $x = gh = g'h'$ для некоторых +$h,h'\in H$, откуда $g = g'h'h^{-1}$. Если $y$~--- еще один элемент +$gH$, $y=gh''$, то $y = g'h'h^{-1}h''$, поэтому $y\in +g'H$. Аналогично, если $y\in g'H$, то $y\in gH$. Поэтому $gH = +g'H$. Осталось заметить, что каждый элемент $g\in G$ лежит в некотором +правом смежном классе, хотя бы, $g\in gH$. +Доказательство для левых смежных классов совершенно аналогично. +\end{proof} + +Предложение~\ref{prop:group_cosets} чрезвычайно похоже на +теорему~\ref{thm_quotient_set} о разбиении на классы эквивалентности. +Это не случайно: за смежными классами стоят достаточно естественные +отношения эквивалентности. + +\begin{definition} +Пусть $G$~--- группа, $H\leq G$. Введем на $G$ отношения $\sim_H$ и +${}_H{\sim}$. Будем говорить, что +$g\sim_Hg'$, если $g^{-1}g'\in H$. +Будем говорить, что $g{}_H{\sim} g'$, если $g'g^{-1}\in H$. +\end{definition} + +\begin{lemma} +Отношения $\sim_H$ и ${}_H{\sim}$ являются отношениями эквивалентности; +класс элемента $g\in G$ по отношению $\sim_H$~--- это в точности +правый смежный класс $gH$, а по отношению ${}_H{\sim}$~--- левый смежный +класс $Hg$. +\end{lemma} +\begin{proof} +Мы докажем лемму только для $\sim_H$ и правых смежных классов; +остальное совершенно аналогично. +Проверим рефлексивность, симметричность и транзитивность отношения +$\sim_H$: для $g\in G$ имеем $g^{-1}g=e\in H$, поэтому $g\sim_Hg$. +Если $g\sim_H g'$, то $g^{-1}g'\in H$, поэтому и $g'^{-1}g = +(g^{-1}g')^{-1}\in H$, откуда $g'\sim_H g$. Наконец, если $g\sim_H g'$ +и $g'\sim_H g''$, то $g^{-1}g'\in H$ и $g'^{-1}g''\in H$, поэтому и их +произведение $g^{-1}g''=(g^{-1}g')(g'^{-1}g'')\in H$, откуда +$g\sim_Hg''$. + +Заметим, что $y\in G$ лежит в классе элемента $g\in G$ +тогда и только тогда, когда $g\sim_H y$ +(см. определение~\ref{def_equiv_class}). Это равносильно тому, что +$g^{-1}y\in H$, то есть, что $g^{-1}y = h$ для некоторого $h\in +H$. Это, в свою очередь, равносильно тому, что $y=gh$, то есть, что +$y\in gH$. +\end{proof} + +\begin{definition} +Пусть $G$~--- группа, $H\leq G$. +Множество правых смежных классов $G$ по $H$ (оно же фактор-множество +$G$ по отношению эквивалентности $\sim_H$) обозначается через +$G/H$. Множество левых смежных классов $G$ по $H$ (оно же +фактор-множество $G$ по отношению эквивалентности ${}_H{\sim}$) +обозначается через $H\backslash G$. +\end{definition} + +\begin{remark}\label{rem:coset_analogy} +Отношения $\sim_H$ и ${}_H{\sim}$ являются прямыми аналогами сравнения +по модулю подпространства (см. определение~\ref{def:quotient_space}); +однако, отсутствие коммутативности приводит к тому, что необходимо +рассматривать два варианта обобщения: условие $v_1-v_2\in U$ из +определения~\ref{def:quotient_space} мы заменяем на $v_1v_2^{-1}$ в +одном варианте и на $v_2^{-1}$ в другом. Если группа $G$ абелева, то +$gH = Hg$ для всех $g\in G$, и отношения $\sim_H$, ${}_H{\sim}$ +совпадают. +\end{remark} + +Продолжим аналогию с линейной алгеброй: следующим шагом в построении +фактор-пространства было введение структуры векторного пространства на +множестве классов эквивалентности по модулю подпространства +(предложение~\ref{prop:quotient_space}). +В случае групп отсутствие коммутативности приводит к фатальным +последствиям: оказывается, что для произвольной подгруппы $H\leq G$ +фактор-множество $G/H$ не обязано снабжаться естественной структурой +группы. Для того, чтобы $G/H$ оказалось группой, необходимо наложить +на $H$ дополнительное условие {\it нормальности}. + +\begin{definition} +Пусть $G$~--- группа. Подгруппа $H\leq G$ называется +\dfn{нормальной}\index{подгруппа!нормальная} (обозначение: $H\trleq +G$), если для любого элемента $g\in G$ его левый и правый смежный +классы совпадают: $Hg = gH$. +\end{definition} + +Полезны следующие переформулировки нормальности. + +\begin{lemma}\label{lem:normal_subgroup} +Пусть $G$~--- группа, $H\leq G$. Следующие условия +равносильны: +\begin{enumerate} +\item $H$ нормальна в $G$; +\item $gHg^{-1} = H$ для всех $g\in G$; +\item $gHg^{-1}\subseteq H$ для всех $g\in G$. +\end{enumerate} +(Здесь $gHg^{-1} = \{ghg^{-1}\mid h\in H\}$). +\end{lemma} +\begin{proof} +\begin{itemize} +\item[$1\Rightarrow 2$] Пусть $Hg = gH$ и $h\in H$. +Рассмотрим элемент $ghg^{-1}$. По предположению элемент +$gh$ можно записать в виде $h'g$ для некоторого $h'\in H$. +Поэтому $ghg^{-1} = (gh)g^{-1} = (h'g)g^{-1} = h'\in H$. +Это значит, что $gHg^{-1}\subseteq H$. +Обратно, для $h\in H$ запишем $h = hgg^{-1}$; по предположению элемент +$hg$ можно записать в виде $gh'$ для некоторого $h'\in H$. Значит, +$h = (hg)g^{-1} = gh'g^{-1}\in gHg^{-1}$. Отсюда $H\subseteq +gHg^{-1}$, и необходимое равенство доказано. +\item[$2\Rightarrow 3$] Очевидно. +\item[$3\Rightarrow 1$] Пусть $gHg^{-1}\subseteq H$. Возьмем $h\in H$ + и рассмотрим элемент $gh$. Мы знаем, что $ghg^{-1} = h'\in H$, откуда + $gh = h'g$; поэтому $gH\subseteq Hg$. Обратно, + рассмотрим элемент $hg\in Hg$. Применяя предположение к $g^{-1}$, + получаем, что $g^{-1}Hg\subseteq H$. Значит, элемент $g^{-1}hg=h''$ + лежит в $H$. Отсюда $hg = gh''$, и мы показали, что $Hg\subseteq gH$. +\end{itemize} +\end{proof} + +\begin{definition} +Пусть $G$~--- группа, $g,h\in G$. Элемент $ghg^{-1}$ называется +\dfn{сопряженным к $h$ при помощи $g$}; говорят, что элементы $h$ и +$ghg^{-1}$ \dfn{сопряжены}\index{сопряжение!в группе}. Обозначение: +$ghg^{-1} = {}^gh$. +\end{definition} + +\begin{remark} +Из замечания~\ref{rem:coset_analogy} следует, что все подгруппы +абелевой группы нормальны. +\end{remark} + +\begin{examples}\label{examples:normal_subgroups} +\hspace{1em} +\begin{enumerate} +\item $\SL(n,k)\trleq\GL(n,k)$. Действительно, если $h\in\SL(n,k)$ и + $g\in\GL(n,k)$, то $\det(ghg^{-1}) = + \det(g)\cdot\det(h)\cdot\det(g^{-1}) = \det(h) = 1$, поэтому + ${}^gh\in\SL(n,k)$. +\item $A_n\trleq S_n$. Это доказывается совершенно аналогично + предыдущему примеру, с заменой определителя на знак + перестановки. Нормальность в обоих этих примерах также следует из + леммы~\ref{prop:kernel_and_image}. +\item\label{item:normal_subgroup_of_index_2} Любая подгруппа индекса + $2$ нормальна. Мы докажем это чуть позже. +\end{enumerate} +\end{examples} + +\subsection{Гомоморфизмы групп} + +\literature{[F], гл.~X, \S~3, п. 1; [K1], гл. 4, \S~2, пп. 3--4; + [vdW], гл. 2, \S~10; [Bog], гл. 1, \S~3.} + +\begin{definition} +Пусть $G,H$~--- группы. +Отображение $\ph\colon G\to H$ называется \dfn{гомоморфизмом + групп}\index{гомоморфизм!групп}, +если $\ph(xy) = \ph(x)\ph(y)$ для всех $x,y\in G$. +\end{definition} +\begin{lemma} +Пусть $\ph\colon G\to H$~--- гомоморфизм групп. Тогда $\ph(e_G) = e_H$ +и $\ph(x^{-1}) = \ph(x)^{-1}$ для всех $x\in G$. +\end{lemma} +\begin{proof} +Заметим, что $e_G\cdot e_G = e_G$. Поэтому $\ph(e_G) = \ph(e_G\cdot +e_G) = \ph(e_G)\cdot \ph(e_G)$. Домножим обе части полученного +равенства справа на $\ph(e_G)^{-}$: +$$ +\ph(e_G)\cdot \ph(e_G)^{-1} = \ph(e_G)\cdot \ph(e_G)\cdot +\ph(e_G)^{-1} = \ph(e_G). +$$ +С другой стороны, левая часть очевидным образом равна $e_H$. +Поэтому $e_H = \ph(e_G)$. + +Пусть теперь $x\in G$. Тогда $e_H = \ph(e_G) = \ph(x\cdot x^{-1}) = +\ph(x)\cdot \ph(x^{-1})$. +Домножая обе части на $\ph(x)^{-1}$ слева, видим, что +$\ph(x)^{-1} = \ph(x^{-1})$. +\end{proof} + +\begin{examples} +\begin{enumerate} +\item Пусть $G$, $H$~--- произвольные группы. Отображение + $\const_e\colon G\to H$, $g\mapsto e$, переводящее все элементы + группы $G$ в нейтральный элемент группы $H$, является гомоморфизмом + групп. Такой гомоморфизм называется + \dfn{тривиальным}\index{гомоморфизм!тривиальный}. + Тождественное отображение $\id_G\colon G\to G$ также является + гомоморфизмом групп по тривиальным причинам. +\item Пусть $G = (\mb R,+)$~--- аддитивная группа поля $\mb R$, и $H = + \mb R^*$~--- мультипликативная группа поля $\mb R$. Определим + отображение $\exp\colon (\mb R,+)\to \mb R^*$ посредством формулы + $\exp(x) = e^x$, где $e$~--- основание натуральных логарифмов. Это + гомоморфизм групп, поскольку $e^{x+y} = e^x\cdot e^y$ для всех + вещественных $x,y$. +\item Пусть теперь $G = (\mb R_{>0},\cdot)$~--- группа положительных + вещественных чисел с операцией умножения, $H = (\mb R,+)$~--- + аддитивная группа поля $\mb R$. Рассмотрим отображение логарифма + $\ln\colon (\mb R_{>0},\cdot)\to (\mb R,+)$. Это гомоморфизм групп, + поскольку $\ln(xy) = \ln(x) + \ln(y)$ для всех вещественных + $x,y>0$. +\item Пусть $G = S_n$, $H=\{\pm 1\} = \mb Z^*$~--- группа обратимых + элементов кольца целых чисел. Отображение знака + $\sgn\colon S_n\to\{\pm 1\}$ является гомоморфизмом групп + (теорема~\ref{thm:permutation_sign_product}). +\item Пусть $G = H = \mb Z$~--- аддитивная группа целых чисел, и + $m\in\mb Z$. Определим отображение $\ph\colon\mb Z\to\mb Z$ + умножения на $m$ формулой $\ph(x) = mx$ для всех целых $x$. Нетрудно + видеть, что $\ph$ является гомоморфизмом групп: $m(x+y) = mx + + my$. Более общо, если $R$~--- произвольное кольцо, и $m\in R$, то + отображение $\ph\colon R\to R$, $x\mapsto mx$ является гомоморфизмом + аддитивной группы $R$ в себя по причине дистрибутивности. +\item Пусть $G = \GL(n,k)$~--- группа обратимых матриц размера + $n\times n$ над некоторым полем $k$, а $H=k^*$~--- мультипликативная + группа этого поля. Определитель является гомоморфизмом + $\det\colon\GL(n,k)\mapsto k^*$, поскольку $\det(xy) = + \det(x)\det(y)$ для всех $x,y\in\GL(n,k)$ + (теорема~\ref{thm:determinant_product}). +\end{enumerate} +\end{examples} + +\begin{definition} +Пусть $\ph\colon G\to H$~--- гомоморфизм групп. \dfn{Ядром} +гомоморфизма $\ph$ называется множество $\Ker(\ph)=\{x\in G\mid +f\ph(x) = e_H\}$ (полный прообраз единицы). \dfn{Образом} гомоморфизма +$\ph$ называется его теоретико-множественный образ: $\Img(\ph) = +\{y\in H\mid y = \ph(x)\text{ для некоторого }x\in G\}$. +\end{definition} + +\begin{proposition}\label{prop:kernel_and_image} +Образ гомоморфизма $\ph\colon G\to H$ является подгруппой в $H$, а его +ядро~--- {\it нормальной} подгруппой в $G$: +$\Img(\ph)\leq H$, $\Ker(\ph)\trleq G$. +\end{proposition} +\begin{proof} +Пусть $h,h'\in\Img(\ph)$. Это означает, что найдутся $g,g'\in G$ такие, +что $\ph(g) = h$ и $\ph(g') = h'$. Тогда $\ph(gg') = \ph(g)\ph(g') = +hh'$, +откуда следует, что и $hh'\in\Img(\ph)$. Кроме того, +$\ph(g^{-1}) = \ph(g)^{-1} = h^{-1}$, откуда $h^{-1}\in\Img(\ph)$. + +Пусть теперь $g,g'\in\Ker(\ph)$. Это означает, что $\ph(g) = e$ и $\ph(g') = +e$. Тогда $\ph(gg') = \ph(g)\ph(g') = e\cdot e = e$, поэтому +$gg'\in\Ker(\ph)$. Кроме того, $\ph(g^{-1}) = \ph(g)^{-1} = e^{-1} = e$, +поэтому и $g^{-1}\in\Ker(\ph)$. + +Наконец, если $x\in\Ker(\ph)$, то $\ph(gxg^{-1}) = +\ph(g)\ph(x)\ph(g^{-1}) = \ph(g)\ph(g^{-1}) = \ph(gg^{-1}) = e$, то +есть, $gxg^{-1}$ тоже лежит в $\Ker(\ph)$. Мы показали, что +$g\Ker(\ph)g^{-1}\subseteq\Ker(\ph)$ для любого $g\in G$; по +лемме~\ref{lem:normal_subgroup} этого достаточно для доказательства +нормальности $\Ker(\ph)\trleq G$. +\end{proof} + +\begin{remark} +Сравните с предложениями~\ref{prop:kernel-is-subspace} +и~\ref{prop:image-is-subspace}. Здесь нужно быть +аккуратнее: операция в группе, в отличие от сложения в векторном +пространстве, не обязана быть коммутативной. Тем не менее, +доказательство переносится дословно. +\end{remark} + +\begin{remark} +Пусть $\ph\colon G\to H$~--- гомоморфизм групп. +Образ $\Img(\ph)$ измеряет отклонение гомоморфизма от сюръективности: +$\ph$ сюръективно тогда и только тогда, когда $\Img(\ph) = H$. +Аналогично, следующая лемма показывает, что ядро $\Ker(\ph)$ измеряет +отклонение $\ph$ от инъективности. +\end{remark} + +\begin{lemma}\label{lem:injective_homo} +Пусть $\ph\colon G\to H$~--- гомоморфизм групп. Он инъективен тогда и +только тогда, когда $\Ker(\ph) = e$. +\end{lemma} +\begin{proof} +Если $\ph$ инъективен, то есть только один элемент $g\in G$ такой, что +$\ph(g) =e$, и мы знаем, что $\ph(e)=e$. +Обратно, если $\Ker(\ph)=e$ и $g,g'\in G$ таковы, что +$\ph(g)=\ph(g')$, то $\ph(g^{-1}g') = \ph(g)^{-1}\ph(g') = e$, поэтому +$g^{-1}g'\in\Ker(\ph)=e$, откуда $g = g'$. +\end{proof} + +\begin{definition} +Пусть $G, H$~--- группы. Отображение $f\colon G\to H$ называется +\dfn{изоморфизмом групп}, если $f$~--- гомоморфизм групп, и существует +гомоморфизм групп $f'\colon H\to G$ такой, что $f'\circ f = \id_G$ и +$f\circ f' = \id_H$. +\end{definition} + +\begin{lemma}\label{lem:bijective_group_homo} +Гомоморфизм групп $f\colon G\to H$ является изоморфизмом тогда и +только тогда, когда $f$ биективен. +\end{lemma} +\begin{proof} +Если $f$ изоморфизм, то у него имеется обратное отображение $f'$, и +поэтому $f$ биективен. Обратно, если $f\colon G\to H$~-- гомоморфизм, +являющийся биекцией, рассмотрим обратное отображение +$f^{-1}\colon H\to G$. Покажем, что это тоже гомоморфизм групп. Нам +нужно проверить, что для любых $h,h'\in H$ выполнено $f^{-1}(h)\cdot +f^{-1}(h') = f^{-1}(hh')$. +Обозначим $f^{-1}(h) = g$, $f^{-1}(h') = g'$; тогда по предположению +$f(gg') = f(g)f(g') = hh'$, откуда $gg'= f^{-1}(hh')$, что и +требовалось. +\end{proof} + + +\subsection{Фактор-группы} + +\literature{[F], гл.~X, \S~1, п. 5, \S~2, \S~3, п. 2; [K3], +гл. 1, \S~4, пп. 1--2; [vdW], гл. 2, \S\S~8, 10; [Bog], гл. 1, \S~2.} + +Пусть $G$~--- группа, и $H\trleq G$~--- ее нормальная +подгруппа. Рассмотрим множество $G/H$ правых классов смежности $G$ по +$H$ и введем на нем бинарную операцию: для $gH, g'H\in G/H$ положим +$(gH)\cdot (g'H) = (gg')H$. + +\begin{theorem} +Эта операция корректно определена и превращает фактор-множество $G/H$ +в группу. Каноническая проекция $G\to G/H$ на фактор-множество +является гомоморфизмом групп. +\end{theorem} +\begin{proof} +Корректная определенность означает, что если мы рассмотрим других +представителей $\widetilde{g}\in gH$ и $\widetilde{g'}\in g'H$, то +результат их перемножения будет тот же: +$(\widetilde{g}\widetilde{g'})H = (gg')H$. Действительно, +запишем $\widetilde{g} = gh$, $\widetilde{g'} = g'h'$; тогда +$\widetilde{g}\widetilde{g'} = ghg'h' = g(hg')h'$. По определению +нормальности элемент $hg'$ можно записать в виде $g'h''$ для +некоторого $h''\in H$; поэтому $\widetilde{g}\widetilde{g'} = +gg'h''h'\in gg'H$. Это и означает, что $\widetilde{g}\widetilde{g'}$ +лежит в том же классе, что $gg'$. + +Теперь несложно проверить ассоциативность: $(gH\cdot g'H)\cdot +g''H = (gg')H\cdot g''H = (gg')g''H = g(g'g'')H = gH\cdot (g'g'')H = +gH\cdot (g'H\cdot g''H)$. Нейтральным элементом для $G/H$ служит +смежный класс $eH$, поскольку $eH\cdot gH = (eg)H = gH = (ge)H = +gH\cdot eH$. Наконец, у каждого класса $gH$ имеется обратный класс +$g^{-1}H$: $gH\cdot g^{-1}H = eH = g^{-1}H\cdot gH$. + +Наконец, утверждение о том, что каноническая проекция $\pi\colon G\to +G/H$ является гомоморфизмом, напрямую следует из определения операции +в $G/H$. Действительно, $\pi(x)\pi(y) = xH\cdot yH$, в то время как +$\pi(xy) = (xy)H$. +\end{proof} + +\begin{examples} +\begin{enumerate} +\item $G/G\isom\{e\}$. Действительно, имеется только один класс + смежности $G$ по $G$. +\item $G/\{e\}\isom G$: все классы смежности $G$ по подгруппе $\{e\}$ + одноэлементны и поэтому отождествляются с элементами + $G$. Формула для операции в фактор-группе превращается в + $g\{e\}\cdot g'\{e\} = gg'\{e\}$, что после отождествления означает, + что $g\cdot g'$ полагается равным $gg'$; поэтому операция в + $G/\{e\}$ та же, что была в $G$. +\item Мы уже встречали группу $\mb Z/m\mb Z$: это аддитивная группа + кольца вычетов по модулю $m$. +\end{enumerate} +\end{examples} + +Теперь мы можем доказать аналог теоремы о +гомоморфизме~\ref{thm_homomorphism}. + +\begin{theorem}[Теорема о гомоморфизме]\label{thm:homomorphism_groups} +Пусть $G, H$~--- группы, $\ph\colon G\to H$~--- гомоморфизм +групп. Тогда $G/\Ker(\ph)\isom\Img(\ph)$. +\end{theorem} + +\begin{proof} +Определим отображение $\widetilde\ph\colon G/\Ker(\ph)\to\Img(\ph)$ +правилом $\widetilde\ph(g\Ker(\ph)) = \ph(g)$. Заметим, прежде всего, +что $\ph(g)$ действительно лежит в $\Img(\ph)$. Далее, этот +гомоморфизм корректно определен: если $g\Ker(\ph) = g'\Ker(\ph)$, то +$g = g'x$ для некоторого $x\in\Ker(\ph)$, поэтому +$\ph(g) = \ph(g'x) = \ph(g')\ph(x) = \ph(g')e = \ph(g')$. + +Проверим, что $\widetilde\ph$~--- изоморфизм групп. Для этого по +лемме~\ref{lem:bijective_group_homo} достаточно проверить, что +$\widetilde\ph$~--- биективный гомоморфизм групп. Пусть +$g\Ker(\ph), g'\Ker(\ph)\in G/\Ker(\ph)$. +Тогда $\widetilde\ph(g\Ker(\ph))\widetilde\ph(g'\Ker(\ph)) = +\ph(g)\ph(g')$ и $\widetilde\ph(g\Ker(\ph)\cdot g'\Ker(\ph)) = +\widetilde\ph((gg')\Ker(\ph)) = \ph(gg')$. Получили одно и то же +(поскольку $\ph$~--- гомоморфизм групп). + +Для доказательства биективности проверим инъективность и +сюръективность. Инъективность: по лемме~\ref{lem:injective_homo} +достаточно показать, что ядро $\widetilde\ph$ тривиально. Если +$g\Ker(\ph)$ лежит в этом ядре, то $\widetilde\ph(g\Ker(\ph)) = \ph(g) += e$, поэтому $g\in\Ker(\ph)$ и $g\Ker(\ph) = e\Ker(\ph)$, что и +требовалось. Сюръективность: если $h\in\Img(\ph)$, то найдется $g\in +G$ такой, что $\ph(g) = h$. Но тогда $\widetilde\ph(g\Ker(\ph)) = +\ph(g) = h$. +\end{proof} + +\subsection{Циклические группы} + +\literature{[F], гл.~X, \S~1, пп. 6--7; [K1], гл. 4, \S~2, п. 2; [K3], +гл. 1, \S~2, п. 2; [vdW], гл. 2, \S~7.} + +Пусть $G$~--- произвольная группа, $g\in G$. Определим отображение +$\pow_g\colon\mb Z\to G$ следующим образом: целое число $n$ отправим в +$g^n\in +G$. Иными словами, для натурального $n$ положим +$g^n = \underbrace{g\cdot\dots\cdot g}_n$ и +$g^{-n} = \underbrace{g^{-1}\cdot\dots\cdot g^{-1}}_n$. Легко видеть, +что при этом $g^{m+n} = g^m\cdot g^n$ для всех $m,n\in\mb Z$ поэтому +отображение $\pow_g$ является гомоморфизмом групп. +Его образ по предложению~\ref{prop:kernel_and_image} является +подгруппой в $G$. + +\begin{lemma}\label{lem:image_power_g} +Образ отображения $\pow_g$ совпадает с $\la g\ra$ (подгруппой, +порожденная $g$). +\end{lemma} +\begin{proof} +Прежде всего, $\Img(\pow_g)$ содержит $g$, поэтому и +$\la g\ra\subseteq\Img(\pow_g)$. С другой стороны, +любой элемент $\Img(\pow_g)$ имеет вид $g^n$ для некоторого $n$, и +содержится в $\la g\ra$, поскольку $\la g\ra$~--- подгруппа в $G$. +\end{proof} + +\begin{definition} +Группа $G$ называется \dfn{циклической}\index{группа!циклическая}, +если она порождается одним элементом, то есть, найдется элемент +$g\in G$ такой, что $G=\la g\ra$. +\end{definition} + +Наша ближайшая задача~--- описать все циклические группы. + +\begin{theorem}[Классификация циклических групп]\label{thm:cyclic_groups} +Любая циклическая группа изоморфна $\mb Z/m\mb Z$ для некоторого +натурального $m$. В случае $m=0$ получаем бесконечную циклическую +группу $\mb Z$, в остальных случаях получаем циклическую группу из $m$ элементов. +\end{theorem} +\begin{proof} +Пусть $G$~--- циклическая группа, порожденная элементом $g\in +G$. Рассмотрим отображение $\pow_g\colon\mb Z\to G$. По +лемме~\ref{lem:image_power_g} его образ совпадает с $\la g\ra = G$. По +теореме о гомоморфизме~\ref{thm:homomorphism_groups} имеем +$\mb Z/\Ker(\pow_g)\isom G$. +По теореме~\ref{thm:subgroups_of_z} $\Ker(\pow_g)$, будучи подгруппой +в $\mb Z$, имеет вид $m\mb Z$ для некоторого натурального $m$, что и +требовалось доказать. +\end{proof} + +\begin{corollary} +Пусть $G$~--- произвольная группа, $g\in G$. Множество $\{g^n\mid +n\in\mb Z\}$ является подгруппой в $G$, изоморфной группе $\mb Z/m\mb +Z$ для некоторого $m\in\mb N$. +\end{corollary} +\begin{proof} +Это множество~--- циклическая подгруппа $\la g\ra$; осталось применить +к ней теорему~\ref{thm:cyclic_groups}. +\end{proof} + +\begin{definition} +Если группа $\{g^n\mid n\in\mb Z\}$ изоморфна $\mb Z/m\mb Z$ и $m>0$, +говорят, что элемент $g$ имеет \dfn{порядок}\index{порядок!элемента в + группе} $m$. Если же эта группа изоморфна $\mb Z$, то говорят, что +$g$ имеет \dfn{бесконечный порядок}. Таким образом, +порядок элемента $g$ равен числу элементов в циклической подгруппе +$\la g\ra$, порожденной $g$. +Обозначение для порядка: +$\ord_G(g) = m\text{ или }\infty$. +\end{definition} + +Иными словами, порядок элемента $g\in G$~--- это наименьшее +натуральное число $m$ такое, что $g^m=1$. Действительно, при +гомоморфизме $\pow_g\colon\mb Z\to G$ в единицу переходят в точности +элементы из подгруппы $m\mb Z$. + +\begin{remark}\label{rem:order_of_neutral_element} +Заметим, что порядок нейтрального элемента равен $1$, и это +единственный элемент порядка $1$ в любой группе. +\end{remark} + + +\subsection{Теорема Лагранжа} + +\literature{[F], гл.~X, \S~1, пп. 5, 7; [K3], гл. 1, \S~2, п. 1; + [Bog], гл. 1, \S~2.} + +\begin{definition} +Пусть $G$~--- группа, $H\leq G$. Количество правых смежных классов $G$ +по $H$ называется \dfn{индексом}\index{индекс подгруппы} подгруппы $H$ +и обозначается через $|G:H|$. +\end{definition} + +Покажем, что в этом определении можно заменить правые смежные классы +на левые смежные классы: + +\begin{lemma} +Пусть $G$~--- группа, $H\leq G$. Тогда множества левых смежных классов +$G$ по $H$ и правых смежных классов $G$ по $H$ равномощны. +\end{lemma} +\begin{proof} +Пусть $\{a_iH\}_{i\in I}$~--- множество всех правых смежных классов +(иными словами, мы выбрали в каждом правом смежном классе по +представителю и занумеровали их элементами некоторого множества $I$, +возможно, бесконечного). +По предложению~\ref{prop:group_cosets} каждый элемент группы $G$ +содержится ровно в одном множестве вида $a_iH$. Покажем, что +набор $\{Ha_i^{-1}\}_{i\in I}$ состоит из всех левых смежных классов, +взятых ровно по одному разу (то есть, что $a_i^{-1}$~--- представители +всех левых смежных классов $G$ по $H$). + +Действительно, пусть $g\in G$. Тогда $g\in Ha_i^{-1}$ равносильно тому, что +$g=ha_i^{-1}$ для некоторого $H$, откуда $g^{-1} = (ha_i^{-1})^{-1} = +a_ih^{-1}\in a_iH$. Но это равенство выполнено ровно для одного +индекса $i\in I$, поэтому $g$ лежит ровно в одном множестве вида +$Ha_i^{-1}$, что и требовалось доказать. +\end{proof} + +\begin{remark} +По определению фактор-множество $G/H$ состоит из правых смежных +классов $G$ по $H$, так что $|G:H| = |G/H|$. +\end{remark} + +\begin{theorem}[Теорема Лагранжа] +Пусть $G$~--- конечная группа, $H\leq G$. Тогда +$|G| = |H|\cdot |G:H|$. +\end{theorem} +\begin{proof} +Докажем, что во всех правых смежных классах $G$ по $H$ поровну +элементов. Заметим, что для каждого $g\in G$ отображение $H\to gH$, +$h\mapsto gh$, задает биекцию между $H$ и $gH$. Действительно, если +$gh=gh'$, то $h=h'$, и в силу определения смежного класса это +отображение сюръективно. Поэтому в каждом смежном классе столько же +элементов, сколько в подгруппе $H$. Таким образом, элементы $G$ +разбиваются на $|G:H|$ смежных классов, в каждом по $H$ +элементов. Отсюда сразу следует требуемое равенство. +\end{proof} +\begin{corollary}\label{cor:order_divides} +Порядок конечной группы $G$ делится на порядок любой ее подгруппы. В +частности, порядок конечной группы $G$ делится на порядок любого ее +элемента. +\end{corollary} +\begin{proof} +Первое утверждение очевидно; второе следует из первого, если +рассмотреть подгруппу $\la g\ra$, порядок которой (по определению) +равен порядку $g$. +\end{proof} + +\begin{corollary}\label{cor:power_order} +Пусть $G$~--- конечная группа. Тогда $g^{|G|} = 1$ для любого $g\in G$. +\end{corollary} + +В качестве примера приложения теоремы Лагранжа выведем из нее теорему +Эйлера~\ref{thm:euler} (и, как следствие, малую теорему +Ферма~\ref{cor_fermat}). + +\begin{theorem} +Пусть $m$~--- натуральное число, $a\in\mb Z$ и $a\perp m$. Тогда +$a^{\ph(m)}\equiv 1\pmod m$. +\end{theorem} +\begin{proof} +Рассмотрим кольцо $\mb Z/m\mb Z$. Множество $(\mb Z/m\mb Z)^*$ его +обратимых элементов образует группу по умножению +(пример~\ref{examples:group} (\ref{item:group_of_units})). Порядок этой +группы равен $\ph(m)$ (предложение~\ref{prop_phi_alt_def}). +Класс $\overline{a}$ элемента $a$ в $\mb Z/m\mb Z$ обратим, поскольку +$a\perp m$ (предложение~\ref{prop_invertibility_criteria}). +Применение следствия~\ref{cor:power_order} дает +$\overline{a}^{\ph(m)}=\overline{1}$, что в переводе на язык целых +чисел и дает нужное равенство. +\end{proof} + +Еще одно приложение теоремы Лагранжа~--- описание всех групп простого +порядка. + +\begin{theorem}\label{thm:groups_of_prime_order} +Пусть $G$~--- конечная группа порядка $p$, где $p$~--- простое число. +Тогда $G$ изоморфна циклической группе $\mb Z/p\mb Z$. +\end{theorem} +\begin{proof} +По теореме Лагранжа +порядок любого элемента группы $G$ должен быть делителем $p$, и в силу +простоты $p$ он равен либо $1$ либо $p$. По +замечанию~\ref{rem:order_of_neutral_element} в +$G$ лишь один элемент имеет порядок $1$; поэтому найдется элемент +$g\in G$ порядка $p$. Но тогда подгруппа $\la g\ra$ состоит из $p$ +элементов и, стало быть, совпадает с $G$. Значит, $G$ циклическая, +порождена элементом $g$ и (по теореме~\ref{thm:cyclic_groups}) +изоморфна $\mb Z/p\mb Z$. +\end{proof} + +\subsection{Прямое произведение} + +\literature{[F], гл.~X, \S~4, пп. 1--2, [K3], гл. 1, \S~4, п. 4.} + +Пусть $G,H$~--- две группы. +Рассмотрим декартово произведение множеств $G\times H$ и введем на нем +операцию: положим $(g,h)\cdot (g',h') = (gg',hh')$ для $g,g'\in G$, +$h,h'\in H$. +Нетрудно видеть, что $G\times H$ с такой операцией является группой: +ассоциативность выполняется, поскольку она выполняется в группах $G$ и +$H$, нейтральным элементом служит пара $(e,e)$, обратным элементом к +паре $(g,h)$ является элемент $(g^{-1},h^{-1})$. + +\begin{definition} +Множество $G\times H$ с такой операцией называется +\dfn{прямым произведением}\index{прямое произведение!групп} групп $G$ +и $H$. +\end{definition} + +\begin{proposition}\label{prop:direct_product_properties} +Пусть $G,H$~--- группы. +Рассмотрим отображения +\begin{align*} +i_1\colon G\to G\times H,&\;\; g\mapsto (g,e),\\ +i_2\colon H\to G\times H,&\;\; h\mapsto (e,h),\\ +\pi_1\colon G\times H\to G,&\;\; (g,h)\mapsto g,\\ +\pi_2\colon G\times H\to H,&\;\; (g,h)\mapsto h. +\end{align*} +\begin{enumerate} +\item $i_1,i_2$~--- инъективные, а $\pi_1,\pi_2$~--- сюръективные + гомоморфизмы групп; +\item\label{item:direct_product_2} + $\Img(i_1)=\Ker(\pi_2)=G\times\{e\}$, + $\Img(i_2)=\Ker(\pi_1)=\{e\}\times H$~--- нормальные подгруппы в + $G\times H$; +\item $\pi_1\circ i_1 = \id_G$, $\pi_2\circ i_2 = \id_H$; + $\pi_1\circ i_2 = 0$, $\pi_2\circ i_1 = 0$; +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Очевидно. +\item $\Img(i_1)$ состоит в точности из элементов вида $(g,e)$, а + $\Ker(\pi_2)$ состоит из элементов $(g,h)$ таких, что $h=e$; и то, и + другое совпадает с $G\times\{e\} = \{(g,e)\in G\times H\mid g\in + G\}$. Нормальность следует из + предложения~\ref{prop:kernel_and_image}. Оставшееся аналогично. +\item $\pi_1(i_1(g)) = \pi_1((g,e)) = g$, $\pi_2(i_1(g)) = + \pi_2((g,e)) = e$. Оставшееся аналогично. +\end{enumerate} +\end{proof} + +Таким образом, отображения $i_1$, $i_2$ устанавливают изоморфизмы +$G\isom G\times\{e\}$ и $H\isom \{e\}\times H$ между группами $G,H$ и +подгруппами в $G\times H$. Естественно поинтересоваться, когда верно +обратное: когда в данной группе $F$ можно найти две подгруппы $G$, +$H$ такие, что $F$ изоморфно прямому произведению $G\times H$, и +подгруппы $G$, $H$ получаются посредством вложений $i_1$, $i_2$ для +этого прямого произведения? Ответ дает следующая теорема. + +\begin{theorem}\label{thm:direct_product} +Пусть $F$~--- группа. Пусть $G\leq F$, $H\leq F$~--- две подгруппы в +$F$. Обозначим через $j_1\colon G\to F$, $j_2\colon H\to F$ +соответствующие вложения. +Предположим, что выполнены следующие условия: +\begin{enumerate} +\item\label{item:intersection_is_trivial} $G\cap H = \{e\}$ + (пересечение этих подгрупп тривиально); +\item\label{item:generate_all} $GH=F$ (любой элемент $x$ группы $F$ + можно записать в виде $x = gh$ для некоторых $g\in G$, $h\in H$); +\item\label{item:they_commute} $gh=hg$ для всех $g\in G$, $h\in H$ + (подгруппы $G$ и $H$ коммутируют). +\end{enumerate} +Тогда группа $F$ изоморфна прямому произведению $G$ и $H$; более +того, существует такой изоморфизм $\ph\colon F\to G\times H$, +что композиция +$$ +\pi_1\circ\ph\circ j_1\colon G\to F\to G\times H\to G +$$ +является тождественным отображением на $G$, а композиция +$$ +\pi_2\circ\ph\circ j_2\colon H\to F\to G\times H\to H +$$ +является тождественным отображением на $H$. +\end{theorem} +\begin{proof} +Построим изоморфизм $\ph$. Возьмем $x\in F$ и запишем его (пользуясь +свойством~\ref{item:generate_all}) в виде $x = gh$, где $g\in G$ и +$h\in +H$. Заметим, что такое представление единственно: если $x = g'h'$ для +$g'\in G$, $h'\in H$, то $gh=g'h'$, откуда +$g'^{-1}g = h'h^{-1}$; в левой части стоит элемент $G$, а в правой~--- +элемент $H$, значит (по свойству~\ref{item:intersection_is_trivial}) +$g'^{-1}g = e = h'h^{-1}$, откуда $g=g'$ и $h=h'$. +Поэтому мы можем положить $\ph(x) = (g,h)$. + +Проверим, что $\ph$~--- гомоморфизм групп. Возьмем $y\in F$ и запишем +его в виде $y = g'h'$, где $g',h'\in H$. +Тогда $xy = (gh)(g'h') = g(hg')h' = (gg')(hh')$ (по +свойству~\ref{item:they_commute}. По определению $\ph$ теперь +$\ph(xy) = (gg',hh')$, в то время как $\ph(x) = (g,h)$, $\ph(y) = +(g',h')$, и, стало быть, $\ph(x)\ph(y) = (g,h)(g',h') = (gg', hh')$. + +Для доказательства инъективности $\ph$ достаточно проверить +тривиальность его ядра (лемма~\ref{lem:injective_homo}). Но если +$\ph(x) = (e,e)$, то $x = ee = e$. Для всех пар $(g,h)\in +G\times H$ найдется $x=gh\in F$ такой, что $\ph(x)=(g,h)$, поэтому +$\ph$ сюръективен. +Наконец, $\pi_1(\ph(j_1(g))) = \pi_1(\ph(g)) = \pi_1((g,e)) = g$ и +$\pi_2(\ph(j_2(h))) = \pi_2(\ph(h)) = \pi_2((e,h)) = h$. +\end{proof} + +\subsection{Симметрическая группа} + +\literature{[F], гл.~X, \S~5, п. 4; [K1], гл. 1, \S~8, п. 2, гл. 4, + \S~2, п. 3; [Bog], гл. 1, \S~4.} + +Сейчас мы вернемся к изучению группы $S_n$. + +\begin{definition} +Перестановка $\pi\in S_n$ называется +\dfn{циклом длины $k$}\index{цикл}, если для +некоторых различных $i_1,\dots,i_k\in\{1,\dots,n\}$ выполнено +$\pi(i_1) = i_2$, $\pi(i_2) = i_3$, \dots, $\pi(i_{k-1}) = i_k$, +$\pi(i_k) = i_1$, и для всех +$j\in\{1,\dots,n\}\setminus\{i_1,\dots,i_k\}$ выполнено $\pi(j)=j$. +Такой цикл мы будем обозначать так: +$(i_1\;\;i_2\;\;\dots i_k)$. +При этом множество $\{i_1,\dots,i_k\}\subseteq\{1,\dots,n\}$ +называется \dfn{носителем}\index{носитель цикла} цикла $\pi$. +Два цикла $\pi,\rho\in S_n$ называются +\dfn{независимыми}\index{независимые циклы}, если их носители не +пересекаются. Заметим, что циклы длины $1$ не очень полезно +рассматривать: это тождественная перестановка. +\end{definition} + +\begin{remark}\label{rem:different_notations_cycle} +Заметим, что цикл длины $k$ можно записать $k$ различными способами: +$(i_1\;\;i_2\;\;\dots\;\;i_{k-1}\;\;i_k) = +(i_2\;\;i_3\;\;\dots\;\;i_k\;\;i_1) = \dots = +(i_k\;\;i_1\;\;\dots\;\;i_{k-2}\;\;i_{k-1})$. +\end{remark} + +\begin{lemma} +Независимые циклы коммутируют: если $\pi,\rho\in S_n$~--- независимые +циклы, то $\pi\rho = \rho\pi$. +\end{lemma} +\begin{proof} +Непосредственное вычисление. +\end{proof} + +\begin{definition} +Пусть $\pi\in S_n$. Множество $\Fix(\pi) = \{i\in\{1,\dots,n\}\mid +\pi(i)=i\}$ называется \dfn{множеством неподвижных + точек} перестановки $\pi$, а его +элементы~--- \dfn{неподвижными точками}\index{неподвижные точки + перестановки} $\pi$. +\end{definition} + +\begin{theorem} +Любую перестановку $\pi\in S_n$ можно представить в виде произведения +независимых циклов, носители которых не пересекаются с $\Fix(\pi)$. +\end{theorem} +\begin{proof} +Будем вести индукцию по числу $i\in\{1,\dots,n\}$ таких, что +$\pi(i)\neq i$, то есть, по $n-\Fix(\pi)$. +Если это число равно $0$, то перестановка $\pi$ +тождественна и, таким образом, есть произведение пустого множества +циклов. Это база индукции. Докажем переход. +Пусть теперь множество $I = \{i\in\{1,\dots,n\}\mid \pi(i)\neq i\}$ +непусто; например, $i_1\in I$. Рассмотрим последовательность +$i_1,\pi(i_1),\pi^2(i_1),\dots$. По предположению +$i_1\neq\pi(i_1)$. Рассмотрим первый элемент этой последовательности, +совпадающий с каким-то из ранее встретившихся: такой найдется, +поскольку все элементы этой последовательности лежат в конечном +множестве $\{1,\dots,n\}$. Пусть это $\pi^k(i_1) = +\pi^l(i_1)$ при $k>l$. Если $l>0$, ты применяя к этому равенству +$\pi^{-1}$, получаем $\pi^{k-1}(i_1) = \pi^{l-1}(i_1)$, что +противоречит предположению о минимальности $k$. Значит, +$l=0$ и $\pi^k(i_1) = i_1$. Кроме того, опять же в силу минимальности +$k$, все элементы $i_1,\pi(i_1),\pi^2(i_1),\dots,\pi^{k-1}(i_1)$ +различны. Обозначим +$i_2=\pi(i_1),i_3=\pi^2(i_1),\dots,i_k=\pi^{k-1}(i_1)$ и рассмотрим +цикл $\sigma=(i_1\;\;i_2\;\;\dots\;\;i_k)$. Мы знаем, что +$\pi(i_1)=i_2$, $\pi(i_2)=i_3$, \dots, $\pi(i_{k-1})=i_k$ и +$\pi(i_k) = i_1$, поэтому произведение +$\pi' = \sigma^{-1}\circ\pi$ обладает следующим свойством: +$\pi'(i_1) = i_1$, $\pi'(i_2) = i_2$, \dots, $\pi'(i_k) = i_k$, +и $\pi'(j)=\pi(j)$ для всех +$j\in\{1,\dots,n\}\setminus\{i_1,\dots,i_k\}$. + +Это значит, что к $\pi'$ можно применить предположение индукции: +действительно, $\Fix(\pi') = \Fix(\pi)\cup\{i_1,\dots,i_k\}$, поэтому +мощность множества $\{i\in\{1,\dots,n\}\mid \pi'(i)\neq i$ на $k$ +меньше, чем мощность аналогичного множества для $\pi$. +По предположению индукции $\pi'$ можно записать в виде произведения +независимых циклов, носители которых не пересекаются с $\Fix(\pi')$: +$\pi' = \tau_1\dots\tau_s$. После этого остается записать +$\pi = \sigma\pi' = \sigma\tau_1\dots\tau_s$ и заметить, что носитель +цикла $\sigma$~--- это множество $\{i_1,\dots,i_k\}$, не +пересекающееся с $\Fix(\pi) = \Fix(\pi')\setminus\{i_1,\dots,i_k\}$. +\end{proof} + +\begin{definition} +Запись элемента $\pi\in S_n$ в виде, указанном в теореме, +называется \dfn{цикленной записью перестановки}\index{цикленная запись + перестановки} $\pi$. +\end{definition} + +\begin{example} +Цикленные записи нетождественных перестановок из $S_3$ выглядят так: +$(1\;\;2)$, $(1\;\;3)$, $(2\;\;3)$, $(1\;\;2\;\;3)$, +$(1\;\;3\;\;2)$. Цикленная запись тождественной перестановки пуста. +В $S_4$ имеются три перестановки, в цикленной записи которых более +одного цикла: $(1\;\;2)(3\;\;4)$, $(1\;\;3)(2\;\;4)$, +$(1\;\;4)(2\;\;3)$. +\end{example} + +\begin{remark} +Как мы видели выше (замечание~\ref{rem:different_notations_cycle}), +запись цикла в виде $(i_1\;\;i_2\;\;\dots\;\;i_k)$ не вполне +однозначна: на первое место можно поставить любой элемент из +$i_1,\dots,i_k$. Кроме того, в произведении нескольких независимых +циклов их можно переставлять местами произвольным образом (независимые +циклы коммутируют). Несложно понять, что в остальном циклическая +запись перестановки единственна. Действительно, каждое число от $1$ до +$n$ либо не встречается ни в одном из циклов (и тогда это неподвижная +точка), либо встречается ровно в одном цикле (поскольку циклы +независимы), и тогда его образ однозначно определен. Часто для +удобства в каждом цикле +$(i_1\;\;i_2\;\;\dots\;\;i_k)$ на первое место ставят минимальный +элемент из $i_1,\dots,i_k$, а все циклы в цикленной записи располагают +в порядке возрастания первых элементов этих циклов. +\end{remark} + +Цикленная запись полезна, среди прочего, для визуализации сопряжения +перестановки. + +\begin{lemma}\label{lem:cycle_conjugation} +Пусть $\pi\in S_n$, $i_1,\dots,i_k$~--- различные элементы +$\{1,\dots,n\}$. Тогда +$$ +{}^\pi(i_1\;\;i_2\;\;\dots\;\;i_k) = +(\pi(i_1)\;\;\pi(i_2)\;\;\dots\;\;\pi(i_k)). +$$ +Таким образом, сопряженный элемент к циклу длины $k$ также является +циклом длины $k$. +\end{lemma} +\begin{proof} +Пусть $\pi'= {}^\pi(i_1\;\;i_2\;\;\dots\;\;i_k)$. Применяя +$\pi'$ к $\pi(i_s)$, получаем +$\pi'(\pi(i_s)) = (\pi\circ(i_1\;\;i_2\;\;\dots\;\;i_k))(i_s) += \pi(i_{s+1})$ при $s2$): не хватает +условия~\ref{item:they_commute} из +теоремы~\ref{thm:direct_product}. +Еще один аргумент: подгруппа $G=\la y\ra$ не нормальна +в $D_n$ ($xyx^{-1} = yx^{-2}\notin \la y\ra$) а сомножители должны +быть нормальны в прямом произведении +(предложение~\ref{prop:direct_product_properties}, +пункт~\ref{item:direct_product_2}). +\end{remark} diff --git a/jordan-form.tex b/jordan-form.tex new file mode 100644 index 0000000..2355378 --- /dev/null +++ b/jordan-form.tex @@ -0,0 +1,1934 @@ +\section{Жорданова нормальная форма}\label{subsect:jordan_form} + +Пусть $U,V$~--- конечномерные пространства над $k$. +В прошлой главе мы выяснили, что для линейного отображения $T\colon +U\to V$ можно выбрать базисы в $U$ и в $V$ так, что матрица $\ph$ в +этих базисах будет окаймленной единичной. +Пусть теперь $T\colon V\to V$~--- линейное отображение из +пространства в себя. Мы будем называть его \dfn{линейным + оператором}\index{оператор!линейный} (или +просто \dfn{оператором}\index{оператор}) на $V$. +Не очень-то удобно выбирать два разных базиса в +одном и том же пространстве $V$ для записи матрицы линейного +оператора. Пусть $\mc B$~--- базис пространства $V$. +\dfn{Матрицей оператора}\index{матрица!оператора} $T\colon V\to V$ в +базисе $\mc B$ называется +матрица отображения $T$ в базисах $\mc B$, $\mc B$. +Мы будем обозначать ее через $[T]_{\mc B}$ вместо $[T]_{\mc B,\mc B}$. +Цель настоящей главы~--- выяснить, к какому наиболее простому виду +можно привести матрицу +оператора $T$ с помощью выбора базиса в $V$. +По теореме~\ref{thm_matrix_under_change_of_bases} при замене базиса +$\mc B$ на $\mc B'$ матрица оператора $T$ домножается справа на матрицу +замены базиса и слева на обратную к ней. Таким образом, если +$A=[T]_{\mc B}$, $A'=[T]_{\mc B'}$, $C$~--- матрица перехода от $\mc +B$ к $\mc B'$, то $A'=C^{-1}AC$. Эта процедура называется +\dfn{сопряжением}\index{сопряжение!матрицы}: говорят, что +$C^{-1}AC$~--- матрица, \dfn{сопряженная} к матрице $A$ при помощи +$C$. + +В этой главе нас будет интересовать вопрос: к какому хорошему виду +можно привести матрицу произвольного линейного оператора? В отличие от +случая линейного отображения, рассчитывать на окаймленный единичный +вид уже не приходится. Тем не менее, мы получим достаточно разумный +ответ на этот вопрос. Можно сформулировать эту задачу на матричном +языке: в прошлой главе мы видели, что с помощью домножения слева и +справа на обратимые матрицы любую матрицу можно привести к окаймленной +единичной форме; а к какому виду можно привести квадратную матрицу с +помощью сопряжения? + +Мы будем предполагать в этой главе, что все встречающиеся нам +векторные пространства конечномерны. + +\subsection{Инвариантные подпространства и собственные числа} + +\literature{[F], гл. XII, \S~6, п. 1; гл. IV, \S~6, п. 1; [K2], гл. 2, +\S~3, п. 3; [KM], ч. 1, \S~8; [vdW], гл. XII, \S~88.} + +Первая идея для изучения операторов на пространстве состоит +в следующем: можно попытаться посмотреть на то, что происходит +в собственном подпространстве $U$ оператора $V$, решить вопрос для него +(что проще, поскольку размерность $U$ меньше размерности $V$), +а потом попробовать <<подняться>> в пространство $V$. +Пусть $T\colon V\to V$~--- линейный оператор, $U\leq V$~--- некоторое +подпространство. Проблема состоит в том, что ограничение +$T|_U$ действует из $U$ в $V$ и уже не является линейным оператором! +Опишем подпространства, для которых такого не происходит. +\begin{definition} +Пусть $T\colon V\to V$~--- линейный оператор на пространстве $V$. +Подпространство $U\leq V$ называется \dfn{инвариантным} относительно +оператора $T$ (или \dfn{$T$-инвариантным}), если +$T(U)\subseteq U$. Иными словами: для любого $u\in U$ образ +$T(u)$ также лежит в $U$. +\end{definition} + +\begin{example} +Можно привести тривиальные примеры: подпространства $0\leq V$ +и $V\leq V$ инвариантны относительно любого линейного оператора +на $V$. +\end{example} + +Самый простой пример инвариантного подпространства возникают, когда +это подпространство одномерно. Тогда $U$ порождается одним ненулевым +вектором $u\in U$, и для $T$-инвариантности $U$ достаточно потребовать, +чтобы образ $T(u)$ лежал в $U$, то есть, имел вид $u\lambda$ для +некоторого $\lambda\in k$ +\begin{definition} +Пусть $T\colon V\to V$~--- линейный оператор. +Скаляр $\lambda\in k$ называется \dfn{собственным числом} оператора +$T$, если существует ненулевой вектор $u\in V$ такой, что +$T(u) = u\lambda$. В этом случае $u$ называется +\dfn{собственным вектором} оператора $T$ (соответствующим +собственному числу $\lambda$). +\end{definition} +Полезны следующие эквивалентные переформулировки понятия +собственного числа. +\begin{proposition}\label{prop:eigenvalue-alternative-defs} +Пусть $T\colon V\to V$~--- линейный оператор, $\lambda\in k$. +Следующие утверждения равносильны: +\begin{enumerate} +\item $\lambda$~--- собственное число оператора $T$; +\item оператор $T-\lambda\id_V$ неинъективен; +\item оператор $T-\lambda\id_V$ несюръективен; +\item оператор $T-\lambda\id_V$ необратим. +\end{enumerate} +\end{proposition} +\begin{proof} +Если $\lambda$~--- собственное число $T$, то $(T-\id_V\lambda)(u)=0$ +для некоторого ненулевого $u\in V$, и потому $T-\id_V\lambda$ +неинъективен. Обратно, неинъективность $T-\id_V\lambda$ означает, +что $\Ker(T-\id_V\lambda)\neq 0$, и если $u$~--- ненулевой вектор из +этого ядра, то $T(u) = u\lambda$, что и означает, что $\lambda$~--- +собственное число $T$. +Равносильность утверждений (2), (3), (4) сразу следует из +предложения~\ref{prop:operators-bij-inj-surj}. +\end{proof} +Таким образом, собственные числа оператора $T$~--- это в точности +те скаляры $\lambda$, для которых оператор $T-\id_V\lambda$ +имеет нетривиальное ядро, а соответствующие собственные векторы~--- +это в точности ненулевые элементы этого ядра. + +\begin{theorem}\label{thm:eigenvectors-are-independent} +Пусть $T\colon V\to V$~--- линейный оператор, +$v_1,\dots,v_n\in V$~--- собственные векторы, соответствующие +попарно различным собственным числам $\lambda_1,\dots,\lambda_n\in k$. +Тогда векторы $v_1,\dots,v_n$ линейно независимы. +\end{theorem} +\begin{proof} +Будем доказывать от противного: пусть $v_1,\dots,v_n$ линейно зависиым. +По лемме~\ref{lemma:linear-dependence-lemma} найдется индекс +$j$ такой, что $v_j$ выражается через $v_1,\dots,v_{j-1}$. +Выберем наименьший из таких индексов $j$ и запишем полученную +линейную зависимость: +$$ +v_j = v_1a_1 + \dots + v_{j-1}a_{j-1}. +$$ +Применим оператор $T$ к обеим частям этого равенства: +$$ +T(v_j) = T(v_1)a_1 + \dots + T(v_{j-1})a_{j-1}. +$$ +Мы знаем, что $T(v_i) = v_i\lambda_i$ для всех $i=1,\dots,n$, потому +$$ +v_j\lambda_j = v_1\lambda_1a_1 + \dots + v_{j-1}\lambda_{j-1}a_{j-1}. +$$ +С другой стороны, мы можем умножить исходную линейную зависимость +на $\lambda_j$: +$$ +v_j\lambda_j = v_1\lambda_j a_1 + \dots + v_{j-1}\lambda_j a_{j-1}. +$$ +Вычтем два последних равенства: +$$ +0 = v_1(\lambda_1-\lambda_j)a_1 + \dots + +v_{j-1}(\lambda_{j-1}-\lambda_j)a_{j-1}. +$$ +В силу нашего выбора $j$ векторы $v_1,\dots,v_{j-1}$ линейно независимы. +Поэтому в полученном выражении все коэффициенты +$(\lambda_i-\lambda_j)a_i$ должны быть нулевыми. Но скаляры +$\lambda_i$ попарно различны, потому $\lambda_j-\lambda_j\neq 0$ +при всех $i=1,\dots,j-1$. Значит, $a_i=0$ для $i=1,\dots,j-1$. Подставляя +в исходную линейную комбинацию, получаем, что $v_j=0$, +что противоречит определению собственного вектора. +\end{proof} + +\begin{corollary} +Количество различных собственных чисел оператора на пространстве $V$ +не превосходит $\dim(V)$. +\end{corollary} +\begin{proof} +Если нашлось больше, чем $\dim(V)$, различных собственных чисел, +то соответствующие им собственные векторы линейно независимы +по теореме~\ref{thm:eigenvectors-are-independent}, а это +противоречит теореме~\ref{thm:independent-set-smaller-than-generating}. +\end{proof} + +Возвращаясь к общему понятию инвариантного подпространства, мы теперь +можем уточнить, в каком смысле наличие инвариантных подпространств +помогает свести изучение оператора на пространстве к изучению +операторов на меньших пространствах. +\begin{definition} +Пусть $T\colon V\to V$~--- линейный оператор, $U\leq V$~--- +$T$-инвариантное подпространство. +Отображение $T|_U\colon U\to U$, заданное формулой +$(T|_U)(u) = T(u)$, называется \dfn{ограничением линейного оператора} +на инвариантное подпространство $U$. +Отображение $T_{V/U}\colon V/U\to V/U$, заданное формулой +$T_{V/U}(v+U) = T(v) + U$, называется \dfn{индуцированным оператором} +на фактор-пространстве $V/U$. +\end{definition} +\begin{proposition} +Ограничение на инвариантное подпространство и индуцированный оператор +на фактор-пространстве корректно определены и являются линейными +операторами. +\end{proposition} +\begin{proof} +В силу инвариантности $U$ элемент $T(u)$ лежит в $U$ для всех $u\in U$, +поэтому формула $(T|_U)(u) = T(u)$ задает +отображение $T|_U\colon U\to U$. Его линейность очевидным образом +следует из линейности $T$. + +Для индуцированного отображения на фактор-пространстве сначала нужно +проверить его корректность, то есть, то, что +правило $v+U \mapsto T(v) + U$ не зависит от выбора представителей. +Пусть $v'$~--- другой представитель класса $v+U$, то есть, +$v' = v + u$ для некоторого $u\in U$. +Тогда $T(v') = T(v) + T(u)$. В силу $T$-инвариантности подпространства +$U$ вектор $T(u)$ лежит в $U$. Значит, $T(v')$ и $T(v)$ отличаются +на элемент из $U$, а потому лежат в одном классе по модулю $U$. + +После этого линейность отображения $T_{V/U}$ также напрямую следует +из линейности оператора $T$. +\end{proof} + +\subsection{Собственные числа оператора над алгебраически замкнутым полем} + +Напомним, что линейные операторы на пространстве $V$ образуют кольцо +относительно сложения и композиции (а композицию мы часто записываем +как умножение; в кольце матриц она буквально соответствует +умножению матриц). Поэтому не очень удивительно, +что мы можем рассматривать многочлены от оператора $T$ на $V$. +А именно, пусть $T\colon V\to V$~--- линейный оператор на +векторном пространстве $V$ над $k$, и пусть $f\in k[x]$~--- некоторый +многочлен с коэффициентами в том же поле $k$. +Запишем $f = a_0 + a_1x + a_2x^2 + \dots + a_{n}x^n$. +Определим \dfn{результат подстановки оператора $T$ в многочлен $f$} +следующим образом: +$$ +f(T) = \id_V a_0 + Ta_1 + T^2a_2 + \dots + T^n a_n. +$$ +Здесь $T^n = \underbrace{T\circ\dots\circ T}_{n}$~--- результат +$n$-кратной композиции $T$ с собой. Нетрудно проверить, что это +<<возведение в степень>> определено для всех натуральных $n$ +и обладает обычными свойствами, например, что $T^{m+n} = T^m\circ T^n$. + +Итак, мы получили новый линейный оператор $f(T)$ по каждому многочлену +$f\in k[x]$ и оператору $T$ на $V$. +Эта операция напоминает <<подстановку скаляра в многочлен>> +(оно же <<вычисление значение многочлена в точке>>, +см. определение~\ref{dfn:poly-value}), и обладает +похожими свойствами (см. предложение~\ref{prop:evaluation-properties}): +если $f,g\in k[x]$, $\lambda\in k$, $T$~--- оператор на $V$, +то $(f+g)(T) = f(T) + g(T)$, $(fg)(T) = f(T)g(T)$, +$(f\lambda)(T) = f(T)\lambda$. +Эти свойства проверяются простым раскрытием скобок. Действительно, +пусть $f = a_0 + a_1x + \dots + a_mx^m$, +$g = b_0 + b_1x + \dots + b_nx^n$. +Тогда $fg = \sum_k\left(\sum_{i+j=k}a_ib_j\right)x^k$. +Подставляя оператор $T$, получаем +$f(T) = \id_V a_0 + Ta_1 + \dots + T^m a_m$, +$g(T) = \id_V b_0 + Tb_1 + \dots + T^n b_n$, +и потому +$f(T)g(T) = \sum_k\left(\sum_{i+j=k}T^i a_i T^j b_j\right) += \sum_k T_i\left(\sum_{i+j=k}a_i b_j\right) += (fg)(T)$. Остальные свойства проверяются аналогично. + +В частности, $f(T)g(T) = g(T)f(T)$: {\em многочлены от одного +оператора коммутируют между собой} (обратите внимание, что +композиция операторов, вообще говоря, некоммутативна: +$ST\neq TS$). + +\begin{proposition}\label{prop:operator-has-an-eigenvalue} +Пусть поле $k$ алгебраически замкнуто, $V\neq 0$~--- +векторное пространство над $k$, $T\colon V\to V$~--- +линейный оператор на $V$. +Тогда у $T$ есть собственное число. +\end{proposition} +\begin{proof} +Выберем произвольный ненулевой вектор $v\in V$. +Пусть $\dim V = n$. Рассмотрим векторы +$v,T(v),T^2(v),\dots,T^n(v)$. +Это $n+1$ вектор в $n$-мерном векторном пространстве, +и потому они линейно зависимы. +По лемме~\ref{lemma:linear-dependence-lemma} найдется индекс +$j>0$ такой, что $T^j(v)$ выражается через векторы вида +$T^i(v)$ для $i1$. По +предложению~\ref{prop:operator-has-an-eigenvalue} у $T$ есть собственное +число $\lambda$. Обозначим $U = \Img(T-\id_V\lambda)\leq V$. +По предложению~\ref{prop:eigenvalue-alternative-defs} оператор +$T-\id_V\lambda$ не сюръективен, и потому $U\neq V$. +Покажем, что подпространство $U$ является $T$-инвариантным. +Действительно, для любого $u\in U$ выполнено +$T(u) = (T-\id_V\lambda)(u) + u\lambda$, и очевидно, что оба слагаемых +лежат в $U$. + +Теперь мы можем рассмотреть ограничение $T|_U$ оператора $T$ на +подпространство $U$. Мы знаем, что $\dim(U) < \dim(V)$, и потому +к $U$ можно применить предположение индукции и заключить, что +существует базис $u_1,\dots,u_m$ пространства $U$, в котором +матрица оператора $T|_U$ верхнетреугольна. По +предложению~\ref{prop:ut-equivalent-defs} из этого следует, что +$T(u_j) = (T|_U)(u_j) \in\la u_1,\dots,u_j\ra$ для всех $j=1,\dots,m$. + +Дополним $u_1,\dots,u_m$ до базиса $u_1,\dots,u_m,v_1,\dots,v_s$ +пространства $V$. Тогда +$T(v_k) = (T-\id_V\lambda)v_k + v_k\lambda$ для всех $k=1,\dots,s$. +По определению $(T-\id_V\lambda)v_k\in U$, и потому +$T(v_k)\in\la u_1,\dots,u_m,v_1,\dots,v_k\ra$. +По предложению~\ref{prop:ut-equivalent-defs} из этого следует, +что матрица оператора $T$ в базисе +$u_1,\dots,u_m,v_1,\dots,v_s$ верхнетреугольна. +\end{proof} + +% 27.04.2015 + +Зная базис, в котором матрица оператора верхнетреугольна, легко +определить, когда этот оператор обратим. +\begin{proposition}\label{prop:when-ut-is-invertible} +Пусть матрица оператора $T\colon V\to V$ в некотором базисе +верхнетреугольна. Оператора $T$ обратим тогда и только тогда, +когда все диагональные элементы этой матрицы отличны от нуля. +\end{proposition} +\begin{proof} +Пусть $\mc B = (v_1,\dots,v_n)$~--- базис, в котором матрица +оператора $T$ верхнетреугольна, и пусть +$$[T]_{\mc B} = \begin{pmatrix} +\lambda_1 & * & \dots & * \\ +0 & \lambda_2 & \dots & * \\ +\vdots & \vdots & \ddots & \vdots \\ +0 & 0 & \dots & \lambda_n +\end{pmatrix}. +$$ + +Предположим, что оператор $T$ обратим. Тогда $\lambda_1\neq 0$ +(иначе $T(v_1) = v_1\lambda_1 = 0$). Предположим, что +$\lambda_j = 0$ для некоторого $j>1$. Глядя на матрицу $T$, +мы видим, что $T$ отображает подпространство +$\la v_1,\dots,v_j\ra$ в подпространство $\la v_1,\dots,v_{j-1}\ra$. +При этом размерность первого подпространства равна $j$, +а второго~--- $j-1$. По следствию~\ref{cor:no-injective-maps} +не существует инъективных линейных отображений из $j$-мерного +пространства в $(j-1)$-мерное. Значит, ограничение оператора $T$ +на подпространство $\la v_1,\dots,v_j\ra$ неинъективно. +Это означает, что найдется ненулевой вектор $v\in\la v_1,\dots,v_j\ra$, +для которого $T(v) = 0$. Поэтому $T$ неинъективен, что противоречит +предположению об обратимости $T$. + +Обратно, предположим теперь, что все $\lambda_1,\dots,\lambda_n$ +отличны от нуля. Глядя на первый столбец матрицы оператора +$T$, мы видим, что $T(v_1) = v_1\lambda_1$, +и потому $T(v_1\lambda_1^{-1}) = v_1$. Значит, $v_1\in\Img(T)$. +Далее, судя по второму столбцу матрицы оператора $T$, +$T(v_2\lambda_2^{-1}) = v_1 a + v_2$ для некоторого $a\in k$. +При этом $T(v_2\lambda_2^{-1})$ и $v_1a$ лежат в $\Img(T)$. +Поэтому и $v_2\in\Img(T)$. +Аналогично, +$T(v_3\lambda_3^{-1}) = v_1b + v_2c + v_3$ для некоторых +$b,c\in k$. Мы уже знаем, что все члены этого равенства, кроме $v_3$, +лежат в $\Img(T)$, потому и $v_3\in\Img(T)$. + +Продолжая аналогичным образом, мы получаем, что +$v_1,\dots,v_n\in\Img(T)$. +Тогда и $\la v_1,\dots,v_n\ra\subseteq\Img(T)$. Но $v_1,\dots,v_n$~--- +базис пространства $V$, и потому +$\Img(T) = V$. Значит, оператор $T$ сюръективен, что по +предложению~\ref{prop:operators-bij-inj-surj} влечет его обратимость. +\end{proof} + +Теперь несложно показать, что если мы смогли привести матрицу +оператора к верхнетреугольному виду, то на диагонали в точности стоят +собственные числа этого оператора. +\begin{proposition} +Пусть матрица оператора $T$ относительно некоторого базиса +верхнетреугольна. Тогда собственные числа оператора $T$~--- это +в точности диагональные элементы этой матрицы. +\end{proposition} +\begin{proof} +Пусть +$$ +[T]_{\mc B} = \begin{pmatrix} +\lambda_1 & * & \dots & * \\ +0 & \lambda_2 & \dots & * \\ +\vdots & \vdots & \ddots & \vdots \\ +0 & 0 & \dots & \lambda_n +\end{pmatrix}. +$$ +Для $\lambda\in k$ рассмотрим оператор $\lambda - \id_V\lambda$. +Его матрица в том же базисе имеет вид +$$ +[T -\id_V\lambda]_{\mc B} = \begin{pmatrix} +\lambda_1-\lambda & * & \dots & * \\ +0 & \lambda_2-\lambda & \dots & * \\ +\vdots & \vdots & \ddots & \vdots \\ +0 & 0 & \dots & \lambda_n-\lambda +\end{pmatrix}. +$$ +По предложению~\ref{prop:when-ut-is-invertible} обратимость +оператора $T-\id_V\lambda$ равносильна тому, что $\lambda_j-\lambda=0$ +для некоторого $j$, то есть, что $\lambda$ стоит на диагонали. +С другой стороны, по предложению~\ref{prop:eigenvalue-alternative-defs} +обратимость оператора $T-\id_V\lambda$ равносильна тому, что +$\lambda$~--- собственное число оператора $T$. +\end{proof} + +\begin{definition} +Пусть $T\colon V\to V$~--- линейный оператор на векторном пространстве +$V$, $\lambda\in k$. Подпространство +$V_\lambda(T) = \Ker(T-\id_V\lambda)$ в $V$ называется +\dfn{собственным подпространством} оператора $T$, соответствующим +числу $\lambda$. Часто, если понятно, о каком операторе идет речь, +мы опускаем $T$ в обозначении и пишем $V_\lambda$ вместо $V_\lambda(T)$. +\end{definition} + +Нетрудно видеть, что $V_\lambda$~--- это в точности множество +всех собственных векторов оператора $T$, соответствующих $\lambda$, +вместе с $0$. Скаляр $\lambda$ является собственным числом +оператора $T$ тогда и только тогда, когда подпространство +$V_\lambda$ отлично от нулевого. + +\begin{proposition}\label{prop:sum-of-eigenspaces-is-direct} +Пусть $V$~--- конечномерное пространство над полем $k$, +$T\colon V\to V$~--- линейный оператор. Пусть +$\lambda_1,\dots,\lambda_m$~--- различные собственные числа +оператора $T$. +Тогда сумма $V_{\lambda_1} + \dots + V_{\lambda_m}$ прямая. +Кроме того, $\dim V_{\lambda_1} + \dots + \dim V_{\lambda_m}\leq +\dim V$. +\end{proposition} +\begin{proof} +Пусть $u_1 + \dots + u_m = 0$, где $u_j\in V_{\lambda_j}$ +Из линейной независимости собственных векторов +(теорема~\ref{thm:eigenvectors-are-independent}) +следует, что $u_1 = \dots = u_m = 0$. Поэтому сумма +$V_{\lambda_1} + \dots + V_{\lambda_m}$ прямая. +Утверждение про размерность теперь напрямую следует из того, +что размерность прямой суммы подпространств равна сумме +их размерностей (следствие~\ref{cor:direct-sum-dimension}). +\end{proof} + + +\subsection{Диагонализуемые операторы}\label{subsect:diagonalizable} + +\literature{[K2], гл. 2, \S~3, п. 4; [KM], ч. 1, \S~8.} + +\begin{definition} +Оператор $T\colon V\to V$ называется \dfn{диагонализуемым}, +если его матрица относительно некоторого базиса пространства $V$ +диагональна. +\end{definition} +Диагонализуемые операторы составляют важный класс операторов, +для которых задача приведения к <<наиболее удобной форме>> +решается просто (нет ничего удобнее диагональной матрицы). +Поэтому полезно уметь распознавать их. +\begin{theorem}\label{thm:diagonalizable-equivalent} +Пусть $V$~--- конечномерное векторное пространство, +$T\colon V\to V$~--- линейный оператор. Пусть +$\lambda_1,\dots,\lambda_m$~--- все различные собственные числа +оператора $T$. Следующие условия эквивалентны: +\begin{enumerate} +\item оператор $T$ диагонализуем;\label{thm:diagonalizable-equivalent-1} +\item у пространства $V$ есть базис, состоящий из собственных +векторов оператора $T$;\label{thm:diagonalizable-equivalent-2} +\item найдутся одномерные подпространства $U_1,\dots,U_n$ в $V$, +каждое из которых $T$-инвариантно, такие, что +$V = U_1\oplus\dots\oplus U_n$;\label{thm:diagonalizable-equivalent-3} +\item $V = V_{\lambda_1}(T)\oplus\dots\oplus V_{\lambda_m}(T)$; +\label{thm:diagonalizable-equivalent-4} +\item $\dim V = \dim V_{\lambda_1}(T) + \dots + \dim V_{\lambda_m}(T)$. +\label{thm:diagonalizable-equivalent-5} +\end{enumerate} +\end{theorem} +\begin{proof} +\begin{itemize} +\item $1\Leftrightarrow 2$. +Заметим, что матрица оператора $T$ в базисе $v_1,\dots v_n$ +имеет вид +$$ +\begin{pmatrix} +\lambda_1 & 0 & \dots & 0 \\ +0 & \lambda_2 & \dots & 0 \\ +\vdots & \vdots & \ddots & \vdots \\ +0 & 0 & \dots & \lambda_n +\end{pmatrix} +$$ +тогда и только тогда, когда $T(v_j) = v_j\lambda_j$ +для всех $j=1,\dots,n$. +\item $2\Rightarrow 3$. Предположим, что $v_1,\dots,v_n$~--- базис $V$, +и каждый вектор $v_j$~--- собственный вектор оператора $T$. +Обозначим $U_j = \la v_j\ra$. Очевидно, что каждое подпространство +$U_j$ одномерно и $T$-инвариантно. Из определения базиса +следует, что вектор из $V$ можно +единственным образом записать в виде линейной комбинации элементов +$v_1,\dots,v_n$. Иными словами любой вектор из $V$ можно единственным +образом представить в виде суммы $u_1+\dots+u_n$, где $u_j\in U_j$. +Это и значит, что $V = U_1\oplus \dots \oplus U_n$. +\item $3\Rightarrow 2$. Пусть $V=U_1\oplus\dots\oplus U_n$ +для некоторых одномерных $T$-инвариантных подпространств +$U_1,\dots,U_n$. Выберем в каждом $U_j$ по ненулевому вектору +$v_j$. Из $T$-инвариантности $U_j$ следует, что $v_j$~--- собственный +вектор оператора $T$. Каждый вектор из $V$ можно единственным образом +представить в виде суммы $u_1+\dots+u_n$, где $u_j\in U_j$, то есть, +единственным образом представить в виде суммы кратных $v_j$. +Поэтому $v_1,\dots,v_n$~--- базис $V$. +\item $2\Rightarrow 4$. Пусть у $V$ есть базис, состоящий из +собственных векторов. Тогда любой вектор $V$ является линейной +комбинацией собственных, и потому +$V = V_{\lambda_1}(T) + \dots + V_{\lambda_m}(T)$. +Осталось применить предложение~\ref{prop:sum-of-eigenspaces-is-direct}. +\item $4\Rightarrow 5$. Достаточно применить +следствие~\ref{cor:direct-sum-dimension}. +\item $5\Rightarrow 2$. Выберем базис в каждом подпространстве +$V_{\lambda_j}(T)$. Собрав эти базисы вместе, получим +набор $v_1,\dots,v_n$, состоящий из собственных векторов +оператора $T$. По предположению их количество $n$ равно $\dim V$. +Покажем, что этот набор линейно независим. Предположим, что +$v_1a_1 + \dots + v_na_n = 0$ для некоторых $a_1,\dots,a_n\in k$. +Пусть $u_j$~--- сумма всех слагаемых вида $v_ka_k$, для которых +$v_k\in V_{\lambda_j}$. Тогда каждый вектор $u_j$ лежит +в $V_{\lambda_j}$, и сумма $u_1+\dots+u_m = 0$. +Из теоремы~\ref{thm:eigenvectors-are-independent} следует, +что все слагаемые этой суммы равны нулю. Но каждое слагаемое +$u_j$ является суммой элементов вида $v_ka_k$, где $v_k$ образуют +базис пространства $V_{\lambda_j}$. Поэтому все коэффициенты +$a_k$ равны нулю. Мы получили, что набор $v_1,\dots,v_n$ линейно +независим. Его можно дополнить до базиса, но, с другой стороны, +количество векторов в этом наборе уже равно размерности +пространства $V$. Поэтому $v_1,\dots,v_n$~--- базис $V$. +\end{itemize} +\end{proof} + +\begin{example} +Пусть оператор $T$ на двумерном пространстве $k^2$ задан формулой +$v\mapsto A\cdot v$, где +$$ +A = \begin{pmatrix} 0 & 1 \\ 0 & 0\end{pmatrix}. +$$ +Иными словами, $A$~--- матрица оператора $T$ в стандартном +базисе пространства $k^2$. +Матрица $A$ верхнетреугольна, поэтому собственные числа оператора +$T$~--- это ее диагональные элементы. Таким образом, у $T$ +есть ровно одно собственное число: $0$. Несложное вычисление показывает, +что все собственные векторы имеют вид $\begin{pmatrix} * \\ 0\end{pmatrix}$. Поэтому у $k^2$ нет базиса, состоящего из собственных +векторов, а значит, оператор $T$ не диагонализуем. +\end{example} + +Таким образом, не любой оператор можно привести к диагональному виду. +Но, во всяком случае, это возможно, если у оператора достаточно +много различных собственных чисел. +\begin{corollary} +Пусть $T\colon V\to V$~--- линейный оператор на $n$-мерном векторном +пространстве $V$. Предположим, что у $T$ есть $n$ различных +собственных чисел. Тогда оператор $T$ диагонализуем. +\end{corollary} +\begin{proof} +У оператора $T$ есть $n$ собственных векторов $v_1,\dots,v_n$, +соответствующих различным собственным числам. +По теореме~\ref{thm:eigenvectors-are-independent} они +линейно независимы. Но их количество равно размерности пространства +$V$, и потому они образуют базис $V$. По +теореме~\ref{thm:diagonalizable-equivalent} +из этого следует, что $T$ диагонализуем. +\end{proof} + +\subsection{Корневое разложение} + +\literature{[F], гл. XII, \S~6, п. 2; [K2], гл. 2, \S~4, п. 3; [KM], ч. 1, \S~9.} + + +Для нахождения правильного базиса в пространстве $V$ нам понадобится +некоторое расширение понятия собственного вектора. +Напомним, что собственные векторы~--- это в точности ненулевые +элементы $\Ker(T-\id_V\lambda)$. Посмотрим теперь +на $\Ker(T-\id_V\lambda)^j$ при различных $j=1,2,\dots$. +\begin{lemma}\label{lemma:series-of-kernels} +Для любого оператора $T\colon V\to V$ имеется +возрастающая цепочка вложенных подпространств +$$ +0 = \Ker(T^0) \leq \Ker(T) \leq \Ker(T^2) \leq \Ker(T^3) \leq \dots. +$$ +Более того, если $\Ker(T^j) = \Ker(T^{j+1})$ для некоторого +натурального $j$, то $\Ker(T^{j+m})=\Ker(T^{j+m+1})$ для всех $m\geq0$. +\end{lemma} +\begin{proof} +Пусть $v\in\Ker(T^i)$. Это значит, что $T^i(v)=0$. +Но тогда и $T^{i+1}(v)=T(T^i(v)) = T(0)=0$. +Мы показали, что $\Ker(T^i)\subseteq\Ker(T^{i+1})$. +Докажем второе утверждение индукцией по $m$. База $m=0$ очевидна. +Пусть теперь $m>0$. Мы уже знаем, что $\Ker(T^{j+m})\subseteq +\Ker(T^{j+m+1})$; осталось доказать обратное включение. +Пусть $v\in\Ker(T^{j+m+1})$. Это означает, что +$T^{j+m+1}(v)=0$. Но $T^{j+m+1}(v) = T^{j+1}(T^m(v)) = 0$. +Поэтому $T^m(v)\in\Ker(T^{j+1}) = \Ker(T^j)$, +и тогда $0 = T^j(T^m(v)) = T^{j+m}(v)$, что и требовалось. +\end{proof} + +Итак, мы построили бесконечную цепочку возрастающих подпространств +и показали, что если два элемента в ней совпали, то начиная +с этого места цепочка <<стабилизируется>>. +В конечномерном пространстве $V$, разумеется, невозможна +бесконечная цепочка {\em строго} возрастающих подпространств. +\begin{proposition}\label{prop:nilpotence-degree-is-bounded} +Пусть $T\colon V\to V$~--- линейный оператор на конечномерном +пространстве $V$, и $\dim(V) = n$. Тогда +$\Ker(T^n) = \Ker(T^{n+1}) = \dots = \Ker(T^{n+j}) = \dots$. +\end{proposition} +\begin{proof} +Предположим, что $\Ker(T^n)\neq\Ker(T^{n+1})$. +Посмотрим на включение $\Ker(T^0)\leq\Ker(T)$. +Если в нем имеет место равенство, то +(по лемме~\ref{lemma:series-of-kernels}) и $\Ker(T^n)=\Ker(T^{n+1})$. +Значит, $\Ker(T^0)\neq \Ker(T)$. Аналогично, +$$ +\Ker(T)\neq\Ker(T^2)\neq\Ker(T^3)\neq\dots\neq\Ker(T^n)\neq\Ker(T^N{n+1}). +$$ +Но тогда $\dim(\Ker(T))\geq 1$, $\dim(\Ker(T^2))\geq 2$, \dots, +$\dim(\Ker(T^{n+1})) \geq n+1$. Но $\Ker(T^{n+1})$~--- подпространство +в $V$, и не может иметь размерность, большую $n$. +Получили противоречие. +Мы показали, что $\Ker(T^n) = \Ker(T^{n+1})$, а +по лемме~\ref{lemma:series-of-kernels} из этого следует +и всех следующих подпространств в нашей цепочке. +\end{proof} + +Следующее предложение оказывается ключом к разложению пространства +в прямую сумму подпространств, на каждом из которых +ситуацию проще исследовать. + +\begin{proposition}\label{prop:ker-im-direct-sum} +Пусть $T\colon V\to V$~--- линейный оператор на пространстве +размерности $n$. Тогда +$V = \Ker(T^n)\oplus\Img(T^n)$. +\end{proposition} +\begin{proof} +Покажем сначала, что $\Ker(T^n)\cap\Img(T^n) = 0$. +Действительно, пусть $v\in\Ker(T^n)\cap\Img(T^n)$. +Тогда $v = T^n(u)$; с другой стороны, $T^n(v) = T^n(T^n(u))=0$. +Поэтому $u\in\Ker(T^{2n}) = \Ker(T^n)$ (по +предложению~\ref{prop:nilpotence-degree-is-bounded}), откуда +$v = T^n(u) = 0$. + +Мы показали, что сумма $\Ker(T^n) + \Img(T^n)\leq V$ прямая. +По следствию~\ref{cor:direct-sum-dimension} +тогда $\dim(\Ker(T^n)+\Img(T^n)) = \dim\Ker(T^n) ++\dim\Img(T^n)$. По теореме +о гомоморфизме~\ref{thm:homomorphism-linear} эта сумма +размерностей равна $\dim V$, +и потому $\Ker(T^n)\oplus\Img(T^n) = V$. +\end{proof} + +Выше мы разобрались с диагональными операторами за счет того, +что для них имеет место разложение в прямую сумму +инвариантных $T$-подпространств вида +$V = V_{\lambda_1}\oplus\dots\oplus V_{\lambda_m}$, +где $\lambda_1,\dots,\lambda_m$~--- все различные собственные числа +оператора $T$. Сейчас мы покажем, что для произвольного оператора +имеет место аналогичное разложение, если собственные +подпространства заменить на чуть большие +{\em корневые}. + +\begin{definition} +Пусть $T\colon V\to V$~--- линейный оператор, +и $\lambda\in k$~--- его собственное число. +Ненулевой вектор $v\in V$ называется \dfn{корневым вектором} +оператора $T$, соответствующим собственному числу $\lambda$, +если $(T-\id_V\lambda)^j(v) = 0$ для некоторого натурального $j$. +\end{definition} +\begin{remark}\label{rem:gen-eigen-is-a-subspace} +Предположим, что $(T-\id_V\lambda)^j(v) = 0$ для некоторого +$j$. По предложению~\ref{prop:nilpotence-degree-is-bounded} +тогда и $(T-\id_V\lambda)^n(v) = 0$, где $n = \dim(V)$. +Поэтому корневые векторы~--- это на самом деле в точности +ненулевые элементы $\Ker(T - \id_V\lambda)^n$. +\end{remark} +\begin{definition} +Множество всех корневых векторов оператора $T$, соответствующих +собственному числу $\lambda$, вместе с нулем, называется +\dfn{корневым подпространством} и обозначается через $V(\lambda,T)$. +Зачастую из контекста понятно, о каком операторе +идет речь, и мы пишем $V(\lambda)$ вместо $V(\lambda,T)$. +По замечанию~\ref{rem:gen-eigen-is-a-subspace} это действительно +подпространство: $V(\lambda,T) = \Ker(T - \id_V\lambda)^n$, +где $n = \dim(V)$. +\end{definition} + +\begin{theorem}\label{thm:gen-eigenvectors-are-independent} +Пусть $T\colon V\to V$~--- линейный оператор, +$\lambda_1,\dots,\lambda_m$~--- его попарно различные собственные +числа, $v_1,\dots,v_m$~--- соответствующие им корневые векторы. +Тогда $v_1,\dots,v_m$ линейно независимы. +\end{theorem} +\begin{proof} +Предположим, что $v_1,\dots,v_m$ линейно зависимы. По +лемме~\ref{lemma:linear-dependence-lemma} найдется индекс +$j$ такой, что $v_j = v_1a_1 + \dots + v_{j-1}a_{j-1}$ +для некоторых $a_1,\dots,a_{j-1}\in k$. Выберем наименьшее +такое $j$. +Вектор $v_j$ является корневым, соответствующим собственному числу +$\lambda_j$. Возьмем наименьшую степень $d$ +оператора $(T-\id_V\lambda_j)$, которая не переводит этот вектор в $0$. +Иными словами, пусть $(T-\id_V\lambda_j)^d(v_j)\neq 0$ +и $(T-\id_V\lambda_j)^{d+1}(v_j) = 0$. +Обозначим $(T-\id_V\lambda_j)^d(v_j) = w$. +Тогда $(T-\id_V\lambda_j)(w) = 0$, и поэтому $Tw = w\lambda_j$. +Более того, $(T-\id_V\lambda)(w) = T(w) - w\lambda += w(\lambda_j - \lambda)$ для всех $\lambda\in k$. +Поэтому $(T-\id_V\lambda)^k(w) = w(\lambda_i-\lambda)^k$ +для всех натуральных $k$. + +Пусть $\dim V = n$. +Применим к нашей линейной зависимости оператор +$(T-\id_V\lambda_1)^n\dots(T-\id_V\lambda_{j-1})^n(T-\id_V\lambda_j)^d$. +В левой части получим +$$ +(T-\id_V\lambda_1)^n\dots(T-\id_V\lambda_{j-1})^n(T-\id_V\lambda_j)^d(v_j). +$$ +Сначала к вектору $v_j$ применяется оператор $(T-\id_V\lambda_j)^d$, +и получается вектор $w$, а потом применяются по очереди +операторы вида $(T-\id_V\lambda_i)^n$ для $i\neq j$. +Но выше мы выяснили, как они действуют: такой оператор +просто умножает $w$ на $(\lambda_j - \lambda_i)^n$. +Поэтому результат равен +$(\lambda_j-\lambda_1)^n\dots(\lambda_j-\lambda_{j-1})^n w$ +и отличен от нуля. + +В правой же части происходит следующее: при вычислении +действия оператора $(T-\id_V\lambda_1)^n\dots(T-\id_V\lambda_{j-1})^n +(T-\id_V\lambda_j)^d$ на $v_i$ (где $1\leq i\leq j-1$) +можно переставить скобки так, чтобы сначала действовала +скобка $(T-\id_V\lambda_i)^n$. Но $(T-\id_V\lambda_i)^n(v_i) = 0$ +по определению корневого вектора. Поэтому каждое слагаемое +в правой части равно нулю. +Мы получили, что ненулевой вектор равен нулевому; это противоречие, +которое завершает доказательство. +\end{proof} + +\begin{lemma}\label{lemma:poly-ker-and-im-are-invariant} +Пусть $T\colon V\to V$~--- линейный оператор, +$p\in k[x]$~--- многочлен. Тогда подпространства +$\Ker(p(T))$ и $\Img(p(T))$ $T$-инвариантны. +\end{lemma} +\begin{proof} +Пусть $v\in\Ker(p(T))$, то есть, $p(T)(v)=0$. +Тогда +$$ +p(T)(T(v)) = (p(T)\cdot T)(v) = (T\cdot p(T))(v) = T(p(T)(v)) += T(0) = 0. +$$ +Мы получили, что $T(v)\in\Ker(p(T))$, и потому $\Ker(p(T))$ +действительно $T$-инвариантно. + +Пусть теперь $v\in\Img(p(T))$, то есть, +$v = p(T)(u)$ для некоторого $u\in V$. +Тогда $T(v) = T(p(T)(u)) = p(T)(T(u)) \in\Img(p(T))$, +что и требовалось. +\end{proof} + +Теперь мы готовы показать, что пространство раскладывается +в прямую сумму корневых. +Для этого нам понадобится следующее определение. +\begin{definition} +Линейный оператор $T\colon V\to V$ называется \dfn{нильпотентным}, +если $T^j=0$ для некоторого натурального $j$. +\end{definition} + +\begin{theorem}\label{thm:root-space-decomposition} +Пусть $T\colon V\to V$~--- линейный оператор на конечномерном +пространстве $V$ над алгебраически замкнутым полем $k$, +$\lambda_1,\dots,\lambda_m$~--- все его (попарно различные) +собственные числа. Тогда +\begin{enumerate} +\item $V = V(\lambda_1,T) \oplus \dots \oplus V(\lambda_m,T)$; +\item каждое из подпространств $V(\lambda_j,T)$ является +$T$-инвариантным; +\item оператор $(T-\id_V\lambda_j)|_{V(\lambda_j,T)}$ на +корневом подпространстве $V(\lambda_j,T)$ нильпотентен. +\end{enumerate} +\end{theorem} +\begin{proof} +Пусть $\dim(V) = n$. +Заметим сначала, что $V(\lambda_j,T) = \Ker(T-\id_V\lambda_j)^n$, +и его $T$-инвариантность следует из +леммы~\ref{lemma:poly-ker-and-im-are-invariant}, примененной +к многочлену $p(x) = (x-\lambda_j)^n$. + +Далее, если $v\in V(\lambda_j,T)$, то $(T-\id_V\lambda_j)^n(v) = 0$. +Поэтому оператор $(T-\id_V\lambda_j)^n$ тождественно равен $0$ +на подпространстве $V(\lambda_j,T)$, откуда следует нильпотентность +оператора $(T-\id_V\lambda_j)|_{V(\lambda_j,T)}$. + +Осталось показать, что $V$ раскладывается в прямую сумму корневых. +Будем доказывать это индукцией по $n$. Случай $n=1$ очевиден. +Пусть теперь $n>1$, и нужный результат верен для всех пространств +меньшей размерности. +По предложению~\ref{prop:operator-has-an-eigenvalue} +у $T$ есть собственное число; поэтому $m\geq 1$. +По лемме~\ref{prop:ker-im-direct-sum} +тогда $V = \Ker(T-\id_V\lambda_1)^n \oplus \Img(T-\id_V\lambda_1)^n$. +Первое подпространство в прямой сумме~--- это в точности +$V(\lambda_1,T)$, а второе давайте обозначим через $U$. +Пространство $V(\lambda_1,T)$ нетривиально, и потому +размерность $U$ строго меньше размерности $V$. +Кроме того, подпространство $U$ является $T$-инвариантным по +лемме~\ref{lemma:poly-ker-and-im-are-invariant}. +Значит, к оператору $T|_U$, действующему на пространстве $U$, +можно применить предположение индукции, и получить, что +$$ +U = V(\mu_1,T|_U)\oplus\dots \oplus V(\mu_k,T|_U), +$$ +где $\mu_1,\dots,\mu_k$~--- собственные числа оператора +$T|_U$. Покажем, что любое собственное число $\lambda$ оператора $T|_U$ +является и собственным числом оператора $T$. Действительно, +если $T|_U(u)=u\lambda$ для некоторого ненулевого вектора $u\in U$, +то и $T(u) = u\lambda$. Заметим также, что у оператора $T|_U$ +не может быть собственного числа $\lambda_1$: +если $T|_U(u)=u\lambda_1$ то $T(u) = u\lambda_1$, и потому +$u\in \Ker(T-\id_V\lambda_1)^n$, и из разложения в прямую сумму +$V = \Ker(T-\id_V\lambda_1)^n\oplus U$ следует, что $u=0$. + +Мы получили, что $\mu_1,\dots,\mu_k$~--- это какие-то из чисел +$\lambda_2,\dots,\lambda_m$. Возьмем какое-нибудь одно из +$\mu_1,\dots,\mu_k$; пусть это $\lambda_j$. +Несложно понять, что $V(\lambda_j,T|_U) \leq V(\lambda_j,T)$: +действительно, если $u\in U$~--- корневой вектор для собственного +числа $\lambda_j$ оператора $T|_U$, то тем более +$u$ является корневым вектором для собственного числа $\lambda_j$ +оператора $T$. + +Вернемся к общей картине. +По теореме~\ref{thm:gen-eigenvectors-are-independent} +сумма корневых подпространств прямая; получаем, +что $V(\lambda_1,T)\oplus\dots V(\lambda_m,T)\leq V$. +С другой стороны, мы показали, что $V = V(\lambda_1,T)\oplus U$, +и $U$ раскладывается в прямую сумму слагаемых, каждое из которых +содержится в каком-то $V(\lambda_j,T)$. +Поэтому +\begin{align*} +V &= V(\lambda_1,T)\oplus U \\ +&= V(\lambda_1,T)\oplus V(\mu_1,T|_U)\oplus\dots\oplus V(\mu_k,T|_U) \\ +&\leq V(\lambda_1,T)\oplus V(\lambda_2,T)\oplus \dots \oplus V(\lambda_m,T), +\end{align*} +и мы получили включение в обратную сторону. +\end{proof} + +\begin{corollary} +Пусть $T\colon V\to V$~--- линейный оператор на конечномерном +пространстве $V$ над алгебраически замкнуты м полем $k$. +Тогда у пространства $V$ есть базис, состоящий из корневых векторов +оператора $T$. +\end{corollary} +\begin{proof} +Выберем базисы в каждом из подпространств вида $V(\lambda_j,T)$ +и объединим их. +\end{proof} + +\subsection{Характеристический и минимальный многочлены} + +\begin{definition} +Пусть $V$~--- векторное пространство над алгебраически замкнутым полем $k$, +$T\colon V\to V$~--- линейный оператор, $\lambda\in k$~--- его собственное число. +Размерность соответствующего корневого подпространства $V(\lambda,T)$ +называется \dfn{кратностью собственного числа $\lambda$}. +Иными словами, кратность собственного числа $\lambda$ оператора $T$ +равна $\dim(\Ker(T-\id_V\lambda)^{\dim(V)})$. +\end{definition} + +\begin{remark} +Иногда то, что мы называем кратностью, в литературе называется +{\em алгебраической кратностью}, в то время как размерность собственного подпространства +$V_\lambda(T)$ называется {\em геометрической кратностью} $\lambda$. +После этого доказывается теорема о том, что геометрическая кратность не превосходит +алгебраической кратности, которая при наших определениях очевидна +(собственное подпространство содержится в корневом). +\end{remark} + +\begin{corollary}\label{cor:sum-of-multiplicities} +Сумма кратностей всех собственных чисел оператора $T\colon V\to V$ равна $\dim(V)$. +\end{corollary} +\begin{proof} +Тривиально следует из теоремы~\ref{thm:root-space-decomposition} +и следствия~\ref{cor:direct-sum-dimension}. +\end{proof} + +\begin{definition} +Пусть $V$~--- векторное пространство над алгебраически замкнутым полем $k$, +$T\colon V\to V$~--- линейный оператор. Пусть $\lambda_1,\dots,\lambda_m$~--- все его +[попарно различные] собственные числа, а $d_1,\dots,d_m$~--- их кратности, соответственно. +Многочлен $(x-\lambda_1)^{d_1}\dots(x-\lambda_s)^{d_m}$ называется +\dfn{характеристическим многочленом} оператора $T$. +\end{definition} +\begin{proposition}\label{prop:degree-and-roots-of-char-poly} +Степень характеристического многочлена оператора $T\colon V\to V$ равна $\dim(V)$, +а его корни~--- в точности собственные числа оператора $T$. +\end{proposition} +\begin{proof} +Очевидно из определения и следствия~\ref{cor:sum-of-multiplicities}. +\end{proof} + +\begin{theorem}[Гамильтона--Кэли]\label{thm:cayley-hamilton} +Пусть $V$~--- векторное пространство над алгебраически замкнутым полем $k$, +$T\colon V\to V$~--- линейный оператор, $q\in k[x]$~--- его характеристический многочлен. +Тогда $q(T) = 0$. +\end{theorem} +\begin{proof} +Пусть $\lambda_1,\dots,\lambda_m$~--- все собственные числа оператора $T$, +а $d_1,\dots,d_m$~--- их кратности. По теореме~\ref{thm:root-space-decomposition} +ограничения вида $(T-\id_V\lambda_j)|_{V(\lambda_j,T)}$ нильпотентны, +а по предложению~\ref{prop:nilpotence-degree-is-bounded} тогда +$(T-\id_V\lambda_j)^{d_j}|_{V(\lambda_j,T)} = 0$. + +Любой вектор из $V$ является суммой векторов из $V(\lambda_1,T),\dots,V(\lambda_m,T)$ +(по теореме~\ref{thm:root-space-decomposition}), поэтому достаточно доказать, +что $q(T)(v_j)=0$ для любого $v_j\in V(\lambda_j,T)$. +По определению +$$ +q(T) = (T-\id_V\lambda_1)^{d_1}\dots (T-\id_V\lambda_m)^{d_m}. +$$ +Операторы в правой части являются многочленами от оператора $T$, и потому коммутируют +друг с другом. Переставим их так, чтобы множитель $(T-\id_V\lambda_j)^{d_j}$ оказался +последним. Но $(T-\id_V\lambda_j)^{d_j}(v_j)=0$, и потому $q(T)(v_j)=0$, +что и требовалось. +\end{proof} + +\begin{definition}\label{dfn:minimal-polynomial} +Пусть $T\colon V\to V$~--- линейный оператор на векторном пространстве $V$. +Многочлен $p\in k[x]$ минимальной степени со старшим коэффициентом $1$, +для которого $p(T)=0$, называется \dfn{минимальным многочленом} оператора $T$. +Иными словами, многочлен $p\in k[x]$ со старшим коэффициентом $1$ называется +минимальным многочленом оператора $T$, если +\begin{itemize} +\item $p(T)=0$; +\item если $f\in k[x]$~--- многочлен со старшим коэффициентом $1$, для +которого $f(T)=0$, то $\deg f\geq \deg p$. +\end{itemize} +\end{definition} + +Покажем, что это определение осмысленно: у каждого оператора $T$ +(на конечномерном пространстве $V$) существует единственный +минимальный многочлен. Пусть $\dim(V)=n$. +Рассмотрим множество операторов $\id_V,T,T^2,\dots,T^{n^2}$. В нем +$n^2+1$ элемент, в то время как размерность пространства всех +линейных операторов на $V$ равна $n^2$ +(по теореме~\ref{thm:hom-isomorphic-to-m}). Значит, указанный набор +операторов линейно зависим. Выберем минимальное $m$, для которого +операторы $\id_V,T,T^2,\dots,T^m$ линейно зависимы. Тогда +$T^m$ выражается через $\id_V,T,T^2,\dots,T^{m-1}$: +$$ +T^m = \id_V a_0 + Ta_1 + \dots + T^{m-1}a_{m-1} +$$ +для некоторых $a_0,\dots,a_{m-1}\in k$. +Пусть $p\in k[x]$~--- следующий многочлен: +$$ +p = x^m - a_{m-1}x^{m-1} - \dots - a_1x - a_0. +$$ +Тогда $p(T)=0$. Предположим, что $f$~--- еще один многочлен той же степени +$m$ со старшим коэффициентом $1$, для которого $f(T)=0$. +Тогда многочлен $f-p$ имеет меньшую степень, но +$(f-p)(T) = f(T) - p(T) = 0$, что противоречит выбору $m$. + +Следующее предложение полностью описывает многочлены $f\in k[x]$, для которых +$f(T) = 0$. +\begin{proposition}\label{prop:minimal-divides-annuling} +Пусть $T\colon V\to V$~--- линейный оператор, $f\in k[x]$~--- некоторый +многочлен. +Равенство $f(T)=0$ равносильно тому, что $f$ делится на минимальный +многочлен оператора $T$. +\end{proposition} +\begin{proof} +Пусть $p$~--- минимальный многочлен оператора $T$. Если $f$ делится на $p$, +то есть, $f=pq$ для некоторого многочлена $q\in k[x]$, +то $f(T) = p(T)q(T) = 0$. +Обратно, если $f(T)=0$, поделим с остатком $f$ на $p$: +$f = pq+r$ для $q,r\in k[x]$, причем $\deg(r) < \deg(p)$. +Но $r(T) = f(T)-p(T)q(T) = 0$, что противоречит минимальности +многочлена $p$. +\end{proof} +\begin{corollary} +Пусть $V$~--- векторное пространство над алгебраически замкнутым полем $k$, +$T\colon V\to V$~--- линейный оператор. +Тогда характеристический многочлен оператора $T$ делится на его +минимальный многочлен. +\end{corollary} +\begin{proof} +Немедленно следует из теоремы Гамильтона--Кэли~\ref{thm:cayley-hamilton} +и предложения~\ref{prop:minimal-divides-annuling}. +\end{proof} + +\begin{proposition}\label{prop:roots-of-minuimal-are-eigenvalues} +Пусть $T$~--- линейный оператор на $V$. Корни минимального многочлена +оператора $T$~--- это в точности все собственные числа этого оператора. +\end{proposition} +\begin{proof} +Пусть $p$~--- минимальный многочлен оператора $T$. +Если $\lambda\in k$~--- корень $p$, то $p(x) = (x-\lambda)q$ +для некоторого многочлена $q\in k[x]$ со старшим коэффициентом $1$. +Из равенства $p(T)$ следует, что +$(T-\id_V\lambda)(q(T)(v))=0$ для всех $v\in V$. +Заметим, что степень $q$ меньше степени минимального многочлена оператора $T$, +и потому $q(T)\neq 0$. Поэтому найдется вектор $v\in V$, для которого +$q(T)(v)\neq 0$. Но тогда равенство $(T-\id_V\lambda)(q(T)(v))=0$ означает, +что $\lambda$~--- собственное число оператора $T$ (а $q(T)(v)$~--- +соответствующий ему собственный вектор). + +Обратно, пусть $\lambda\in k$~--- собственное число оператора $T$. +Тогда найдется ненулевой вектор $v\neq 0$, для которого +$T(v) = \lambda v$. Применяя несколько раз $T$ к обеим частям этого равенства, +получаем, что $T^j(v) = \lambda^j v$ для всех $j\geq 0$. +Поэтому $p(T)(v)= p(\lambda)(v)$; с другой стороны, $p(T)(v)=0$. +При этом вектор $v$ отличен от нуля, значит, $p(\lambda)=0$. +\end{proof} + +\subsection{Жорданов базис для нильпотентного оператора} + +\literature{[F], гл. XII, \S~6, пп. 2--4; [K2], гл. 2, \S~4, пп. 4--6; [KM], ч. 1, \S~9; [vdW], гл. XII, \S\S~88, 89.} + +Напомним, что по теореме~\ref{thm:root-space-decomposition} изучение +оператора $T$ сводится к изучению нильпотентных операторов. +Теперь мы готовы построить хороший базис для нильпотентного оператора. +\begin{theorem}\label{thm:jordan-basis-nilpotent} +Пусть $V$~--- векторное пространство над полем $k$, +$N\colon V\to V$~--- нильпотентный оператора. +Тогда найдутся векторы $v_1,\dots,v_s\in V$ и натуральные числа +$m_1,\dots,m_s$ такие, что +\begin{itemize} +\item векторы +\begin{align*} +& N^{m_1}(v_1),\dots,N(v_1),v_1, \\ +& N^{m_2}(v_2),\dots,N(v_2),v_2, \\ +& \dots \\ +& N^{m_s}(v_s),\dots,N(v_s),v_s +\end{align*} +образуют базис $V$; +\item $N^{m_1+1}(v_1) = \dots = N^{m_s+1}(v_s)=0$. +\end{itemize} +\end{theorem} +\begin{remark}\label{rem:jordan-basis-scheme} +Полученный базис удобно схематично изображать в виде ориентированного +графа, вершины которого символизируют векторы базиса, а ребра +выражают действие оператора $N$. Набор +$N^{m_1}(v_1),\dots,N(v_1),v_1$ тогда представляется в виде +цепочки из $m_1+1$ вершины: +$$ +\begin{tikzpicture}[every label/.style={font=\scriptsize}] +\coordinate [label=right:{$N^{m_1}(v_1)$}] (1) at (0,10); +\coordinate [label=right:{$N^{m_1-1}(v_1)$}] (2) at (0,9); +\coordinate [label=right:{$N(v_1)$}] (3) at (0,7); +\coordinate [label=right:{$v_1$}] (4) at (0,6); +\draw [-{Stealth}] (1)--($(0,9)+(0,0.05)$); +\draw [-{Stealth}] (3)--($(0,6)+(0,0.05)$); +\draw (0,9)--(0,8.5); +\draw [-{Stealth}] (0,7.5)--(0,7.05); +\coordinate (dot1) at (0,8.2); +\coordinate (dot2) at (0,8); +\coordinate (dot3) at (0,7.8); +\foreach \point in {dot1,dot2,dot3} { + \fill [black] (\point) circle (1pt); +} +\foreach \point in {1,2,3,4} { + \fill [black] (\point) circle (2pt); +} +\end{tikzpicture} +$$ +Очевидно, что подпространство, порожденное векторами из одной такой цепочки, +$N$-инвариантно. Матрица ограничения оператора $N$ на это подпространство +(в этом базисе) имеет размер $(m_1+1)\times (m_1+1)$ и выглядит так: +$$ +\begin{pmatrix} +0 & 1 & 0 & \dots & 0 & 0 \\ +0 & 0 & 1 & \dots & 0 & 0 \\ +0 & 0 & 0 & \dots & 0 & 0 \\ +\vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ +0 & 0 & 0 & \dots & 0 & 1 \\ +0 & 0 & 0 & \dots & 0 & 0 \\ +\end{pmatrix} +$$ +Базис, о котором идет речь в теореме~--- набор из +$s$ таких цепочек (возможно, разной длины). Матрица оператора $N$ +в таком базисе, стало быть, имеет блочно-диагональный вид, +и на диагонали стоят блоки указанного вида. +\end{remark} +\begin{proof}[Доказательство теоремы~\ref{thm:jordan-basis-nilpotent}] +Будем доказывать теорему индукцией по размерности пространства $V$. +Случай $\dim(V)=1$ тривиален: нильпотентный оператор на одномерном +пространстве должен быть нулевым, и мы можем положить $s=1$, выбрать +любой ненулевой вектор $v_1\in V$ и $m_1=0$. + +Пусть теперь $\dim(V)>1$. Рассмотрим подпространство $\Img(N)\leq V$. +Если оно совпадает с $V$, то оператор $N$ обратим, что противоречит +его нильпотентности. Поэтому $\Img(N)$~--- подпространство в $V$ +меньшей размерности. +Если случилось так, что $\Img(N)$~--- нулевое пространство, то +оператор $N$ нулевой, и потому можно выбрать произвольный базис +$v_1,\dots,v_s$ пространства $V$ и положить $m_1=\dots=m_s=0$; +на этом доказательство заканчивается. + +Если же $\Img(N)\neq 0$, то к нему можно применить предположение индукции. +Значит, мы можем выбрать векторы $v_1,\dots,v_s\in\Img(N)$ и натуральные числа +$m_1,\dots,m_s$ так, что заключение теоремы выполнено (для подпространства +$\Img(N)$). Для каждого вектора $v_i\in\Img(N)$ можно выбрать +$u_i\in V$ так, что $v_i=N(u_i)$. Переписав заключение теоремы в терминах +векторов $u_i$, получаем, что набор +\begin{align*} +& N^{m_1+1}(u_1),\dots,N^2(u_1),N(u_1), \\ +& N^{m_2+1}(u_2),\dots,N^2(u_2),N(u_2), \\ +& \dots \\ +& N^{m_s+1}(u_s),\dots,N^2(u_s),N(u_s) +\end{align*} +образует базис пространства $\Img(N)$, +в то время как $N^{m_1+2}(u_1) = \dots = N^{m_s+2}(u_s) = 0$. +Какие же векторы можно добавить, чтобы получить базис всего пространства +$V$, имеющий нужный вид <<цепочек>> векторов? +Первое предположение~--- попытаться добавить векторы $u_1,\dots,u_s$. +Покажем, что полученный набор +\begin{align*} +& N^{m_1+1}(u_1),\dots,N^2(u_1),N(u_1),u_1, \\ +& N^{m_2+1}(u_2),\dots,N^2(u_2),N(u_2),u_2, \\ +& \dots \\ +& N^{m_s+1}(u_s),\dots,N^2(u_s),N(u_s),u_s +\end{align*} +будет линейно зависим. +Действительно, рассмотрим линейную комбинацию этих векторов, равную нулю. +Подействуем на эту линейную комбинацию оператором $N$. +Мы получим линейную комбинацию векторов +\begin{align*} +& N^{m_1+2}(u_1),\dots,N^2(u_1),N(u_1), \\ +& N^{m_2+2}(u_2),\dots,N^2(u_2),N(u_2), \\ +& \dots \\ +& N^{m_s+2}(u_s),\dots,N^2(u_s),N(u_s), +\end{align*} +однако, мы знаем, что векторы $N^{m_1+2}(u_1),\dots,N^{m_s+2}(u_s)$ +равны нулю. Поэтому остается линейная комбинация в точности тех векторов, +про которые мы знаем, что они образуют базис $\Img(N)$. +Разумеется, из этого следует, что все коэффициенты в ней равны нулю. +Возвращаясь к исходной линейной комбинации, видим, что все коэффициенты +в ней, кроме, возможно, коэффициентов при векторах +$N^{m_1+1}(u_1),\dots,N^{m_s+1}(u_s)$, равны нулю. +Но тогда остается линейная комбинация, состоящая только из указанных +векторов, равная нулю. Эти векторы тоже входят в состав выбранного +по предположению индукции базиса $\Img(N)$, и потому линейно независимы. +Значит, и коэффициенты при них в исходной линейной комбинации также равны нулю. + +Итак, мы показали, что векторы +\begin{align*} +& N^{m_1+1}(u_1),\dots,N^2(u_1),N(u_1),u_1, \\ +& N^{m_2+1}(u_2),\dots,N^2(u_2),N(u_2),u_2, \\ +& \dots \\ +& N^{m_s+1}(u_s),\dots,N^2(u_s),N(u_s),u_s +\end{align*} +линейно независимы. Образуют ли они базис пространства $V$? Вообще говоря, +не обязательно. Поэтому дополним их как-нибудь векторами $w_1,\dots,w_t$ +до базиса $V$. Это еще не нужный нам базис пространства $V$: нужно его +слегка подправить. Заметим, что $N(w_j)\in\Img(N)$ для всех $j$, +и потому $N(w_j)$ является линейной комбинацией векторов +\begin{align*} +& N^{m_1+1}(u_1),\dots,N^2(u_1),N(u_1), \\ +& N^{m_2+1}(u_2),\dots,N^2(u_2),N(u_2), \\ +& \dots \\ +& N^{m_s+1}(u_s),\dots,N^2(u_s),N(u_s), +\end{align*} +образующих, как мы знаем, базис пространства $\Img(N)$. +Каждая такая линейная комбинация, очевидно, имеет вид $N(x_j)$, где $x_j$~--- +линейная комбинация векторов +\begin{align*} +& N^{m_1}(u_1),\dots,N(u_1),u_1, \\ +& N^{m_2}(u_2),\dots,N(u_2),u_2, \\ +& \dots \\ +& N^{m_s}(u_s),\dots,N(u_s),u_s. +\end{align*} +Мы нашли векторы $x_j\in V$ такие, что $N(w_j) = N(x_j)$. +Положим $u_{s+j} = w_j - x_j$. +Теперь мы утверждаем, что векторы +\begin{align*} +& N^{m_1+1}(u_1),\dots,N^2(u_1),N(u_1),u_1, \\ +& \dots \\ +& N^{m_s+1}(u_s),\dots,N^2(u_s),N(u_s),u_s, \\ +& u_{s+1}, \\ +& \dots \\ +& u_{s+t} +\end{align*} +образуют нужный нам базис пространства $V$. +Напомним, что мы стартовали с базиса, в котором вместо +векторов $u_{s+j}$ были векторы $w_j$, и вычли из каждого $w_j$ +некоторую линейную комбинацию $x_j$ предыдущих векторов из того же базиса. +Нетрудно видеть, что такая замена обратима, и потому полученный набор +векторов также будет базисом пространства $V$. +Кроме того, выполнено и второе условие из заключения теоремы: +$$ +N^{m_1+2}(u_1) = \dots = N^{m_s+2}(u_s) = N(u_{s+1}) = \dots = N(u_{s+t}), +$$ +поскольку $N(u_{s+j}) = N(w_j-x_j) = N(w_j)-N(x_j) = 0$. +\end{proof} + +\subsection{Жорданова форма} + +\literature{[F], гл. XII, \S~6, п. 4; [K2], гл. 2, \S~4, пп. 1, 2; [KM], ч. 1, \S~9; [vdW], гл. XII, \S~87.} + +Теперь мы готовы сформулировать основной результат о линейных операторах +на конечномерных векторных пространствах над алгебраически +замкнутым полем. +\begin{definition} +Матрица вида +$$ +J_n(\lambda)= +\begin{pmatrix} +\lambda & 1 & 0 & \dots & 0 & 0 \\ +0 & \lambda & 1 & \dots & 0 & 0 \\ +0 & 0 & \lambda & \dots & 0 & 0 \\ +\vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ +0 & 0 & 0 & \dots & \lambda & 1 \\ +0 & 0 & 0 & \dots & 0 & \lambda +\end{pmatrix} +$$ +размера $n\times n$ называется \dfn{жордановым блоком}. +Блочно-диагональная матрица, в которой каждый блок является жордановым блоком, +называется \dfn{жордановой матрицей}. +Пусть $T\colon V\to V$~--- линейный оператор. Базис пространства $V$ +называется \dfn{жордановым базисом} для оператора $T$, если матрица +$T$ в этом базисе является жордановой. Эта матрица тогда называется +\dfn{жордановой формой} оператора $T$. +\end{definition} + +Для доказательства основной теоремы нам понадобится следующая лемма: +\begin{lemma}\label{lemma:dim-ker-for-direct-sum} +Пусть $V$~--- векторное пространство над полем $k$, +$T\colon V\to V$~--- линейный оператор, и +пусть $V = U_1\oplus\dots\oplus U_m$~--- разложение пространства +в прямую сумму подпространств, каждое из которых $T$-инвариантно. +Тогда +$$ +\dim(\Ker(T)) = \dim(\Ker(T|_{U_1})) + \dots + \dim(\Ker(T|_{U_m})) +$$ +и +$$ +\dim(\Img(T)) = \dim(\Img(T|_{U_1})) + \dots + \dim(\Img(T|_{U_m})). +$$ +\end{lemma} +\begin{proof} +Очевидно, что $\Ker(T|_{U_i}) \leq \Ker(T)$. Кроме того, каждое +$\Ker(T|_{U_i})$ является подпространством в $U_i$. Сумма +$U_1 + \dots + U_m$ прямая, потому и сумма +$\Ker(T|_{U_1}) + \dots + \Ker(T|_{U_m})$ прямая. +Покажем, что $\Ker(T) \leq \Ker(T|_{U_1}) + \dots + \Ker(T|_{U_m})$. +Действительно, пусть $v\in\Ker(T)$, и $v = u_1+\dots+u_m$, где $u_i\in U_i$. +Тогда $0 = T(v) = T(u_1) + \dots + T(u_m)$. При этом каждый вектор +$T(u_i)$ лежит в $U_i$ в силу $T$-инвариантности подпространства $U_i$. +Из определения прямой суммы теперь следует, что каждое $T(u_i)$ равно нулю, +то есть, $u_i\in\Ker(T|_{U_i})$, и нужное включение доказано. + +Таким образом, $\Ker(T) = \Ker(T|_{U_1})\oplus\dots\oplus\Ker(T|_{U_m})$. +Вычисляя размерности, получаем первое из требуемых равенств. +После этого второе следует по теореме +о гомоморфизме~\ref{thm:homomorphism-linear}. +\end{proof} + +\begin{theorem}\label{thm:jordan-form} +Пусть $k$~--- алгебраически замкнутое поле, $V$~--- конечномерное векторное +пространство над $k$, $T$~--- линейный оператор на $V$. Тогда +в $V$ существует жорданов базис для $T$. Более того, +жорданова форма оператора $T$ единственна с точностью до перестановки +жордановых блоков. +\end{theorem} +\begin{proof} +По теореме~\ref{thm:root-space-decomposition} пространство $V$ раскладывается +в прямую сумму корневых подпространств оператора $T$. Более того, +если $\lambda_i\in k$~--- собственное число оператора $T$, то ограничение +оператора $T-\id_V\lambda_i$ на корневое подпространство $V(\lambda_i,T)$ +нильпотентно. К этой ситуации можно применить +теорему~\ref{thm:jordan-basis-nilpotent} и выбрать базис в +$V(\lambda_i,T)$, в котором матрица оператора +$(T-\id_V\lambda_i)|_{V(\lambda_i,T)}$ имеет вид, описанный +в замечании~\ref{rem:jordan-basis-scheme}. +Матрица оператора $T|_{V(\lambda_i,T)}$ в выбранном базисе +получается прибавлением к ней скалярной матрицы с $\lambda_i$ на диагонали. +Получаем, что матрица оператора $T|_{V(\lambda_i,T)}$ +имеет жорданов вид (а именно, состоит из блоков +$J_{m_1+1}(\lambda_i),\dots,J_{m_s+1}(\lambda_i$, где $m_1,\dots,m_s$ +как в теореме~\ref{thm:root-space-decomposition}). +Проделав указанную процедуру для всех собственных чисел, мы получим +базис во всем пространстве $V$, в котором матрица оператора $T$ +жорданова. + +Осталось показать единственность жордановой формы. Заметим, что +на диагонали в жордановой формы обязаны стоять собственные числа +оператора $T$. Поэтому достаточно показать, что для каждого собственного +числа $\lambda$ оператора $T$ размеры блоков вида $J_?(\lambda)$, +встречающиеся в любой его жордановой форме, определены однозначно +(не зависят от выбора этой формы). +Для этого мы выразим количества блоков вида $J_1(\lambda),J_2(\lambda), +\dots$ через числа, которые никак не зависят от выбора базиса +в пространстве $V$. + +А именно, пусть оператор $T$ приведен к жордановой форме +(некоторым выбором базиса). Фиксируем некоторое +собственное число $\lambda$ оператора $T$, и +пусть $n_m$~--- количество блоков вида $J_m(\lambda)$ в этой форме. +Будем считать, что максимальный размер блока такого вида +равен $s$, и потому $n_{s+1} = n_{s+2} = \dots = 0$. + +Посмотрим на размерность ядра оператора $T-\id_V\lambda$. +Матрица этого оператора блочно-диагональна и составлена +из блоков вида $J_?(\lambda_i-\lambda)$, где $\lambda_i$~--- +все собственные числа оператора $T$. +По лемме~\ref{lemma:dim-ker-for-direct-sum} +достаточно просуммировать размерности ядер этих блоков. +Если $\lambda_i\neq\lambda$, то блок вида +$J_?(\lambda_i-\lambda)$ обратим +по предложению~\ref{prop:when-ut-is-invertible}, +и вносит нулевой вклад в суммарную размерность ядра. +В то же время, если $\lambda_i = \lambda$, то каждый +блок вида $J_t(\lambda_i-\lambda) = J_t(0)$ имеет ранг $t-1$ +и размер $t$, поэтому вности вклад $1$ в суммарную размерность ядра. +Суммируя, получаем, что размерность ядра оператора +$T-\id_V\lambda$ равна количеству блоков вида $J_?(\lambda)$ +в жордановой форме оператора $T$, то есть, $n_1+n_2+\dots+n_s$: +$$ +\dim\Ker(T-\id_V\lambda) = n_1 + n_2 + n_3 + \dots + n_s. +$$ + +Теперь посчитаем размерность ядра оператора +$(T-\id_V\lambda)^2$. Снова можно +применить лемму~\ref{lemma:dim-ker-for-direct-sum}, +и снова блоки в матрице оператора $T$ вида $J_?(\lambda_i)$ +при $\lambda_i\neq\lambda$ вносят нулевой вклад в суммарную размерность +ядра. Посмотрим теперь на блок вида $J_t(\lambda)$. +Матрица оператора $(T-\id_V\lambda)^2$ равна +$(J_t(\lambda) - E_t\lambda)^2$. Нетрудно видеть, +что при возведении в квадрат матрица вида +$$ +\begin{pmatrix} +0 & 1 & 0 & 0 & \dots & 0 \\ +0 & 0 & 1 & 0 & \dots & 0 \\ +0 & 0 & 0 & 1 & \dots & 0 \\ +0 & 0 & 0 & 0 & \dots & 0 \\ +\vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ +0 & 0 & 0 & 0 & \dots & 0 +\end{pmatrix} +$$ +превращается в матрицу вида +$$ +\begin{pmatrix} +0 & 0 & 1 & 0 & \dots & 0 \\ +0 & 0 & 0 & 1 & \dots & 0 \\ +0 & 0 & 0 & 0 & \dots & 0 \\ +0 & 0 & 0 & 0 & \dots & 0 \\ +\vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ +0 & 0 & 0 & 0 & \dots & 0 +\end{pmatrix}. +$$ +Ранее мы посчитали, что каждый блок $J_t(\lambda)$ вносит вклад +$1$ в размерность $\Ker(T-\id_V\lambda)$. Теперь видно, +что блоки размера $2$ и больше вносят вклад еще на $1$ больше +в размерность $\Ker(T-\id_V\lambda)^2$. В то же время, блоки +размера $1\times 1$ при возведении в квадрат не меняются, +и потому вносят тот же вклад, что и раньше. +Мы получаем, что {\em разность} размерностей ядер +операторов $(T-\id_V\lambda)^2$ и $T-\id_V\lambda$ +равна количеству блоков размера $2$ и больше: +$$ +\dim\Ker(T-\id_V\lambda)^2 - \dim\Ker(T-\id_V\lambda) = n_2 + n_3 + \dots + n_s. +$$ + +Посчитаем размерность ядра оператора $(T-\id_V\lambda)^3$. +Аналогичные рассуждения показывают, что блоки размера $1$ и $2$ +с собственным числом $\lambda$ при возведении в куб дают то же, что и +про возведении в квадрат, а вот у блоков размера $3$ и больше +единицы <<сдвигаются>> на диагональ выше, и потому они вносят +вклад на $1$ больше, чем в размерность ядра оператора +$(T-\id_V\lambda)^2$. Поэтому +$$ +\dim\Ker(T-\id_V\lambda)^3 - \dim\Ker(T-\id_V\lambda)^2 = n_3 + \dots + n_s. +$$ + +Продолжая увеличивать степень, мы дойдем до последней: +$$ +\dim\Ker(T-\id_V\lambda)^s - \dim\Ker(T-\id_V\lambda)^{s-1} = n_s. +$$ +Полученные равенства можно воспринимать как систему линейных уравнений +на $n_1,\dots,n_s$. Нетрудно видеть теперь, что (как и обещано) +числа $n_1,\dots,n_s$ выражаются через размерности ядер степеней +оператора $(T-\id_V\lambda)$, то есть, через параметры, которые никак +не зависят от выбора базиса. Вычитая каждую строчку из +предыдущей, можно написать и явную формулу: +$$ +n_m = 2\dim\Ker(T-\id_V\lambda)^m - \dim\Ker(T-\id_V\lambda)^{m-1} +-\dim\Ker(T-\id_V\lambda)^{m+1}. +$$ +Поэтому количество блоков размера $m$ с собственным числом $\lambda$ +в жордановой форме оператора $T$ не зависит от выбора жорданова базиса. +\end{proof} + +\subsection{Комплексификация} + +Жорданова форма дает ответ к задаче классификации линейных операторов +на конечномерном пространстве над алгебраически замкнутым полем. +Этот результат можно пытаться обобщать на разные контексты. Например, +можно задуматься о классификации операторов на бесконечномерных +пространствах. Наш подход существенно опирался на матричные вычисления, +которые не переносятся на бесконечномерный случай, поэтому мы +не будем этого делать. Второе направление обобщения~--- попробовать +посмотреть на случай незамкнутого поля. + +Действительно, хотя случай алгебраически замкнутого поля уже +полезен для приложений (в большинстве неалгебраических приложений +встречается случай поля комплексных чисел $\mbC$), естественный интерес +представляют операторы над полем вещественных чисел. +Мы продемонстрируем, как основные понятия и факты об операторах +переносятся с $\mbC$ на $\mbR$. + +Итак, пусть $V$~--- векторное пространство над полем вещественных +чисел $\mbR$. Мы детально изучили пространства и операторы +над полем $\mbC$, поэтому первое, что нужно попробовать сделать~--- +свести один случай к другому. А именно, мы построим по $V$ +пространство $V_{\mbC}$ над полем комплексных чисел, и покажем, +что любой базис в $V$ превращается в базис пространства $V_{\mbC}$, +а любой линейный оператор на $V$~--- в линейный оператор на $V_{\mbC}$. + +Рассмотрим множество $V\times V$. По определению оно состоит +из всевозможных упорядоченных пар $(u,v)$, где $u,v\in V$. +Мы же будем записывать пару $(u,v)$ в виде $u+vi$ +и воспринимать как один вектор. +Сейчас мы введем на $V\times V$ структуру векторного пространства +над полем комплексных чисел $\mbC$. +Сложение определить несложно: +$(u_1+v_1i) + (u_2 +v_2i) = (u_1+u_2) + (v_1+v_2)i$ +для всех $u_1,v_1,u_2,v_2\in V$. +Определим умножение на скаляр $a+bi\in\mbC$ следующим образом: +$(u + vi)(a + bi) = (au-bv) + (av+bu)i$. +Видно, что это определение совершенно естественно, и получается простым +раскрытием скобок с учетом тождества $i^2=-1$. Тем не менее, мы должны +проверить, что все свойства из определения векторного пространства +выполняются. К счастью, эта проверка совсем несложна, и мы оставляем +ее читателю в качестве упражнения. Отметим лишь, что роль нулевого элемента +играет вектор $0 = 0+0i$. + +\begin{definition} +Полученное векторное пространство над $\mbC$ мы будем обозначать +через $V_\mbC$ и называть \dfn{комплексификацией} пространства $V$. +\end{definition} +Исходное векторное пространство $V$ мы будем +считать подмножеством в $V_\mbC$: если $v\in V$, то +$v+0i\in V_\mbC$. + +\begin{proposition}\label{prop:complexification-basis} +Пусть $V$~--- векторное пространство над $\mbR$. +Если $v_1,\dots,v_n$~--- базис $V$ (как пространства над $\mbR$), то +$v_1,\dots,v_n$~--- базис $V_\mbC$ (как пространства над $\mbC$). +\end{proposition} +\begin{proof} +Заметим, что линейная оболочка векторов $v_1,\dots,v_n$ в $V_\mbC$ +содержит векторы $v_1,\dots,v_n$ и векторы $v_1i,\dots,v_ni$. +Любой элемент $u\in V$ есть линейная комбинация векторов +$v_1,\dots,v_n$, и для любого $v\in V$ вектор $vi$ есть линейная +комбинация векторов $v_1i,\dots,v_ni$. +Поэтому любой элемент $u+vi\in V_\mbC$ лежит в линейной оболочке +$v_1,\dots,v_n$. Покажем, что $v_1,\dots,v_n$ линейно независимы +в $V_\mbC$. Если $a_1+b_1i,\dots,a_n+b_ni\in\mbC$ таковы, что +$v_1(a_1+b_1i) + \dots + v_n(a_n+b_ni) = 0$, то, +раскрывая скобки и приравнивая отдельно <<вещественные>> и <<мнимые>> части, +получаем, что +$v_1a_1+\dots+v_na_n = 0$ +и $v_1b_1+\dots + v_nb_n = 0$. Из линейной независимости +векторов $v_1,\dots,v_n$ в $V$ следует, что +$a_1=\dots=a_n = b_1 = \dots = b_n = 0$. +Поэтому $v_1,\dots,v_n$ линейно независимы в $V_\mbC$. +\end{proof} + +\begin{corollary}\label{cor:complexification-dimension} +Размерность $V_\mbC$ как векторного пространства над $\mbC$ равна +размерности $V$ как векторного пространства над $\mbR$. +\end{corollary} +\begin{proof} +Сразу следует из предложения~\ref{prop:complexification-basis}. +\end{proof} + +\begin{definition} +Пусть $V$~--- векторное пространство над $\mbR$, $T$~--- линейный оператор +на $V$. Определим оператор $T_\mbC$ на пространстве $V_\mbC$ следующим образом: +$$ +T_\mbC(u+vi) = T(u) + T(v)i +$$ +для всех $u,v\in V$. Этот оператор называется +\dfn{комплексификацией} оператора $T$. +\end{definition} +Неформально говоря, оператор $T_\mbC$ действует отдельно на вещественную +и мнимую часть вектора $u+vi$ оператором $T$. Несложно проверить, что +эта формула действительно задает линейный оператор на пространстве $V_\mbC$. + +\begin{lemma} +Пусть $V$~--- векторное пространство над $\mbR$ с базисом $v_1,\dots,v_n$, +$T\colon V\to V$~--- линейный оператор. Тогда матрица оператора $T$ +в базисе $v_1,\dots,v_n$ совпадает с матрицей оператора $T_\mbC$ в том же +базисе. +\end{lemma} +\begin{proof} +Упражнение. +\end{proof} + +Наш первый результат можно считать аналогом +предложения~\ref{prop:operator-has-an-eigenvalue}, которое утверждало, +что у любого оператора на конечномерном пространстве +над алгебраически замкнутым полем есть +одномерное инвариантное подпространство. + +\begin{proposition}\label{prop:real-operator-invariant-subspace} +У любого оператора на (ненулевом) конечномерном векторном пространстве +над $\mbR$ есть инвариантное подпространство +размерности $1$ или $2$. +\end{proposition} +\begin{proof} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- +линейный оператор. Его комплексификация $T_\mbC\colon V_\mbC\to V_\mbC$ +имеет собственное число (по предложению~\ref{prop:operator-has-an-eigenvalue}) +$a+bi$, где $a,b\in\mbR$. Пусть $u+vi$~--- соответствующий ему собственный +вектор; $u,v\in V$, при этом $u$ и $v$ не равны одновременно нулю. +Это означает, что $T_\mbC(u+vi) = (u+vi)(a+bi)$. +Используя определение $T_\mbC$ и умножения в пространстве $V_\mbC$, получаем +$$ +T(u) + T(v)i = (ua-vb) + (va+ub)i. +$$ +Поэтому $T(u) = ua-vb$ и $T(v) = va+ub$. +Пусть $U$~--- линейная оболочка векторов $u,v$ в $V$. +Тогда $U$~--- подпространство в $V$ размерности $1$ или $2$, +и полученные равенства показывают, что $U$ инвариантно относительно +оператора $T$. +\end{proof} + +Напомним, что мы определили минимальный многочлен оператора +над произвольным полем $k$ +(см.~определение~\ref{prop:operator-has-an-eigenvalue}). +\begin{proposition}\label{prop:minimal-poly-of-complexification} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор. Тогда минимальный многочлен оператора $T_\mbC$ равен +минимальному многочлену оператора $T$. +\end{proposition} +\begin{proof} +Пусть $p\in \mbR[x]$~--- минимальный многочлен оператора $T$. +Сейчас мы покажем, что он удовлетворяет определению минимального многочлена +оператора $T_\mbC$. Сначала необходимо показать, что $p(T_\mbC) = 0$. +Напомним, что по определению $T_\mbC(u+vi) = T(u) + T(v)i$. +Применяя к этому равенству оператор $T_\mbC$, получаем, +что $(T_\mbC)^n(u+vi) = T^n(u) + T^n(v)i$. +Поэтому $p(T_\mbC) = (p(T))_\mbC = 0$. + +Пусть теперь $q\in\mbC[x]$~--- некоторый многочлен со старшим коэффициентом $1$, +для которого $q(T_\mbC)=0$. Нам нужно показать, что степень $q$ не меньше, +чем степень $p$. Заметим, что $(q(T_\mbC))(u) = 0$ для всех $u\in V$. +Обозначим через $r$ многочлен, $j$-й коэффициент которого равен +вещественной части $j$-го коэффициента многочлена $q$. +Очевидно, что старший коэффициент $r$ также равен единице. +Из равенства $(q(T_\mbC))(u) = 0$ немедленно следует, что $(r(T))(u) = 0$. +Это выполнено для всех $u\in V$, и потому $r(T)$~--- нулевой оператор. +В силу минимальности $p$ из этого следует, что $\deg r \geq \deg p$. +Но $\deg r = \deg q$, откуда $\deg q\geq \deg p$, что и требовалось. +\end{proof} + +Теперь посмотрим на собственные числа комплексификации $T_\mbC$. +Каждое собственное число может оказаться вещественным, а может~--- +невещественным. Оказывается, вещественные собственные числа +$T_\mbC$~--- это собственные числа исходного оператора $T$. +\begin{proposition}\label{prop:complexification-real-eigenvalues} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- +линейный оператор, $\lambda\in\mbR$. +Число $\lambda$ является собственным числом оператора $T_\mbC$ +тогда и только тогда, когда $\lambda$ является собственным числом +оператора $T$. +\end{proposition} +\begin{proof} +По предложению~\ref{prop:roots-of-minuimal-are-eigenvalues} +собственные числа оператора $T$ (которые вещественны по определению)~--- +это в точности (вещественные) корни минимального многочлена оператора $T$. +С другой стороны +(снова по предложению~\ref{prop:roots-of-minuimal-are-eigenvalues}), +вещественные собственные числа оператора $T_\mbC$~--- +это в точности вещественные корни минимального многочлена оператора $T_\mbC$. +По предложению~\ref{prop:minimal-poly-of-complexification} эти минимальные +многочлены совпадают. +\end{proof} + +Следующее предложение утверждает, что $T_\mbC$ ведет себя симметрично +по отношению к собственному числу $\lambda$ и сопряженному к нему +$\ol\lambda$. +\begin{proposition}\label{prop:conjugation-of-eigenvalue} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор, $\lambda\in\mbC$, $j$~--- натуральное число, и $u,v\in V$. +Тогда +$$ +(T_\mbC-\id_{V_\mbC}\lambda)^j(u+vi) = 0\;\Longleftrightarrow\; +(T_\mbC-\id_{V_\mbC}\ol\lambda)^j(u-vi) = 0. +$$ +\end{proposition} +\begin{proof} +Будем доказывать утверждение индукцией по $j$. В случае $j=0$ слева и справа +стоит тождественный оператор, поэтому мы получаем утверждение, +что равенство $u+vi=0$ равносильно равенству $u-vi = 0$, что очевидно. +Пусть теперь $j\geq 1$, и мы доказали результат для $j-1$. +Предположим, что $(T_\mbC-\id\lambda)^j(u+vi) = 0$. +Это означает, что $(T_\mbC-\id\lambda)^{j-1}((T_\mbC-\id\lambda)(u+vi)) = 0$. +Пусть $\lambda=a+bi$, где $a,b\in\mbR$. Тогда +$$ +(T_\mbC-\id\lambda)(u+vi) = (T(u)-ua+vb) + (T(v)-va-ub)i. +$$ +Значит, наше равенство можно записать в виде +$$ +(T_\mbC-\id\lambda)^{j-1}((T(u)-ua+vb) + (T(v)-va-ub)i) = 0. +$$ +По предположению индукции из него следует, что +$$ +(T_\mbC-\id\ol\lambda)^{j-1}((T(u)-ua+vb) - (T(v)-va-ub)i) = 0. +$$ +Но прямое вычисление показыват, что +$$ +(T(u)-ua+vb) - (T(v)-va-ub)i = (T_\mbC-\id\ol\lambda)(u+vi). +$$ +Мы получили, что $(T_\mbC-\id\ol\lambda)^{j}(u+vi) = 0$, что и требовалось. + +Заменив в приведенном рассуждении +$\lambda$ на $\ol\lambda$, а $v$ на $-v$, мы получим +и обратное следствие. +\end{proof} + +Важным следствием предложения~\ref{prop:conjugation-of-eigenvalue} является +тот факт, что невещественные собственные числа оператора $T_\mbC$ ходят парами. +\begin{corollary}\label{cor:eigenvalues-come-in-pairs} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор, $\lambda\in\mbC$. Число $\lambda$ является собственным числом +оператора $T_\mbC$ тогда и только тогда, когда $\ol\lambda$ является +собственным числом оператора $T_\mbC$. +\end{corollary} +\begin{proof} +Достаточно положить $j=1$ в предложении~\ref{prop:conjugation-of-eigenvalue}. +\end{proof} +Нетрудно проверить, что и кратности сопряженных собственных чисел +$\lambda$ и $\ol\lambda$ совпадают. +\begin{corollary}\label{cor:conjugate-eigenvalues-same-multiplicity} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор, $\lambda\in\mbC$~--- собственное число оператора $T_\mbC$. +Тогда кратность $\lambda$ как собственного числа $T_\mbC$ равна +кратности $\ol\lambda$ как собственного числа $T_\mbC$. +\end{corollary} +\begin{proof} +По определению кратность собственного числа~--- это размерность +соответствующего корневого подпространства. +Пусть $u_1 + v_1i,\dots,u_m+v_mi$~--- базис корневого подпространства +$V(\lambda,T_\mbC)$, где $u_1,\dots,u_m,v_1,\dots,v_m\in V$. Покажем, что +тогда векторы $u_1 - v_1i,\dots,u_m - v_mi$ образуют базис +корневого подпространства $V(\ol\lambda,T_\mbC)$. +Проверим сначала, что они лежат в этом подпространстве: +по определению корневого вектора $(T_\mbC-\id\lambda)^{\dim(V)}(u_j+v_ji) = 0$, +и по предложению~\ref{prop:conjugation-of-eigenvalue} +тогда $(T_\mbC-\id\ol\lambda)^{\dim(V)}(u_j-v_ji) = 0$. + +Несложно проверить и линейную независимость векторов +$u_1-v_1i,\dots,u_m-v_mi$: +если $(u_1-v_1i)\mu_1 + \dots + (u_m-v_mi)\mu_m = 0$, +то прямые вычисления показывают, что +$(u_1+v_1i)\ol{\mu_1} + \dots + (u_m+v_mi)\ol{\mu_m} = 0$, +и потому все коэффициенты $\mu_1,\dots,\mu_m$ равны нулю. + +Наконец, нужно проверить, что это система образующих корневого +подпространства $V(\ol\lambda,T_\mbC)$. Пусть $u+vi\in V(\ol\lambda,T_\mbC)$. +Тогда (снова по предложению~\ref{prop:conjugation-of-eigenvalue}) +$u-vi\in V(\lambda,T_\mbC)$. Значит, $u-vi$ является линейной комбинацией +векторов $u_1+v_1i,\dots,u_m+v_mi$: +$$ +u-vi = (u_1+v_1i)\mu_1 + \dots + (u_m+v_mi)\mu_m. +$$ +Но тогда $u+vi$ является линейной комбинацией +векторов $u_1-v_1i,\dots,u_m-v_mi$: +$$ +u+vi = (u_1-v_1i)\ol{\mu_1} + \dots + (u_m-v_mi)\ol{\mu_m}. +$$ +\end{proof} + +Приведем еще один вариант переноса +предложения~\ref{prop:operator-has-an-eigenvalue} на случай +вещественных пространств. +\begin{proposition} +У линейного оператора на пространстве нечетной размерности над $\mbR$ +есть собственное число. +\end{proposition} +\begin{proof} +Пусть $V$~--- векторное пространство над $\mbR$ нечетной размерности, +$T\colon V\to V$~--- линейный оператор. +По следствию~\ref{cor:conjugate-eigenvalues-same-multiplicity} +невещественные собственные числа оператора $T_\mbC$ встречаются с одинаковой +кратностью. Поэтому сумма кратностей всех невещественных собственных чисел +оператора $T_\mbC$ четна. С другой стороны, сумма кратностей +всех собственных чисел оператора $T_\mbC$ равна размерности +пространства $V_\mbC$ (по теореме~\ref{cor:sum-of-multiplicities}), и потому +равна размерности пространства $V$ +(по следствию~\ref{cor:complexification-dimension}), то есть, нечетна. +Поэтому у $T_\mbC$ есть вещественное собственное число, +и по предложению~\ref{prop:complexification-real-eigenvalues} +оно является собственным числом оператора $T$. +\end{proof} + +\subsection{Вещественная жорданова форма} + +Введем понятие характеристического многочлена вещественного оператора. +Для этого нам понадобится следующее предложение. +\begin{proposition}\label{prop:complexification-char-poly-is-real} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор. Тогда все коэффициенты характеристического многочлена +оператора $T_\mbC$ вещественны. +\end{proposition} +\begin{proof} +Пусть $\lambda$~--- невещественное собственное число оператора $T_\mbC$, +имеющее кратность $m$. По +следствию~\ref{cor:conjugate-eigenvalues-same-multiplicity} число +$\ol\lambda$ также является собственным числом оператора $T_\mbC$ +кратности $m$. Поэтому в характеристическом многочлене оператора +$T_\mbC$ присутствуют множители $(x-\lambda)^m$ и +$(x-\ol\lambda)^m$. Перемножая эти два множителя, +получаем +$$ +(x-\lambda)^m(x-\ol\lambda)^m = ((x-\lambda)(x-\ol\lambda))^m +=(x^2-(\lambda+\ol\lambda)x+\lambda\ol\lambda)^m. +$$ +Мы получили многочлен с вещественными коэффициентами, +поскольку $\lambda+\ol\lambda = 2\Ree(\lambda)$ и +$\lambda\ol\lambda=|\lambda|^2$. +Характеристический многочлен оператора $T_\mbC$ является произведением +пар скобок указанного вида и скобок вида $(x-t)^d$ для вещественных +собственных чисел $t$ оператора $T_\mbC$ кратности $d$. +Поэтому в произведении получаем многочлен с вещественными коэффициентами. +\end{proof} +\begin{definition} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор. \dfn{Характеристическим многочленом} оператора $T$ +называется характеристический многочлен оператора $T_\mbC$. +\end{definition} + +С таким определением совсем несложно доказать аналог +предложения~\ref{prop:degree-and-roots-of-char-poly}. +\begin{proposition} +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор. Тогда характеристический многочлен $T$ лежит в $\mbR[x]$, +его степень равна $\dim V$, а его корни~--- это в точности все +вещественные собственные числа оператора $T$. +\end{proposition} +\begin{proof} +Характеристический многочлен лежит в $\mbR[x]$ по +предложению~\ref{prop:complexification-char-poly-is-real}, +имеет степень $\dim V$ по предложению~\ref{prop:degree-and-roots-of-char-poly} +и следствию~\ref{cor:complexification-dimension}, +и имеет нужные корни по предложению~\ref{prop:degree-and-roots-of-char-poly} +и предложению~\ref{prop:complexification-real-eigenvalues}. +\end{proof} +Несложно получить и аналог теоремы Гамильтона--Кэли~\ref{thm:cayley-hamilton}. +\begin{theorem}[Гамильтона--Кэли] +Пусть $V$~--- векторное пространство над $\mbR$, $T\colon V\to V$~--- линейный +оператор. Пусть $q$~--- характеристический многочлен оператора $T$. +Тогда $q(T) = 0$. +\end{theorem} +\begin{proof} +По теореме~\ref{thm:cayley-hamilton} имеем $q(T_\mbC)=0$, +откуда следует, что $q(T)=0$ (см. рассуждение в начале +доказательства предложения~\ref{prop:minimal-poly-of-complexification}). +\end{proof} + +Теперь мы готовы сформулировать аналог теоремы о жордановой форме +для вещественных операторов. + +\begin{definition} +\dfn{Вещественным жордановым блоком} называется +матрица вида +$$ +J_n(c)= +\begin{pmatrix} +c & 1 & 0 & \dots & 0 & 0 \\ +0 & c & 1 & \dots & 0 & 0 \\ +0 & 0 & c & \dots & 0 & 0 \\ +\vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ +0 & 0 & 0 & \dots & c & 1 \\ +0 & 0 & 0 & \dots & 0 & c +\end{pmatrix} +$$ +размера $n\times n$, где $c\in\mbR$, или матрица вида +$$ +J_n(\lambda)= +\begin{pmatrix} + a & b & 1 & 0 & 0 & 0 & \dots & 0 & 0\\ +-b & a & 0 & 1 & 0 & 0 & \dots & 0 & 0\\ + 0 & 0 & a & b & 1 & 0 & \dots & 0 & 0\\ + 0 & 0 & -b & a & 0 & 1 & \dots & 0 & 0\\ + 0 & 0 & 0 & 0 & a & b & \dots & 0 & 0\\ + 0 & 0 & 0 & 0 & -b & a & \dots & 0 & 0\\ +\vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\ + 0 & 0 & 0 & 0 & 0 & 0 & \dots & a & b\\ + 0 & 0 & 0 & 0 & 0 & 0 & \dots & -b & a +\end{pmatrix} +$$ +размера $(2n)\times(2n)$, где $\lambda = a+bi$, $a,b\in\mbR$, причем $b>0$. +Блочно-диагональная матрица, в которой каждый блок является +вещественным жордановым блоком, +называется \dfn{вещественной жордановой матрицей}. +Пусть $V$~--- векторное пространство над $\mbR$, +$T\colon V\to V$~--- линейный оператор. Базис пространства $V$ называется +\dfn{вещественным жордановым базисом} для оператора $T$, если матрица +$T$ в этом базисе является вещественной жордановой. Эта матрица +тогда называется \dfn{вещественной жордановой формой} оператора $T$. +\end{definition} + +\begin{theorem} +Пусть $V$~--- конечномерное векторное +пространство над $\mbR$, $T$~--- линейный оператор на $V$. Тогда +в $V$ существует вещественный жорданов базис для $T$. Более того, +вещественная жорданова форма оператора $T$ единственна с точностью до +перестановки вещественных жордановых блоков. +\end{theorem} +\begin{proof}[Набросок доказательства] +Поясним, откуда берутся вещественные жордановы блоки вида $J_n(\lambda)$ +для комлпексных чисел $\lambda=a+bi$, $b\neq 0$. +Рассмотрим комплексификацию $T_\mbC$ оператора $T$. Мы знаем, что +в $V_\mbC$ существует базис, в котором матрица оператора $T_\mbC$ +имеет жорданов вид. +Теперь мы хотим перейти от этого базиса к базису пространства $V$ +так, чтобы матрица оператора $T$ в нем выглядела не очень отлично +от матрицы $T_\mbC$ в жордановом базисе. + +Пусть $\lambda$~--- невещественное собственное число оператора $T_\mbC$, +$\lambda=a+bi$. Мы выяснили, что тогда и $\ol\lambda$ является +собственным числом оператора $T_\mbC$. +Поменяв при необходимости $\lambda$ и $\ol\lambda$ местами, +можем считать, что $b > 0$. +Оказывается, тогда и все размеры жордановых блоков, соответствующих числам +$\lambda$ и $\ol\lambda$, совпадают. Действительно, +в доказательстве теоремы~\ref{thm:jordan-form} мы выразили эти +размеры блоков через размерности операторов вида +$(T_\mbC - \id\lambda)^j$. Рассуждение, аналогичное +доказательству следствия~\ref{cor:conjugate-eigenvalues-same-multiplicity}, +показывает, что эти размерности для чисел $\lambda$ и $\ol\lambda$, +совпадают; поэтому и размеры блоков совпадают. + +Более того, рассмотрим какой-нибудь жорданов блок вида $J_m(\lambda)$. +Пусть $u_1+v_1i,\dots,u_m+v_mi$~--- соответствующие базисные векторы. +Тогда векторы $u_1 - v_1i,\dots,u_m - v_mi$ линейно независимы, +порождают $T_\mbC$-инвариантное подпространство и в ограничении на это +подпространство получаем жорданов блок вида $J_m(\ol\lambda)$. +Таким образом, жордановы блоки, соответствующие невещественным +собственным числам оператора $T_\mbC$, разбиваются +на <<сопряженные>> пары. +Посмотрим на подпространство в $V$, порожденное векторами +$u_1,v_1,\dots,u_m,v_m$. Мы утверждаем, что эти векторы линейно +независимы, и матрица оператора $T$, ограниченного на это +подпространство, как раз равна вещественному жордановому блоку +вида $J_m(\lambda)$. + +Действительно, например, мы знаем, что $T_\mbC(u_1+v_1i) = (u_1+v_1i)(a+bi)$ +Раскрывая скобки, получаем, что +$T(u_1)=u_1a-v_1b$ и $T(v_1) = u_1b+v_1a$. Это объясняет +первые два столбика в матрице $J_m(\lambda)$. +Далее, $T_\mbC(u_2+v_2i) = (u_2+v_2i)(a+bi) + (u_1+v_1i)$. +Раскрывая скобки, получаем, что +$T(u_2) = u_2a-v_2b+u_1$ и $T(v_2) = u_2b+v_2a+v_1$. +Это объясняет третий и четвертый столбики в матрице $J_m(\lambda)$, +и так далее. + +Таким образом, можно взять пару комплексных жордановых блоков +вида $J_m(\lambda)$ и $J_m(\ol\lambda)$ и, слегка поменяв базис +в соответствующем пространстве размерности $2m$, получить +вещественный базис, в котором эти блоки <<склеятся>> и превратятся +в один вещественный жорданов блок $J_m(\lambda)$ размера $2m$. +Осталось аккуратно разобраться с вещественными собственными числами: +показать, что можно выбрать базис в корневом подпространстве +вида $V(c,T_\mbC)$ для $c\in\mbR$ так, что он будет базисом в $V$, в котором +матрица [ограничения] оператора $T$ будет вещественным жордановым +блоком вида $J_m(c)$. +\end{proof} diff --git a/linear-algebra.tex b/linear-algebra.tex new file mode 100644 index 0000000..b9494f9 --- /dev/null +++ b/linear-algebra.tex @@ -0,0 +1,1940 @@ + +\section{Вычислительная линейная алгебра} + +\subsection{Системы линейных уравнений и элементарные преобразования}\label{subsection_linear_systems} +\literature{[F], гл. IV, \S~4, п. 5; [K1], гл. 1, \S~3, пп. 1, 2.} + +Пусть $R$~--- ассоциативное коммутативное кольцо с единицей. Мы будем +называть \dfn{системой линейных уравнений}\index{система линейных + уравнений} (над $R$) набор уравнений +вида +$$ +\begin{array}{rcl} +a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n &=& b_1\\ +a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n &=& b_2\\ +\vdots & &\vdots\\ +a_{m1}x_1+a_{m2}x_2+\dots+a_{mn}x_n &=& b_m, +\end{array} +$$ +где $a_{ij}$ ($1\leq i\leq m$, $1\leq j\leq n$), $b_i$ ($1\leq i\leq +m$)~--- элементы $R$, а $x_1,\dots,x_n$~--- неизвестные. +\dfn{Решением}\index{решение системы линейных уравнений} этой системы линейных уравнений называется набор +$(c_1,\dots,c_n)$ элементов $R$, при подстановке которого в каждое из +$m$ уравнений системы получается верное равенство, то есть, +$\sum_{j=1}^n a_{ij}c_j=b_i$ для всех $i=1,\dots,m$. + +В первом приближении линейная алгебра изучает свойства множеств +решений систем линейных уравнений. Наша ближайшая цель~--- указать +несколько преобразований, которые не меняют множество решений системы, +но, возможно, упрощают ее вид. Чтобы не писать каждый раз значки $+$ и +$=$, мы будем пользоваться {\it матричной формой записи} системы. +\dfn{Матрицей}\index{матрица!системы линейных уравнений} указанной +системы линейных уравнений называется таблица +$$ +\begin{pmatrix} +a_{11} & a_{12} & \dots & a_{1n}\\ +a_{21} & a_{22} & \dots & a_{2n} \\ +\vdots & \vdots & \ddots & \vdots\\ +a_{m1} & a_{m2} & \dots & a_{mn} +\end{pmatrix}. +$$ +Заметим, однако, что матрица системы линейных уравнений содержит не +всю информацию о системе: мы нигде не использовали правые части этих +уравнений. \dfn{Расширенной матрицей}\index{матрица!расширенная} нашей +системы линейных уравнений +называется таблица +$$ +\left( +\begin{array}{cccc|c} +a_{11} & a_{12} & \dots & a_{1n} & b_1\\ +a_{21} & a_{22} & \dots & a_{2n} & b_2\\ +\vdots & \vdots & \ddots & \vdots & \vdots\\ +a_{m1} & a_{m2} & \dots & a_{mn} & b_m +\end{array} +\right) +$$ +Вертикальная черта служит для визуального отделения коэффициентов +левой части и правой части системы; иногда мы опускаем ее. + +Заметим, что в матрице линейной системы с $m$ уравнениями и $n$ +неизвестными содержится $m$ строк и $n$ столбцов; на пересечении +строки с номером $i$ и столбца с номером $j$ стоит элемент $a_{ij}$. В +расширенной матрице такой системы $m$ строк и $n+1$ столбец. + +Часто мы будем записывать матрицу так: $(a_{ij})_{\substack{1\leq + i\leq m\\1\leq j\leq n}}$: в этой матрице $m$ строк, $n$ столбцов, +и на пересечении $i$-ой строки и $j$-го столбцы стоит элемент +$a_{ij}$. Если размер матрицы подразумевается известным, мы будем +сокращать эту запись до $(a_{ij})$. + +Среди множества преобразований систем линейных уравнений выделяют три +несложных типа преобразований, играющих важную роль в нахождении +решений. + +\begin{enumerate} +\item Элементарное преобразование первого типа: прибавить к $i$-му + уравнению $j$-ое уравнение, умноженное на некоторый элемент + $\lambda\in R$. Иными словами, $i$-ое уравнение +$$ +a_{i1}x_1+a_{i2}x_2+\dots+a_{in}x_n=b_i +$$ +заменяется при этом преобразовании на уравнение +$$ +(a_{i1}+\lambda a_{j1})x_1+(a_{i2}+\lambda a_{j2})x_2+\dots ++ (a_{in}+\lambda a_{jn})x_n=b_i+\lambda b_j, +$$ +а все остальные уравнения остаются неизменными. +\item Элементарное преобразование второго типа: поменять местами + $i$-ое уравнение и $j$-ое уравнение. Остальные уравнения при этом + остаются неизменными. +\item Элементарное преобразование третьего типа: домножить $i$-ое + уравнение на обратимый элемент кольца $R$. Иными словами, для + некоторого $\eps\in R^*$ уравнение под номером $i$ +$$ +a_{i1}x_1+a_{i2}x_2+\dots+a_{in}x_n=b_i +$$ +заменяется на уравнение +$$ +\eps a_{i1}x_1+\eps a_{i2}x_2+\dots+\eps a_{in}x_n=\eps b_i, +$$ +а остальные уравнения не меняются. +\end{enumerate} +Несложно понять, как указанные преобразования меняют матрицу системы и +расширенную матрицу системы: элементарное преобразование первого типа +прибавляет к $i$-ой строке $j$-ую, умноженную на $\lambda\in R$; +второго типа~--- меняет местами строки с номерами $i$ и $j$; третьего +типа~--- домножает все элементы $i$-ой строки на $\eps\in R^*$. + +Мы будем использовать следующие условные обозначения для элементарных +преобразований: преобразование первого типа, прибавляющее к $i$-ой +строке $j$-ую, умноженную на $\lambda$, обозначается через +$T_{ij}(\lambda)$ (здесь $1\leq i,j\leq m$, $i\neq j$, $\lambda\in +R$); преобразование второго типа, меняющее местами строки с номерами +$i$ и $j$, обозначается через $S_{ij}$ (здесь $1\leq i,j\leq m$, +$i\neq j$), а преобразование третьего +типа, домножающее $i$-ую строку на $\eps$, обозначается через +$D_i(\eps)$ (здесь $1\leq i\leq m$, $\eps\in R^*$). Через некоторое +время эти символы превратятся в обозначения совершенно конкретных +объектов, связанных с соответствующими преобразованиями. + +Сразу же заметим, что каждое элементарное преобразование {\it + обратимо}: это означает, что для каждого элементарного +преобразования найдется другое элементарное преобразование (называемое +{\it обратным} такое, что +применение двух этих преобразований подряд (в любом порядке) к системе +не меняет ее. Действительно, сразу видно, что для преобразования +третьего типа $D_i(\eps)$ обратным является $D_i(\eps^{-1})$, а для +преобразования второго типа $S_{ij}$ обратным является оно +само. Наконец, несложная выкладка показывает, что для преобразования +первого типа $T_{ij}(\lambda)$ обратным является преобразование +$T_{ij}(-\lambda)$: последовательное применение этих двух +преобразований сначала прибавляет к $i$-му уравнению исходной системы +$j$-ое, умноженное на $\lambda$, а потом прибавляет $j$-ое, умноженное +на $-\lambda$ (или наоборот), поэтому $i$-ое уравнение в итоге не +изменяется (а остальные~--- тем более). + +\begin{lemma}\label{lem_elementary_transformations} +Элементарные преобразования не меняют множества (всех) решений +системы. +\end{lemma} +\begin{proof} +По замечанию выше, каждое элементарное преобразование обратимо; +поэтому достаточно доказать, что множество решений системы не +уменьшается: если набор $(c_1,\dots,c_n)$ является решением системы, +то он будет являться и решением системы, полученной из нее +элементарным преобразованием. Это очевидно для преобразований второго +и третьего типов, и несложно проверить для преобразований первого +типа. +\end{proof} + +\subsection{Метод Гаусса} +\literature{[F], гл. IV, \S~4, п. 5; [K1], гл. 1, \S~3, п. 3.} + +Сейчас мы опишем, как решать произвольную систему линейных +уравнений {\it над полем}. Основная идея состоит в том, чтобы сначала +привести систему +к удобному для решения виду~--- {\it ступенчатому}. Алгоритм +приведения произвольной системы к ступенчатому виду называется {\it + методом Гаусса}. Мы дадим строгое определение ступенчатого вида +после того, как опишем этот алгоритм. + +Как обычно, нам будет удобно работать не с системой линейных +уравнений, а с ее [расширенной] матрицей: метод Гаусса состоит в +последовательном применении к расширенной матрице системы элементарных +преобразований, после чего матрица становится {\it ступенчатой}, и +все решения соответствующей системы легко выписать; по +лемме~\ref{lem_elementary_transformations} полученное множество +решений будет и множеством решений исходной системы. + +Итак, пусть $(a_{ij})$~--- матрица над полем $k$ размера $m\times n$. +Мы будем изучать ее столбцы +последовательно, слева направо. Возьмем первый столбец. Возможны два +варианта: либо он состоит из одних нулей, либо в нем найдется +ненулевой элемент. Если столбец состоит из одних нулей, мы пропускаем +его и переходим к следующему столбцу, пока не найдем какой-нибудь +столбец с ненулевым элементом. Пусть, наконец, в столбце с номером +$j_1$ нашелся ненулевой элемент (если такого столбца нет, то наша +матрица нулевая, и алгоритм завершен). + +Для начала поставим этот ненулевой элемент на первое +место в столбце посредством элементарного преобразования второго +типа. Теперь мы сделаем все остальные элементы нашего столбца нулевыми +с помощью элементарных преобразований первого типа. Делается это так: +теперь мы считаем, что элемент $a_{1,j_1}$ не равен нулю; если +какой-нибудь элемент $a_{i,j_1}$ первого столбца также не равен нулю, то +прибавим к $i$-ой строчке первую, умноженную на +$-a_{i,j_1}/a_{1,j_1}$. Иными словами, проведем элементарное преобразование +$T_{i,j_1}(-a_{i,j_1}/a_{1,j_1})$. При этом изменится только $i$-ая строчка, и +ее первый элемент станет равным +$a_{i,j_1}+a_{1,j_1}\cdot(-a_{i,j_1}/a_{1,j_1})=0$. Проделаем это для всех +ненулевых элементов первого столбца. Заметим, что здесь мы +использовали тот факт, что ненулевой элемент $a_{1,j_1}$ обратим, то +есть, что $k$ является полем. + +Теперь столбец с номером $j_1$ нашей матрицы содержит единственный +ненулевой элемент $a_{1,j_1}$ (а все столбцы, стоящие слева от него, +нулевые). +Мысленно забудем про первую строчку нашей матрицы и про все столбцы +вплоть до столбца с номером $j_1$ и повторим нашу операцию: теперь мы +берем столбец с номером $j_1+1$ и ищем в нем ненулевой элемент, не +принимая во внимание первую строчку. Если во всех позициях (кроме, +может быть, первой) этого столбцы стоят нули, мы двигаемся дальше +вправо, пока не находим, наконец, столбец с номером $j_2$, в котором +стоит какой-нибудь ненулевой элемент не в первой строчке. Посредством +элементарного преобразования второго типа можно поставить этот +ненулевой элемент на второе место, а затем, с помощью элементарных +преобразований первого типа, добиться того, что все элементы ниже его +станут нулями. Заметим, что первая строчка в этих преобразованиях уже +никак не участвует, поэтому про нее и можно забыть. Кроме того, в +столбцах с номерами $1,\dots,j_1$ стоят нули на тех позициях, которые +затрагиваются этими преобразованиями, поэтому они не изменяются. Итак, +в столбце с номером $j_2$ теперь стоит неизвестно что на первой +позиции, ненулевой элемент $a_{2,j_2}$ на второй позиции, и $0$ на +остальных позициях. Далее, конечно, мы продолжаем ту же процедуру, +забывая про первый две строчки и про столбцы с номерами +$1,\dots,j_2$. Заметим, что мы обязаны двигаться вправо: $1\leq +j_1s$. +\end{itemize} +\end{definition} + +% 10.12.2014 + +Иными словами, в ступенчатой матрице имеются строки $1,\dots,s$ такие, +что в строке с номером $i$ первый ненулевой элемент стоит в позиции +$(i,j_i)$, а все строки с номерами $s+1,\dots,m$~--- нулевые. + +Ненулевые элементы $a_{1,j_1}, a_{2,j_2},\dots,a_{s,j_s}$ в +ступенчатой матрице $(a_{ij})$ мы будем +называть \dfn{ведущими}\index{ведущие элементы}. + +Что же нам дает применение метода Гаусса к расширенной матрице системы +линейных уравнений? Напомним, что расширенная матрица системы состоит +из $m$ строк и $n+1$ столбца, где $m$~--- число уравнений, $n$~--- +число неизвестных. Самый правый столбец расширенной матрицы несет +особый смысл~--- это правая часть системы. Поэтому сразу рассмотрим +особый случай: предположим, что ведущий элемент оказался в последнем +столбце. Очевидно, что это может быть только последний ведущий элемент +$a_{s,j_s}$. Тогда уравнение с номером $s$ выглядит так: +$0x_1+\dots+0x_n=a_{s,j_s}$, и $a_{s,j_s}\neq 0$. Очевидно, что это +уравнение не имеет решений, поэтому и вся система не имеет решений. + +Теперь можно считать, что $j_s> в правую +часть, получаем выражение для зависимой переменной $x_{j_s}$. Теперь +возьмем предпоследнее уравнение: +$a_{s-1,j_{s-1}}x_{j_{s-1}}+\dots=b_{s-1}$; мы уже знаем значения всех +переменных в левой части, кроме $x_{j_{s-1}}$, поэтому аналогичным +образом получаем выражение для следующей зависимой переменной, +$x_{j_{s-1}}$. Продолжая этот процесс, мы дойдем и до первой строчки, +выразив значение $x_{j_1}$. + +Итак, если заданы значения свободных переменных, то значения свободных +переменных определяются однозначно. С другой стороны, значения +свободных переменных могут быть совершенно произвольными, и +приведенный алгоритм утверждает, что найдется решение с такими +значениями свободных переменных. Иными словами, мы установили +взаимно-однозначное соответствие между множеством решений нашей +системы и множеством произвольных наборов значений независимых +переменных. + +\subsection{Операции над матрицами} +\literature{[F], гл. IV, \S~1; [K1], гл. 3, \S~3, пп. 1--3.} + +\begin{definition} +\dfn{Матрицей}\index{матрица} над кольцом $R$ мы будем называть +прямоугольную +таблицу, составленную из элементов кольца $R$. Иными словами, задать +матрицу $A$~--- значит, задать набор элементов $a_{ij}\in R$ для всех +$i,j$ таких, что $1\leq i\leq m$, $1\leq j\leq n$. Эти элементы +называются \dfn{коэффициентами}\index{коэффициенты матрицы} матрицы +$A$ и мы пишем $A=(a_{ij})$. +При этом мы будем +изображать такую матрицу в виде таблицы из $m$ строк и $n$ столбцов, в +которой на пересечении $i$-й строки и $j$-го столбца стоит элемент +$a_{ij}$. Будем говорить, что $A$ является матрицей $m\times n$; +множество всех матриц $m\times n$ над кольцом $R$ +обозначается через $M(m,n,R)$. Если +$m=n$ (число строк совпадает с числом столбцов), матрица называется +\dfn{квадратной}\index{матрица!квадратная}; мы будем писать $M(n,R)$ +вместо $M(n,n,R)$. При этом $n$ называется +\dfn{порядком}\index{порядок!квадратной матрицы} квадратной матрицы +из $M(n,R)$. +\end{definition} + +Элемент, стоящий в матрице $A$ на пересечении $i$-й строки и $j$-го +столбца мы часто будем обозначать через $A_{ij}$; будем говорить, что +в матрице $A$ элемент $A_{ij}$ \dfn{стоит на позиции + $(i,j)$}\index{позиция элемента в матрице}. + +Введем основные операции над матрицами. Если $A=(a_{ij})$, +$B=(b_{ij})$~--- две матрицы одинакового размера $m\times n$, определим их сумму +$A+B$ как матрицу, у которой на позиции $(i,j)$ стоит $a_{ij}+b_{ij}$. +Иными словами, $(A+B)_{ij}=A_{ij}+B_{ij}$ для всех $1\leq i\leq m$, +$\leq i\leq n$. +Таким образом, сложение матриц происходит {\it покомпонентно}. + +Гораздо интереснее выглядит умножение матриц. +Пусть $A\in M(m,n,R)$, $B\in M(n,p,R)$~--- обратите внимание, что +число столбцов первой матрицы равно числу строк второй матрицы. +Тогда их произведением $AB$ называется матрица размера $m\times p$, у +которой на позиции $(i,k)$ стоит $\sum_{j=1}^nA_{ij}B_{jk}$. Иными +словами, $(AB)_{ik}=\sum_{j=1}^nA_{ij}B_{jk}$. Обратите внимание, что +при фиксированных $i$ и $k$ элементы $A_{ij}$ пробегают строку матрицы +$A$ с номером $i$, а элементы $B_{jk}$ пробегают столбец матрицы $B$ с +номером $k$. То есть, для того, чтобы получить элемент, стоящий в +матрице $AB$ на позиции $(i,k)$, нужно взять $i$-ю строку матрицы $A$, +$k$-й столбец матрицы $B$, и сформировать сумму произведений +соответствующих элементов этой строки и этого столбца; по условию на +размер матриц $A$ и $B$ они имеют одинаковую длину. + +Определим также результат умножения скаляра (элемента кольца $R$) на +матрицу над $R$: пусть $\lambda\in R$, $A\in M(m,n,R)$. Рассмотрим +матрицу, в которой на позиции $(i,j)$ стоит $\lambda A_{ij}$; мы будем +обозначать ее через $\lambda A$. То есть, при умножении матрицы $A$ на +скаляр $\lambda$ каждый элемент матрицы $A$ умножается на $\lambda$ +(здесь мы предполагаем, что кольцо $R$ коммутативно, поэтому неважно, +с какой стороны происходит умножение). + +Наконец, еще одна важная операция~--- +\dfn{транспонирование}\index{транспонирование}\index{матрица!транспонированная} +матрицы. Пусть $A\in M(m,n,R)$. Определим матрицу $A^T\in M(n,m,R)$ +так: у нее в позиции $(j,i)$ стоит элемент $A_{ij}$. Такая матрица +называется матрицей, транспонированной к матрице $A$. Неформально +говоря, это матрица, полученная из матрицы $A$ <<симметрией>> +относительно главной диагонали. При этом строки с номерами +$1,2,\dots,m$ матрицы $A$ становятся столбцами с номерами +$1,2,\dots,m$ матрицы $A^T$; аналогично, столбцы матрицы $A$ +превращаются в строки матрицы $A^T$. + +Теперь сформулируем свойства введенных операций. + +\begin{theorem}[Свойства операций над матрицами]\label{thm_matrix_operations_properties} +Следующие тождества выполняются для любых матриц $A,B,C$ над коммутативным +кольцом $R$ и для любых $\lambda,\mu\in R$, +если определены результаты всех входящих в них операций: +\begin{enumerate} +\item $A+(B+C)=(A+B)+C$ (ассоциативность сложения); +\item пусть $0$~--- матрица, все коэффициенты которой нулевые; тогда + $A+0=0+A=A$ (нейтральный элемент относительно сложения); +\item для любой матрицы $A$ найдется матрица $-A$ такая, что + $A+(-A)=(-A)+A=0$ (противоположный элемент); +\item $A+B=B+A$ (коммутативность сложения). +\item $(AB)C=A(BC)$ (ассоциативность умножения); +\item $A(B+C)=AB+AC$ (левая дистрибутивность); +\item $(B+C)A=BA+CA$ (правая дистрибутивность); +\item $\lambda(A+B)=\lambda A+\lambda B$ (левая дистрибутивность умножения + на скаляр); +\item $(\lambda+\mu)A=\lambda A + \mu A$ (правая дистрибутивность + умножения на скаляр); +\item $(\lambda A)B=\lambda (AB)=A(\lambda B)$; +\item $(\lambda\mu)A=\lambda(\mu A)$; +\item $(A+B)^T=A^T+B^T$; +\item\label{property_mult_transpose} $(AB)^T=B^TA^T$. +\end{enumerate} +\end{theorem} +Поясним формулировку <<\dots если определены результаты всех входящих +в них операций>>: мы можем сложить две матрицы только в том случае, +если они имеют одинаковый размер, и перемножить две матрицы только в +том случае, если количество столбцов первой матрицы совпадает с +количеством строк второй матрицы. Поэтому, скажем, тождество +$A+(B+C)=(A+B)+C$ выполняется для любых $A,B,C\in M(m,n,R)$, тождество +$(AB)C=A(BC)$~--- для любых $A\in M(m,n,R)$, $B\in M(n,p,R)$, $C\in +M(p,q,R)$, тождество $A(B+C)=AB+AC$~--- для любых $A\in M(m,n,R)$ и +$B,C\in M(n,p,R)$, и так далее. + +\begin{proof} +Напоминаем, что через $A_{ij}$ мы обозначаем элемент матрицы $A$, +стоящий в позиции $(i,j)$. Для того, чтобы проверить равенство двух +матриц, достаточно проверить, что они имеют одинаковый размер и что +элементы, стоящие в соответствующих позициях этих матриц, +равны. Мы займемся именно проверкой поэлементного равенства, оставив +читателю [тривиальную] проверку равенства размеров. +\begin{enumerate} +\item + $(A+(B+C))_{ij}=A_{ij}+(B+C)_{ij} = A_{ij}+(B_{ij}+C_{ij}) = + (A_{ij}+B_{ij})+C_{ij} = (A+B)_{ij}+C_{ij}=((A+B)+C)_{ij}$; здесь мы + воспользовались ассоциативностью сложения в кольце $R$. +\item $(A+0)_{ij} = A_{ij}+0_{ij} = A_{ij}+0 = A_{ij}=0+A_{ij} = + 0_{ij}+A_{ij} = (0+A)_{ij}$. +\item Составим матрицу $-A$ из элементов $-A_{ij}$, то есть, положим + $(-A)_{ij} = -A_{ij}$. Тогда + $(A+(-A))_{ij}=A_{ij}+(-A)_{ij}=A_{ij}-A_{ij}=0$, откуда $A+(-A)=0$; + аналогично, $(-A)+A=0$. +\item $(A+B)_{ij} = A_{ij}+B_{ij} = B_{ij}+A_{ij} = (B+A)_{ij}$, + поскольку сложение в $R$ коммутативно. +\item Пусть $A\in M(m,n,R)$, $B\in M(n,p,R)$, $C\in M(p,q,R)$. Тогда + $$((AB)C)_{il} = \sum_{k=1}^p(AB)_{ik}C_{kl} = + \sum_{k=1}^p\sum_{j=1}^nA_{ij}B_{jk}C_{kl};$$ с другой стороны, + $$(A(BC))_{il} = \sum_{j=1}^nA_{ij}(BC)_{jl} = + \sum_{j=1}^nA_{ij}\sum_{k=1}^pB_{jk}C_{kl} = + \sum_{j=1}^n\sum_{k=1}^pA_{ij}B_{jk}C_{kl}.$$ Получившиеся суммы + отличаются только изменением порядка суммирования. +\item Пусть $A\in M(m,n,R)$, $B\in M(n,p,R)$. Тогда + $$(A(B+C))_{ik} = \sum_{j=1}^nA_{ij}(B+C)_{jk} = + \sum_{j=1}^n(A_{ij}B_{jk}+A_{ij}C_{jk})$$ и + $$(AB+AC)_{ik} = (AB)_{ik}+(AC)_{ik} = \sum_{j=1}^nA_{ij}B_{jk} + + \sum_{j=1}^nA_{ij}C_{jk} = \sum_{j=1}^n(A_{ij}B_{jk}+A_{ij}C_{jk}).$$ +\item Доказательство совершенно аналогично доказательству предыдущего + пункта. +\item $(\lambda(A+B))_{ij} = \lambda(A+B)_{ij} = + \lambda(A_{ij}+B_{ij}) = \lambda A_{ij}+\lambda B_{ij} = + (\lambda A)_{ij}+(\lambda B)_{ij}=(\lambda A + \lambda B)_{ij}$. +\item $((\lambda+\mu)A)_{ij} = (\lambda+\mu)A_{ij} = + \lambda A_{ij}+\mu A_{ij} = (\lambda A)_{ij} + (\mu A)_{ij} = + (\lambda A + \mu A)_{ij}$. +\item Заметим, что $((\lambda A)B)_{ik} = \sum_{j}((\lambda A)_{ij}B_{jk}) = + \sum_{j}(\lambda A_{ij}B_{jk})$; кроме того, + $$(A(\lambda B))_{ik} = \sum_j(A_{ij}(\lambda B)_{jk}) = + \sum_j(A_{ij}\lambda B_{jk}) = \sum_{j}(\lambda A_{ij}B_{jk})$$ и + $$(\lambda (AB))_{ik} = \lambda (AB)_{ik} = \lambda\sum_j(A_{ij}B_{jk}) + = \sum_j(\lambda A_{ij}B_{jk}).$$ +\item $((\lambda\mu)A)_{ij} = (\lambda\mu)A_{ij} = \lambda\mu A_{ij} = + \lambda(\mu A_{ij}) = \lambda (\mu A)_{ij} = (\lambda(\mu A))_{ij}$. +\item $((A+B)^T)_{ij} = (A+B)_{ji} = A_{ji} + B_{ji} = (A^T)_{ij} + + (B^T)_{ij} = (A^T + B^T)_{ij}$. +\item $((AB)^T)_{ik} = (AB)_{ki} = \sum_j(A_{kj}B_{ji}) = + \sum_j((A^T)_{jk}(B^T)_{ij}) = \sum_j((B^T)_{ij}(A^T)_{jk}) = B^TA^T$. +\end{enumerate} +\end{proof} + +\begin{definition} +Рассмотрим матрицу размера $n\times n$, у которой в позиции $(i,j)$ +стоит $1$, если $i=j$, и $0$, если $i\neq j$. Такая матрица называется +\dfn{единичной матрицей}\index{матрица!единичная} и обозначается через $E_n$ (и часто мы будем +обозначать ее просто через $E$, если размер ясен из контекста). Эта +матрица действительно играет роль нейтрального элемента относительно +умножения, как показывает следующее утверждение. +\end{definition} + +\begin{proposition}\label{prop_identity_matrix} +Пусть $A\in M(m,n,R)$. Тогда $E_m\cdot A = A\cdot E_n = A$. +\end{proposition} +\begin{proof} +Заметим, что $(E_m\cdot A)_{ik} = \sum_j (E_m)_{ij} A_{jk}$. В +получившейся сумме матричный элемент $(E_m)_{ij}$ равен $0$ для всех +$j$, кроме $j=i$. Поэтому от суммы остается одно слагаемое, +соответствующее случаю $j=i$, и равное $A_{ik}$. Это выполнено для +всех $i,k$, поэтому $E_m\cdot A = A$. Второе равенство доказывается +аналогично. +\end{proof} + +\begin{remark}\label{rem:matrix_multiplication_properties} +Заметим, что для квадратных матриц фиксированного размера (то есть, +для элементов $M(n,R)$) свойства 1--7 из +теоремы~\ref{thm_matrix_operations_properties} и свойство единичных +матриц из предложения~\ref{prop_identity_matrix} означают, что эти +матрицы образуют ассоциативное кольцо с единицей. Это кольцо $M(n,R)$ +называется \dfn{кольцом квадратных матриц}\index{кольцо!квадратных + матриц} порядка $n$. +Отметим, что это кольцо не является коммутативным при $n\geq 2$: +$$ +\begin{pmatrix}0 & 1\\0 & 0\end{pmatrix}\cdot +\begin{pmatrix}0 & 0\\1 & 0\end{pmatrix} = +\begin{pmatrix}1 & 0\\0 & 0\end{pmatrix}\neq +\begin{pmatrix}0 & 0\\0 & 1\end{pmatrix} = +\begin{pmatrix}0 & 0\\1 & 0\end{pmatrix}\cdot +\begin{pmatrix}0 & 1\\0 & 0\end{pmatrix}. +$$ +Напомним, что элемент $a$ произвольного ассоциативного кольца $A$ с +единицей называется {\it обратимым}, если найдется элемент $b\in A$ +такой, что $ab=ba=1$ в $A$. Такой элемент $b$ обозначается через +$a^{-1}$ и называется {\it обратным} к $a$. В полном соответствии с +этим, квадратная матрица $A\in M(n,R)$ называется +\dfn{обратимой}\index{матрица!обратимая}, +если найдется матрица, обозначаемая через $A^{-1}\in M(n,R)$, такая, +что $A\cdot A^{-1} = A^{-1}\cdot A = E_n$. При этом, как и в +произвольном ассоциативном кольце с единицей, для обратимой матрицы +$A$ выполнено $(A^{-1})^{-1}=A$, а для набора обратимых матриц +$A_1,\dots,A_s$ выполнено $(A_1\cdot A_2\cdot\dots\cdot A_s)^{-1} = +A_s^{-1}\cdot\dots\cdot A_2^{-1}\cdot A_1^{-1}$. +\end{remark} + +Упомянем еще одно важное свойство, связывающее обратимость и +транспонирование. + +\begin{proposition} +Если матрица $A\in M(n,R)$ обратима, то и матрица $A^T$ обратима, +причем $(A^T)^{-1} = (A^{-1})^T$. +\end{proposition} +\begin{proof} +Пользуясь свойством~(\ref{property_mult_transpose}) из +теоремы~\ref{thm_matrix_operations_properties}, получаем +$A^T\cdot(A^{-1})^T = (A^{-1}\cdot A)^T = (E_n)^T$. Осталось заметить, +что $(E_n)^T=E_n$, поскольку из определения единичной матрицы легко +видеть, что $(E_n)_{ij}=(E_n)_{ji}$ для всех $i,j$. Равенство +$(A^{-1})^T\cdot A^T=E_n$ проверяется аналогично. +\end{proof} + +\begin{remark} +Кольцо матриц $M(n,R)$ не является полем при $n\geq 2$, поскольку в +нем есть делители нуля. Например, пусть $A=\begin{pmatrix}0 & 1\\0 & + 0\end{pmatrix}\in M(2,R)$; тогда $A\cdot A=\begin{pmatrix}0 & 0\\0 & + 0\end{pmatrix}$. Поэтому матрица $A$ никак не может быть обратимой в +$M(2,R)$. Нетрудно придумать аналогичный пример в $M(n,R)$ для любого +$n\geq 2$. +\end{remark} + +Удобно конструировать матрицы из маленьких кусочков: обозначим через +$e_{ij}$ матрицу из $M(m,n,R)$, у которой в позиции $(i,j)$ стоит $1$, +а во всех остальных позициях стоит $0$. Заметим, что $m$ и $n$ в наше +обозначение $e_{ij}$ не входят~--- мы подразумеваем, что всегда из +контекста ясно, какого размера матрицы рассматриваются (если это +вообще важно). +Любую матрицу $A=(a_{ij})\in M(m,n,R)$ тогда можно представить в виде +$A=\sum_{i,j}a_{ij}e_{ij}$. Например, для единичной матрицы имеем +$E_n=e_{11}+e_{22}+\dots+e_{nn}$. +Матрицы $e_{ij}$ называются \dfn{матричными единицами}\index{матричная + единица} (не путать с +{\it единичными матрицами}!) + +Как перемножаются матричные единицы? В произведении $e_{ij}\cdot +e_{kl}$ ненулевые элементы могут стоять только в $i$-ой строчке +(поскольку все строчки матрицы $e_{ij}$, кроме $i$-ой, нулевые), и +только в $l$-ом столбце (поскольку все столбцы матрицы $e_{kl}$, кроме +$l$-го, нулевые). Поэтому произведение $e_{ij}\cdot e_{kl}$ может +отличаться от нуля только в позиции $e_{il}$. Внимательное +рассмотрение произведения $i$-ой строчки матрицы $e_{ij}$ на $l$-й +столбец матрицы $e_{kl}$ показывает, что +$$e_{ij}\cdot e_{kl}=\begin{cases}e_{il}, &\text{если }j=k;\\ 0, + &\text{если }j\neq k.\end{cases}$$ + +Наконец, докажем полезный критерий равенства двух матриц. +\begin{proposition}\label{prop:equal-matrices} +Пусть $A,B\in M(m,n,R)$. Следующие утверждения равносильны: +\begin{enumerate} +\item $A = B$; +\item $uA = uB$ для всех $u\in M(1,m,R)$; +\item $Av = Bv$ для всех $v\in M(n,1,R)$; +\item $uAv = uBv$ для всех $u\in M(1,m,R)$, $v\in M(n,1,R)$. +\end{enumerate} +\end{proposition} +\begin{proof} +Пусть $A = (a_{ij})$, $B = (b_{ij})$. +Очевидно, что из первого утверждения следуют остальные. +Докажем, что $(2)\Rightarrow (1)$. +Возьмем в качестве $u$ матрицу $e_{1,i}$. Тогда +$uA = \begin{pmatrix} a_{i1} & a_{i2} & \dots & a_{in} \end{pmatrix}$, +$uB = \begin{pmatrix} b_{i1} & b_{i2} & \dots & b_{in} \end{pmatrix}$, +и из их равенства следует равенство $i$-х строчек матриц $A$ и $B$. +Подставляя $i=1,\dots,m$, получаем, что $A=B$. + +Совершенно аналогично доказывается, что $(3)\Rightarrow (1)$. +Наконец, покажем, что $(4)\Rightarrow (1)$. +Достаточно заметить, что если $u = e_{1,i}$ и $v = e_{j,1}$ +то $uAv = a_{ij}$ и $uBv = b_{ij}$; подставляя всевозможные пары +$(i,j)$, получаем, что $A = B$. +\end{proof} + +% 17.12.2014 + +\subsection{Матрицы элементарных преобразований} +\literature{[K1], гл. 1, \S~3, п. 6.} + +В качестве первого применения операций над матрицами мы истолкуем +элементарные преобразования, введенные в +разделе~\ref{subsection_linear_systems}, как домножения на матрицы +определенного вида. + +Для $i\neq j$ ($1\leq i,j\leq n$) и $\lambda\in R$ определим +$T_{ij}(\lambda) = E_n + \lambda e_{ij}$. Это матрица, которая +отличается от единичной матрицы лишь в одной позиции $(i,j)$, в +которой стоит $\lambda$. +Напомним, что по этим же данным $i,j,\lambda$ мы определили +элементарное преобразование первого типа как прибавление к $i$-й +строке матрицы ее $j$-ой строки, умноженной на $\lambda$. Оказывается, +проведение этого элементарного преобразования над матрицей $A\in +M(n,m,R)$ равносильно умножению матрицы $A$ слева на +$T_{ij}(\lambda)$. +Действительно, пусть $A=(a_{ij})\in M(n,m,R)$. Посмотрим на матрицу +$T_{ij}(\lambda)A$. Поскольку матрица $T_{ij}$ отличается от матрицы +$E_n$ только в $i$-й строке, произведение $T_{ij}(\lambda)A$ +отличается от матрицы $A$ только в $i$-й строке. Значит, нам осталось +только перемножить $i$-ю строку матрицы $T_{ij}(\lambda)$ на $A$, и +записать результат в $i$-ю строку результата. В $i$-й строке матрицы +$T_{ij}(\lambda)$ лишь два элемента отличны от нуля: элемент в позиции +$i$ равен 1, а элемент в позиции $j$ равен $\lambda$. При умножении на +$k$-й столбец матрицы $A$, получаем следующее: +$$ +\left(\begin{matrix}0 & \cdots & 1 & \cdots & \lambda & \cdots & 0\end{matrix}\right)\cdot +\left(\begin{matrix} a_{1k} \\ \vdots \\ a_{ik} \\ \vdots \\ a_{jk} \\ + \vdots \\ a_{nk}\end{matrix}\right) = a_{ik} + \lambda a_{jk} +$$ +Это происходит в каждом столбце матрицы $A$; поэтому $i$-я строка +произведения $T_{ij}(\lambda)$ равна $(\begin{matrix}a_{i1}+\lambda + a_{j1} & \cdots & a_{in}+\lambda a_{jn}\end{matrix})$, то есть, +равна сумме $i$-й строки матрицы $A$ и $j$-й строки матрицы $A$, +умноженной на $\lambda$. + +Теперь разберемся с элементарными преобразованиями второго +типа. Для индексов $i\neq j$ рассмотрим матрицу $S_{ij}\in M(n,R)$, которая +отличается от единичной матрицы $E_n$ перестановкой строк с номерами +$i$ и $j$. Таким образом, $S_{ij}$ отличается от $E_n$ в четырех +позициях: в позициях $(i,i)$ и $(j,j)$ стоят $0$ (вместо $1$), а в позициях $(i,j)$ +и $(j,i)$ стоят $1$ (вместо $0$). Иными словами, +$S_{ij}=E_n-e_{ii}-e_{jj}+e_{ij}+e_{ji}$. +Покажем, что умножение матрицы $A$ на $S_{ij}$ слева равносильно +элементарному преобразованию второго типа матрицы $A$~--- перестановке +$i$-ой и $j$-ой строчки. +Действительно, произведение $S_{ij}A$ отличается от матрицы $A$ только +в строчках с номерами $i$ и $j$: $i$-ая строчка равна произведению +строчки $(\begin{matrix} 0 & \cdots & 0 & 1 & 0 & \cdots & + 0\end{matrix})$ (где $1$ стоит на $j$-м месте) на матрицу $A$, то +есть, $j$-ой строчке матрицы $A$. Аналогично, $j$-ая строчка +произведения $S_{ij}A$ равна произведению строчки $(\begin{matrix} 0 & + \cdot & 0 & 1 & 0 & \cdots & 0\end{matrix})$ (где $1$ стоит на $i$-м +месте) на матрицу $A$, то есть, $i$-ой строчке матрицы $A$. + +Наконец, для индекса $i$ и обратимого элемента $\eps\in R^*$ +рассмотрим матрицу $D_i(\eps)\in M(n,R)$, которая отличается от +единичной матрицы $E_n$ лишь в позиции $(i,i)$, где стоит $\eps$. То +есть, $D_i(\eps)=E_n+(\eps-1)e_{ii}$. Покажем, что умножение матрицы +$A$ на $D_i(\eps)$ слева равносильно элементарному преобразованию +третьего типа матрицы $A$~--- умножению $i$-ой строчки на +$\eps$. Действительно, матрица $D_i(\eps)\cdot A$ отличается от $A$ +только в $i$-й строчке, и $i$-ая строчка матрицы $D_i(\eps)\cdot A$ +равна произведению $(\begin{pmatrix}0 & \cdots & \eps & \cdots & + 0\end{pmatrix})\cdot A=\eps(\begin{pmatrix}0 & \cdots & 1 & \cdots + & 0\end{pmatrix})\cdot A$, что равно произведению $\eps$ и $i$-ой +строчки матрицы $A$. + +Таким образом, мы истолковали элементарные преобразования над строками +матрицы как домножения слева на несложные матрицы $T_{ij}(\lambda)$, +$S_{ij}$ и $D_i(\eps)$: +\begin{itemize} +\item умножение на $T_{ij}(\lambda)$ слева соответствует прибавлению к + $i$-ой строчке $j$-ой строчки, умноженной на $\lambda$; +\item умножение на $S_{ij}$ слева соответствует перестановке $i$-ой и + $j$-ой строчек; +\item умножение на $D_i(\eps)$ слева соответствует умножению $i$-ой + строчки на $\eps$. +\end{itemize} + Применяя транспонирование (с учетом свойства +$(AB)^T=B^TA^T$), получаем, что элементарные преобразования над {\it + столбцами} матрицы соответствуют домножения {\it справа} на эти же +матрицы: действительно, при транспонировании строки матриц +превращаются в столбцы, и $(T_{ij}(\lambda))^T=T_{ji}(\lambda)$, +$(S_{ij})^T=S_{ij}$, $(D_i(\eps))^T=D_i(\eps)$. Поэтому +\begin{itemize} +\item умножение на $T_{ij}(\lambda)$ справа соответствует прибавлению к + $j$-ому столбцу $i$-ого столбца, умноженного на $\lambda$; +\item умножение на $S_{ij}$ справа соответствует перестановке $i$-ого и + $j$-ого столбцов; +\item умножение на $D_i(\eps)$ справа соответствует умножению $i$-ого + столбца на $\eps$. +\end{itemize} +Заметим, что обратимость элементарных преобразований соответствует +тому факту, что любая матрица элементарного преобразования +обратима. Так, $(T_{ij}(\lambda))^{-1}=T_{ij}(-\lambda),$ +$(S_{ij})^{-1}=S_{ij}$ и $(D_i(\eps))^{-1}=D_i(\eps^{-1}).$ Теперь это +можно проверить непосредственным матричным перемножением. + +Теперь мы можем истолковать метод Гаусса как некоторый матричный +факт. Напомним, что метод Гаусса говорит, что с помощью элементарных +преобразований строк можно любую матрицу привести к ступенчатому +виду. В терминах матриц это означает, что для любой матрицы $A\in +M(m,n,k)$ над полем $k$ найдутся матрицы +элементарных преобразований $P_1,\dots,P_s\in M(m,k)$ такие, что +матрица $P_sP_{s-1}\dots P_1A$ является ступенчатой. + +Проведем после этого некоторые элементарные преобразования над +{\it столбцами}. +Посмотрим на первую строчку ступенчатой матрицы $A=(a_{ij})$. +$$ +\begin{pmatrix} +0 & \dots & 0 & 1 & * & \dots & * \\ +0 & \dots & 0 & 0 & * & \dots & * \\ +\vdots & \ddots & \vdots & \vdots & \vdots & \ddots & \vdots \\ +0 & \dots & 0 & 0 & * & \dots & * +\end{pmatrix} +$$ +Здесь $1$ стоит в позиции $(1,j_1)$, и $a_{1,j}=0$ при +$jj_1$ прибавим к $j$-му столбцу столбец с +номером $j_1$, умноженный на $-a_{1,j}$. После этого в позиции $(1,j)$ +окажется $a_{1,j}-a_{1,j}=0$. То есть, после таких прибавлений первая +строчка нашей матрицы будет иметь только один ненулевой элемент~--- +$1$ в позиции $(1,j_1)$. +Продолжим эту операцию: посмотрим на вторую строчку нашей +матрицы. Если она отличается от нулевой, то там стоит $1$ в некоторой +позиции $(2,j_2)$. Прибавим к $j$-му столбцу столбец с номером $j_2$, +умноженный на $-a_{2,j}$. При этом первая строчка нашей матрицы уже +никак не изменится, а во второй останется лишь один ненулевой +элемент~--- $2$ в позиции $(2,j_2)$. Совершив аналогичное действие для +всех строк нашей матрицы, мы можем добиться того, что наша матрица +отличается от нулевой лишь в позициях $(1,j_1), (2,j_2), \dots +(r,j_r)$, где стоят единицы. После этого перестановкой столбцов можно +добиться того, что эти единицы будут стоять в позициях $(1,1), (2,2), +\dots (r,r)$. Полученная матрица называется \dfn{окаймленной + единичной}\index{матрица!окаймленная единичная} матрицей. Можно изобразить ее в блочной форме следующим +образом: +$$ +\left(\begin{matrix} +E_r & 0\\ +0 & 0 +\end{matrix}\right) +$$ +(здесь $E_r$~--- единичная матрица размера $r\times r$, а нулевые +блоки имеют размеры $r\times (n-r)$, $(m-r)\times r$ и $(m-r)\times +(n-r)$). Конечно, возможно, что $r=0$ и наша матрица нулевая. + +Сформулируем то, что было сделано, на матричном языке. Как мы знаем, +элементарные перестановки столбцов соответствуют домножениям нашей +матрицы на матрицы элементарных преобразований справа. Поэтому на +самом деле мы только что доказали следующую теорему: +\begin{theorem}\label{thm_pdq} +Для любой матрицы $A\in M(m,n,k)$ над полем $k$ найдутся матрицы +элементарных преобразований $P_1,\dots,P_t,Q_1,\dots,Q_s$ такие, что +$$ +P_tP_{t-1}\dots P_1AQ_1\dots Q_{s-1}Q_s = +\begin{pmatrix} +E_r & 0\\ +0 & 0 +\end{pmatrix} +$$ +для некоторого $r$. +\end{theorem} + +\begin{corollary}\label{cor_pdq} +Для любой матрицы $A\in M(m,n,k)$ над полем $k$ существуют обратимые +матрицы $P\in M(m,k)$, $Q\in M(n,k)$ такие, что +$A=PDQ$, где $D=\begin{pmatrix}E_r&0\\0&0\end{pmatrix}\in +M(m,n,k)$~--- окаймленная единичная матрица. Более того, матрицы $P$ и +$Q$ являются произведениями матриц элементарных преобразований. +\end{corollary} +\begin{proof} +По теореме~\ref{thm_pdq} можно записать $P_tP_{t-1}\dots P_1AQ_1\dots +Q_{s-1}Q_s = \begin{pmatrix}E_r&0\\0&0\end{pmatrix}$. +Обозначим правую часть через $D$~--- это окаймленная единичная матрица. +Все матрицы $P_i$, +$Q_j$ обратимы, поэтому можно последовательно домножить на обратные к +ним с соответствующих сторон и получить равенство +$A=P_1^{-1}\dots P_t^{-1}DQ_s^{-1}\dots Q_1^{-1}$. Положим +теперь $P=P_1^{-1}\dots P_t^{-1}$, $Q=Q_s^{-1}\dots Q_1^{-1}$; матрицы +$P$ и $Q$ обратимы, поскольку они являются произведениями обратимых +матриц. Получим $A=PDQ$, что и требовалось. +\end{proof} + +Заметим, что набор матриц $P_1,\dots,P_s,Q_1,\dots,Q_t$ из теоремы не +является однозначно определенным. В то же время (хотя мы этого пока не +доказали) натуральное число $r$, полученной по матрице $A$, определено +однозначно: если взять другие матрицы элементарных преобразований, +после домножения на которые матрица $A$ превратится в окаймленную +единичную, то размер этой единичной матрицы все равно окажется равным +$r$. Это число $r$ является важной характеристикой матрицы $A$ и +называется ее {\it рангом}. Пока что отметим, что для квадратной +матрицы $A$ обратимость равносильна тому, что окаймленная единичная +матрица, к которой приводится матрица $A$, на самом деле является +единичной: +\begin{corollary}\label{cor_invertible_pdq} +Пусть квадратная матрица $A\in M(n,k)$ над полем $k$ представлена в +виде $A=P_sP_{s-1}\dots P_1\left(\begin{matrix} +E_r & 0\\ +0 & 0\end{matrix}\right)Q_1\dots Q_{t-1}Q_t$, где $P_i,Q_i$~--- +матрицы элементарных преобразований. Тогда обратимость матрицы $A$ +равносильна тому, что $r=n$. + +Иными словами, матрица $A$ обратима тогда и только тогда, когда ее +можно представить в виде произведения матриц элементарных +преобразований. +\end{corollary} +\begin{proof} +Если $r=n$, то в середине разложения $A$ стоит единичная матрица, +которую можно вычеркнуть, и получится, что $A$ является произведением +матриц элементарных преобразований. Каждая из матриц элементарных +преобразований обратима, а произведение обратимых элементов кольца +обратимо (лемма~\ref{lemma:product_of_invertibles}). + +Обратно, предположим, что $A$ обратима. Из равенства +$$A=P_sP_{s-1}\dots P_1\left((\begin{matrix} +E_r & 0\\ +0 & 0\end{matrix}\right)Q_1\dots Q_{t-1}Q_t$$ получаем, что +$$P_1^{-1}\dots P_{s-1}^{-1}P_s^{-1}AQ_t^{-1}Q_{t-1}^{-1}\dots +Q_1^{-1}=\left(\begin{matrix} E_r & 0 \\ 0 & + 0\end{matrix}\right).$$ Опять же, в левой части стоит произведение +обратимых матриц, поэтому и матрица в правой части должна быть +обратимой. Но матрица вида $\left(\begin{matrix} E_r & 0 \\ +0 & 0\end{matrix}\right)$ может быть обратимой только при +$r=n$. Действительно, если $r>. + +Посмотрим теперь, как перемножаются блочные матрицы. +Пусть $A\in M(m,n,R)$, $B\in M(n,p,R)$, и пусть выбраны разбиения +чисел $m,n,p$: $m = m_1 + \dots + m_s$, $n = n_1 + \dots + n_t$, +$p = p_1 + \dots + p_u$. +Тогда $A$ является блочной матрицей с блоками, скажем, +$x_{ij}\in M(m_i,n_j,R)$, а $B$~--- блочной матрицей с блоками +$y_{jk}\in M(n_j,p_k,R)$. +Их произведение $AB$ лежит в $M(m,p,R$), и его можно рассмотреть +как блочную матрицу в соответствии с указанными разбиениями +чисел $m$ и $p$. +Блоки матрицы $AB$ обозначим через $z_{ik}\in M(m_i,p_k,R)$. +Как блок $z_{ik}$ связан с блоками матриц $A$ и $B$? +Оказывается +$$ +z_{ik} = x_{i1}y_{1k} + \dots + x_{it}y_{tk} += \sum_{j=1}^t x_{ij}y_{jk}. +$$ +Таким образом, блочные матрицы можно перемножать <<поблочно>>, +и формула для каждого блока в произведении выглядит точно так же, +как формула для элемента в произведении матриц. +Обратите внимание, однако, что теперь в этом произведении +элементы $x_{ij}$ и $y_{jk}$ являются матрицами, так что +мы должны следить за порядком, в котором они перемножаются. + +%%% коллоквиум + +%%% 2015 + +\subsection{Перестановки}\label{subsect:permutations} +\literature{[F], гл. IV, \S~2, п. 2.} + +Нам необходимо на время отвлечься от линейной алгебры, чтобы +ввести важное понятие {\it группы перестановок}. +Пусть $X$~--- некоторое +множество. \dfn{Перестановкой}\index{перестановка} на множестве +$X$ называется биекция $X\to X$. Заметим, что любая биекция обратима: +если $\pi\colon X\to X$~--- биекция, то существует и обратное +отображение $\pi^{-1}\colon X\to X$, также являющееся биекцией, такое, +что $\pi\circ\pi^{-1}$ и $\pi^{-1}\circ\pi$ тождественны. Напомним +также, что композиция отображений ассоциативна. + +\begin{definition}\label{def_group} +Множество $G$ с бинарной операцией $\circ\colon G\to G$ называется +\dfn{группой}\index{группа}, если выполняются следующие свойства: +\begin{itemize} +\item $a\circ (b\circ c)=(a\circ b)\circ c$ для всех $a,b,c\in G$; + (\dfn{ассоциативность}\index{ассоциативность!в группе}); +\item существует элемент $e\in G$ (\dfn{единичный + элемент}\index{единичный элемент!в группе}) такой, что + для любого $a\in G$ + выполнено $a\circ e=e\circ a=a$; +\item для любого $a\in G$ найдется элемент $a^{-1}\in G$ (называемый + \dfn{обратным}\index{обратный элемент!в группе} к $a$) такой, что + $a\circ a^{-1}=a^{-1}\circ a=e$. +\end{itemize} +\end{definition} + +\begin{definition}\label{def:symmetric_group} +Множество всех биекций из $X$ в $X$ обозначается через $S(X)$ и +называется \dfn{группой перестановок}\index{группа!перестановок} +множества $X$. Тождественное +отображение $\id_X\colon X\to X$ называется \dfn{тождественной + перестановкой}\index{тождественная перестановка}. +\end{definition} +Как мы заметили выше, $S(X)$ действительно является группой в смысле +определения~\ref{def_group} относительно операции композиции, которая +еще называется \dfn{умножением}\index{умножение перестановок} перестановок. + +Зачастую нам не важна природа элементов множества $X$, а важно лишь их +количество, особенно если $X$ конечно. Поэтому для каждого +натурального $n$ можно рассматривать +группу перестановок какого-нибудь выделенного множества из $n$ +элементов, например, множества $\{1,\dots,n\}$. Эта группа +обозначается через $S_n$: $S(\{1,\dots,n\}=S_n$. +Элемент $\pi$ группы $S_n$ можно записывать в виде таблицы из двух +строк, в первой строке которой стоят числа $1,\dots,n$ (как правило, в +порядке возрастания), а под каждым +из них стоит его образ $\pi(1),\dots,\pi(n)$: +$$ +\pi=\begin{pmatrix} 1 & 2 & \dots & n\\ +\pi(1) & \pi(2) & \dots & \pi(n)\end{pmatrix}. +$$ +Понятно, что по такой записи однозначно восстанавливается элемент +$\pi$, и обратно, если есть таблица, в первой строке которой стоят +числа $1,\dots,n$, а во второй~--- те же самые числа в каком-то +порядке, то она задает некоторый элемент $S_n$. Такая запись +называется \dfn{табличной записью}\index{табличная запись + перестановки} перестановки. +Например, группа $S_1$ состоит из одного (тождественного) элемента +$\left(\begin{matrix} 1 \\ 1\end{matrix}\right)$. Группа $S_2$ состоит +из двух элементов: один из них тождественный, +$\begin{pmatrix} 1 & 2\\ 1 & 2\end{pmatrix}$, +а другой переставляет местами $1$ и $2$: +$\begin{pmatrix} 1 & 2\\ 2 & 1\end{pmatrix}$. Группа $S_3$ +состоит из шести элементов: +$$ +S_3=\left\{\begin{pmatrix} 1 & 2 & 3\\ 1 & 2 & 3\end{pmatrix}, +\begin{pmatrix} 1 & 2 & 3\\ 1 & 3 & 2\end{pmatrix}, +\begin{pmatrix} 1 & 2 & 3\\ 2 & 1 & 3\end{pmatrix}, +\begin{pmatrix} 1 & 2 & 3\\ 2 & 3 & 1\end{pmatrix}, +\begin{pmatrix} 1 & 2 & 3\\ 3 & 1 & 2\end{pmatrix}, +\begin{pmatrix} 1 & 2 & 3\\ 3 & 2 & 1\end{pmatrix}\right\}. +$$ +Несложное комбинаторное рассуждение показывает, что количество +элементов в $S_n$ равно $n!$. Действительно, образом элемента $1$ +может быть любой из $n$ элементов множества $\{1,\dots,n\}$, образом +элемента $2$~--- любой из оставшихся $n-1$, и так далее; всего +получаем $n\cdot (n-1)\cdot\dots\cdot 1=n!$ различных вариантов. + +Табличная запись позволяет визуализировать перемножение перестановок: +для того, чтобы перемножить перестановки $\pi$ и $\rho$, нужно +записать друг под другом табличные записи $\pi$ и $\rho$, переставить +столбцы в таблице $\rho$ так, чтобы в первой строке оказалась {\it + вторая} строка таблицы $\pi$, и сформировать ответ из первой строки +верхней таблицы и второй строки нижней таблицы~--- это будет табличной +записью перестановки $\rho\circ\pi$. Обратите внимание на порядок! +Напомним, что мы записываем композицию отображений {\it справа + налево}: запись $\rho\circ\pi$ означает, что мы сначала применяем +отображение $\pi$, а затем~--- отображение $\rho$. +Это важно, поскольку при $n\geq 3$ умножение в группе $S_n$ +некоммутативно. Действительно, рассмотрим перестановки +$\pi=\begin{pmatrix}1 & 2 & 3 \\ 1 & 3 & 2\end{pmatrix}$ и +$\rho=\begin{pmatrix}1 & 2 & 3 \\ 2 & 3 & 1\end{pmatrix}$. +Перемножим их по описанному выше способу: +$$ +\rho\circ\pi\colon +\begin{matrix} +\begin{pmatrix}1 & 2 & 3 \\ 1 & 3 & 2\end{pmatrix} +\\ +\begin{pmatrix}1 & 2 & 3 \\ 2 & 3 & 1\end{pmatrix} +\end{matrix} +\to +\begin{matrix} +\begin{pmatrix}1 & 2 & 3 \\ 1 & 3 & 2\end{pmatrix} +\\ +\begin{pmatrix}1 & 3 & 2 \\ 2 & 1 & 3\end{pmatrix} +\end{matrix} +\to +\begin{pmatrix}1 & 2 & 3 \\ 2 & 1 & 3\end{pmatrix} +$$ +$$ +\pi\circ\rho\colon +\begin{matrix} +\begin{pmatrix}1 & 2 & 3 \\ 2 & 3 & 1\end{pmatrix} +\\ +\begin{pmatrix}1 & 2 & 3 \\ 1 & 3 & 2\end{pmatrix} +\end{matrix} +\to +\begin{matrix} +\begin{pmatrix}1 & 2 & 3 \\ 2 & 3 & 1\end{pmatrix} +\\ +\begin{pmatrix}2 & 3 & 1 \\ 3 & 2 & 1\end{pmatrix} +\end{matrix} +\to +\begin{pmatrix}1 & 2 & 3 \\ 3 & 2 & 1\end{pmatrix} +$$ +Мы получили, что $\rho\circ\pi=\begin{pmatrix}1 & 2 & 3 \\ 2 & 1 & + 3\end{pmatrix}$, +$\pi\circ\rho=\begin{pmatrix}1 & 2 & 3 \\ 3 & 2 & 1\end{pmatrix}$, и +видно, что это разные перестановки: $\rho\circ\pi\neq\pi\circ\rho$. + +% 27.02.2013 + +Сейчас мы покажем, что любая перестановка представляется в виде +произведения перестановок простейшего вида. Интуитивно ясно, что +простейшей [нетождественной] перестановкой является та, которая лишь +меняется местами два элемента, а остальные оставляет на своих местах. + +\begin{definition} +Пусть $1\leq i,j\leq n$ и $i\neq j$. Обозначим через $\tau_{ij}$ +следующую перестановку: +$$ +\begin{cases} +\tau_{ij}(i)&=j,\\ +\tau_{ij}(j)&=i,\\ +\tau_{ij}(k)&=k\text{ при $k\neq i,j$}. +\end{cases} +$$ +Ее табличная запись выглядит так: +$$ +\begin{pmatrix} +\dots & i & \dots & j & \dots\\ +\dots & j & \dots & i & \dots. +\end{pmatrix} +$$ +(подразумевается, что все столбики с многоточиями отвечают {\it + неподвижным} элементам). +Такая перестановка называется \dfn{транспозицией}\index{транспозиция}. Перестановка вида +$\tau_{i,i+1}$ (при $1\leq i\leq n-1$) называется \dfn{элементарной + транспозицией}\index{транспозиция!элементарная}. +\end{definition} +Очевидно, что любая транспозиция $\tau_{ij}$ совпадает с $\tau_{ji}$ и +является обратной к себе самой: $\tau_{ij}=\tau_{ji}$, +$\tau_{ij}\circ\tau_{ij}=\id$. +Посмотрим, что происходит при умножении перестановки на транспозицию: +сравним табличные записи перестановок $\pi$ и +$\pi\circ\tau_{ij}$. Нетрудно видеть, что они различаются только в +столбцах с номерами $i$ и $j$ (поскольку $\tau_{ij}$ совпадает с +тождественной в остальных точках). А именно, +$$ +\pi=\begin{pmatrix}\dots & i & \dots & j & \dots\\ +\dots & \pi(i) & \dots & \pi(j) & \dots\end{pmatrix},\quad +\pi\circ\tau_{ij}=\begin{pmatrix}\dots & i & \dots & j & \dots\\ +\dots & \pi(j) & \dots & \pi(i) & \dots\end{pmatrix}. +$$ +Иными словами, домножение на $\tau_{ij}$ справа соответствует +перестановке $i$-ой и $j$-ой позиций в нижней строке табличной записи +перестановки. + +\begin{proposition}\label{prop:product_of_transpositions} +Любая перестановка является произведением транспозиций. +\end{proposition} +\begin{proof} +Пусть $\pi\in S_n$. +Начнем с тождественной перестановки $\id$ и покажем, что +последовательным домножением на транспозиции справа можно получить +перестановку $\pi$. Сначала добьемся того, чтобы на первом месте в +нижней строке табличной записи нашей перестановки стояло то, что +нужно~--- то есть, $\pi(1)$. Для этого нужно переставить местами +первый столбик с тем, в котором стоит $\pi(1)$ (Конечно, если +$\pi(1)=1$, ничего переставлять и не нужно). После этого поставим +на второе место в нижней строке $\pi(2)$: так как $\pi$ является +перестановкой, то $\pi(1)\neq\pi(2)$, поэтому где-то справа от первого +столбца есть столбец с $\pi(2)$. Поменяем его со вторым. И так далее: +на $k$-шаге мы добиваемся того, что первые $k$ чисел в нижней строке +нашей перестановки выглядели так: $\pi(1),\pi(2),\dots,\pi(k)$. В +конце концов (дойдя до $k=n$) мы получим перестановку $\pi$ путем +домножения $\id$ на транспозиции, что и требовалось. +\end{proof} +\begin{proposition}\label{prop_odd_number_of_elementary_transpositions} +Любая транспозиция является произведением нечетного числа элементарных +транспозиций. +\end{proposition} +\begin{proof} +Неформально задача выглядит так: нам разрешено менять местами любые +два соседних элемента в строке, а хочется поменять местами два +элемента, стоящих далеко друг от друга. Как этого добиться? Очень +просто: сначала «продвинуть» последовательно левый из этих элементов +направо до второго, поменять их там местами, а потом второй элемент +«отогнать» обратно на место левого. При этом наши элементы поменяются +местами, а все остальные элементы останутся на своих местах: любой +элемент между нашими мы затронем ровно два раза: на пути «туда» и на +пути «обратно»; сначала он сдвинется на шаг влево, а потом~--- на шаг +вправо. Ну, а любой элемент, стоящий не между нашими, и подавно +останется на своем месте. Аккуратный подсчет показывает, что мы +совершили нечетное число операций. + +Формально же это рассуждение выражается в виде формулы +$$ +\tau_{ij}=\tau_{i,i+1}\circ\tau_{i+1,i+2}\circ\dots +\circ\tau_{j-2,j-1}\circ\tau_{j-1,j}\circ\tau_{j-2,j-1}\circ\dots +\tau_{i+1,i+2}\circ\tau_{i,i+1} +$$ +(здесь мы считаем, что $i\pi(j)$. Количество пар индексов от $1$ до $n$, образующих +инверсию для $\pi$, называется \dfn{числом инверсий}\index{число + инверсий перестановки} перестановки +$\pi$ и обозначается через $\inv(\pi)$. +\end{definition} +Неформально говоря, число инверсий измеряет «отклонение» перестановки +от тождественной: если $\pi=\id$, то для $i\pi(i)$), то +$i+1$ и $j$ образуют инверсию для $\pi\circ\tau_{i,i+1}$, +(поскольку +$(\pi\circ\tau_{i,i+1})(i+1)=\pi(i)<\pi(j)=(\pi\circ\tau_{i,i+1})(j)$ +и $jm$ и $j\leq m$. Поэтому +некоторые слагаемые в этой сумме равны $0$. Покажем, что ненулевое +слагаемое не может содержать и множителей из блока $X$, то есть, не +может включать в себя множитель $a_{ij}$ для $i\leq m$, $j>m$. +Действительно, посмотрим на некоторое ненулевое слагаемое +$a_{1,\pi(1)}\dots a_{m,\pi(m)} a_{m+1,\pi(m+1)}\dots a_{n,\pi(n)}$, +соответствующее перестановке $\pi$. +Среди чисел $\pi(1),\dots,\pi(n)$ должны встречаться по разу числа +$1,\dots,m$. Если некоторое число $j\leq m$ равно $\pi(i)$, то +обязательно должно быть $i\leq m$, поскольку, по предположению, +$a_{ij}=0$ при $i>m$ и $j\leq m$. Значит, все числа $1,\dots,m$ +встречаются среди чисел $\pi(1),\dots,\pi(m)$. Но тех и других +поровну, значит, $\pi(i)\leq m$ для любого $i\leq m$. Стало быть, +$\pi(i)>m$ для любого $i>m$. Мы получили, что наше слагаемое содержит +лишь множители вида $a_{ij}$, где либо $i,j\leq m$, либо $i,j>m$. В +частности, матричных элементов из блока $X$ среди них не встречается. + +Таким образом, на самом деле суммирование в $\det(A)$ производится по +тем перестановкам $\pi$, которые действуют <<отдельно>> на наборах +$1,\dots,m$ и $m+1,\dots,n$, не переставляя числа из разных +наборов. Поэтому каждая такая перестановка однозначно определяет две +перестановки: на числах $1,\dots,m$ и на числах +$m+1,\dots,n$. Обозначим первую из них через $\rho$, а вторую сдвинем +на $m$ влево (чтобы получить перестановку чисел $1,\dots,n-m$, то +есть, элемент из $S_{n-m}$) и обозначим через $\sigma$. По +перестановке $\pi$ мы построили пару перестановок $\rho\in S_m$, +$\sigma\in S_{n-m}$. + +Посмотрим теперь на произведение $\det(B)\cdot\det(C)$. Это +$$ +\left(\sum_{\rho\in S_m}\sgn(\rho)a_{1,\rho(1)}\dots a_{m,\rho(m)}\right)\cdot +\left(\sum_{\sigma\in S_{n-m}}\sgn(\sigma)a_{m+1,m+\sigma(1)}\dots a_{n,m+\sigma(n-m)}\right). +$$ +При раскрытии скобок в этом произведении получим сумму слагаемых вида +$$\sgn(\rho)\sgn(\sigma)a_{1,\rho(1)}\dots +a_{m,\rho(m)}a_{m+1,m+\sigma(1)}\dots a_{n,m+\sigma(n-m)}$$ для всех пар +перестановок $\rho\in S_m$, $\sigma\in S_{n-m}$. По каждой такой паре +перестановок построим перестановку $\pi\in S_n$, подействовав +перестановкой $\rho$ на числах $1,\dots,m$ и перестановкой $\sigma$ +(сдвинутой на $m$ вправо) на числах $m+1,\dots,n$. + +Теперь видно, что в формулах для $\det(A)$ и $\det(B)\cdot\det(C)$ +происходит суммирование по всем парам перестановок $(\rho,\sigma)\in +S_m\times S_{n-m}$ слагаемых одинакового вида. Осталось лишь проверить +совпадение знаков: в первой формуле мы видим $\sgn(\pi)$, а во +второй~--- произведение $\sgn(\rho)\cdot\sgn(\sigma)$. Но нетрудно +видеть, что число инверсий в перестановке $\pi$ равно сумме чисел +инверсий в соответствующих им перестановках $\rho$ и $\sigma$: нет +никаких инверсий между числами из набора $1,\dots,m$ и числами из +набора $m+1,\dots,n$. +\end{proof} + +\begin{corollary}\label{cor_ut_det} +Определитель верхнетреугольной матрицы равен произведению ее +диагональных элементов: +$$ +\left| +\begin{pmatrix} +a_1 & * & * & \dots & *\\ +0 & a_2 & * & \dots & *\\ +0 & 0 & a_3 & \dots & *\\ +\vdots & \vdots & \vdots & \ddots & \vdots\\ +0 & 0 & 0 & \dots & a_n +\end{pmatrix} +\right| = a_1a_2\dots a_n. +$$ +В частности, определитель единичной матрицы $E_n$ равен $1$. +\end{corollary} +\begin{proof} +Это несложно получить из предыдущей теоремы индукцией по размеру +матрицы. Можно и напрямую заметить, что в сумме из определения +$\det(A)$ для верхнетреугольной матрицы $A$ лишь одно слагаемое +отлично от нуля~--- то, которое отвечает тождественной перестановке. +\end{proof} + +\begin{proposition}\label{prop_det_zero_row} +Если в матрице присутствует нулевой столбец или нулевая строка, то ее +определитель равен нулю. +\end{proposition} +\begin{proof} +Пусть $i$-ая строка матрицы $A$ равна нулю. +В каждое слагаемое из определения $\det(A)$ входит элемент вида +$a_{i,\pi(i)}$, равный нулю, поэтому каждое слагаемое равно +нулю. Доказательство для нулевого столбца получается +транспонированием. +\end{proof} + +\begin{proposition}\label{prop_det_of_elementary} +Определители матриц элементарных преобразований: +$|T_{ij}(\lambda)|=1$, $|S_{ij}|=-1$, $|D_i(\eps)|=\eps$. +Определитель окаймленной единичной матрицы размера $n\times n$: +$\left|\begin{matrix}E_r & 0 \\ 0 & 0\end{matrix}\right|=\begin{cases}0, + &\text{если }r>. +Пусть $U,V,W$~--- векторные пространства над $k$. +Возьмем линейные отображения $T\in\Hom(U,V)$ и +$S\in\Hom(V,W)$. Тогда имеет смысл рассматривать их композицию +$S\circ T\colon U\to W$. Оказывается, отображение $S\circ T$ +также является линейным. Действительно, напомним, что +$(S\circ T)(u) = S(T(u))$ для всех $u\in U$ по определению +композиции. +Поэтому +\begin{align*} +(S\circ T)(u_1+u_2) &= S(T(u_1+u_2)) \\ +&= S(T(u_1)+T(u_2)) \\ +&= S(T(u_1))+S(T(u_2)) \\ +&= (S\circ T)(u_1) + (S\circ T)(u_2) +\end{align*} +для всех $u_1,u_2\in U$. Если же $u\in U$, $a\in k$, то +$$ +(S\circ T)(ua) = S(T(ua)) = S(T(u)a) = S(T(u))a += (S\circ T)(u)a. +$$ +Значит, $S\circ T\in\Hom(U,W)$. +Вместо $S\circ T$ мы будем часто писать $ST$ и воспринимать +$ST$ как {\em произведение} линейных отображений $S$ и $T$. + +Заметим, что композиция линейных отображений автоматически +ассоциативна (по теореме~\ref{thm_composition_associative}), +то есть, $R(ST) = (RS)T$ для трех линейных отображений таких, +что указанные композиции имеют смысл. +Тождественные отображение линейны и играют роль нейтральных +элементов: $T\id_V = \id_W T$ для $T\in\Hom(V,W)$. +Наконец, несложно проверить (упражнение!), что +умножение и сложение линейных отображений обладают свойством +дистрибутивности: если $T,T_1,T_2\in\Hom(U,V)$ +и $S,S_1,S_2\in\Hom(V,W)$ +то $(S_1+S_2)T = S_1T + S_2T$ и $S(T_1+T_2) = ST_1 + ST_2$. + +Конечно, произведение линейных отображений некоммутативно: +равенство $ST=TS$ не обязано выполняться, даже если обе его +части имеют смысл. Например, если $T\in\Hom(k[x],k[x])$~--- +отображение дифференцирования многочленов +(см. пример~\ref{example:linear-derivative}), +а $S\in\Hom(k[x],k[x])$~--- умножение на $x$ +(см. пример~\ref{example:linear-timesx}), +то $((ST)(f))(x) = xf'(x)$, +а $((TS)(f))(x) = (xf(x))' = xf'(x) + f(x)$. +Таким образом, $ST-TS = \id_{k[x]}$. + +\subsection{Ядро и образ} + +\literature{[F], гл. XII, \S~4, п. 1; [K2], гл. 2, \S~1, пп. 1, 3; + [KM], ч. 1, \S~3.} + +\begin{definition} +Пусть $T\in\Hom(V,W)$~--- линейное отображение. Его +\dfn{ядром} называется множество векторов, переходящих +в $0$ под действием $T$: +$$ +\Ker(T) = \{v\in V\mid T(v) = 0\}. +$$ +\end{definition} + +\begin{example} +Если $T\in\Hom(k[x],k[x])$~--- дифференцирование +(см. пример~\ref{example:linear-derivative}), то +$\Ker(T) = \{f\in k[x] \mid f'=0\}$. Если поле $k$ +имеет характеристику $0$, то $\Ker(T)$ состоит только из +констант, то есть, $\Ker(T) = k\subseteq k[x]$~--- одномерное +подпространство в $k[x]$. Если же +$\cchar k = p$, то существуют и неконстантные многочлены +$f\in k[x]$ +такие, что $f'=0$. Например, таков многочлен $x^p$, +а потому и любой многочлен от $x^p$: действительно, +обозначим $g(x) = x^p$, тогда +$(f(g(x)))' = f'(g(x))\cdot g'(x) = 0$. +Можно показать (упражнение!), +что $\Ker(T)$ в этом случае в точности состоит +из многочленов от $x^p$, то есть, от многочленов вида +$\sum_{j=0}^n a_j x^{jp}$. Таким образом, +$\Ker(T) = k[x^p]$ в этом случае бесконечномерно. +\end{example} +\begin{example} +Пусть $T\in\Hom(k[x],k[x])$~--- умножение на $x$ +(см. пример~\ref{example:linear-timesx}). +Тогда $\Ker(T) = 0$. +\end{example} + +\begin{proposition}\label{prop:kernel-is-subspace} +Если $T\in\Hom(V,W)$, то $\Ker(T)$ является подпространством +в $V$. +\end{proposition} +\begin{proof} +Заметим, что $T(0) = T(0+0) = T(0)+T(0)$, откуда +$T(0)=0$. Значит, $0\in\Ker(T)$. +Если $u,v\in\Ker(T)$, то по определению $T(u)=T(v)=0$. +Тогда и $T(u+v) = T(u)+T(v) = 0+0=0$, то есть, $u+v\in\Ker(T)$. +Наконец, если $u\in\Ker(T)$ и $a\in k$, то +$T(u)=0$ и $T(ua)=T(u)a=0\cdot a = 0$, откуда $ua\in\Ker(T)$. +Вышесказанное означает, что $\Ker(T)\leq V$. +\end{proof} +\begin{proposition}\label{prop:injective-iff-kernel-trivial} +Пусть $T\in\Hom(V,W)$. Отображение $T$ инъективно тогда и только +тогда, когда $\Ker(T) = 0$. +\end{proposition} +\begin{proof} +Предположим, что $T$ инъективно. Множество $\Ker(T)$ состоит из +тех векторов $v$, для которых $T(v) = 0$. Мы знаем, что +$T(0)=0$ и из инъективности следует, что других таких векторов +нет; поэтому $\Ker(T) = \{0\}$. + +Обратно, предположим, что $\Ker(T)=0$. Для проверки инъективности +возьмем $v_1,v_2\in V$ такие, что $T(v_1)=T(v_2)$ и покажем, +что $v_1=v_2$. Действительно, тогда $T(v_1-v_2) = +T(v_1)-T(v_2) = 0$, и потому $v_1-v_2\in\Ker(T) = \{0\}$, +откуда $v_1-v_2=0$, что и требовалось. +\end{proof} + +\begin{definition} +Пусть $T\in\Hom(V,W)$. Его \dfn{образом} называется его +образ как обычного отображения, то есть, множество +$$ +\Img(T) = \{T(v)\mid v\in V\}. +$$ +\end{definition} + +\begin{proposition}\label{prop:image-is-subspace} +Если $T\in\Hom(V,W)$, то $\Img(T)$ является подпространством +в $W$. +\end{proposition} +\begin{proof} +Из равенства $T(0)=0$ следует, что $0\in\Img(T)$. +Если $w_1,w_2\in\Img(T)$, то найдутся $v_1,v_2\in V$ такие, что +$T(v_1)=w_1$ и $T(v_2)=w_2$. Но тогда +$T(v_1+v_2) = T(v_1) + T(v_2) = w_1 + w_2$, и потому +$w_1 + w_2 \in \Img(T)$. +Если $w\in\Img(T)$, то $T(v)=w$ для некоторого $v\in V$. +Пусть $a\in k$; тогда $T(va) = T(v)a = wa$, и потому +$wa\in\Img(T)$. По определению тогда $\Img(T)\leq W$. +\end{proof} + +\begin{theorem}[О гомоморфизме]\label{thm:homomorphism-linear} +Пусть $V$~--- конечномерное пространство, $T\in\Hom(V,W)$~--- +линейное отображение. Тогда $\Img(T)$ является конечномерным +подпространством в $W$ и, кроме того, +$$ +\dim(V) = \dim(\Ker(T)) + \dim(\Img(T)). +$$ +\end{theorem} +\begin{proof} +Пусть $u_1,\dots,u_m$~--- базис $\Ker(T)$. Этот линейно +независимый набор векторов можно продолжить до базиса +$(u_1,\dots,u_m,v_1,\dots,v_n)$ всего пространства $V$ +по теореме~\ref{thm:li-contained-in-a-basis}. +Таким образом, $\dim(\Ker(T)) = m$ и $\dim(V) = m+n$; +нам остается лишь доказать, что $\dim(\Img(T)) = n$. +Для этого рассмотрим векторы $T(v_1),\dots,T(v_n)$ и покажем, +что они образуют базис подпространства $\Img(T)$. Очевидно, +что они лежат в $\Img(T)$, и потому +$\la T(v_1),\dots,T(v_n)\ra\subseteq\Img(T)$. Обратно, если +$w\in\Img(T)$, то $w=T(v)$ для некоторого $v\in V$. +Разложим $v$ по нашем базису пространства $V$: +$$ +v = u_1a_1+\dots+u_ma_m + v_1b_1+\dots+v_nb_n +$$ +и применим к этому разложению отображение $T$: +$$ +w = T(v) = T(u_1a_1+\dots+u_ma_m + v_1b_1 + \dots + v_nb_n) += T(v_1)b_1 + \dots + T(v_n)b_n. +$$ +Поэтому $w\in \la T(v_1),\dots,T(v_n)$. +Осталось показать, что векторы $T(v_1),\dots,T(v_n)$ +линейно независимы. Пусть +$T(v_1)c_1 + T(v_n)c_n = 0$~--- некоторая линейная комбинация. +Тогда $0=T(v_1c_1+\dots+v_nc_n)$. Это означает, что +вектор $v_1c_1+\dots+v_nc_n$ лежит в $\Ker(T)$. +Мы знаем базис $\Ker(T)$,потому +$v_1c_1+\dots+v_nc_n = u_1d_1 + \dots +u_md_m$ для некоторых +$d_i\in k$. Но набор векторов $u_1,\dots,u_m,v_1,\dots,v_n$ +лниейно независим. Значит, все коэффициенты $c_i,d_j$ равны +нулю, и исходная линейная комбинация векторов +$T(v_1),\dots,T(v_n)$ тривиальна. +\end{proof} + +Приведем пару полезных следствий этой теоремы; оказывается, +уже тривиальные соображения неотрицательности размерности +имеют серьезные последствия. + +\begin{corollary} +Пусть $V,W$~--- векторные пространства над $k$, и +$\dim V < \dim W$. Не существует сюръективных линейных +отображений $V\to W$. +\end{corollary} +\begin{proof} +Предположим, что линейное отображение +$T\colon V\to W$ сюръективно. Тогда +$\Img(T) = W$, и по теореме~\ref{thm:homomorphism-linear} +$\dim(V) = \dim(\Ker(T)) + \dim(\Img(T)) += \dim(\Ker(T)) + \dim(W)$. +Но $\dim(\Ker(T))\geq 0$, и поэтому +$\dim(V) \geq \dim(W)$~--- противоречие с условием. +\end{proof} + +\begin{corollary}\label{cor:no-injective-maps} +Пусть $V,W$~--- векторные пространства над $k$, +и $\dim V > \dim W$. Не существует инъективных линейных +отображений $V\to W$. +\end{corollary} +\begin{proof} +Предположим, что линейное отображение $T\colon V\to W$ инъективно. +По предложению~\ref{prop:injective-iff-kernel-trivial} +ядро $T$ тривиально. По теореме~\ref{thm:homomorphism-linear} +$\dim(V) = \dim(\Ker(T)) + \dim(\Img(T)) = \dim(\Img(T)) +\leq \dim(W)$ (последнее неравенство выполнено +по предложению~\ref{prop:dimension_is_monotonic})~--- +противоречие с условием. +\end{proof} + +\subsection{Матрица линейного отображения} +\literature{[F], гл. XII, \S~4, пп. 1--3; [K2], гл. 2, \S~1, п. 2; + \S~2, п. 3; [KM], ч. 1, \S~4; [vdW], гл. IV, \S~23.} + +Пусть $V,W$~--- два конечномерных пространства, +и пусть $\mc B = (v_1,\dots,v_n)$~--- упорядоченный базис $V$, +а $\mc B' = (w_1,\dots,w_m)$~--- упорядоченный базис $W$. +Универсальное свойства базиса +(теорема~\ref{thm:universal-basis-property}) означает, что +для задания линейного отображение $T\colon V\to W$ +достаточно задать векторы $T(v_1),\dots,T(v_n)\in W$. +Каждый вектор $T(v_j)$, в свою очередь, можно разложить +по базису $\mc B'$. Задание $T(v_j)$, таким образом, равносильно +заданию коэффициентов в этом разложении. +Мы получили, что линейное отображение $T\colon V\to W$ +в итоге задается конечным набором скаляров~--- при условии, что +в пространствах $V$ и $W$ выбраны базисы. +Этот набор скаляров удобно записывать в виде матрицы. + +\begin{definition}\label{dfn:matrix-of-linear-map} +Пусть $T\colon V\to W$~--- линейное отображение между +конечномерными пространствами, и пусть выбраны +упорядоченные базисы +$\mc B = (v_1,\dots,v_n)$ в $V$ +и $\mc B' = (w_1,\dots,w_m)$ в $W$. +Разложим каждый вектор $T(v_j)$ по базису $\mc B'$ +и запишем +$$ +T(v_j) = w_1a_{1j} + w_2a_{2j} + \dots + w_ma_{mj}. +$$ +Набор коэффициентов $(a_{ij})_{\substack{1\leq i\leq m \\ +1\leq j\leq n}}$ мы воспринимаем как матрицу +размера $m\times n$; она называется +\dfn{матрицей линейного отображения $T$ в базисах $\mc B$, +$\mc B'$} и обозначается через $[T]_{\mc B,\mc B'}$. +\end{definition} + +Как мы увидим ниже (см. теорему~\ref{thm:hom-isomorphic-to-m}), +линейное отображение полностью определяется +своей матрицей (в выбранных базисах). Известные нам операции +над линейными отображениями (сложение, умножение на скаляр, +композиция) при этом превращаются в известные +нам операции над матрицами (сложение, умножение на скаляр, +произведение). Ниже мы введем понятие координат вектора, +и тогда рассуждения с абстрактными векторными пространствами +и линейными отображениями можно будет сводить к конкретным +матричным вычислениям. Иными словами, матрицы полезны, когда +вам нужно <<засучить рукава>> и вычислить что-нибудь конкретное. +В то же время, всегда нужно помнить, что для перехода к матрицам +нужно зафиксировать базисы в рассматриваемых пространствах, +что может привести к утрате симметрии и некоторой неуклюжести. + +Пусть $T,S\colon V\to W$~--- линейные отображения, и +в пространствах $V,W$ выбраны базисы, как в +определении~\ref{dfn:matrix-of-linear-map}. +Покажем, что матрица суммы $T+S$ этих отображений +является суммой матрицы отображения $T$ и матрицы отображения $S$. +Иными словами, $[T+S]_{\mc B,\mc B'} = [T]_{\mc B,\mc B'} ++ [S]_{\mc B,\mc B'}$. +Пусть $[T]_{\mc B,\mc B'} = (a_{ij})$, +$[S]_{\mc B,\mc B'} = (b_{ij})$. +По определению это означает, что +$T(v_j) = \sum_{i=1}^m w_ia_{ij}$, +$S(v_j) = \sum_{i=1}^m w_ib_{ij}$. +Но тогда $(T+S)(v_j) = T(v_j) + S(v_j) += \sum_{i=1}^m w_i(a_{ij}+b_{ij})$. +Значит, в разложении вектора $(T+S)(v_j)$ по базису $\mc B'$ +коэффициент при $w_i$ равен $a_{ij}+b_{ij}$. +Это означает, что в матрице $[T+S]_{\mc B,\mc B'}$ +в позиции $(i,j)$ стоит $a_{ij} + b_{ij}$. +Но это и есть определение суммы матриц $[T]_{\mc B,\mc B'}$ +и $[S]_{\mc B,\mc B'}$. + +Совершенно аналогичное рассуждение показывает, что +$[Ta]_{\mc B,\mc B'} = [T]_{\mc B,\mc B'}\cdot a$ для +любого скаляра $a\in k$. +Доказанные факты можно сформулировать следующим образом. +\begin{theorem}\label{thm:taking-matrix-is-linear} +Пусть $V,W$~--- конечномерные векторные пространства над полем $k$, +и $\mc B,\mc B'$~--- базисы в $V,W$ соответственно. +Обозначим $n=\dim(V)$, $m=\dim(W)$. +Отображение $\ph\colon \Hom(V,W) \to M(m,n,k)$, сопоставляющее +линейному отображению $T\in\Hom(V,W)$ его матрицу +$[T]_{\mc B,\mc B'}$ в базисах $\mc B,\mc B'$, является линейным. +\end{theorem} +\begin{proof} +Для проверки линейности $\ph$ по определению нужно показать, +что $[T+S]_{\mc B,\mc B'} = [T]_{\mc B,\mc B'} + [S]_{\mc B,\mc B'}$ +и $[Ta]_{\mc B,\mc B'} = [T]_{\mc B,\mc B'}a$ для всех +$T,S\in\Hom(V,W)$, $a\in k$, что и было доказано выше. +\end{proof} + +Гораздо интереснее посмотреть, что +происходит при композиции линейных отображений. +\begin{theorem}\label{thm:composition-is-multiplication} +Пусть $U,V,W$~--- три векторных пространства с базисами +$\mc B = (u_1,\dots,u_l)$, +$\mc B' = (v_1,\dots,v_m)$, +$\mc B'' = (w_1,\dots,w_n)$, соответственно, +и пусть $S\colon U\to V$, $T\colon V\to W$~--- линейные отображения. +Тогда +$[T\circ S]_{\mc B,\mc B''} = [T]_{\mc B',\mc B''}\cdot +[S]_{\mc B,\mc B'}$. +\end{theorem} +Читатель может проверить, что написанное выражение имеет смысл: +в правой части стоят матрицы таких размеров, что их можно +перемножить, и в результате получается матрица того же размера, +что и в левой части. + +Доказательство этого факта нужно воспринимать как +(слегка запоздалое) объяснение определения умножения матриц. +В самом деле, единственная причина, по которой умножение +матриц выглядит так, как оно выглядит~--- это взаимно +однозначное соответствие между матрицами и линейными отображениями, +которое превращает композицию линейных отображений +в умножение матриц. Каждый, кто задумается, что происходит +при композиции линейных отображений (подстановке одних линейных +выражений в другие), неизбежно обязан открыть умножение матриц. + +Итак, пусть $[T]_{\mc B',\mc B''} = (a_{ij}) \in M(n,m,k)$, +$[S]_{\mc B,\mc B'} = (b_{ij}) \in M(m,l,k)$. +Как найти матрицу отображения $T\circ S$? +По определению мы должны разложить каждый вектор +вида $(T\circ S)(u_k)$ по базису $w_1,\dots,w_n$. +Заметим, что $(T\circ S)(u_k) = T(S(u_k))$, +а $S(u_k)$ мы умеем раскладывать по базису пространства $V$. +А именно, +$$ +S(u_k) = \sum_{j=1}^m v_jb_{jk}. +$$ +Получаем, что +\begin{align*} +(T\circ S)(u_k) &= T\left(\sum_{j=1}^m v_jb_{jk}\right)\\ +&= \sum_{j=1}^m T(v_j)b_{jk}, +\end{align*} +где в последнем равенстве мы воспользовались линейностью +отображения $T$. Теперь можно подставить в полученное +выражение разложение для каждого вектора вида +$T(v_j) = \sum_{i=1}^n w_i a_{ij}$. +После несложных преобразований сумм получаем +\begin{align*} +(T\circ S)(u_k) &= \sum_{j=1}^m T(v_j)b_{ji} \\ +&= \sum_{j=1}^m \sum_{i=1}^n w_i a_{ij} b_{jk} \\ +&= \sum_{i=1}^n w_i\left( \sum_{j=1}^m a_{ij}b_{jk}\right). +\end{align*} +Коэффициент при $w_i$ в полученном разложении и равен +коэффициенту, стоящему в позиции $(i,k)$ матрицы +$[T\circ S]_{\mc B,\mc B''}$. +Он оказался равен $\sum_{j=1}^m a_{ij}b_{jk}$, +и потому матрица $[T\circ S]_{\mc B,\mc B''}$ равна +произведению матриц +$[T]_{\mc B',\mc B''}\cdot [S]_{\mc B,\mc B'}$. + +Мы узнали, как понятие матрицы линейного отображение +ведет себя при сложении отображений, умножении на скаляры, +композиции. Есть еще одна операция над линейными +отображениями, самая простая: мы можем в линейное +отображение $T\colon V\to W$ подставить вектор из +$V$ и получить вектор из $W$. +Отображению $T$ мы сопоставили матрицу; сейчас мы сопоставим +векторам из $V$ и $W$ некоторые столбцы (матрицы ширину $1$) +таким образом, что вычисление результата действия +линейного отображения на векторе сведется к умножению +матрицы на столбец. + +А именно, пусть $\mc B = (v_1,\dots,v_n)$~--- базис +векторного пространства $V$. +Любой вектор $v\in V$ можно разложить по этому базису, +то есть, записать его в виде линейной комбинации +элементов $\mc B$: +$$ +v = v_1a_1+\dots+v_na_n,\quad a_i\in k. +$$ +Запишем полученные скаляры $a_1,\dots,a_n$ +в столбец. Полученный элемент пространства +$k^n$ называется \dfn{столбцом координат} +(или \dfn{координатным столбцом}) +\dfn{вектора $v$ в базисе $\mc B$} и обозначается так: +$$ +[v]_{\mc B} = \begin{pmatrix} a_1 \\ \vdots \\ a_n\end{pmatrix}. +$$ +Коэффициенты $a_1,\dots,a_n$ называются +\dfn{координатами вектора $v$ в базисе $\mc B$}. +Обратите внимание на сходство этой записи с обозначением +для матрицы линейного оператора в выбранных базисах. + +Таким образом, как только мы выбрали базис $\mc B$ +в пространстве $V$, каждому вектору из $V$ +сопоставляется столбец $[v]_{\mc B}\in k^n$. +Более того, указанное сопоставление хорошо согласовано +с операциями в пространстве $V$: если сложить два вектора, +то соответствующие им координатные столбцы сложатся, +а если вектор умножить на скаляр, то его координатный столбец +умножится на этот же скаляр. +Есть более короткий способ выразить указанные свойства: +сопоставление вектору $v\in V$ его координатного столбца +{\em линейно}. Сформулируем это в виде теоремы. +\begin{theorem}\label{thm:taking-coordinates-is-linear-map} +Пусть $V$~--- конечномерное векторное пространство над +полем $k$; $\mc B = \{v_1,\dots,v_n\}$~--- его базис. +Отображение +\begin{align*} +V & \to k^n,\\ +v & \mapsto [v]_{\mc B} +\end{align*} +линейно. +\end{theorem} +\begin{proof} +Фактически, нам нужно показать, что если $v,v'\in V$, +$a\in k$, то +$[v+v']_{\mc B} = [v]_{\mc B} + [v']_{\mc B}$ +и $[va]_{\mc B} = [v]_{\mc B} \cdot a$. +Пусть +$$ +[v]_{\mc B} = \begin{pmatrix}a_1\\\vdots\\a_n\end{pmatrix}, +\quad +[v']_{\mc B} = \begin{pmatrix}b_1\\\vdots\\b_n\end{pmatrix}. +$$ +По определению это означает, что +\begin{align*} +v &= v_1a_1 + \dots + v_na_n,\\ +v' &= v_1b_1 + \dots + v_nb_n. +\end{align*} +Сложим эти два равенства: +$$ +v+v' = v_1(a_1+b_1) + \dots + v_m(a_n+b_n). +$$ +Но тогда +$$ +[v+v']_{\mc B} = \begin{pmatrix} a_1+b_1 \\ +\vdots \\ a_n + b_n \end{pmatrix} += \begin{pmatrix}a_1\\\vdots\\a_n\end{pmatrix} + +\begin{pmatrix}b_1\\\vdots\\b_n\end{pmatrix} += [v]_{\mc B} + [v']_{\mc B}, +$$ +что и требовалось. Доказательство для умножения на скаляр +совершенно аналогично и оставляется читателю в качестве +упражнения. +\end{proof} + +Теперь мы готовы сделать последний шаг в установлении +соответствия между действиями с векторными пространствами +с одной стороны, и вычислениями с матрицами с другой стороны. + +\begin{theorem}\label{thm:matrix-multiplied-by-vector} +Пусть $T\colon V\to W$~--- линейное отображение между +конечномерными пространствами $V$ и $W$, и пусть +$\mc B = (v_1,\dots,v_n)$~--- базис $V$, а +$\mc B' = (w_1,\dots,v_m)$~--- базис $W$. +Тогда +$$ +[Tv]_{\mc B'} = [T]_{\mc B,\mc B'}\cdot [v]_{\mc B} +$$ +для любого вектора $v\in V$. +\end{theorem} +\begin{proof} +Пусть $v = v_1c_1 + \dots + v_nc_n$, то есть, +$$ +[v]_{\mc B} = \begin{pmatrix} c_1 \\ \vdots \\ c_n +\end{pmatrix}, +$$ +и пусть +$[T]_{\mc B,\mc B'} = (a_{ij})$~--- матрица отображения $T$. +Тогда +$$ +T(v) = T(\sum_{j=1}^n v_j c_j) = \sum_{j=1}^n T(v_j)c_j += \sum_{j=1}^n \left( \sum_{i=1}^m w_ia_{ij}\right) c_j += \sum_{i=1}^m w_i \left( \sum_{j=1}^n a_{ij}c_j \right). +$$ +Значит, $i$-я координата вектора $T(v)$ в базисе $\mc B'$ +равна $\sum_{j=1}^n a_{ij}c_j$. +Но это и означает, что столбец $[T(v)]_{\mc B'}$ равен +произведению матрицы $(a_{ij}) = [T]_{\mc B,\mc B'}$ +на столбец $[v]_{\mc B}$. +\end{proof} + +\subsection{Изоморфизм} + +\begin{definition} +Линейное отображение $T\colon V\to W$ называется \dfn{обратимым}, если +существует линейное отображение $S\colon W\to V$ такое, что $S\circ T = \id_V$ +и $T\circ S = \id_W$. Такое $S$ называется \dfn{обратным} к $T$. +\end{definition} + +\begin{proposition}\label{prop:invertible-linear-iff-iso} +Линейное отображение $T\colon V\to W$ обратимо тогда и только тогда, когда +оно биективно. +\end{proposition} +\begin{proof} +Если $T$ обратимо, то обратное к нему является обратным отображением +в теоретико-множественном смысле (определение~\ref{dfn:inverse-map}), +и потому биективно по теореме~\ref{thm:sur-inj-reformulations}. + +Если же отображение $T$ биективно, то +(снова по теореме~\ref{thm:sur-inj-reformulations}) существует отображение +множеств $S\colon W\to V$ такое, что $S\circ T = \id_V$ и $T\circ S = \id_W$. +Можно и явно построить это $S$: для каждого $w\in W$ заметим, +что (по определению биективности) существует единственное $v\in V$ +такое, что $T(v) = w$; тогда положим $S(w) = v$. +Осталось проверить, что это отображение линейно. Действительно, +возьмем $w_1,w_2\in W$ и пусть $S(w_1) = v_1$, $S(w_2) = v_2$. +Это означает, что $T(v_1)=w_1$, $T(v_2)=w_2$. +Но тогда $T(v_1+v_2) = w_1+w_2$, и потому $S(w_1+w_2) = v_1+v_2 = S(w_1)+S(w_2)$. +Кроме того, если $w\in W$ и $a\in k$, пусть $S(w) = v$. +Это означает, что $T(v) = w$, откуда $T(va) = wa$, и, стало быть, +$S(wa) = va = S(w)a$. +\end{proof} + +\begin{definition} +Обратимое линейное отображение иногда называется \dfn{изоморфизмом}. Если между +пространствами $V$ и $W$ существует изоморфизм $T\colon V\to W$, +они называются \dfn{изоморфными}. Обозначение: $V\isom W$. +\end{definition} + +\begin{theorem}\label{thm:isomorphic-iff-equidimensional} +Два конечномерных векторных пространства над $k$ изоморфны тогда и только тогда, +когда их размерности равны. +\end{theorem} +\begin{proof} +Пусть $V\isom W$, то есть, существует обратимое линейное отображение $T\colon V\to W$. +По предложению~\ref{prop:invertible-linear-iff-iso} $T$ биективно. В частности, +$T$ инъективно, и потому $\Ker(T)=0$ (теорема~\ref{prop:injective-iff-kernel-trivial}); +кроме того, $T$ сюръективно, и потому $\Img(T)=W$. +Воспользуемся теоремой о гомоморфизме~\ref{thm:homomorphism-linear}: +$$ +\dim\Ker(T) + \dim\Img(T) = \dim(V). +$$ +В нашем случае $\dim\Ker(T)=0$ и $\dim\Img(T)=\dim W$; поэтому $\dim V = \dim W$, что и +требовалось. + +Обратно, пусть $\dim V = \dim W = n$. Выберем базис $v_1,\dots,v_n$ в $V$ +и базис $w_1,\dots,w_n$ в $W$. По теореме~\ref{thm:universal-basis-property} для задания +линейного отображения $T\colon V\to W$ достаточно задать $T(v_i)$ для всех $i$. +Положим $T(v_i)=w_i$ и покажем, что полученное отображение $T$ является изоморфизмом. +Для этого (по предложению~\ref{prop:invertible-linear-iff-iso}) достаточно проверить, +что оно инъективно и сюръективно. + +Для инъективности +(по предложению~\ref{prop:injective-iff-kernel-trivial}) нужно показать, что $\Ker(T)=0$. +Возьмем $v\in\Ker(T)$. Разложим $v$ по базису пространства $V$: +$v = v_1a_1 + \dots + v_na_n$. Тогда +$0 = T(v) = T(v_1)a_1+\dots+T(v_n)a_n = w_1a_1+\dots+w_na_n$. +Но элементы $w_1,\dots,w_n\in W$ образуют базис, и потому линейно независимы. Их +линейная комбинация оказалась равна нулю~--- поэтому все ее коэффициенты равны +нулю: $a_1=\dots=a_n=0$. Но тогда и $v = 0$. + +Осталось проверить, что $T$ сюръективно. Но любой вектор $W$ есть линейная комбинация +векторов $w_1,\dots,w_n$, поэтому является образом соответствующей линейной комбинации +векторов $v_1,\dots,v_n$. +\end{proof} + +\begin{corollary} +Любое конечномерное векторное пространство $V$ изоморфно пространству +$k^n$, где $n=\dim(V)$. +Более того, если $\mc B$~--- некоторый базис пространства $V$, +то отображение $\ph\colon v\mapsto [v]_{\mc B}$ устанавливает изоморфизм между +$V$ и $k^n$. +\end{corollary} +\begin{proof} +Пусть $\dim(V)=n$; тогда $\dim(k^n)=n=\dim(V)$, и +по теореме~\ref{thm:isomorphic-iff-equidimensional} пространства $V$ и $k^n$ +изоморфны. + +Для доказательства второго утверждения обозначим элементы базиса $\mc B$ +через $v_1,\dots,v_n$. +Мы уже знаем, что отображение $v\mapsto [v]_{\mc B}$ линейно +(теорема~\ref{thm:taking-coordinates-is-linear-map}); проверим, что это +изоморфизм. Для этого нужно проверить, что его ядро тривиально, а образ +совпадает с $k^n$. Возьмем $v\in\Ker(\ph)$; это означает, что столбец +координат вектора $v$ нулевой. Но тогда по определению координат +$v=v_10+\dots+v_n0 = 0$. Значит, $\Ker(\ph)=0$. Пусть теперь +$w\in k^n$~--- некоторый столбец, состоящий из скаляров +$a_1,\dots,a_n$. Рассмотрим вектор $v = v_1a_1 + \dots + v_na_n\in V$. +Легко видеть, что $[v]_{\mc B} = w$, что доказывает сюръективность +отображения $\ph$. +\end{proof} + +Таким образом, любое конечномерное пространство изоморфно пространству столбцов. +Подчеркнем, что этот изоморфизм зависит от выбора базиса (в таком случае говорят, +что этот изоморфизм {\em не является каноническим}): в разных базисах один +и тот же вектор, как правило, имеет разные наборы координат. + +\begin{theorem}\label{thm:hom-isomorphic-to-m} +Пусть $V,W$~--- конечномерные векторные пространства над полем $k$. +Пространство $\Hom(V,W)$ линейных отображений из $V$ в $W$ изоморфно +векторному пространству $M(m,n,k)$ матриц размера $m\times n$ над $k$, +где $m=\dim W$, $n=\dim V$. +Более того, если $\mc B,\mc B'$~--- базисы в $V,W$ соответственно, то +отображение $\ph\colon T\mapsto [T]_{\mc B,\mc B'}$ устанавливает +изоморфизм между $\Hom(V,W)$ и $M(m,n,k)$. +\end{theorem} +\begin{proof} +Мы сразу докажем второе утверждение. +Обозначим элементы $\mc B$ через $v_1,\dots,v_n$, +а элементы $\mc B'$ через $w_1,\dots,w_m$. +По теореме~\ref{thm:taking-matrix-is-linear} +отображение $\ph$ линейно. Проверим, что его ядро тривиально, а образ +совпадает с $M(m,n,k)$. Пусть $T\in\Ker(\ph)$. Это значит, что у линейного +отображения $T$ матрица нулевая. По определению матрицы это значит, +что все координаты вектора $T(v_j)$ в базисе $\mc B'$ равны нулю, +а потому $T(v_j)=0$ для всех $j$. Но мы знаем одно такое линейное отображение: +это $0\in\Hom(V,W)$. По единственности в универсальном свойстве +базиса (теорема~\ref{thm:universal-basis-property}) $T=0$. +Наконец, пусть $A=(a_{ij})\in M(m,n,k)$~--- некоторая матрица. Мы утверждаем, что существует +линейное отображение $T\colon U\to V$, матрица которого в базисах $\mc B,\mc B'$ +совпадает с $A$. Действительно, положим +$T(v_j) = w_1a_1+\dots+w_ma_m$. По теореме~\ref{thm:universal-basis-property} +это однозначно определяет линейное отображение $T$, и очевидно, что +$[T]_{\mc B,\mc B'} = A$. +\end{proof} + +\begin{corollary} +Если пространства $V,W$ конечномерны, то $\dim\Hom(V,W) = \dim V\cdot\dim W$. +\end{corollary} +\begin{proof} +Очевидно, что размерность пространства матриц $M(m,n,k)$ равна $mn$; осталось +применить теорему~\ref{thm:hom-isomorphic-to-m} +и теорему~\ref{thm:isomorphic-iff-equidimensional}. +\end{proof} + +Важный частный случай понятия линейного отображения~--- {\em линейный оператор}. +\begin{definition} +Линейное отображение $T\colon V\to V$ называется \dfn{линейным оператором} +на пространстве $V$, или \dfn{эндоморфизмом} пространства $V$. +\end{definition} + +\begin{proposition}\label{prop:operators-bij-inj-surj} +Пусть $T\colon V\to V$~--- линейный оператор на конечномерном пространстве $V$. +Следующие утверждения равносильны. +\begin{enumerate} +\item Отображение $T$ биективно. +\item Отображение $T$ инъективно. +\item Отображение $T$ сюръективно. +\end{enumerate} +\end{proposition} +\begin{proof} +Очевидно, что из (1) следуют (2) и (3). Покажем, что из (2) следует (1). +Если $T$ инъективно, то $\Ker T=0$ (предложение~\ref{prop:injective-iff-kernel-trivial}). +По теореме о гомоморфизме (теорема~\ref{thm:homomorphism-linear}) +$\dim\Ker T + \dim\Img T = \dim V$. Первое слагаемое равно нулю, поэтому +$\dim\Img T = \dim V$. В то же время, $\Img T$~--- подпространство в $V$, +и по предложению~\ref{prop:dimension_is_monotonic} из совпадения размерностей +следует, что $\Img T = V$, что означает сюръективность, а потому и биективность +отображения $T$. + +Осталось показать, что из (3) следует (1). Снова воспользуемся теоремой о гомоморфизме: +$\dim\Ker T + \dim\Img T = \dim V$. Теперь по предположению $\Img T = \dim V$, и, +стало быть, $\dim\Ker T=0$. Значит, подпространство $\Ker T$ тривиально, и потому +$T$ инъективно и, следовательно, биективно. +\end{proof} + +\begin{theorem} +Пусть $V$~--- векторное пространство. Множество $\Hom(V,V)$ всех линейных операторов +на $V$ образует ассоциативное кольцо с единицей относительно сложения и композиции. +\end{theorem} +\begin{proof} +Мы уже знаем, что сложение линейных отображений ассоциативно, коммутативно, обладает +нейтральным элементом $0$ и обратными элементами. Кроме того, композиция (которая играет +роль умножения) ассоциативна и обладает нейтральным элементом $\id_V$. Осталось проверить +левую и правую дистрибутивность. Ограничимся проверкой одной из них. +Пусть $S,T,U\in\Hom(V,V)$. Для каждого $v\in V$ выполнено +$$ +(S\circ (T+U))(v) = S((T+U)(v)) = S(T(v)+U(v)) = S(T(v)) + S(U(v)) += (S\circ T)(v) + (S\circ U)(v) = (S\circ T + S\circ U)(v), +$$ +а потому отображения $S\circ (T+U)$ и $S\circ T + S\circ U$ совпадают. +\end{proof} +Отметим, что в конечномерном случае кольцо операторов на $V$ {\em изоморфно} кольцу +квадратных матриц порядка $n = \dim V$ +(см. замечание~\ref{rem:matrix_multiplication_properties}). Поясним, что означает +слово <<изоморфизм>> в этом контексте (пока мы обсуждали только изоморфизм +векторных пространств, но не колец). +Пусть $\mc B$~--- базис пространства $V$, и $\dim V = n$. +Из теоремы~\ref{thm:hom-isomorphic-to-m} следует, что +отображение $T\mapsto [T]_{\mc B}$ является биекцией между $\Hom(V,V)$ +и $M(n,n,k)$, переводящей сложение в сложение. Кроме того, +по теореме~\ref{thm:composition-is-multiplication} она переводит +композицию операторов в умножение. Наконец, тождественный оператор +переходит при этом отображении в единичную матрицу. Мы получили биекцию +между кольцами, которая сохраняет все операции +(включая <<взятие единичного элемента>>). Такая биекция и называется +<<изоморфизмом колец>>; ее существование означает, что указанные кольца +<<ведут себя одинаково>>. + +\subsection{Ранг матрицы} +\literature{[F], гл. IV, \S~3, пп. 4--6; [K1], гл. 2, + \S~2, п. 1--2; [vdW], гл. IV, \S\S~22, 23.} + +Первым приложением теории векторных пространств для нас станет +определение ранга матрицы, которые мы неформально обсуждали после +доказательства теоремы~\ref{thm_pdq}. Напомним, что любую матрицу +$A\in M(m,n,k)$ можно представить в виде +$A=P\left(\begin{matrix} +E_r & 0\\ +0 & 0\end{matrix}\right)Q$, где $P,Q$~--- некоторые обратимые +матрицы. Мы покажем, что на самом деле натуральное число $r$ не +зависит от выбора такого представления, и поэтому имеет право +называться {\it рангом} матрицы $A$. +Для этого мы введем еще несколько понятий ранга, и покажем, что все +они совпадают друг с другом. + +\begin{definition} +Пусть $A=(a_{ij})\in M(m,n,k)$. Линейная оболочка столбцов матрицы $A$ +называется \dfn{пространством столбцов матрицы $A$}\index{векторное + пространство!столбцов матрицы}; по определению +оно является подпространством в $k^m$. Иными словами, это пространство +$$\la\begin{pmatrix}a_{11}\\a_{21}\\\vdots\\a_{m1}\end{pmatrix}, +\dots, +\begin{pmatrix}a_{1n}\\a_{2n}\\\vdots\\a_{mn}\end{pmatrix}\ra\leq +k^m.$$ +Линейная оболочка строк матрицы $A$ называется \dfn{пространством + строк матрицы $A$}\index{векторное пространство!строк матрицы}; по +определению оно является подпространством в +${}^nk$. Иными словами, это пространство +$$\la\begin{pmatrix}a_{11}&a_{12}&\dots&a_{1n}\end{pmatrix},\dots, +\begin{pmatrix}a_{m1}&a_{m2}&\dots&a_{mn}\end{pmatrix}\ra\leq {}^nk.$$ +\end{definition} +Таким образом, пространство столбцов состоит из всевозможных линейных +комбинаций столбцов матрицы $A$; аналогично и со строками. +\begin{definition} +\dfn{Столбцовым рангом}\index{ранг матрицы!столбцовый} матрицы $A$ называется размерность ее +пространства столбцов; \dfn{строчным рангом}\index{ранг + матрицы!строчный} $A$ называется +размерность ее пространства строк. +\end{definition} +Очевидно, что столбцовый ранг матрицы $A\in M(m,n,k)$ не превосходит +$n$, а ее строчный ранг не превосходит $m$. +Для определения следующего понятия~--- {\em тензорного ранга}~--- +необходимо сначала определить матрицы ранга $1$. +\begin{definition} +Матрица $A\in M(m,n,k)$ называется \dfn{матрицей ранга + $1$}\index{матрица!ранга $1$}, если +$A\neq 0$ и $A$ можно представить в виде $A=uv$, где $u\in k^m$, $v\in +{}^nk$. \dfn{Тензорным рангом}\index{ранг матрицы!тензорный} матрицы $A$ называется наименьшее +натуральное число $r$ такое, что $A$ можно представить в виде суммы +$r$ матриц ранга $1$. Иными словами, тензорный ранг $A$~--- это +наименьшее $r$, при котором существуют столбцы $u_1,\dots,u_r\in k^m$ +и строки $v_1,\dots v_r\in {}^nk$ такие, что $A=u_1v_1+\dots+u_rv_r$. +\end{definition} + +Заметим, что тензорный ранг матрицы $A\in M(m,n,k)$ определен: он не +превосходит $mn$. Действительно, несложно представить матрицу +$A=(a_{ij})$ в виде суммы $mn$ матриц ранга $1$: мы видели, что +$A=\sum_{i,j}a_{ij}e_{ij}$, а матрица $a_{ij}e_{ij}$ имеет ранг $1$: +$$ +a_{ij}e_{ij} = \begin{pmatrix}0 \\ \vdots \\ 0 \\ a_{ij} \\ 0 \\ + \vdots \\ 0\end{pmatrix}\cdot\begin{pmatrix}0 & \dots & 0 & 1 & 0 & + \dots & 0\end{pmatrix}. +$$ +Здесь в столбце высоты $m$ элемент $a_{ij}$ стоит в позиции $i$, и в +строке длины $n$ элемент $1$ стоит в позиции $j$. + +\begin{theorem} +Тензорный ранг матрицы не изменяется при домножении ее слева или +справа на обратимую матрицу. В частности, тензорный ранг матрицы +сохраняется при элементарных преобразованиях ее строк и столбцов. +\end{theorem} +\begin{proof} +Пусть $A\in M(m,n,k)$~--- матрица тензорного ранга $r$. Тогда мы можем +записать $A=u_1v_1+\dots+u_rv_r$ для некоторых столбцов +$u_1,\dots,u_r\in k^m$ и строк $v_1,\dots,v_r\in {}^nk$. +Если матрица $B\in M(m,k)$ обратима, то +$BA=B(u_1v_1+\dots+u_rv_r)=(Bu_1)v_1+\dots+(Bu_r)v_r$~--- сумма $r$ +матриц ранга $1$, поэтому тензорный ранг $BA$ не превосходит $r$. С +другой стороны, если тензорный ранг $BA$ меньше $r$, то можно записать +$BA=u'_1v'_1+\dots+u'_pv'_p$ для $p> для +всех векторов $v\in V$, $w\in W$. Иными словами, $L$~--- это множество +всех [конечных] формальных линейных комбинаций выражений вида +<<$v\otimes w$>> (с коэффициентами из $k$) с очевидными операциями +суммы и умножения на скаляры. + +Несложно определить отображение $f\colon V\times W\to L$: положим +$f(v,w) = \mbox{<<}v\otimes w\mbox{>>}$. Однако, это отображение не +является билинейным: например, $f(v_1+v_2,w) = +\mbox{<<}(v_1+v_2)\otimes w\mbox{>>}$, в то время как +$f(v_1,w) + f(v_2,w) = \mbox{<<}v_1\otimes w\mbox{>>} + +\mbox{<<}v_2\otimes w\mbox{>>}$. +В нашем пространстве $\mbox{<<}(v_1+v_2)\otimes w\mbox{>>}\neq +\mbox{<<}v_1\otimes w\mbox{>>} + +\mbox{<<}v_2\otimes w\mbox{>>}$, поскольку равенство означало бы +наличие линейной комбинации между базисными элементами. +Кроме того, +$f(\lambda v,w) = \mbox{<<}(\lambda v)\otimes w\mbox{>>}$, но +$\lambda f(v,w) = \lambda\mbox{<<}v\otimes w\mbox{>>}$. +Для того, чтобы исправить это, мы профакторизуем по всем таким +соотношениям, и в полученном фактор-пространстве нужные выражения +совпадут. +А именно, обозначим через $R$ линейную оболочку в $L$ следующих векторов: +\begin{align*} +& \mbox{<<}(v_1+v_2)\otimes w\mbox{>>} - \mbox{<<}v_1\otimes w\mbox{>>} - +\mbox{<<}v_2\otimes w\mbox{>>},\\ +& \mbox{<<}(\lambda v)\otimes w\mbox{>>} - \lambda\mbox{<<}v\otimes w\mbox{>>},\\ +& \mbox{<<}v\otimes (w_1+w_2)\mbox{>>} - \mbox{<<}v\otimes w_1\mbox{>>} - +\mbox{<<}v\otimes w_2\mbox{>>},\\ +& \mbox{<<}v\otimes (\lambda w)\mbox{>>} - \lambda\mbox{<<}v\otimes w\mbox{>>} +\end{align*} +для всех $v_1,v_2,v,w_1,w_2,w\in V$ и $\lambda\in k$. +Рассмотрим фактор-пространство $L/R$ и покажем, что +оно удовлетворяет определению тензорного произведения $V$ +и $W$. Нам еще нужно построить билинейное отображение +$\ph\colon V\times W\to L/R$; для этого рассмотрим композицию $f$ и +канонической проекции $\pi\colon L\to L/R$. Проверим, что $\ph$ +билинейно. Например, $\ph(v_1+v_2,w)-\ph(v_1,w)-\ph(v_2,w) = +\pi(\mbox{<<}(v_1+v_2)\otimes w\mbox{>>}) - +\pi(\mbox{<<}v_1\otimes w\mbox{>>}) - +\pi(\mbox{<<}v_2\otimes w\mbox{>>}) += \pi(\mbox{<<}(v_1+v_2)\otimes w\mbox{>>}- +\mbox{<<}v_1\otimes w\mbox{>>} - +\mbox{<<}v_2\otimes w\mbox{>>}) = 0$, поскольку выражение в скобках +лежит в $R$. Аналогично проверяется однородность и линейность по +второму аргументу. + +Наконец, проверим универсальное свойство. +Пусть $\psi\colon V\times W\to U$~--- билинейное отображение. +По универсальному свойству базиса +(теорема~\ref{thm:universal-basis-property}) существует единственное +линейное отображение $\psi'\colon L\to U$ такое, что $\psi=\psi'\circ +f$. Для того, чтобы это отображение <<пропустить>> через +фактор-пространство +$L/R$, достаточно проверить, что отображение $\psi'$ переводит каждый +элемент $R$ в $0$ (в этом случае отображение $L/R\to U$, +$x+R\mapsto \psi'(x)$ корректно определено). +Но для этого достаточно проверить, что $\psi'$ переводит каждый +элемент из нашей системы, порождающей пространство $R$, в $0$. +Это очевидно в силу билинейности $\psi$; например, +\begin{align*} +\psi'(\mbox{<<}(v_1+v_2)\otimes w\mbox{>>} - +\mbox{<<}v_1\otimes w\mbox{>>} - +\mbox{<<}v_2\otimes w\mbox{>>}) +&= \psi'(f(v_1+v_2,w)-f(v_1,w)-f(v_2,w)) \\ +&= \psi'(f(v_1+v_2,w))-\psi'(f(v_1,w))-\psi'(f(v_2,w))\\ +&= \psi(v_1+v_2,w) - \psi(v_1,w) - \psi(v_2,w)\\ +&= 0. +\end{align*} +Таким образом, мы построили отображение +$\tld\psi\colon L/R = V\otimes W\to U$, для которого $\tld\psi\circ\ph += \psi$. Для доказательства единственности осталось заметить, что +элементы вида $\ph(v,w)$ для $u\in V$, $w\in W$ являются образами в +$L/R$ базисных элементов пространства $L$. Поэтому такие элементы +порождают $U\otimes V$. Значит, линейное отображение $\tld\psi\colon +V\otimes W\to U$ полностью определяется своими значениями на таких +элементах: $\tld\psi(\ph(v,w)) = \psi(v,w)$. +\end{proof} + +Итак, мы построили векторное пространство $V\otimes W$ вместе с +билинейным отображением $\ph\colon V\times W\to V\otimes W$. Слово +<<универсальность>> в названии универсального свойства означает, что +билинейное отображение $\ph$ универсально среди всех билинейных +отображений из $V\times W$ в следующем смысле: любое билинейное +отображение из $V\times W$ пропускается через $\ph$ (является +композицией $\ph$ и некоторого линейного отображения). + +Элементы пространства $V\otimes W$ называются +\dfn{тензорами}\index{тензор}. +Образ пары $(v,w)$ под действием $\ph$ мы будем обозначать через +$v\otimes w\in V\otimes W$ и называть +\dfn{разложимым тензором}\index{тензор!разложимый}. Из определения +немедленно следует, +что $(v_1+v_2)\otimes w = v_1\otimes w + v_2\otimes w$, +$v\otimes(w_1+w_2) = v\otimes w_1 + v\otimes w_2$, +$(\lambda v)\otimes w = \lambda (v\otimes w) = u\otimes (\lambda v)$. +Заметим, однако, что (как правило) не любой тензор является +разложимым. В то же время, множество всех разложимых тензоров является +системой образующих пространства $V\otimes W$, поскольку это образы +базисных элементов пространства $L$ в нашей конструкции. В частности, +любой тензор является {\it суммой} конечного числа +разложимых. Поэтому, например, для задания линейного отображения из +$V\otimes W$ достаточно задать его на разложимых тензорах (на самом +деле, это еще одна переформулировка универсального свойства). Точнее, +если мы сопоставили каждому разложимому тензору $v\otimes w\in +V\otimes W$ некоторый элемент пространства $U$ {\em билинейным + образом}, то однозначно определено линейное отображение $V\otimes +W\to U$. + +Отметим, что приведенная в доказательстве +теоремы~\ref{thm:tensor_product} конструкция совершенно чудовищна: +даже если пространства $V$ и $W$ конечномерны, по пути к $V\otimes W$ +мы строим пространство $L$, которое, как правило, бесконечномерно: +даже если $\dim(V)=\dim(W)=1$ и $k=\mb R$, базис пространства $L$ +имеет мощность континуума. На самом деле, тензорное произведение +конечномерных пространств конечномерно; если в пространствах $V$ и $W$ +выбраны базисы, то и в $V\otimes W$ естественным образом возникает +базис. + +\begin{proposition}\label{prop:tensor_product_basis} +Пусть $V,W$~--- векторные пространства над полем $k$, и пусть +$\mc B=\{e_1,\dots,e_m\}$~--- базис $V$, +$\mc C=\{f_1,\dots,f_n\}$~--- базис $W$. +Тогда элементы вида $e_i\otimes f_j$, $1\leq i\leq m$, $1\leq j\leq +n$, образуют базис пространства $V\otimes W$. +\end{proposition} +\begin{proof} +Рассмотрим пространство $X$ размерности $mn$, базис которого состоит +из элементов вида $e_i\otimes f_j$. Сейчас мы определим билинейное +отображение $V\otimes W\to X$ и проверим, что $X$ вместе с этим +отображением удовлетворяет универсальному свойству тензорного +произведения. + +Для определения $\ph$ сначала положим $\ph(e_i,f_j) = e_i\otimes f_j$. +Для двух произвольных векторов $v = \sum_i\lambda_i e_i\in V$ +и $w = \sum_j\mu_j f_j\in W$ теперь определим $\ph(u,v)$ так, +чтобы $\ph$ было билинейным. Раскрывая скобки, получаем, что +$\ph(u,v) = \sum_{i,j}\lambda_i\mu_j e_i\otimes f_j$. +Очевидно, что построенное отображение $\ph\colon U\times V\to X$ +билинейно. + +Пусть теперь $U$~--- еще одно векторное пространство над $k$, и пусть +$\psi\colon V\times W\to U$~--- билинейное отображение. Так как +векторы $e_i\otimes f_j$ образуют базис пространства $X$, для +определения линейного отображения $\tld\psi\colon X\to U$ мы можем +задать его значения на этих векторых произвольным образом; полученное +линейное отображение определяется этим однозначно +(теорема~\ref{thm:universal-basis-property}). +Поэтому положим $\tld\psi(e_i\otimes f_j) = \psi(e_i,f_j)$ и продолжим +$\tld\psi$ до линейного отображения $X\to U$. Композиция +$\tld\psi\circ\ph$ билинейна и совпадает с $\psi$ на парах $(e_i,f_j)$, +поэтому $\tld\psi\circ\ph = \psi$. Вместе с тем, любое отображение, +композиция которого с $\ph$ равна $\psi$, должно на базисных векторах +$\ph(e_i,f_j)$ принимать значения $\psi(e_i,f_j)$, поэтому такое +отображение единственно. +\end{proof} + +\begin{definition}\label{dfn:tensor_basis} +Базис из предложения~\ref{prop:tensor_product_basis} называется +\dfn{тензорным базисом}\index{тензорный базис} пространства $U\otimes +V$. Обычно мы +упорядочиваем его следующим ({\em лексикографическим}) образом: +$e_1\otimes f_1$, $e_1\otimes f_2$, \dots, $e_1\otimes f_n$, \dots, +$e_m\otimes f_1$, $e_m\otimes f_2$, \dots, $e_m\otimes f_n$. +\end{definition} + +\begin{corollary} +Если пространства $V,W$ над полем $k$ конечномерны, то $V\otimes W$ +конечномерно и $\dim(V\otimes W) = \dim(V)\cdot\dim(W)$. +\end{corollary} + +\begin{remark} +Сравните формулу для размерности тензорного произведения с формулой +для прямой суммы: $\dim(V\oplus W) = \dim(V) + \dim(W)$. Это +свидетельство того, что тензорное произведение и прямая сумма~--- +аналоги умножения и сложения для векторных пространств. +\end{remark} + +\subsection{Тензорное произведение нескольких пространств} + +\literature{[F], гл. XIV, \S~4, п. 3; [KM], ч. 4, \S~1, пп. 2--5; + \S~2, пп. 1--3.} + +Мы можем теперь попытаться определить тензорное произведение +{\it трех} пространств $U,V,W$ формулой $U\otimes V\otimes W = +(U\otimes V)\otimes W$. Однако, такое определение нарушает симметрию +между $U$, $V$ и $W$ (почему не $U\otimes (V\otimes W)$?). Поэтому мы +просто повторим универсальное определение тензорного произведения, +изменив его соответствующим образом. + +Пусть $V_1,\dots,V_s$~--- векторные пространства над полем $k$. Тогда +их \dfn{тензорным +произведением}\index{тензорное произведение!нескольких пространств} +называется векторное пространство $V_1\otimes\dots\otimes V_s$ над $k$ +вместе с полилинейным отображением +$\ph\colon V_1\times\dots\times V_s\to V_1\otimes\dots\otimes V_s$ +таким, что для любого полилинейного отображения +$\psi\colon V_1\times\dots\times V_s\to U$ в некоторое векторное +пространство $W$ существует единственное линейное отображение +$\tld\psi\colon V_1\otimes\dots\otimes V_s\to U$ такое, +что $\psi = \tld\psi\circ\ph$: +$$ +\begin{tikzcd} +V_1\times\dots\times V_s \arrow{rr}{\ph} \arrow{rd}[swap]{\psi} +& & V_1 \otimes\dots\otimes V_s \arrow[dashed]{ld}{\tld\psi} \\ +& U +\end{tikzcd} +$$ + +\begin{theorem} +Тензорное произведение любого конечного числа векторных пространств +$V_1,\dots,V_s$ существует и единственно с точностью до канонического +изоморфизма. +\end{theorem} +\begin{proof} +Доказательство этой теоремы совершенно такое же, как в случае двух +пространств (теорема~\ref{thm:tensor_product}). +А именно, рассмотрим векторное пространство $L$ с +базисом, состоящим из элементов +$\mbox{<<}v_1\otimes\dots\otimes v_s\mbox{>>}$, где $v_1,\dots,v_s$ +пробегают всевозможные наборы элементов пространств $V_1,\dots,V_s$, +соответственно. Имеется естественное отображение множеств +$V_1\times\dots\times V_s\to L$, переводящее набор +$(v_1,\dots,v_s)$ в базисный элемент +$\mbox{<<}v_1\otimes\dots\otimes v_s\mbox{>>}$. Чтобы сделать это +отображение полилинейным, профакторизуем $L$ по линейной оболочке $R$ +следующих элементов: +\begin{align*} +&\mbox{<<}\dots\otimes v_i+v'_i\otimes\dots\mbox{>>} - +\mbox{<<}\dots\otimes v_i\otimes\dots\mbox{>>} - +\mbox{<<}\dots\otimes v'_i\otimes\dots\mbox{>>};\\ +&\mbox{<<}\dots\otimes \lambda v_i\otimes\dots\mbox{>>} - +\lambda\mbox{<<}\dots\otimes v_i\otimes\dots\mbox{>>}. +\end{align*} +Теперь сквозное отображение $\ph\colon V_1\times\dots\times V_s\to +L\to L/R$ полилинейно. Проверим, что оно универсально: +пусть $\psi\colon V_1\times\dots\times V_s\to U$~--- некоторое +полилинейное отображение. +Сопоставление $\mbox{<<}v_1\otimes\dots\otimes v_s\mbox{>>} \mapsto +\psi(v_1,\dots,v_s)$ задает линейное отображение $L\to U$, и элементы, +порождающие $R$, переходят в $0$ в силу полилинейности $\psi$. Поэтому +оно пропускается через фактор-пространство и мы получаем линейное +отображение $L/R\to U$. Таким образом, мы можем положить +$V_1\otimes\dots\otimes V_s = L/R$. Единственность тензорного +произведения доказывается буквально так же, как и в случае двух +пространств. +\end{proof} + +\begin{remark} +Как и в случае двух пространств, образ набора $(v_1,\dots,v_s)\in +V_1\times\dots\times V_s$ в пространстве $V_1\otimes\dots\otimes V_s$ +обозначается через $v_1\otimes\dots\otimes v_s$ и называется +\dfn{разложимым тензором}\index{тензор!разложимый}; + для задания линейного отображения из +$V_1\otimes\dots\otimes V_s$ в $U$ достаточно определить его на +разложимых тензорах билинейным образом. Проиллюстрируем это на примере +доказательства следующей теоремы. +\end{remark} + +\begin{proposition}\label{prop:tensor_assoc_and_comm} +Тензорное произведение векторных пространств ассоциативно и +коммутативно с точностью +до канонических изоморфизмов: а именно, для любых трех векторных +пространств $U,V,W$ имеют место канонические изоморфизмы +$(U\otimes V)\otimes W \isom U\otimes V\otimes W \isom U\otimes +(V\otimes W)$ и $U\otimes V \isom V\otimes U$. +\end{proposition} +\begin{proof} +Определим отображение +$U\otimes V\otimes W\to (U\otimes V)\otimes W$ +на разложимых тензорах формулой +$u\otimes v\otimes w\mapsto (u\otimes v)\otimes w$. +Эта формула задает линейные отображения, и той же формулой, +прочитанной справа налево, задается отображение в обратную +сторону. Очевидно, что композиция этих отображений +$U\otimes V\otimes W\to (U\otimes V)\otimes W\to +U\otimes V\otimes W$ тождественна на +разложимых тензорах, и потому тождественна на всем пространстве. +Аналогично доказывается изоморфизм +$U\otimes V\otimes W\isom U\otimes (V\otimes W)$. +Для задания отображения $U\otimes V\to V\otimes U$ отправим +$u\otimes v$ в $v\otimes u$; доказательство завершается так же. +\end{proof} + +\begin{proposition} +Пусть $V_1,\dots,V_s$~--- векторные пространства над полем $k$ +размерностей $n_1,\dots,n_s$; +$\mc B_j=\{e^j_1,\dots,e^j_{n_j}\}$~--- базис $V_i$ для каждого +$j=1,\dots,s$. +Тогда элементы вида $e^1_{i_1}\otimes\dots\otimes e^s_{i_s}$, где +$1\leq i_k\leq n_k$ для всех $k=1,\dots,s$, образуют базис +пространства $V_1\otimes\dots\otimes V_s$. +\end{proposition} +\begin{proof} +Мы можем повторить доказательство +предложения~\ref{prop:tensor_product_basis}. А именно, рассмотрим +векторное пространство $W$ над $k$, базисом которого являются формальные +символы вида $e^1_{i_1}\otimes\dots\otimes e^s_{i_s}$. Определим +полилинейное отображение $\ph\colon V_1\times\dots\times V_s\to W$ +следующим образом: набор базисных векторов +$(e^1_{i_1},\dots,e^s_{i_s})\in V_1\times\dots\times V_s$ +отправим в базисный элемент $e^1_{i_1}\otimes\dots\otimes e^s_{i_s}$, +а дальше продолжим по полилинейности. +А именно, +если $(v_1,\dots,v_s)\in V_1\times\dots\times V_s$~--- набор +векторов, разложим каждый $v_j$ по базису $\mc B_j$. Получим равенства +вида $v_j = \sum_{i_j=1}^{n_j} e^j_{i_j} a_{i_j,j}$. +Положим +\begin{align*} +\ph(v_1,\dots,v_s) &= \ph(\sum_{i_1=1}^{n_1} e^1_{i_1}a_{i_1,1}, +\dots,\sum_{i_s=1}^{n_s} e^s_{i_s}a_{i_s,s}) \\ +&= \sum_{i_1=1}^{n_1}\dots\sum_{i_s=1}^{n_s}a_{i_1,1}\dots +a_{i_s,s}\ph(e^1_{i_1},\dots,e^s_{i_s}) \\ +& = \sum_{i_1=1}^{n_1}\dots\sum_{i_s=1}^{n_s}a_{i_1,1}\dots +a_{i_s,s} e^1_{i_1}\otimes\dots\otimes e^s_{i_s}. +\end{align*} +Очевидно, что это отображение полилинейно; покажем, что пространство +$W$ вместе с $\ph$ удовлетворяет универсальному свойству из +определения тензорного произведения. Пусть $U$~--- произвольное +векторное пространство над $k$, и +$\psi\colon V_1\times\dots\times V_s\to U$~--- полилинейное +отображение. Покажем, что оно представляется в виде композиции $\ph$ и +некоторого линейного отображения $\tld\psi$. +Для задания $\tld\psi\colon W\to U$ достаточно задать его +(произвольным образом) на базисе, то есть, на элементах вида +$e^1_{i_1}\otimes\dots\otimes e^s_{i_s}$. Это можно сделать +единственным образом: +положим $\tld\psi(e^1_{i_1}\otimes\dots\otimes e^s_{i_s}) += \psi(e^1_{i_1},\dots, e^s_{i_s})$. Композиция $\tld\psi\circ\ph$, +разумеется, является полилинейным отображением и +совпадает с $\psi$ на наборах вида $(e^1_{i_1},\dots,e^s_{i_s})$, и +цепочка равенств выше показывает, что значение полилинейного +отображения на произвольном наборе $(v_1,\dots,v_s)$ выражается через +его значения на наборах такого вида. Поэтому $\tld\psi\circ\ph$ +совпадает с $\psi$. +\end{proof} + +\subsection{Двойственное пространство} + +\literature{[vdW], гл. IV, \S~21; [KM], ч. 1, \S~1, п. 9.} + +Пусть $V$~--- векторное пространство над полем $k$. Рассмотрим $k$ как +[одномерное] векторное пространство над $k$. Тогда множество +$\Hom(V,k)$ линейных отображений из $V$ в $k$ ({\it линейных функций} +на $V$) само является векторным пространством над $k$ +(см. раздел~\ref{subsect:hom_space}). Операции на нем вполне +естественны: сложение функций и умножение функций на скаляры. Это +пространство мы будем обозначать через $V^* = \Hom(V,k)$ и называть +\dfn{пространством, двойственным к $V$}\index{векторное пространство!двойственное} + +Пусть теперь $V$~--- {\it конечномерное} векторное пространство над +$k$ и $\mc B = (e_1,\dots,e_n)$~--- базис $V$. По универсальному +свойству базиса (теорема~\ref{thm:universal-basis-property}) для +задания элемента $\ph\in V^* = \Hom(V,k)$ достаточно задать +(произвольным образом) элементы $\ph(e_1),\dots,\ph(e_n)\in k$. + +\begin{proposition} +Пусть $V$~--- векторное пространство над $k$ с базисом +$\mc B = (e_1,\dots,e_n)$. +Обозначим через $e_i^*$ функцию $V\to k$, равную $1$ на +базисном векторе $e_i$ и $0$ на всех остальных базисных +векторах. Таким образом, $e_i^*(e_i) = 1$ и $e_i^*(e_j) = 0$ при всех +$j\neq i$. +Тогда $(e^*_1,\dots,e^*_n)$~--- базис пространства $V^*$. +\end{proposition} +\begin{proof} +Пусть $\ph\colon V\to k$~--- произвольный элемент пространства +$V^*$. Мы знаем (теорема~\ref{thm:universal-basis-property}), что +задать $\ph$~--- это то же самое, что задать значения +$\ph(e_1),\dots,\ph(e_n)\in k$. Рассмотрим функцию +$\ph(e_1)e^*_1 + \dots + \ph(e_n)e^*_n$. Покажем, что она совпадает с +$\ph$. +Действительно, для базисного вектора $e_i$ получаем +$(\ph(e_1)e^*_1 + \dots + \ph(e_n)e^*_n)(e_i) += \ph(e_1)e^*_1(e_i) + \dots + \ph(e_1)e^*_n(e_i) += \ph(e_i)e^*_i(e_i) = \ph(e_i)$. +Значит, функции $\ph(e_1)e^*_1 + \dots + \ph(e_n)e^*_n$ и $\ph$ +совпадают на базисных векторах, а потому совпадают везде. Значит, мы +представили функцию $\ph$ как линейную комбинацию функций +$e^*_i$. Осталось показать, что функции $e^*_i$ линейно независимы. + +Действительно, предположим, что $c_1 e^*_1 + \dots + c_n e^*_n = +0$~--- нетривиальная линейная комбинация. Это означает, что +$c_i\neq 0$ при некотором $i$. Но тогда +и $(c_1 e^*_1 + \dots + c_n e^*_n)(e_i) = 0$, а левая часть +равна $c_1 e^*_1(e_i) + \dots + c_n e^*_n(e_i) = c_i\neq 0$~--- +противоречие. +\end{proof} + +Таким образом, в конечномерном случае пространства $V$ и $V^*$ имеют +одинаковую размерность. Из этого следует, что они изоморфны +(теорема~\ref{thm:isomorphic-iff-equidimensional}). Например, имеется +изоморфизм $V\to V^*$, отправляющий $e_i$ в $\ph_i$ при $i=1,\dots,n$, +если $e_1,\dots,e_n$~--- базис $V$. Однако, этот изоморфизм не +является каноническим, то есть, существенно зависит от выбора базиса. +В то же время, {\it дважды двойственное} пространство +$V^{**} = \Hom(V^*,k)$ {\it канонически} изоморфно $V$. + +\begin{proposition} +Рассмотрим отображение $V\to V^{**}$, сопоставляющее вектору $v\in V$ +функцию $v^{**}\colon V^*\to k$, заданную равенством $v^{**}(\ph) = +\ph(v)$ для всех $\ph\in V^*$. Если пространство $V$ конечномерно, то +указанное отображение является изоморфизмом. +\end{proposition} +\begin{proof} +Нетрудно проверить, что $v^{**}$ является линейным +отображением $V^*\to k$. Действительно, если $\ph,\psi\in V^*$, +$\lambda\in k$, то +$v^{**}(\ph+\psi) = (\ph+\psi)(v) = \ph(v) + \psi(v) = v^{**}(\ph) + +v^{**}(\psi)$ и $v^{**}(\lambda\ph) = (\lambda\ph)(v) = \lambda\cdot\ph(v) += \lambda\cdot v^{**}(\ph)$. + +Таким образом, $v^{**}\in V^{**}$ для всех $v\in V$. Покажем, что +сопоставление $v\mapsto v^{**}$ линейно зависит от $v$. Необходимо +проверить, что $(v+w)^{**} = v^{**} + w^{**}$ и $(\lambda v)^{**} = +\lambda v^{**}$. Чтобы проверить совпадение двух отображений $V^*\to +k$, достаточно проверить, что результаты их применения к произвольному +элементу $\ph\in V^*$ совпадают: +$(v+w)^{**}(\ph) = \ph(v+w) = \ph(v)+\ph(w) = v^{**}(\ph) + +w^{**}(\psi)$, $(\lambda v)^{**}(\ph) = \ph(\lambda v) = +\lambda\cdot\ph(v) = \lambda\cdot v^{**}(\ph)$. + +Мы получили линейное отображение $V\to V^{**}$. Покажем, что оно +инъективно. Для этого достаточно проверить, что его ядро +тривиально. Пусть вектор $v\in V$ таков, что $v^{**}=0$. Это означает, +что $v^{**}(\ph) = 0$ для всех $\ph\in V^*$, то есть, что $\ph(v)=0$ +для всех $\ph\colon V\to k$. Покажем, что из этого следует, что +$v=0$. Действительно, если $v\neq 0$, то вектор $v$ можно дополнить до +базиса $(v,e_1,e_2,\dots)$ пространства $v$. Определим функцию +$\ph_v\in V^*$ равенствами $\ph_v(v)=1$, $\ph_v(e_i)=0$ для всех +$i$. По универсальному свойству базиса этого достаточно для +корректного определения линейного отображения $\ph_v\colon V\to k$. По +предположению $\ph_v(v) = 0$, в то время как мы положили +$\ph_v(v) = 1$~--- противоречие. + +Наконец, воспользуемся конечномерностью: мы знаем, что $\dim(V^{**}) = +\dim(V^*) = \dim(V)$, и у нас есть инъективное отображение $V\to +V^{**}$. По теореме о гомоморфизме~\ref{thm:homomorphism-linear} +из этого следует, что наше отображение сюръективно +и, стало быть, является изоморфизмом векторных пространств. +\end{proof} + +\subsection{Канонические изоморфизмы} + +\literature{[KM], ч. 4, \S~2, пп. 4--6.} + +\begin{theorem}[Выражение $\Hom$ через $\otimes$]\label{thm:hom_and_otimes} +Для любых конечномерных векторных пространств $U,V$ над $k$ имеет +место канонический изоморфизм +$$ +U\otimes V\isom\Hom(U^*,V). +$$ +\end{theorem} +\begin{proof} +Определим отображение $\eta\colon U\otimes V\to\Hom(U^*,V)$, отправив +разложимый тензор $u\otimes v\in U\otimes V$ в +отображение $U^*\to V$, $\ph\mapsto\ph(u)v$. Написанная формула +билинейно зависит от $u$ и от $v$, поэтому корректно определяет +линейное отображение из тензорного произведения $U\otimes V$. + +Покажем, что $\eta$~--- изоморфизм. Для этого выберем базис +$(f_1,\dots,f_m)$ в $U$ и базис $(e_1,\dots,e_n)$ в $V$. +При этом $\{f_j\otimes e_i\}$~--- базис в $U\otimes V$ +(предложение~\ref{prop:tensor_product_basis}). +Вспомним, как строится базис пространства $\Hom(U^*,V)$. +Заметим, что в пространстве $U^*$ у нас есть базис +$(\ph_1,\dots,\ph_m)$, двойственный базису $(f_1,\dots,f_m)$. +Как мы знаем из теоремы~\ref{thm:hom-isomorphic-to-m}, +после выбора базисов в $U^*$ и $V$ пространство $\Hom(U^*,V)$ +оказывается изоморфно пространству матриц $M(n,m,k)$, +а в этом пространстве имеется стандартный базис из матричных +единиц. Матричная единица $E_{ij}$ соответствует отображению +$U^*\to V$, которое $\ph_j$ переводит в $e_i$, а все остальные +базисные векторы $\ph_h$, $h\neq j$, отправляет в $0$. Обозначим это +отображение через $a_{ij}$. + +Мы утверждаем, что отображение $\eta$ переводит $f_j\otimes e_i$ в +$a_{ij}$. +Действительно, по нашему определению $f_j\otimes e_i$ переводится +в отображение $U^*\to V$, $\ph\mapsto\ph(f_j)e_i$. Проверим, что это и +есть $a_{ij}$. Действительно, $\ph_j\mapsto\ph_j(f_j)e_i = e_i$ +и $\ph_h\mapsto\ph_h(f_j)e_i = 0$ при $h\neq j$. + +Таким образом, отображение $\eta$ переводит базис пространства +$U\otimes V$ в базис пространства $\Hom(U^*,V)$, а потому биективно. +\end{proof} + +\begin{corollary}\label{cor:hom_and_otimes_2} +Для любых конечномерных векторных пространств $U,V$ над $k$ имеет +место канонический изоморфизм +$$ +U^*\otimes V\isom\Hom(U,V). +$$ +\end{corollary} +\begin{proof} +Применим предыдущую теорему к $U^*$ и $V$: +$U^*\otimes V \isom \Hom((U^*)^*,V) \isom \Hom(U,V)$. +\end{proof} + +\begin{corollary}\label{cor:u_otimes_k} +Для любого конечномерного векторного пространства $U$ над $k$ имеет +место канонический изоморфизм +$U\otimes k\isom U$. +\end{corollary} +\begin{proof} +По теореме~\ref{thm:hom_and_otimes} есть канонический изоморфизм +$U\otimes k\isom\Hom(U^*,k)$; правая часть по определению равна +$(U^*)^*\isom U$. +\end{proof} + +\begin{theorem}[Двойственность и $\otimes$]\label{thm:duality_and_otimes} +Для любых конечномерных векторных пространств $U,V$ над $k$ имеет +место канонический изоморфизм +$$ +(U\otimes V)^*\isom U^*\otimes V^*. +$$ +\end{theorem} +\begin{proof} +Зададим отображение $U^*\otimes V^*\to (U\otimes V)^*$. Как всегда, +достаточно определить его на разложимых тензорах +$\ph\otimes\psi\in U^*\otimes V^*$. Образом этого тензора должен быть +элемент пространства $(U\otimes V)^*$, то есть, линейное отображение +$U\otimes V\to k$, которое достаточно задать на разложимых тензорах +$u\otimes v\in U\otimes V$. Отправим такой тензор в +$\ph(u)\psi(v)\in k$. +Очевидно, что написанное выражение билинейно зависит от $(u,v)$, +потому определяет элемент пространства $(U\otimes V)^*$. С другой +стороны, этот элемент билинейно зависит от $(\ph,\psi)$. +Итак, мы построили линейное отображение +$\eta\colon U^*\otimes V^*\to (U\otimes V)^*$: +отправляющее $\ph\otimes\psi$ в линейное отображение +$u\otimes v\mapsto \ph(u)\psi(v)$. + +Покажем, что построенное отображение является изоморфизмом. Для этого +выберем базис $(f_1,\dots,f_m)$ в пространстве $U$ и базис +$(e_1,\dots,e_n)$ в пространстве $V$. Тогда в пространствах $U^*$ и +$V^*$ возникают двойственные базисы: $(f_1^*,\dots,f_m^*)$ и +$(e_1^*,\dots,e_n^*)$, соответственно. Поэтому в пространстве +$U^*\otimes V^*$ естественно взять тензорное произведение этих +двойственных базисов $(f_j^*\otimes e_i^*)$. С другой стороны, в +пространстве $(U\otimes V)^*$ естественно выбрать базис, двойственный +к тензорному произведению исходных базисов $U$ и $V$: +$(f_j\otimes e_i)^*$. + +Покажем, что при нашем линейном отображении +$\eta$ базисный элемент $f_j^*\otimes e_i^*$ переходит в базисный +элемент $(f_j\otimes e_i)^*$. Действительно, +по определению $\eta(f_j^*\otimes e_i^*)$~--- это линейное +отображение, отправляющее $u\otimes v$ в $f_j^*(u)e_i^*(v)$. Если мы +подставим в него $u=f_j$ и $v=e_i$, то получим $f_j^*(f_j)e_i^*(e_i) = +1$; если же подставим любую другую пару $u=f_k$, $v=e_h$ (где $k\neq +j$ или $h\neq i$), то получим $f_j^*(f_k)e_i^*(e_h) = 0$, поскольку +хотя бы один сомножитель равен нулю. Значит, $\eta(f_j^*\otimes +e_i^*)$ переводит базисный элемент $f_j\otimes e_i\in U\otimes V$ в +$1$, а все остальные базисные элементы в $0$. Но $(f_j\otimes e_i)^*$ +действует ровно так же на базисных элементах, поэтому +$\eta(f_j^*\otimes e_i^*) = (f_j\otimes e_i)^*$, что и требовалось. +Таким образом, $\eta$ переводит базис в базис, и потому является +изоморфизмом. +\end{proof} + +\begin{corollary} +Для любых конечномерных векторных пространств $U_1,\dots,U_s$ над $k$ +имеет место канонический изоморфизм +$$ +(U_1\otimes\dots\otimes U_s)^*\isom U_1^*\otimes\dots\otimes U_s^*. +$$ +\end{corollary} +\begin{proof} +По индукции из теоремы~\ref{thm:duality_and_otimes} и +предложения~\ref{prop:tensor_assoc_and_comm}. +\end{proof} + +\begin{theorem}[Сопряженность $\otimes$ и $\Hom$]\label{thm:otimes_hom_adjoint} +Для любых конечномерных векторных пространств $U,V,W$ над $k$ имеет +место канонический изоморфизм +$$ +\Hom(U\otimes V,W)\isom\Hom(U,\Hom(V,W)). +$$ +\end{theorem} +\begin{proof} +Заметим сначала, что размерности обеих частей равны +$\dim(U)\cdot\dim(V)\cdot\dim(W)$. Рассмотрим произвольный элемент +$\ph\colon\Hom(U,\Hom(V,W))$. Он сопоставляет (линейным образом) +каждому элементу $u\in U$ некоторое линейное отображение +$\ph_u\colon V\to W$, $v\mapsto\ph_u(v)$. Построим теперь по этому +элементу $\ph$ линейное отображение из $U\otimes V$ в $W$ следующим +образом: разложимый тензор $u\otimes v\in U\otimes V$ отправим в +$\ph_u(v)\in W$. Это сопоставление билинейно зависит от $u$ и от $v$, +(поскольку $\ph$ и $\ph_u$ линейны), и потому мы получили однозначно +определенное линейное отображение $\eta(\ph)\colon U\otimes V\to W$, +то есть, элемент $\Hom(U\otimes V, W)$. При этом сопоставление +$\ph\mapsto\eta(\ph)$ является, очевидно, линейным. +Наконец, покажем, что $\eta$ является инъекцией. Предположим, что +$\eta(\ph)=0$, то есть, $\eta(\ph)(u\otimes v)=0$ для всех $u\in U$, +$v\in V$. Но по нашему определению $\eta(\ph)(u\otimes v) = \ph_u(v)$; +поэтому $\ph_u(v)=0$ при всех $u\in U$, $v\in V$, откуда $\ph_u=0$ при +всех $u\in U$, откуда $\ph=0$. +Теперь из инъективности $\eta$ и совпадения размерностей следует, что +$\eta$ и сюръективно, а потому является изоморфизмом. +\end{proof} + +На самом деле в доказательстве этой теоремы можно было, как и раньше, +выбрать базисы в $U,V,W$, получить базисы во всех фигурирующих в +формулировке пространствах, и честно проверить, что построенное +отображение $\eta$ переводит базис в базис. Еще один вариант +доказательства теоремы~\ref{thm:otimes_hom_adjoint}~--- +воспользоваться уже доказанными изоморфизмами: +$\Hom(U\otimes V,W)\isom (U\otimes V)^*\otimes W\isom +(U^*\otimes V^*)\otimes W\isom U^*\otimes(V^*\otimes W) +\isom U^*\otimes\Hom(V,W) \isom\Hom(U,\Hom(V,W))$ + +\subsection{Тензорное произведение линейных отображений} + +\literature{[K2], гл. 6, \S~1, пп. 2, 5; [KM], ч. 4, \S~2, п. 7.} + +Пусть $\ph\colon U\to V$, $\psi\colon W\to Z$~--- линейные +отображения. Сейчас мы определим их \dfn{тензорное + произведение}\index{тензорное произведение!линейных отображений} +$\ph\otimes\psi$, которое будет линейным отображением из $U\otimes W$ +в $V\otimes Z$. +Сопоставим разложимому тензору $u\otimes w\in U\otimes W$ +разложимый тензор $\ph(u)\otimes\psi(w)\in V\otimes Z$. Нетрудно +видеть, что это сопоставление ведет себя билинейно по $u$ и по $w$, и +потому задает корректно определенное линейное отображение +$$\ph\otimes\psi\colon U\otimes W\to V\otimes Z.$$ +Покажем, что это определение обладает естественными свойствами. + +\begin{theorem}\label{thm:tensor_product_maps} +Тензорное произведение линейных отображение обладает следующими +свойствами: +\begin{enumerate} +\item $(\ph'\ph)\otimes(\psi'\psi) = + (\ph'\otimes\psi')(\ph\otimes\psi)$; +\item $\id_U\otimes\id_V = \id_{U\otimes V}$; +\item $(\ph+\ph')\otimes\psi = \ph\otimes\psi + \ph'\otimes\psi$; +\item $\ph\otimes(\psi+\psi') = \ph\otimes\psi + \ph\otimes\psi'$; +\item $(\lambda\ph)\otimes\psi = \lambda(\ph\otimes\psi) = \ph\otimes(\lambda\psi)$. +\end{enumerate} +\end{theorem} +\begin{proof} +Мы проверим самое сложное свойство~--- первое. +Пусть $U\stackrel{\ph}{\to} V \stackrel{\ph'}{\to} V'$, +$W\stackrel{\psi}{\to} Z \stackrel{\psi'}{\to} Z'$~--- линейные +отображения. +Выберем векторы $u\in U$, $w\in W$ и применим +$(\ph'\ph)\otimes(\psi'\psi)$ к разложимому тензору $u\otimes w$. По +определению получаем +$$ +((\ph'\ph)\otimes(\psi'\psi))(u\otimes w) = +(\ph'\ph)(u)\otimes(\psi'\psi)(w) = +\ph'(\ph(u))\otimes\psi'(\psi(w)). +$$ +С другой стороны, +$$ +(\ph'\otimes\psi')(\ph\otimes\psi)(u\otimes w) = +(\ph'\otimes\psi')(\ph(u)\otimes\psi(w)) = +\ph'(\ph(u))\otimes\psi'(\psi(w)). +$$ +Значит, два указанных отображения совпадают на всех разложимых +тензорах, а потому равны. +\end{proof} + +\begin{theorem} +Для любых конечномерных векторных пространств $U,V,W,Z$ над $k$ имеет +место канонический изоморфизм +$$\Hom(U\otimes W,V\otimes Z) \isom \Hom(U,V)\otimes\Hom(W,Z).$$ +\end{theorem} +\begin{proof} +Мы построили отображение +$\Hom(U,V)\times\Hom(W,Z)\to\Hom(U\otimes W,V\otimes Z)$, +$(\ph,\psi)\mapsto\ph\otimes\psi$. +По теореме~\ref{thm:tensor_product_maps} это сопоставление билинейно, +поэтому определяет линейное отображение +$\Hom(U,V)\otimes\Hom(W,Z) \to \Hom(U\otimes W,V\otimes Z)$, и обычные +рассуждения (например, выбор базисов во всех указанных пространствах) +убеждают нас, что получился изоморфизм. +Еще один способ доказательства~--- воспользоваться уже доказанными +изоморфизмами: +$$\Hom(U\otimes W,V\otimes Z) \isom (U\otimes W)^*\otimes (V\otimes Z) +\isom (U^*\otimes V)\otimes (W^*\otimes Z) \isom +\Hom(U,V)\otimes\Hom(W,Z).$$ +\end{proof} + +Выясним, как выглядит матрица тензорного произведения линейных +отображений. +Пусть вообще $x\in M(l,m,k)$, $y\in M(n,p,k)$~--- две произвольные +матрицы над полем $k$. Определим \dfn{кронекерово + произведение}\index{кронекерово произведение} матриц +$x$ и $y$ как матрицу $x\otimes y\in M(lm,np,k)$, которую проще всего +представлять себе блочной матрицей +$$ +x\otimes y = \begin{pmatrix}x_{11}y & \dots & x_{1m}y\\ +\vdots & \ddots & \vdots\\ +x_{l1}y & \dots & x_{lm}y\end{pmatrix}. +$$ +Обратите внимание, что кронекерово произведение матриц мы обозначаем +тем же значком $\otimes$, что и тензорное произведение. Это не +случайно: заметим пока, что кронекерово произведение обладает многими +обычными свойствами тензорного произведения. + +\begin{proposition}[Свойства кронекерова + произведения]\label{prop:kronecker_product} +\hspace{1em} +\begin{enumerate} +\item {\em Ассоциативность}: $(x\otimes y)\otimes z = x\otimes + (y\otimes z)$ (после забывания блочных структур). +\item {\em Дистрибутивность относительно сложения}: $(x+y)\otimes z = + x\otimes z + y\otimes z$, $x\otimes (y+z) = x\otimes y + x\otimes + z$. +\item {\em Однородность}: $(\alpha x)\otimes y = \alpha (x\otimes y) = + x\otimes (\alpha y)$. +\item {\em Взаимная дистрибутивность кронекерова произведения и + умножения}: $(xy)\otimes (uv) = (x\otimes u)(y\otimes v)$. +\end{enumerate} +\end{proposition} +\begin{proof} +Все эти свойства легко проверяются прямым вычислением. +\end{proof} + +Наконец, мы готовы показать, что матрица тензорного произведения +линейных отображений является кронекеровым произведением матриц этих +отображений. Для простоты мы ограничимся случаем линейных операторов +(то есть, квадратных матриц). Рассмотрим линейные операторы +$\ph\colon U\to U$, $\psi\colon V\to V$ на конечномерных пространствах +$U$, $V$. Как обычно, после выбора базисов $(e_1,\dots,e_m)$ в $U$ и +$(f_1,\dots,f_n)$ в $V$ мы можем считать, что $U = k^m$, $V=k^n$~--- +пространства столбцов. В этом случае векторы $u\in U$, $v\in V$ +истолковываются как столбцы высоты $m$ и $n$, соответственно, а +линейный оператор~--- как умножение на квадратную матрицу: если +$a,b$~--- матрицы операторов $\ph$, $\psi$ в выбранных базисах, +получаем линейные отображения +$$ +\ph\colon U\to U, u\mapsto au, +$$ +где $a\in M(m,k)$, и +$$ +\psi\colon V\to V, v\mapsto bv, +$$ +где $b\in M(n,k)$. + +В пространстве $U\otimes V$ имеется тензорный базис $(e_i\otimes +f_j)$, в котором $mn$ элементов. Он позволяет отождествить $U\otimes +V$ с $k^{mn}$. При нашем упорядочивании тензорного базиса +(см. определение~\ref{dfn:tensor_basis}) это отождествление выглядит +следующим образом. Пусть $u = \sum_i u_i e_i$, $v = \sum_j v_j f_j$. +Тогда $u\otimes v = (\sum_i u_ie_i)\otimes (\sum_j v_jf_j) + = \sum_{i,j}u_iv_j(e_i\otimes f_j)$. Это означает, что +$$ +\begin{pmatrix}u_1\\ \dots \\ u_m\end{pmatrix} +\otimes +\begin{pmatrix}v_1\\ \dots \\ v_n\end{pmatrix} += +\begin{pmatrix}u_1v_1\\ \dots \\ u_1v_n \\ u_2v_1 \\ \dots \\ u_mv_1 + \\ \dots \\ u_mv_n\end{pmatrix}. +$$ + +\begin{theorem} +Если матрица оператора $\ph$ в базисе $(e_i)$ равна $a$, а матрица +оператора $\psi$ в базисе $(f_j)$ равна $b$, то матрица оператора +$\ph\otimes\psi$ в тензорном базисе $(e_i\otimes f_j)$ равна +кронекеровому произведениею $a\times b$. +\end{theorem} +\begin{proof} +Пусть $u\in U$, $v\in V$~--- произвольные векторы. По определению +тензорное произведение отображений $\ph$ и $\psi$ действует на +разложимый тензор $u\otimes v\in U\otimes V$ следующим образом: +$(\ph\otimes\psi)(u\otimes v) = \ph(u)\otimes\psi(v)$. +С другой стороны, кронекерово произведение $a\otimes b$ умножается на +столбец $u\otimes v$ следующим образом: +$(a\otimes b)(u\otimes v) = (au\otimes bv)$~--- здесь мы +воспользовались свойством~4 из +предложения~\ref{prop:kronecker_product}. +Но при наших отождествлениях $au = \ph(u)$, $bv = \psi(v)$. Поэтому +отображение $\ph\otimes\psi$ совпадает с умножением на матрицу +$a\otimes b$ на разложимых тензорах, а значит и везде. +\end{proof} + +\subsection{Тензорные пространства} + +\literature{[F], гл. XIV, \S~4, п. 4; [K2], гл. 6, \S~1, п. 1; [vdW], + гл. IV, \S~24; [KM], ч. 4, \S~3, пп. 1--2.} + +Пусть $V$~--- конечномерное векторное пространство над полем $k$, и +$V^* = \Hom(V,k)$~--- двойственное к нему. В ближайших +параграфах мы будем изучать векторные пространства +$$ +T^p_q(V) = \underbrace{V\otimes\dots\otimes V}_{p\mbox{ раз}} \otimes +\underbrace{V^*\otimes\dots\otimes V^*}_{q\mbox{ раз}}. +$$ +Пространство $T^p_q(V)$ традиционно называется пространством $q$ раз +ковариантных и $p$ раз контравариантных тензоров, или просто +\dfn{тензорным пространством}\index{тензорное пространство} (если из +контекста понятно, о каких значениях $p$, $q$ идет речь). Элементы +тензорных пространств называются \dfn{тензорами}\index{тензор} над +$V$. Если $x\in T^p_q(V)$, то пара $(p,q)$ называется +\dfn{типом}\index{тип тензора} тензора $x$, $p$ называется его +\dfn{контравариантной + валентностью}\index{валентность!контравариантная}, а +$q$~--- его \dfn{ковариантной + валентностью}\index{валентность!ковариантная}. Сумма $p+q$ +называется \dfn{полной валентностью}\index{валентность!полная}. Если +$p=0$, тензор $x$ называется \dfn{чисто + ковариантным}\index{тензор!чисто ковариантный}, а если $q=0$~--- +\dfn{чисто контравариантным}\index{тензор!чисто контравариантный}. + +На самом деле, нам уже встречались тензоры небольшой валентности: +\begin{itemize} +\item При $p=q=0$ удобно считать, что $T^0_0(V) = k$; тензоры типа + $(0,0)$~--- это просто скаляры. +\item $T^1_0(V)=V$~--- векторы; +\item $T^0_1(V)=V^*$~--- ковекторы; +\item $T^2_0(V) = V\otimes V = (V^*\otimes V^*)^* = \Hom(V^*\otimes + V^*,k)$. Напомним, что (по определению тензорного произведения) + линейные отображения из $V^*\otimes V^*$ в $k$~--- это то же самое, что + {\em билинейные} отображения из $V^*\times V^*$ в $k$. Поэтому тензоры + типа $(2,0)$ можно интерпретировать как билинейные формы на $V^*$. +\item $T^1_1(V) = V\otimes V^* = \Hom(V,V)$~--- линейные операторы на + $V$. +\item $T^0_2(V) = V^*\otimes V^* = (V\otimes V)^* = \Hom(V\otimes + V,k)$. Как и в случае тензоров типа $(2,0)$, заметим, что линейные + отображения из $V\otimes V$ в $k$~--- это в точности билинейные + отображения из $V\times V$ в $k$. Поэтому тензоры типа $(0,2)$ можно + интерпретировать как билинейные формы на $V$. +\item $T^1_2(V) = V\otimes V^*\otimes V^* = (V\otimes V)^*\otimes V = + \Hom(V\otimes V,V)$; то есть, тензоры типа $(1,2)$~--- это + билинейные отображения из $V\times V$ в $V$; при желании можно это + интерпретировать как задание умножения на векторах, + дистрибутивного относительно суммы. +\end{itemize} + +\subsection{Тензоры в классических обозначениях} + +\literature{[F], гл. XIV, \S~1; [K2], гл. 6, \S~1, пп. 3, 4; [KM], + ч. 4, \S~4, пп. 1--4.} + +В прикладной математике и инженерных науках все встречающиеся тензоры +(тензор деформации, тензор электромагнитного поля, тензор инерции, +тензор Эйнштейна\dots) возникают почти исключительно в координатной +записи. +Напомним, что если в пространстве $V$ выбран базис $\mc E=(e_1,\dots,e_n)$, +то в двойственном пространстве возникает двойственный базис +$(e_1^*,\dots,e_n^*)$. Для того, чтобы приблизить наши обозначения к +традиционным, мы будем обозначать двойственный базис через +$(e^1,\dots,e^n)$. +Каждый вектор $v\in V$ можно разложить по базису $\mc E$: +$$ +v = \sum e_i v^i = \begin{pmatrix}e_1 & \dots & e_n\end{pmatrix} +\begin{pmatrix}v^1\\\vdots\\ v^n\end{pmatrix}, +$$ +а каждый ковектор $\ph\in V^*$~--- по двойственному базису: +$$ +\ph = \sum \ph_i e^i = \begin{pmatrix}\ph_1 & \dots & + \ph_n\end{pmatrix} +\begin{pmatrix}e^1\\\vdots\\ e^n\end{pmatrix}. +$$ + +При этом в тензорном пространстве $T^p_q$ (для произвольных $p,q$) +возникает тензорный базис, состоящий из векторов вида +$e_{i_1}\otimes\dots\otimes e_{i_p}\otimes +e^{j_1}\otimes\dots\otimes e{j_q}$, где +$1\leq i_1,\dots,i_p,j_1,\dots,j_q\leq n$. +Таким образом, каждый тензор $x\in T^p_q(V)$ можно единственным +образом записать в виде +$$ +x = \sum_{\substack{i_1,\dots,i_p \\ j_1,\dots,j_q}} +x^{i_1\dots i_p}_{j_1\dots j_q} e_{i_1}\otimes\dots\otimes +e_{i_p}\otimes e^{j_1}\otimes e^{j_q}, +$$ +где $x^{i_1\dots i_p}_{j_1\dots j_q}\in k$~--- координаты тензора в +этом базисе. +Традиционно тензор задавался явным перечислением своих координат. При +этом, поскольку этот набор зависит от выбора базиса, приходится +указывать, как же преобразуются координаты тензора при другом выборе +базиса. + +Для этого выберем в $V$ другой базис $\mc F = (f_1,\dots,f_n)$, +который будет называться {\em новым} (в отличие от {\em старого} +базиса $\mc E = (e_1,\dots,e_n)$). Напомним, что мы изучали, как +связаны координаты векторов в этих базисах, с помощью [обратимой] +матрицы перехода +$C = (\mc E\rsa\mc F)$ +(см. определение~\ref{def:change_of_basis_matrix}): +$$ +\begin{pmatrix} f_1 & \dots & f_n\end{pmatrix} = +\begin{pmatrix} e_1 & \dots & e_n\end{pmatrix}\cdot C. +$$ +Вспомним, как преобразуются координаты вектора $v = \sum_i e_iv^i$ при +замене базиса: +$$ +v = \begin{pmatrix}e_1 & \dots & e_n\end{pmatrix} +\begin{pmatrix}v^1\\\vdots\\ v^n\end{pmatrix} = +\begin{pmatrix}e_1 & \dots & e_n\end{pmatrix}\cdot C\cdot C^{-1}\cdot +\begin{pmatrix}v^1\\\vdots\\ v^n\end{pmatrix} = +\begin{pmatrix}f_1 & \dots & f_n\end{pmatrix}\cdot +C^{-1}\begin{pmatrix}v^1\\\vdots\\ v^n\end{pmatrix}. +$$ +Таким образом, при переходе в новый базис столбец координат вектора +умножается на $C^{-1}$. Это означает +(см. замечание~\ref{rem:contravariant_change}), что координаты вектора +преобразуются {\em контравариантным образом}; именно поэтому число $p$ +в определении тензорного пространства $T^p_q(V)$ называется +контравариантной валентностью. +В то же время координаты {\em ковектора} преобразуются +{\em ковариантным образом}. Действительно, по определению +двойственного базиса +$$ +e^i(e_j)= \begin{cases}1,&i=j\\ 0,&i\neq j\end{cases}. +$$ +Это означает, что +$$ +\begin{pmatrix}e^1\\ \vdots \\ e^n\end{pmatrix} +\cdot +\begin{pmatrix}e_1 & \dots & e_n\end{pmatrix} = +\begin{pmatrix} 1 & \dots & 0\\\vdots & \ddots & \vdots\\0 & \dots & + 1\end{pmatrix} = E. +$$ +и аналогично для базиса $\mc F$. +Домножим последнее равенство на $C^{-1}$ слева и на $C$ справа: +$$ +C^{-1}\begin{pmatrix}e^1\\ \vdots \\ e^n\end{pmatrix} +\cdot +\begin{pmatrix}e_1 & \dots & e_n\end{pmatrix}C = +C^{-1}EC = E. +$$ +В левой части стоит +$C^{-1}\begin{pmatrix}e^1\\ \vdots \\ e^n\end{pmatrix} +\cdot +\begin{pmatrix}f_1 & \dots & f_n\end{pmatrix}$, +поэтому +$$ +C^{-1}\begin{pmatrix}e^1\\ \vdots \\ e^n\end{pmatrix} = +\begin{pmatrix}f^1\\ \vdots \\ f^n\end{pmatrix}. +$$ +Это и означает, что двойственный базис преобразуется с помощью матрицы +$C^{-1}$, а потому координаты ковекторов преобразуются с помощью +матрицы $(C^{-1})^{-1} = C$. Это несложно проверить и непосредственно: +если $\ph = \sum \ph_i e^i$, то +$$ +\ph = +\begin{pmatrix}\ph_1 & \dots & \ph_n\end{pmatrix} +\begin{pmatrix}e^1\\\vdots\\ e^n\end{pmatrix} = +\begin{pmatrix}\ph_1 & \dots & \ph_n\end{pmatrix}\cdot C\cdot C^{-1}\cdot +\begin{pmatrix}e^1\\\vdots\\ e^n\end{pmatrix} = +\begin{pmatrix}\ph_1 & \dots & \ph_n\end{pmatrix}C\cdot +\begin{pmatrix}f^1\\\vdots\\ f^n\end{pmatrix}. +$$ + +У нас все готово к тому, чтобы выяснить, как меняются координаты +произвольного тензора при замене базиса. Пусть +$$ +x = \sum_{\substack{i_1,\dots,i_p\\j_1,\dots,j_q}} +y^{i_1\dots i_p}_{j_1\dots j_q}f_{i_1}\otimes\dots\otimes +f_{i_p}\otimes f^{j_1}\otimes\dots\otimes f^{j_q} +$$ +--- выражение того +же тензора $x$ в новом тензорном базисе. Мы хотим выразить +$\left( y^{i_1\dots i_p}_{j_1\dots j_q}\right)$ через +$\left( x^{i_1\dots i_p}_{j_1\dots j_q}\right)$. В следующей теореме +удобно элемент матрицы $C$, стоящий на пересечении $i$-й строки и +$j$-го столбца записывать как $C^i_j$, а не $C_{ij}$. + +\begin{theorem} +Пусть $C = (C^i_j)$~--- матрица перехода от старого базиса к новому, +$\tld{C} = (\tld{C}^i_j) = C^{-1}$~--- обратная к ней. Тогда +координаты тензора $x\in T^p_q(V)$ в новом тензорном базисе следующим +образом выражаются через его координаты в старом тензорном базисе: +$$ +y^{i_1\dots i_p}_{j_1\dots j_q} = +\sum_{\substack{h_1,\dots,h_p\\k_1,\dots,k_q}} +\tld{C}^{i_1}_{h_1}\dots\tld{C}^{i_p}_{h_p}C^{k_1}_{j_1}\dots C^{k_q}_{j_q} +x^{h_1\dots h_p}_{k_1\dots k_q} +$$ +\end{theorem} +\begin{proof} +Достаточно доказать эту формулу для разложимых тензоров, а в этом +случае нужно применить формулы преобразования координат векторов и +ковекторов в каждом из сомножителей. +\end{proof} +Иными словами, координаты тензора преобразуются контравариантно (при +помощи матрицы $C^{-1}$) по контравариантным сомножителям, и +ковариантно (при помощи матрицы $C$) по ковариантным сомножителям. diff --git a/number-theory.tex b/number-theory.tex new file mode 100644 index 0000000..9006ef0 --- /dev/null +++ b/number-theory.tex @@ -0,0 +1,1298 @@ +\section{Элементарная теория чисел} + +В этой главе мы в основном работаем с множеством целых чисел $\mb Z$. + +\subsection{Делимость целых чисел}\label{subsect_divide} + +\literature{[F], гл. I, \S~1, пп. 1, 2; [K1], гл. 1, \S~9, п. 3; [V], + гл. I, \S~1; [B], гл. 1, п. 2.} + +\begin{definition} +Пусть $x$, $y$~--- целые числа. Говорят, что +$x$ \dfn{делит}\index{делимость!целых чисел} $y$ +(или, что $y$ \dfn{делится на} $x$) если +существует такое целое число $k$, что $y=xk$. Обозначение: +$x\divides y$. +\end{definition} + +\begin{proposition} +Для любых целых $x,y,z$ выполнено: +\begin{enumerate} +\item $x\divides x$, $1\divides x$, $(-x)\divides x$, + $(-1)\divides x$; +\item если $x\divides y$ и $y\divides z$, то $x\divides z$ (отношение + делимости транзитивно); +\item если $x\divides y$ и $x\divides z$, то $x\divides y+z$; +\item если $x\divides y$, то $x\divides yz$; +\item если $z\neq 0$, то $xz\divides yz$ равносильно $x\divides y$; +\item $x\divides 0$; если $0\divides x$, то $x=0$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item $x=x\cdot 1=1\cdot x=(-x)\cdot(-1)=(-1)\cdot(-x)$. +\item Если $y=xk$, $z=yl$, то $z = (xk)l = x(kl)$. +\item Если $y=xk$, $z=xl$, то $y+z=x(k+l)$. +\item Если $y=xk$, поэтому $yz=(xk)z = x(kz)$. +\item Если $y=xk$, то $yz=xzk$; обратно, если $yz=xzk$, то + $(y-xk)z=0$. Из $z\neq 0$ теперь следует, что $y-xk=0$, то есть, + $y=xk$. +\item $0=x\cdot 0$; если $x=0\cdot k$, то $x=0$. +\end{enumerate} +\end{proof} + +\begin{definition} +Если $x\divides y$ и $y\divides x$, говорят, что числа $x$ и $y$ +\dfn{ассоциированы}\index{ассоциированность!целых чисел}. +\end{definition} + +\begin{remark}\label{rem:integers_up_to_sign} +Заметим, что это означает, что $y=xk$ и $x=yl$, откуда $x=xkl$. Если +$x=0$, то и $y=0$; иначе $1=kl$, поэтому $|k|=|l|=1$ и либо $k=l=1$, +либо $k=l=-1$. Стало быть, $y=x$ или $y=-x$. +\end{remark} + +% 01.10.2014 + +\begin{theorem}[О делении с остатком] +Пусть $a,b\in\mb Z$, $b\neq 0$. Тогда существуют единственные целые +числа $q$ (неполное частное) и $r$ (остаток) такие, что $a=bq+r$ и +$0\leq r\leq |b|-1$. +\end{theorem} +\begin{proof} +Предположим сначала, что $b>0$ и $a\geq 0$. +Доказываем индукцией по $a$. +База: $a0$ и можно найти $q',r'$ +такие, что $a=(-b)q'+r'$ и $0\leq r'\leq -b-1$. Но тогда $a=b(-q')+r'$ +и $0\leq r'\leq |b|-1$, что и требовалось. + +Осталось доказать единственность. Пусть $a=bq+r=bq'+r'$; тогда +$b(q-q')=(r'-r)$. Если $q=q'$, то и $r=r'$. Если же $q\neq q'$, то +$|b|\cdot |q-q'|=|r-r'|$ и левая часть $\geq |b|$. С другой стороны, +$0\leq r,r'\leq |b|-1$, поэтому правая часть не превосходит +$|b|-1$, противоречие. +\end{proof} + +\subsection{Наибольший общий делитель и алгорифм Эвклида} + +\literature{[F], гл. I, \S~1, пп. 3, 4; [K1], гл. 1, \S~9, п. 2; [V], + гл. I, \S~2; [B], гл. 3, пп. 1, 2.} + +\begin{definition} +Пусть $a,b\in\mb Z$. Говорят, что целое число $d$ является \dfn{общим + делителем}\index{делитель!общий} $a$ и $b$, если $d\divides a$ и +$d\divides b$. +\end{definition} +\begin{definition} +Пусть $a,b\in\mb Z$. Целое число $d$ называется +\dfn{наибольшим общим +делителем}\index{делитель!наибольший общий!целых чисел}\index{наибольший общий делитель} (\dfn{НОД}) +чисел $a$ и $b$, если +\begin{itemize} +\item $d$~--- общий делитель $a$ и $b$; +\item если $d'$~--- общий делитель $a$ и $b$, то $d'\divides d$. +\end{itemize} +Обозначение: $d=\gcd(a,b)$. +\end{definition} + +Заметим, что НОД двух целых чисел (если он существует) единственен с +точностью до знака. А именно, если $d$ и +$d'$~--- два наибольших общих делителя чисел $a$ и $b$, +то из определения +следует, что $d\divides d'$ и $d'\divides d$, откуда по +замечанию~\ref{rem:integers_up_to_sign} следует, что $d=\pm d'$. +Поэтому важно понимать, что выражение $\gcd(a,b)$ не является +однозначно определенным целым числом, а лишь обозначает +{\em какой-нибудь} из наибольших общих делителей чисел $a$ и +$b$. Например, если $\gcd(a,b)=d$, то и $\gcd(a,b)=-d$. + +Легко видеть, что $\gcd(0,a)=a$; в частности, +$\gcd(0,0)=0$. + +{\small +Некоторые авторы называют наибольшим общим делителем не произвольное +целое, а {\it натуральное} число с этими свойствами. При этом +наибольший общий +делитель становится единственным: действительно, из пары целых чисел +$d$ и $-d$ всегда ровно одно является натуральным. +Однако, такая точка зрения неудобна, поскольку при обобщении понятия +наибольшего общего делителя на другие кольца (например, на кольцо +многочленов~--- см. раздел~\ref{ssect:polynomial_gcd}) подобного рода +единственность невозможно обеспечить.} + +\begin{proposition}\label{prop:gcd_linear} +Наибольший общий делитель двух целых чисел $a,b$ существует и +представляется в виде $d=au_0+bv_0$ для некоторых целых $u_0$, $v_0$. +\end{proposition} +\begin{proof} +Если $a=b=0$, то мы уже знаем, что $\gcd(a,b)=0$, и доказывать +нечего. Теперь можно считать, что $a\neq 0$. +Рассмотрим множество всех натуральных чисел вида $au+bv$ для +всевозможных целых $u,v$ и выберем в нем наименьший ненулевой +элемент (это множество непусто: например, оно содержит $|a|$). +Обозначим его через $d$; по +построению имеем $d=au_0+bv_0$ для некоторых целых $u_0,v_0$. +Покажем, что $d$ является общим делителем $a$ и $b$. Поделим $a$ на +$d$ с остатком: $a=dq+r=(au_0+bv_0)q+r$, откуда +$r=a(1-u_0q)+b(-v_0q)$. Однако, $r0$. Делим с остатком $a$ на $b$: +$a=bq_0+r_0$. +Посмотрим на пару $(b,r_0)$ и применим ту же операцию к ней (теперь мы +знаем, что $b>r_0$): +$b=r_0q_1+r_1$ +и так далее: +$r_0=r_1q_2+r_2$\dots +Заметим, что максимальное число в паре всегда уменьшается; значит, +процесс когда-то остановится (остаток станет равен нулю). +Мы утверждаем, что последний ненулевой остаток в этой цепочке равен +$\gcd(a,b)$. Для доказательства этого факта нам понадобится следующая +лемма. +\begin{lemma} +Пусть $a,b,q,r\in\mb Z$. +Если $a=bq+r$, то $\gcd(a,b)=\gcd(b,r)$. +\end{lemma} +\begin{proof} +Действительно, пусть +$d=\gcd(a,b)$ и $d'=\gcd(b,r)$. С одной стороны, $d\divides a$, +$d\divides b$, откуда $d\divides (a-bq) = r$, и из определения +$d'=\gcd(b,r)$ следует, что +$d\divides d'$. Кроме того, $d'\divides b$, $d'\divides r$, откуда +$d'\divides bq+r = a$, и из определения $d=\gcd(a,b)$ следует, что +$d'\divides d$. Мы получили, что $d\divides d'$ и +$d'\divides d$; это означает, что $d=\pm d'$, и потому $\gcd(a,b) = +\gcd(b,r)$. +\end{proof} + +Поэтому +наибольший общий делитель пары, с которой мы работаем в алгорифме +Эвклида, не меняется; и как только в паре +появился $0$, другое число в паре должно быть равно $\gcd(a,b)$. + +Более того, алгорифм Эвклида позволяет находить и линейное +представление НОД. Действительно, в конце алгорифма мы приходим к паре +$(d,0)$ и линейное представление очевидно: $d=d\cdot 1+0\cdot 0$. На +каждом шаге мы переходим от пары $(a,b)$ к паре $(b,r)$, где $a=bq+r$; +если мы уже знаем, что $d=bx'+ry'$, то, подставляя $r=a-bq$, имеем +$d=bx'+(a-bq)y'= ay'+b(x'-qy')$. + +\subsection{Свойства НОД и взаимная простота} + +\literature{[F], гл. I, \S~1, п. 5; [V], + гл. I, \S~2; [B], гл. 3, пп. 1, 3.} + +\begin{proposition}[Свойства НОД]\label{prop_properties_gcd} +\begin{enumerate} +\item $\gcd(x,y)=x$ тогда и только тогда, когда $x\divides y$.\label{gcd_prop1} +\item $\gcd(\gcd(x,y),z)=\gcd(x,\gcd(y,z))$. +\item $\gcd(zx,zy)=z\cdot\gcd(x,y)$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Если $\gcd(x,y)=x$, то $x\divides y$ по определению. Обратно, пусть + $x\divides y$, тогда $x$~--- общий делитель $x$ и $y$, и если $d'$~--- + какой-то общий делитель $x,y$, то, в частности, $d'\divides x$. Значит, + $\gcd(x,y)=x$. +\item Любой общий делитель $\gcd(x,y)$ и $z$ является общим делителем + $x$, $y$ и $z$; то же можно сказать про любой общий делитель $x$ и + $\gcd(y,z)$. Позже мы распространим определение $\gcd$ на несколько + элементов и увидим, что и левая, и правая части необходимого + равенства равны $\gcd(x,y,z)$. +\item Если $z=0$, то и слева, и справа стоит $0$; доказывать + нечего. Пусть $\gcd(x,y)=d$; $d\divides x$, $d\divides y$, откуда + $zd\divides zx$ и $zd\divides zy$; поэтому $zd\divides \gcd(zx,zy)$. + Обратно, очевидно, что $z\divides zx$, $z\divides zy$, + поэтому $z\divides\gcd(zx,zy)$. Запишем $\gcd(zx,zy)=zc$ для некоторого + $c$. Значит, $zc\divides zx$, $zc\divides zy$, откуда после + сокращения (с учетом того, что $z\neq 0$) получаем $c\divides x$ и + $c\divides y$. Поэтому $c\divides \gcd(x,y)=d$, откуда + $zc\divides zd$, то есть, $\gcd(zx,zy)\divides zd$. +\end{enumerate} +\end{proof} + +\begin{definition} +Числа $a,b$ называются \dfn{взаимно простыми}\index{взаимная + простота}, если +$\gcd(a,b)=1$. Обозначение: $a\perp b$. +\end{definition} + +\begin{proposition}[Свойства взаимной + простоты]\label{prop_properties_of_coprime} +Пусть $a,b,c$~--- некоторые целые числа. +\begin{enumerate} +\item Если $a\perp b$ и $a\perp c$, то $a\perp bc$.\label{coprime_prop1} +\item $a\perp b$ тогда и только тогда, когда существуют целые числа + $u_0$, $v_0$ такие, что $au_0+bv_0=1$.\label{coprime_prop2} +\item Если $c\divides ab$ и $a\perp c$, то $c\divides b$.\label{coprime_prop3} +\item Если $b_1\divides a$, $b_2\divides a$ и $b_1\perp b_2$, то + $b_1b_2\divides a$.\label{coprime_prop4} +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item +\begin{align*} +\gcd(a,bc)&=\gcd(\gcd(a,ac),bc)\\ +&=\gcd(a,\gcd(ac,bc))\\ +&=\gcd(a,c\gcd(a,b))\\ +&=\gcd(a,c)\\ +&=1. +\end{align*} +\item если $a\perp b$, то $1=au_0+bv_0$~--- линейное представление + НОД. Обратно, если $au_0+bv_0=1$ и $d=\gcd(a,b)$, то $d\divides au_0$, + $d\divides bv_0$, откуда $d\divides au_0+bv_0 = 1$ и $d=1$. +\item Запишем $au_0+cv_0=1$ и умножим на $b$: + $abu_0+cbv_0=b$. Мы знаем, что $c\divides ab$, поэтому $c\divides + abu_0$. Кроме того, очевидно, что $c\divides cbv_0$. Поэтому $c$ + делит и их сумму $abu_0+cbv_0 = b$. +\item $a=b_1k$ делится на $b_2$, $b_1\perp b_2$, по предыдущему + свойству $k$ делится + на $b_2$: $k=b_2l$, откуда $a=b_1k=b_1b_2l$. +\end{enumerate} +\end{proof} + +\subsection{Линейные диофантовы уравнения} + +\literature{[B], гл. 14, п. 2.} + +Пусть $a,b,c\in\mb Z$. +Нас интересуют решения $(x,y)$ уравнения $ax+by=c$. +Если $a=b=0$, то при $c=0$ решение любое, а при $c\neq 0$ решений нет. + +Если $b=0$, $a\neq 0$, получаем уравнение $ax=c$. Если $a\divides c$, то +$x=c/a$, $y$~--- любое; иначе решений нет. + +Обозначим $d=\gcd(a,b)$. Заметим, что $d\divides a$, $d\divides b$, +поэтому $d$ должно делить выражение +$ax+by$ при всех $x,y$. Значит, если $d$ не делит $c$, +то решений нет. + +Пусть теперь $d\divides c$. Запишем $a=da'$, $b=db'$, +$c=dc'$; тогда обе части нашего уравнения можно +поделить на $d$ и прийти к эквивалентному уравнению $a'x+b'y=c'$, для +которого уже $\gcd(a',b')=1$ (поскольку +$d=\gcd(a,b)=\gcd(da',db')=d\gcd(a',b')$). + +Поэтому теперь можно считать, что $\gcd(a,b)=1$. +Мы знаем, что есть линейное представление НОД: +$au_0+bv_0=1$. Умножая на $c$ обе части, получаем, что +$a(u_0c)+b(v_0c)=c$. Обозначим $x_0=u_0c$, $y_0=v_0c$. Мы получили, +что у нашего уравнения есть решение $(x_0,y_0)$. Как найти все +решения? + +Пусть $(x,y)$~--- какое-то решение уравнения $ax+by=c$. Вычитая +$ax_0+by_0=c$ из этого равенства, получаем $a(x-x_0)+b(y-y_0)=0$, +откуда $a(x-x_0)=b(y_0-y)$. Стало быть, $b\divides a(x-x_0)$; но $a\perp +b$, поэтому $b\divides x-x_0$. Запишем $x-x_0=bt$; тогда $abt=b(y_0-y)$, +откуда $y_0-y=at$. Получили, что произвольное решение $(x,y)$ нашего +уравнения выглядит так: $x=x_0+bt$, $y=y_0-at$. Итак, если +$(x_0,y_0)$~--- какое-то одно решение уравнения $ax+by=c$, то все его +решения имеют вид $(x_0+bt,y_0-at)$ для $t\in\mb Z$. Обратно, прямая +подстановка показывает, что $(x_0+bt,y_0-at)$ действительно является +решением нашего уравнения. + +Теперь посмотрим на случай нескольких переменных. Для этого нам +понадобится расширить понятие НОД на случай нескольких чисел. + +\begin{definition} +Пусть $a_1,\dots,a_n\in\mb Z$. Натуральное число $d$ называется +\dfn{наибольшим общим делителем}\index{делитель!наибольший + общий!нескольких чисел} чисел $a_1,\dots,a_n$, если +выполняются следующие условия: +\begin{enumerate} +\item $d$~--- общий делитель $a_1,\dots,a_n$ (то есть, $d$ делит + каждое $a_i$); +\item если $d'$~--- общий делитель $a_1,\dots,a_n$, то $d'\divides d$. +\end{enumerate} +Обозначение: $d=\gcd(a_1,\dots,a_n)$. +\end{definition} + +\begin{exercise} +Докажите следующие свойства НОД: +\begin{enumerate} +\item $\gcd(a_1,\dots,a_n)=\gcd(\gcd(a_1,a_2),a_3,\dots,a_n)$; +\item $\gcd$ не зависит от порядка аргументов; +\item $\gcd(za_1,za_2,\dots,za_n)=|z|\gcd(a_1,\dots,a_n)$. +\end{enumerate} +\end{exercise} +Из этого упражнения, в частности, следует, что НОД нескольких чисел +существует и единственен. + +% 08.10.2014 + +\begin{theorem}[Критерий разрешимости линейного диофантова уравнения + от нескольких переменных] +Пусть $a_1,\dots,a_n,c\in\mb Z$. Линейное уравнение +$$ +a_1x_1+\dots+a_nx_n=c +$$ +разрешимо в целых числах тогда и только тогда, когда +$\gcd(a_1,\dots,a_n)$ делит $c$. +\end{theorem} +\begin{proof} +Очевидно, что если это уравнение разрешимо, то каждое слагаемое в +левой части делится на $\gcd(a_1,\dots,a_n)$, поэтому и $c$ на него +делится. Докажем теперь, что если $c$ делится на +$d=\gcd(a_1,\dots,a_n)$, то уравнение разрешимо. + +Из нашего анализа линейного диофантова уравнения от двух переменных +следует, что этот критерий верен для $n=2$. Это будет базой для +индукции по $n$. Пусть теперь $n\geq 3$. +Рассмотрим следующее уравнение: +$$ +\gcd(a_1,a_2)y_1+a_3y_3+\dots+a_ny_n=c. +$$ +Это линейное диофантово уравнение от $n-1$ неизвестных +$y_1,y_3,\dots,y_n$. По предположению индукции оно разрешимо тогда и +только тогда, когда его правая часть, $c$, делится на +$\gcd(\gcd(a_1,a_2),a_3,\dots,a_n)=\gcd(a_1,a_2,a_3,\dots,a_n)=d$. У +нас по условию $d\divides c$, поэтому новое уравнение имеет решение +$(y_1,y_3,\dots,y_n)$. Построим теперь решение нашего первоначального +уравнения. Посмотрим на еще одно вспомогательное уравнение +$$ +a_1x_1+a_2x_2=\gcd(a_1,a_2)y_1 +$$ +с неизвестными $x_1,x_2$. Правая часть делится на НОД его +коэффициентов, поэтому оно разрешимо. Итак, мы нашли $x_1,x_2$; +положим теперь $x_3=y_3,\dots,x_n=y_n$. Тогда +\begin{align*} +a_1x_1+a_2x_2+a_3x_3+\dots+a_nx_n&=\gcd(a_1,a_2)y_1+a_3x_3+\dots+a_nx_n\\ +&=\gcd(a_1,a_2)y_1+a_3y_3+\dots+a_ny_n\\ +&=c, +\end{align*} +поэтому $(x_1,\dots,x_n)$~--- решение исходного уравнения. + +\end{proof} + +\subsection{Основная теорема арифметики} + +\literature{[F], гл. I, \S~1, п. 6; [K1], гл. 1, \S~9, п. 1; [V], + гл. I, \S~5, \S~6; [B], гл. 2, п. 1.} + +\begin{definition} +Натуральное число $p$, отличное от $0$ и $1$, +называется \dfn{простым}\index{простое число}, если из того, что +$p=xy$ для некоторых целых $x$, $y$, +следует, что $x$ ассоциировано с $p$ или $y$ ассоциировано с $p$. +\end{definition} + +При этом, если $x$ ассоциировано с $p$, то $y$ ассоциировано с $1$; +если же $y$ ассоциировано с $p$, то $x$ ассоциировано с $1$. +Альтернативное определение: натуральное число $p>1$ называется +простым, если у него нет натуральных делителей, кроме $1$ и $p$. + +\begin{proposition}[Свойства простых чисел]\label{primes_properties} +Пусть $p$~--- простое число. +\begin{enumerate} +\item если $n$~--- целое число, и $p$ не делит $n$, то $p$ и + $n$ взаимно просты;\label{primes_prop1} +\item пусть $a,b\in\mbZ$; если $p$ делит $ab$, то $p$ делит $a$ или $p$ + делит $b$;\label{primes_prop2} +\item если $p$ делит произведение нескольких целых чисел, + то $p$ делит хотя бы одно из них;\label{primes_prop6} +\item всякое целое число, большее 1, делится по крайней мере на одно + простое;\label{primes_prop3} +\item простых чисел бесконечно много; +\item если $p_1$ и $p_2$~--- два различных простых числа, + то они взаимно просты.\label{primes_prop5} +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Предположим, что $p$ не делит $n$, и пусть $d=\gcd(n,p)$. При + этом $d\divides p$, поэтому $d$ либо + ассоциировано с $p$, либо ассоциировано с $1$. Заметим, что $d$ + также делит $n$, поэтому если $d$ ассоциировано + с $p$, то $p$ делит $n$~--- противоречие. Значит, $d$ + ассоциировано с $1$, откуда $n\perp p$. +\item Пусть $p$ делит $ab$, но не делит $a$. По + предыдущему свойству $a\perp p$, и по свойству взаимно простых чисел + получаем, что $p\divides b$. +\item Индукция по $n$; база~--- пункт + (\ref{primes_prop2}). $p\divides (a_1a_2)a_3\dots a_n$, + поэтому либо $a_1a_2$, либо какое-то из $a_i$ (при $i>2$) делится + на $p$; если $a_1a_2$ делится на $p$, то либо $a_1$, либо $a_2$ + делится на $p$. +\item Пусть $n>1$. Если $n$ простое, доказывать нечего. Если же $n$ не + простое, то $n=m_1n_1$ для некоторых целых чисел $n_1,m_1$, причем + $1n_1>n_2>\dots$, поэтому бесконечно долго + этот процесс продолжаться не может~--- все эти числа + натуральные. Значит, на каком-то шаге мы получим простое число + $n_k$; нетрудно видеть, что $n$ на него делится. +\item Предположим обратное; пусть $\{p_1,\dots,p_k\}$~--- множество + всех простых чисел. Рассмотрим число $n=p_1\cdot + p_2\cdot\dots\cdot p_k+1$. По предыдущему свойству $n$ делится на + какое-то простое число $p$; при этом если $p=p_i$ для некоторого + $i$, то $1=n-p_1\cdot p_2\cdot\dots\cdot p_k$ делится на $p_i$, чего + быть не может. Значит, число $p$ не входит в множество + $\{p_1,\dots,p_k\}$. +\item Пусть $p_1$ и $p_2$ не взаимно просты; тогда по пункту + (\ref{primes_prop1}) имеем $p_1\divides p_2$ и $p_2\divides p_1$, то + есть, они равны. +\end{enumerate} +\end{proof} + +\begin{theorem}[Основная теорема арифметики]\label{theorem_ota} +Каждое натуральное число, большее нуля, может быть представлено в +виде произведения простых чисел, и два таких разложения могут +отличаться только порядком следования сомножителей. +\end{theorem} +\begin{proof} +Существование разложения для натурального числа $n$ докажем индукцией +по $n$. База: если $n=1$, доказывать нечего~--- произведение пустого +множества простых чисел равно $1$. Переход: пусть теперь $n>1$. По +свойству (\ref{primes_prop3}) предложения \ref{primes_properties} +мы знаем, что $n=p_1n_1$ для некоторого простого $p_1$. Теперь $n_10$~--- натуральные числа. Такая (очевидно, однозначная) +запись называется \dfn{каноническим разложением}\index{каноническое разложение} +натурального числа $n$ на простые множители. +\end{definition} +\begin{remark}\label{remark_canonical_zeros} +На практике полезно допускать в каноническом разложении и нулевые +показатели $k_1,\dots,k_s$ (конечно, +при этом потеряется однозначность записи). К примеру, мы будем +пользоваться тем, что если $m$, $n$~--- два ненулевых натуральных +числа, то можно записать их в виде $m=p_1^{k_1}\dots p_s^{k_s}$, +$n=p_1^{l_1}\dots p_s^{l_s}$ для некоторых {\it общих} простых +$p_1,\dots,p_s$ и натуральных $k_1,\dots,k_s,l_1,\dots,l_s$: если +какие-то простые +множители, скажем, есть в каноническом разложении $m$, но отсутствуют +в разложении $n$, можно дописать их в разложение $n$ с нулевыми показателями. +\end{remark} + +Приведем несколько примеров использования канонического +разложения. Пусть $m$, $n$~--- ненулевые натуральные числа. Как по +каноническому разложению $m$ и $n$ определить, делится ли $m$ на $n$? +Запишем (пользуясь замечанием~\ref{remark_canonical_zeros}) +$m=p_1^{k_1}\cdots p_s^{k_s}$ и $n=p_1^{l_1}\cdots p_s^{l_s}$ для +некоторых простых $p_1,\cdots,p_s$. Если $m$ делит $n$, можно +записать $n=mr$. Пусть $r=q_1\cdots q_t$~--- какое-то разложение $r$ +на простые множители. Тогда равенство $n=mr$ превращается в равенство +\begin{equation} +p_1^{l_1}\cdots p_s^{l_s} = p_1^{k_1}\cdots p_s^{k_s}q_1\cdots q_t.\label{eq_mnr} +\end{equation} +Можно посмотреть на это равенство как на два разложения числа $m$ в +произведение простых. По основной теореме арифметики +(\ref{theorem_ota}) они должны совпадать с точностью до перестановки +множителей. Стало быть, если в разложении $m$ встретилось $p_i^{k_i}$ +для $k_i>0$, то справа в равенстве~\ref{eq_mnr} простой сомножитель +$p_i$ встретился как минимум $k_i$ раз; значит, и слева он должен +встретиться как минимум $k_i$ раз. Однако слева показатель при $l_i$ +равен $l_i$. Значит, $k_i\leq l_i$. Если же $k_i=0$ для какого-то $i$, +то неравенство $k_i\leq l_i$ выполнено автоматически. +Обратно, если $k_i\leq l_i$ для всех $i=1,\dots,s$, то +$n = m\cdot p_1^{l_i-k_i}\cdots p_s^{l_s-k_s}$. +Мы доказали следующее предложение: + +\begin{proposition}\label{prop_can_decomposition_divisors} +Пусть $m=p_1^{k_1}\cdots p_s^{k_s}$, $n=p_1^{l_1}\cdots p_s^{l_s}$ для +некоторых простых $p_1,\dots,p_s$. +$m$ делит $n$ тогда и только тогда, когда +$k_i\leq l_i$ для всех $i=1,\dots,s$. +\end{proposition} + +Теперь нетрудно посчитать количество всех натуральных делителей числа по +его каноническом разложению. +\begin{proposition} +Пусть $n=p_1^{l_1}\cdots p_s^{l_s}$~--- каноническое разложение числа +$n$. Тогда количество всех натуральных делителей $n$ равно +$(1+l_1)\cdots(1+l_s)$. +\end{proposition} +\begin{proof} +По предложению~\ref{prop_can_decomposition_divisors} каждый делитель +$n$ имеет вид $p_1^{k_1}\cdots p_s^{k_s}$ для некоторых $k_i$ таких, +что $0\leq k_i\leq l_i$, и по основной теореме арифметики +(\ref{theorem_ota}) различные наборы $(k_i)$ приводят к различным +делителям. Значит, количество натуральных делителей $n$ равно +количеству таких наборов. Заметим, что у нас имеется $1+l_i$ вариантов +для выбора натурального $k_i$ с условием $0\leq ka_i\leq l_i$, и все +эти выборы независимы друг от друга, поэтому +простой комбинаторный подсчет показывает, что количество наборов +$(k_i)$ равно $(1+l_1)\cdots (1+l_s)$. +\end{proof} + +Выразим теперь каноническое разложение наибольшего общего делителя +чисел $m$ и $n$ через канонические разложения $m$ и $n$. + +\begin{proposition}\label{prop_gcd_canonical} +Если $m=p_1^{k_1}\cdots p_s^{k_s}$, $n=p_1^{l_1}\cdots p_s^{l_s}$ для +некоторых простых $p_1<\dots0$~--- натуральное число. +\begin{enumerate} +\item $a\equiv a\pmod m$; +\item если $a\equiv b\pmod m$, то $b\equiv a\pmod m$; +\item если $a\equiv b\pmod m$ и $b\equiv c\pmod m$, то $a\equiv c\pmod + m$; +\item если $a_1\equiv a_2\pmod m$ и $b_1\equiv b_2\pmod m$, то + $a_1+b_1\equiv a_2+b_2\pmod m$ и $a_1b_1\equiv a_2b_2\pmod + m$;\label{congruences_prop4} +\item каждое целое число сравнимо по модулю $m$ ровно с одним из чисел + $0,1,\dots,m-1$;\label{congruences_prop5} +\item если $ac\equiv bc\pmod m$ и $c\perp m$, то $a\equiv b\pmod m$; +\item сравнение $ax\equiv 1\pmod m$ разрешимо (относительно $x$) тогда + и только тогда, когда $a\perp m$.\label{congruences_prop7} +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item $m$ делит $a-a=0$. +\item Если $m$ делит $a-b$, то $m$ делит $b-a=-(a-b)$. +\item Если $m$ делит $a-b$ и $b-c$, то $m$ делит и + $a-c=(a-b)+(b-c)$. +\item Если $m$ делит $a_1-a_2$ и $b_1-b_2$, то $m$ делит + $(a_1+b_1)-(a_2+b_2)=(a_1-a_2)+(b_1-b_2)$ и + $a_1b_1-a_2b_2=(a_1-a_2)b_1+a_2(b_1-b_2)$. +\item Пусть $n\in\mbZ$. Поделим $n$ на $m$ с остатком: $n=mq+r$, где + $0\leq r\leq m-1$; тогда $n-r=mq$ делится на $m$, поэтому $n\equiv + r\pmod m$. С другой стороны, если $n\equiv r_1\pmod m$ и $n\equiv + r_2\pmod m$ и $0\leq r_1,r_2\leq m-1$, то $r_1\equiv r_2$ (по уже + доказанным + свойствам 2 и 3), откуда $m\divides r_1-r_2$. Но $|r_1-r_2|\leq m-1$, + поэтому $r_1=r_2$. +\item Если $m$ делит $ac-bc = (a-b)c$, и $c\perp m$, то по + свойству~\ref{coprime_prop3} + из~\ref{prop_properties_of_coprime} + получаем, что $m$ делит $a-b$. +\item Если $a\perp m$, то $1=au_0+mv_0$ для некоторых целых $u_0$, + $v_0$, откуда $au_0-1=-mv_0$ делится на $m$, и $au_0\equiv 1\pmod + m$. Обратно, если $ax_0\equiv 1\pmod m$ для некоторого $x_0$, то + $m\divides ax_0-1$, значит, $ax_0-1=mq$ для некоторого $q$, откуда + $ax_0-mq=1$. По свойству~\ref{coprime_prop2} взаимной + простоты (\ref{prop_properties_of_coprime}) получаем, что + $a\perp m$. +\end{enumerate} +\end{proof} + +\begin{remark}\label{rem_congruence_is_equivalence} +Первые три свойства в~\ref{prop_congruences} показывают, что +$\equiv_m$ является отношением +эквивалентности на множестве целых чисел. +\end{remark} + +%15.10.2014 + +\subsection{Классы вычетов, действия над ними}\label{subsect_residues} + +\literature{[F], гл. I, \S~2, пп. 2, 3; [K1], гл. 4, \S~3, +пп. 1, 2; [B], гл. 8, п. 2.} + + Мы знаем, что отношение сравнимости по модулю $m$ является отношением +эквивалентности на множестве целых чисел +(см.~\ref{rem_congruence_is_equivalence}). Значит, можно рассмотреть +фактор-множество множества $\mb Z$ по этому отношению эквивалентности +(см.~\ref{def_quotient_set}). +\begin{definition} +Фактор-множество $\mb Z/\equiv_m$ мы +будем обозначать через $\mb Z/m\mb Z$. Элементы этого множества +называются \dfn{классами вычетов}\index{класс вычетов} по модулю $m$. +Класс эквивалентности элемента $a$ в $\mb Z/m\mb Z$ мы будем +обозначать через $\ol{a}$ или $[a]_m$. +\end{definition} + +\begin{remark}\label{rem_cong_representatives} +По свойству~\ref{congruences_prop5} сравнений (\ref{prop_congruences}) +каждое целое число попадает в один класс с ровно одним из чисел +$0,1,\dots,m-1$. Это означает, что $\mb Z/m\mb +Z=\{\ol{0},\ol{1},\dots,\ol{m-1}\}$. В частности, получаем, что $|\mb +Z/m\mb Z|=m$. +\end{remark} + +Сейчас мы определим на множестве $\mb Z/m\mb Z$ операции сложения $+$ +и умножения $\cdot$. Чтобы сложить два класса вычетов, нужно выбрать в +каждом из них какой-нибудь элемент (такой элемент называется {\it + представителем} класса вычетов), сложить эти выбранные элементы и +посмотреть, в какой класс попадет результат. Совершенно аналогично +поступаем и с умножением. Остается проверить, что результат этой +операции не зависит от выбора представителей. Эту независимость обычно +называют {\it корректностью} определения операции. + +Итак, если даны два класса $\ol{x}, \ol{y}\in\mb Z/m\mb Z$ (то есть, +$x,y\in\mb Z$~--- представители этих двух классов), положим +$\ol{x}+\ol{y}=\ol{x+y}$ и $\ol{x}\cdot\ol{y}=\ol{xy}$. +Проверим, что эти операции корректно определены: +пусть теперь $x'$, $y'$~--- другие представители тех же классов, то +есть, $x'\in\ol{x}$, $y'\in\ol{y}$ (или, что то же самое, +$\ol{x'}=\ol{x}$ и $\ol{y'}=\ol{y}$). По определению классов +эквивалентности (\ref{def_equiv_class}) это означает, что $x'\equiv +x\pmod m$, $y'\equiv y\pmod m$. Почему же $\ol{x+y}$ совпадает с +$\ol{x'+y'}$, а $\ol{xy}$ совпадает с $\ol{x'y'}$? Это в точности +свойство~\ref{congruences_prop4} сравнений (\ref{prop_congruences}): +$x'+y'\equiv x+y\pmod m$ и $x'y'\equiv xy\pmod m$. + +\subsection{Кольца и поля} + +\literature{[F], гл. I, \S~3, п. 2; [K1], гл. 4, \S~3, +пп. 2, 4; [vdW], гл. 3, \S~11.} + +В предыдущем разделе мы построили новую структуру, элементы которой +могут складываться и +умножаться. Эти элементы очень похожи на числа, поскольку сложение и +умножение обладает фактически <<теми же>> свойствами, что и обычные +числовые системы~--- множества $\mb Z$, $\mb Q$, $\mb R$. Сейчас мы +сформулируем несколько базовых свойств сложения и умножения, из +которых, при желании, можно вывести аналоги большинства алгебраических +тождеств, изучаемых в средней школе. Множество с операциями сложения и +умножения, которые ведут себя как <<настоящие>> сложение и умножение, +называется {\it кольцом} + +\begin{definition}\label{def:ring} +Пусть $R$~--- множество, на котором заданы две бинарные операции $+$ и +$\cdot$ (называемые, соответственно, {\it сложением} и {\it умножением}). +Предположим, что выполняются следующие свойства: +\begin{enumerate} +\item $a+(b+c) = (a+b)+c$ для любых $a,b,c\in R$ ({\it ассоциативность + сложения}). +\item\label{ring_property:zero} существует элемент $\ol{0}\in + R$ такой, что $\ol{0} + a = a = a + + \ol{a}$ для всех $a\in R$ (то есть, $\ol{0}$~--- {\it нейтральный + элемент относительно сложения}; он называется + \dfn{нулем}\index{нуль!в кольце} и часто + обозначается просто через $0$); +\item\label{ring_property:minus} для любого $a\in R$ существует + элемент $a'\in R$ такой, что $a + + a' = \ol{0} = a' + a$ (то есть, $a'$~--- [двусторонний] {\it обратный к + $a$ относительно сложения}; такой элемент обычно обозначается через + $-a$ и называется + \dfn{противоположным}\index{противоположный элемент} к $a$); +\item $a+b = b+a$ для любых $a,b\in R$ ({\it коммутативность + сложения}); +\item $a\cdot (b+c) = a\cdot b + a\cdot c$ и $(b+c)\cdot a = b\cdot a + + c\cdot a$ для любых $a,b,c\in R$ ({\it дистрибутивность сложения + относительно умножения}). +\item $a\cdot (b\cdot c) = (a\cdot b)\cdot c$ для любых $a,b,c\in R$ + ({\it ассоциативность умножения}); +\item\label{ring_property:one} существует элемент $\ol{1}\in R$ такой, что $\ol{1}\cdot a = a = + a\cdot\ol{1}$ для любого $a\in R$ (то есть, $\ol{1}$~--- + {\it нейтральный элемент относительно умножения}; он называется + \dfn{единицей}\index{единица!в кольце} и часто обозначается просто + через $1$); +\item $a\cdot b = b\cdot a$ для любых $a,b\in R$ ({\it коммутативность + умножения}); +\end{enumerate} +Тогда $R$ (с этими двумя операциями) называется \dfn{ассоциативным + коммутативным кольцом с единицей}\index{кольцо}. Тяжеловесность +этого названия +связана с тем, что обычно множество с операциями, удовлетворяющее +свойствам (1)--(5), называют \dfn{кольцом}, а при наложении условий +(6), (7), (8) (в различных комбинациях) добавляют к слову <<кольцо>> +эпитеты <<ассоциативное>>, <<с единицей>>, <<коммутативное>>. В нашем +курсе большинство встречающихся колец (во всяком случае, до пятой +главы) будут обладать всеми указанными +свойствами, поэтому мы часто будем называть ассоциативное коммутативное +кольцо с единицей просто {\it кольцом}, а при необходимости говорить о +{\it некоммутативных кольцах} или, скажем, {\it кольцах без единицы}. +\end{definition} + +Обратите внимание, что свойства (1), (2), (4) для сложения совершенно +параллельны свойствам (6), (7), (8). Однако, свойство (3) утверждает, +что сложение обладает еще одним свойством, которое не требуется от +умножения. Чуть ниже мы назовем кольцо, в котором аналогичное свойство +(с небольшой модификацией) выполнено для умножения, {\it + полем}. Свойство (5)~--- единственное, которое связывает две +операции; в каждое из остальных входит либо сложение, либо умножение +по отдельности. + +\begin{examples}\label{examples:rings} +Совершенно очевидно, что множества $\mb Z$, $\mb Q$, $\mb R$ являются +кольцами относительно обычных операций сложения и умножения; +в каждом из них нейтральный элемент по сложению~--- это $0$, а +нейтральный элемент по умножению~--- это $1$. +\end{examples} + +\begin{proposition}\label{prop_zmz_is_a_ring} +Пусть $m$~--- натуральное число, $m\geq 1$. +Множество $\mb Z/m\mb Z$ с операциями $+$ и $\cdot$, введенными в +разделе~\ref{subsect_residues}, является ассоциативным коммутативным +кольцом с $1$. +\end{proposition} +\begin{proof} +Проверим свойство (1). +Пусть $x,y,z$~--- представители классов $a,b,c$ соответственно, +то есть, $a=\ol{x}$, $b=\ol{y}$, $c=\ol{z}$. Тогда +$a+(b+c)=\ol{x}+(\ol{y}+\ol{z})=\ol{x}+\ol{y+z}=\ol{x+(y+z)}$ и +$(a+b)+c=(\ol{x}+\ol{y})+\ol{z}=\ol{x+y}+\ol{z}=\ol{(x+y)+z}$. Полученные +элементы равны, поскольку сложение целых чисел ассоциативно. +Остальные свойства доказываются совершенно аналогично с помощью +соответствующих свойств сложения и умножения целых чисел. Заметим, что +в качестве нейтрального элемента по сложению в свойстве +(\ref{ring_property:zero}) следует взять класс нуля +$\ol{0}$, а в качестве нейтрального элемента по умножению в свойстве +(\ref{ring_property:one})~--- класс единицы $\ol{1}$. +Наконец, если $a=\ol{x}$, то в свойстве (\ref{ring_property:minus}) в +качестве противоположного элемента нужно взять $a'=\ol{-x}$. +\end{proof} + +\begin{definition} +Кольцо $\mb Z/m\mb Z$, описанное в +предложении~\ref{prop_zmz_is_a_ring}, называется \dfn{кольцом классов + вычетов по модулю $m$}\index{кольцо!классов вычетов}. +\end{definition} + +\begin{definition} +Множество, состоящее из одного элемента, единственным образом +снабжается структурой ассоциативного коммутативного кольца с +единицей. Обычно мы называем этот элемент {\it нулем}, а полученное +кольцо $R = \{0\}$ \dfn{нулевым кольцом}\index{кольцо!нулевое}, и +обозначаем это кольцо +через $0$ (если это не вызывает путаницы в обозначениях). +\end{definition} + +\begin{lemma}\label{lemma:zero_ring} +Пусть $R$~--- кольцо. +\begin{enumerate} +\item $a\cdot\ol{0} = \ol{0}$ для всех $a\in R$; +\item если в $R$ элементы $\ol{0}$ и $\ol{1}$ совпадают, то это + нулевое кольцо; +\item если у элемента $\ol{0}\in R$ есть обратный по умножению, то + $R$~--- нулевое кольцо; +\end{enumerate} +\end{lemma} +\begin{proof} +\begin{enumerate} +\item Из определения $\ol{0}$ следует, что $\ol{0} + \ol{0} = + \ol{0}$. Домножая обе части на $a$, получаем, что + $a\cdot(\ol{0} + \ol{0}) = a\cdot\ol{0}$. Воспользуемся + дистрибутивностью: $a\cdot\ol{0} + a\cdot\ol{0} = + a\cdot\ol{0}$. Прибавляя к обеим частям полученного равенства + противоположный элемент к $a\cdot\ol{0}$, получаем, что + $a\cdot\ol{0} = \ol{0}$, что и требовалось. +\item Пусть $\ol{0} = \ol{1}$ и $a\in R$. Тогда $a\cdot\ol{0} = + a\cdot\ol{1}$. Но мы только что показали, что левая часть равна + $\ol{0}$, в то время как правая часть равна $a$. Поэтому $a=\ol{0}$, + и кольцо $R$ состоит из одного элемента. +\item Пусть $\ol{0}^{-1}$~--- обратный по умножению к $0$; тогда + $\ol{0}^{-1}\cdot\ol{0} = \ol{1}$; с другой стороны, левая часть + равна $\ol{0}$ по уже доказанному. Поэтому $\ol{0}=\ol{1}$, и + $R$~--- нулевое кольцо. +\end{enumerate} +\end{proof} + +Лемма~\ref{lemma:zero_ring} показывает, что не очень разумно ожидать, +что у {\it каждого} элемента кольца окажется обратный по умножению: из +этого тут же следовало бы, что это кольцо нулевое. Однако, если +потребовать существования обратного у каждого {\it ненулевого} +элемента, то получится разумная структура, которая называется +{\it полем}. + +\begin{definition}\label{def:field} +Ассоциативное коммутативное кольцо $R$ с единицей называется +\dfn{полем}\index{поле}, если $R\neq 0$ и у каждого ненулевого +элемента $R$ имеется обратный по умножению. Иными словами, ненулевое +кольцо $R$ называется полем, если для любого $x\in R$ найдется +$x^{-1}\in R$ такое, что $x\cdot x^{-1} = 1 = x^{-1}\cdot x$. +\end{definition} + +\begin{examples} +Кольца $\mb Q$ и $\mb R$ из примера~\ref{examples:rings} являются +полями, а кольцо $\mb Z$~--- нет. +\end{examples} + +Множество всех обратимых элементов кольца мы будем обозначать через +$R^*$. Так, $\mb R^* = \mb R\setminus\{0\}$, $\mb Z^* = \{-1,1\}$. + +Сейчас мы выясним, какие из колец вида $\mb Z/m\mb Z$ являются полями. + +\begin{definition}\label{def:domain} +Пусть $R$~--- кольцо. Элемент $x\in R$ называется \dfn{делителем + нуля}\index{делитель нуля}, если найдется ненулевой элемент $y\in +R$ такой, что $xy = 0$. Делитель нуля называется +\dfn{тривиальным}\index{делитель нуля!тривиальный}, если он равен +нулю, и \dfn{нетривиальным}\index{делитель нуля!нетривиальный}, если +он не равен нулю. Кольцо $R$ называется +\dfn{областью целостности}\index{область целостности}, если $R\neq 0$ +и в $R$ нет нетривиальных делителей нуля. Иными словами, ненулевое +кольцо $R$ называется областью целостности, если из +равенства $xy = 0$ следует, что $x = 0$ или $y = 0$. +\end{definition} + +\begin{lemma}\label{lemma:product_of_invertibles} +Произведение обратимых элементов кольца $R$ обратимо. +\end{lemma} +\begin{proof} +Если $x,y\in R$ обратимы, то $y^{-1}x^{-1}$~--- обратный элемент +к $xy$. Действительно, $(xy)(y^{-1}x^{-1}) = x(yy^{-1})x^{-1} = +xx^{-1} = 1$, и $(y^{-1}x^{-1})(xy) = y^{-1}(x^{-1}x)y = +y^{-1}y = 1$. +\end{proof} + +\begin{lemma}\label{lemma:field_is_a_domain} +Любое поле является областью целостности. +\end{lemma} +\begin{proof} +Пусть $R$~--- поле. Если в $R$ есть нетривиальный делитель нуля $x\neq +0$, то найдется $y\neq 0$ такой, что $xy = 0$. В поле все ненулевые +элементы обратимы, в том числе $x$ и $y$. По +лемме~\ref{lemma:product_of_invertibles} и их произведение $xy = 0$ +обратимо, и по лемме~\ref{lemma:zero_ring} кольцо $R$ нулевое~--- +противоречие. +\end{proof} + +Заметим, что обратное утверждение к +лемме~\ref{lemma:field_is_a_domain} неверно: например, $\mb Z$ +является областью целостности, но не полем. + +Лемма~\ref{lemma:field_is_a_domain} показывает, например, что кольцо +$\mb Z/6\mb Z$ не является полем, поскольку в нем есть делители +нуля. Действительно, $\ol{2}\cdot\ol{3} = \ol{6} = \ol{0}$ в $\mb +Z/6\mb Z$. + +\begin{proposition}\label{prop_invertibility_criteria} +Пусть $m>0$~--- натуральное число, $a\in\mb Z$. Класс $\ol{a}$ обратим +в $\mb Z/m\mb Z$ тогда и только тогда, когда $a\perp m$. +\end{proposition} +\begin{proof} +Заметим, что $\ol{x}$ является обратным к $\ol{a}$ $\Leftrightarrow$ +$\ol{a}\cdot\ol{x}=\ol{1}$ $Leftrightarrow$ +$\ol{ax}=\ol{1}$ $\Leftrightarrow$ +$ax\equiv 1\pmod m$. По предложению~\ref{prop_congruences} это +сравнение разрешимо относительно $x$ тогда и только тогда, когда +$a\perp m$. +\end{proof} + +\begin{proposition}\label{prop_zmz_field} +Кольцо $\mb Z/m\mb Z$ является полем тогда и только тогда, когда +$m$~--- простое число. +\end{proposition} +\begin{proof} +Пусть $m$~--- простое и $\ol{x}\in\mb Z/m\mb Z$ таков, что +$\ol{x}\neq\ol{0}$. +Стало быть, $x$ не делится на $m$. По свойству~\ref{primes_prop1} +простых чисел (\ref{primes_properties}) получаем, что $x\perp m$, и по +предложению~\ref{prop_invertibility_criteria} класс $\ol{x}$ обратим. +Обратно, если $m$ не простое, можно записать $m=kl$ для некоторых +натуральных $k$, $l$, причем $1 < k,l < m$. +Тогда $\ol{k}\cdot\ol{l} = \ol{m} = \ol{0}$, и потому в $\mb Z/m\mb Z$ +есть делители нуля. По лемме~\ref{lemma:field_is_a_domain} это кольцо +не может быть полем. +\end{proof} + +\subsection{Китайская теорема об остатках} + +\literature{[V], гл. IV, \S~3.} + +\begin{theorem}[Китайская теорема об остатках]\label{thm_crt} +Пусть $m, n\geq 1$~--- натуральные числа, $m\perp n$, $a,b$~--- целые +числа. +Тогда существует целое $x$ такое, что $x\equiv a\pmod +m$, $x\equiv b\pmod n$. +Кроме того, целое $x'$ удовлетворяет сравнениям $x'\equiv +a\pmod m$, $x'\equiv b\pmod n$ тогда и только тогда, когда $x'\equiv +x\pmod{mn}$. +\end{theorem} +\begin{proof} +Воспользуемся свойством (\ref{congruences_prop7}) сравнений +(\ref{prop_congruences}) и найдем $x_1,x_2\in\mb Z$ такие, что +$nx_1\equiv 1\pmod m$, $mx_2\equiv 1\pmod n$. +Теперь положим $x=anx_1+bmx_2$. Мы утверждаем, что это $x$ +удовлетворяет свойствам из формулировки теоремы. Действительно, +$x=anx_1+bmx_2\equiv a(nx_1)\equiv a\pmod m$ и +$x=anx_1+mbx_2\equiv b(mx_2)\equiv b\pmod n$. +Теперь пусть $x'$~--- целое число такое, что $x'\equiv a\pmod m$ и +$x'\equiv b\pmod n$, то $x-x'\equiv a-a\equiv 0\pmod m$ и $x-x'\equiv +b-b\equiv 0\pmod n$. Это означает, что $x-x'$ делится на $m$ и $n$. Но +$m$ и $n$ взаимно просты, поэтому по свойству \ref{coprime_prop4} +взаимной простоты +(\ref{prop_properties_of_coprime}) получаем, что $mn\divides x-x'$, +откуда $x\equiv x'\pmod{mn}$. Обратно, если $x\equiv x'\pmod mn$, то +$x-x'$ делится на $m$ и на $n$, поэтому $x'\equiv x\equiv a\pmod m$ и +$x'\equiv x\equiv b\pmod n$. +\end{proof} + +Иными словами, система сравнений +$$ +\left\{ +\begin{aligned} +x&\equiv a\pmod m,\\ +y&\equiv b\pmod n +\end{aligned} +\right. +$$ +всегда имеет решение, и это решение единственно с точностью до +сравнимости по модулю $mn$. + +\subsection{Теорема Вильсона} + +\literature{[V], гл. IV, \S~4; [B], гл. 15, п. 3.} + +\begin{theorem}[Вильсона] +Пусть $p\in\mb N$, $p>1$. Число $p$ является простым тогда и только +тогда, когда $(p-1)!\equiv -1\pmod p$. +\end{theorem} +\begin{proof} +Пусть $p$~--- простое. +Посмотрим на класс $\overline{(p-1)!}$ в $\mb Z/p\mb Z$: +\begin{equation}\label{eq_wilson} +\overline{(p-1)!}=\ol{1}\cdot\ol{2}\cdot\cdots\cdot\ol{(p-1)}. +\end{equation} +В произведении справа выписаны все ненулевые элементы $\mb Z/p\mb +Z$. По предложению~\ref{prop_zmz_field} все они обратимы. Разобьем их +на пары, поставив каждому классу в пару обратный к нему. Нетрудно +проверить, что у каждого класса только один обратный (если $a'$, +$a''$~---обратные к $a$, то $a'=a'\cdot (a\cdot a'')=(a'\cdot a)\cdot +a''=a''$), и что $(a^{-1})^{-1}=a$. + +Проблемы с разбиением на пары +возникают только тогда, когда класс обратен сам себе (в этом случае +получается вырожденная <<пара>> из одного элемента). Но таких класса +только два: $\ol{1}$ и $\ol{-1}$. Действительно, если $\ol{x}\in\mb Z/p\mb +Z$ таков, что $\ol{x}\cdot\ol{x}=\ol{1}$, то $x^2\equiv 1\pmod p$, +откуда $p\divides x^2-1$, то есть, $p\divides (x-1)(x+1)$, и по +свойству~\ref{primes_prop2} простых чисел (\ref{primes_properties}) из +этого следует, что $p\divides x\pm 1$, то есть, что $x\equiv \pm 1\pmod +p$. + +Поэтому все классы, кроме $\ol{1}$ и $\ol{-1}$ разбиваются на пары +взаимно обратных, и произведение классов в каждой паре равно +$\ol{1}$. Остается только домножить произведение всех классов из пар +на $\ol{1}$ и $\ol{-1}$; получаем, что общее произведение, стоящее в +правой части (\ref{eq_wilson}), равно $\ol{-1}$. + +Теперь покажем, что если $p$ не является простым, то $(p-1)!$ не +сравнимо с $-1$ по модулю $p$. Пусть $p=kl$~--- нетривиальное +разложение $p$ на множители. Тогда $(p-1)!$ делится на $k$, поскольку +среди чисел $1,\dots,p-1$ встретится $k$. Если все-таки $(p-1)!\equiv +-1\pmod p$, то $p\divides (p-1)!+1$, откуда $(p-1)!+1=ps$ для некоторого +$s\in\mb Z$, откуда $1=ps-(p-1)!$ делится на $k$ (поскольку $p$ +делится на $k$ и $(p-1)!$ делится на $k$)~--- противоречие. +\end{proof} + +\subsection{Функция Эйлера} + +\literature{[F], гл. I, \S~2, п. 3; [V], гл. II, \S~4; [B], гл. 10.} + +\begin{definition}\label{def_euler_function} +Пусть $n\in\mb N$, $n>0$. Количество натуральных чисел, меньших $n$ и +взаимно простых с $n$, обозначается через $\ph(n)$. Иными словами, +$\ph(n)=|\{x\in\mb N\mid x0$. Тогда $\ph(n)$ равно количеству обратимых +элементов кольца $\mb Z/n\mb Z$: $\ph(n)=|(\mb Z/n\mb Z)^*|$. +\end{proposition} +\begin{proof} +Пусть $0\leq x< n$; по предложению~\ref{prop_invertibility_criteria} +$x\perp n$ тогда и только тогда, когда $\ol{x}$ обратим. +\end{proof} + +\begin{remark}\label{rem_phi_p} +Теперь можно посчитать $\ph(p)$ для простого $p$: по +предложению~\ref{prop_zmz_field} кольцо $\mb Z/p\mb Z$ является полем, +то есть, $(\mb Z/p\mb Z)^*=(\mb Z/p\mb Z)\setminus\{\ol{0}\}$, откуда +$\ph(p)=|(\mb Z/p\mb Z)^*|=p-1$. +Это можно получить и прямым подсчетом: число $x$, $0\leq x0$~--- натуральное. Действительно, $x$ взаимно прост с +$p^k$ тогда и только тогда, когда $x$ взаимно прост $p$, то есть, $x$ +не делится на $p$. Количество натуральных чисел, меньших $p^k$ и +делящихся на $p$, равно $p^k/p=p^{k-1}$, поэтому +$\ph(p^k)=p^k-p^{k-1}=p^{k-1}(p-1)$. +\end{remark} + +% 22.10.2014 + +Для того, чтобы вычислить значение $\ph(n)$ по каноническому +разложению числа $n$, нам понадобится переформулировка китайской +теоремы об остатках. + +\begin{theorem}\label{thm_crt2} +Пусть натуральные числа $m,n\geq 1$ таковы, что $m\perp n$. +Рассмотрим отображение $f\colon\mb Z/mn\mb Z\to\mb Z/m\mb Z\times\mb +Z/n\mb Z$, сопоставляющее классу +$\ol{x}=[x]_{mn}\in\mb Z/mn\mb Z$ пару классов $([x]_m,[x]_n)$. Это +отображение корректно определено и является биекцией. +\end{theorem} +\begin{proof} +Корректная определенность: если $[x]_{mn}=[x']_{mn}$, то $mn\divides +x-x'$, поэтому $m\divides x-x'$ и $n\divides x-x'$. Значит, +$[x]_m=[x']_m$ и $[x]_n=[x']_n$. +По китайской теореме об остатках (\ref{thm_crt}) для каждой пары +$(a,b)\in\mb Z/m\mb Z\times\mb Z/n\mb Z$ найдется $x$ такой, что +$f(\ol{x})=(a,b)$ и такой $x$ единственный по модулю $mn$, то есть, +задает однозначно определенный элемент $[x]_{mn}\in\mb Z/mn\mb Z$. Это +и означает биективность $f$. +\end{proof} + +Покажем теперь, что при построенном в теореме~\ref{thm_crt2} +отображении обратимые классы переходят в пары обратимых классов. + +\begin{proposition}\label{prop_invertible_crt} +Пусть $m,n,f$ таковы, как в формулировке теоремы~\ref{thm_crt2}, и +пусть +$\ol{x}\in\mb Z/mn\mb Z$, $f(\ol{x})=(a,b)$. Класс $\ol{x}$ обратим в +$\mb Z/mn\mb Z$ тогда и только тогда, когда $a$ обратим в $\mb Z/m\mb +Z$ и $b$ обратим в $\mb Z/n\mb Z$. +\end{proposition} +\begin{proof} +Если $\ol{x'}$~--- обратный элемент к $\ol{x}$ в $\mb Z/mn\mb Z$ и +$f(x')=(a',b')$, то $a'$ обратен к $a$, а $b'$ обратен к +$b$. Действительно, $a=[x]_m$, $a'=[x']_m$, поэтому $a\cdot +a'=[x]_m\cdot [x']_m=[x\cdot x']_m$, но $xx'\equiv 1\pmod{mn}$, +поэтому $xx'\equiv 1\pmod m$. Аналогично, $b'$ является обратным к +$b$. + +Обратно, пусть $a'$~--- обратный к $a$, $b'$~--- обратный к +$b$. Отображение $f$ биективно, поэтому найдется $x'$ такой, что +$f(\ol{x'})=(a',b')$, то есть, $[x']_m=a'$, $[x']_n=b'$. При этом +$[xx']_m=[x]_m\cdot [x']_m=a\cdot a'=[1]_m$ и $[xx']_n=[1]_n$. Значит, +$xx'\equiv 1\pmod m$ и $xx'\equiv 1\pmod n$, откуда по свойству +\ref{coprime_prop1} взаимно простых чисел +(\ref{prop_properties_of_coprime}) +$xx'\equiv 1\pmod{mn}$ и $x$ обратим. +\end{proof} + +\begin{theorem}[Мультипликативность функции Эйлера]\label{thm_euler_multiplicative} +Если $m,n\geq 1$~--- натуральные числа и $m\perp n$, то $\ph(mn)=\ph(m)\ph(n)$. +\end{theorem} +\begin{proof} +По предложению~\ref{prop_phi_alt_def}, $\ph(mn)=|(\mb Z/mn\mb Z)^*|$ и +$\ph(m)\ph(n)=|(\mb Z/m\mb Z)^*|\cdot|(\mb Z/n\mb Z)^*|=|(\mb Z/m\mb +Z)^*\times (\mb Z/n\mb Z)^*|$ +Предложение~\ref{prop_invertible_crt} утверждает, что $f$ +устанавливает биекцию между множествами $(\mb Z/mn\mb Z)^*$ и $(\mb +Z/n\mb Z)^*\times (\mb Z/n\mb Z)^*$, поэтому в них поровну элементов. +\end{proof} + +\begin{corollary} +Если $n=p_1^{k_1}\cdot p_2^{k_2}\dots\cdot p_s^{k_s}$~--- каноническое +разложение натурального числа $n$, то $\ph(n)=p_1^{k_1-1}(p_1-1)\cdot +p_2^{k_2-1}(p_2-1)\cdot\dots\cdot p_s^{k_s-1}(p_s-1)$. +\end{corollary} +\begin{proof} +Заметим, что все сомножители вида $p_i^{k_i}$ в каноническом +разложении числа $n$ попарно взаимно просты (например, это следует из +предложения~\ref{prop_gcd_canonical}). Применяя +теорему~\ref{thm_euler_multiplicative} и замечание~\ref{rem_phi_p}, +получаем $\ph(n)=\ph(p_1^{k_1}\cdot p_2^{k_2}\dots\cdot +p_s^{k_s})=\ph(p_1^{k_1})\cdot +\ph(p_2^{k_2})\cdot\dots\cdot\ph(p_s^{k_s})=p_1^{k_1-1}(p_1-1)\cdot +p_2^{k_2-1}(p_2-1)\cdot\dots\cdot p_s^{k_s-1}(p_s-1)$, что и требовалось. +\end{proof} + +\subsection{Теорема Эйлера и малая теорема Ферма} + +\literature{[F], гл. I, \S~2, п. 3; [V], гл. III, \S~6; [B], гл. 11, \S~1.} + +\begin{theorem}[Теорема Эйлера]\label{thm:euler} +Пусть $n$~--- натуральное число, $a\in\mb Z$ и $a\perp n$. Тогда +$a^{\ph(n)}\equiv 1\pmod n$. +\end{theorem} +\begin{proof} +Пусть $x_1,x_2,\dots,x_k$~--- все обратимые элементы кольца $\mb +Z/n\mb Z$. По предложению~\ref{prop_phi_alt_def} их ровно $\ph(n)$, то +есть, $k=\ph(n)$. Пусть $\ol{a}$~--- класс числа $a$ в кольце $\mb +Z/n\mb Z$. По предложению~\ref{prop_invertibility_criteria} элемент +$\ol{a}$ обратим. Рассмотрим элементы +$\ol{a}x_1,\ol{a}x_2,\dots,\ol{a}x_k$. По +лемме~\ref{lemma:product_of_invertibles} каждый из них обратим. С +другой стороны, если $\ol{a}x_i=\ol{a}x_j$, то +$\ol{a}(x_i-x_j)=\ol{0}$. Домножая это равенство на $\ol{a}^{-1}$, +получаем, что $x_i=x_j$. Это означает, что все элементы +$\ol{a}x_1,\ol{a}x_2,\dots,\ol{a}x_k$ различны; иными словами, это +элементы $x_1,x_2,\dots,x_k$, только, возможно, в другом порядке. Но +тогда произведения этих двух наборов элементов совпадают. Значит, +$$ +x_1x_2\cdots +x_k=\ol{a}x_1\cdot\ol{a}x_2\cdot\cdots\cdot\ol{a}x_k=\ol{a}^kx_1x_2\cdots x_k. +$$ +По +лемме~\ref{lemma:product_of_invertibles} произведение $x_1x_2\cdots +x_k$ обратимо, поэтому на него можно сократить обе части (более +строго~--- домножить на обратное к нему). Получаем, что +$\ol{a}^k=\ol{1}$; это и означает, что $a^k\equiv 1\pmod{n}$. +\end{proof} + +\begin{corollary}[Малая теорема Ферма]\label{cor_fermat} +Если $p$~--- простое число, и $a\in\mb Z$ не делится на $p$, +то $a^{p-1}\equiv 1\pmod{p}$. +\end{corollary} +\begin{proof} +По свойству~\ref{primes_prop1} простых чисел (\ref{primes_properties}) +$a\perp p$; по замечанию~\ref{rem_phi_p} $\ph(p)=p-1$. Осталось +применить теорему Эйлера для $n=p$. +\end{proof} + +Приведем несложное следствие малой теоремы Ферма. + +\begin{corollary}\label{cor_fermat2} +Если $p$~--- простое число, и $a\in\mb Z$, то +$a^p\equiv a\pmod{p}$. +\end{corollary} +\begin{proof} +Если $p\divides a$, то $a^p\equiv 0\pmod{p}$ и $a\equiv +0\pmod{p}$. В противном случае можно применить малую теорему +Ферма~\ref{cor_fermat}: получим, что $a^{p-1}\equiv 1\pmod{p}$; +домножая обе части на $a$, получаем нужное сравнение. +\end{proof} + +\subsection{Алгоритм шифрования RSA} + +Алгоритм шифрования RSA (Rivest, Shamir, Adleman) является одной из +простейших криптографических систем с открытым ключом. Он позволяет +обмениваться сообщениями по открытым каналам связи без риска быть +подслушанным. Пусть Алиса и Боб~--- два персонажа, и Алиса хочет +получить от Боба сообщение, которое сможет прочесть только она. При +этом между Алисой и Бобом имеются только общедоступные каналы +связи. Алгоритм шифрования RSA говорит, что Алиса должна +\begin{itemize} +\item выбрать два случайных различных простых числа (достаточно + больших) $p$ и $q$; +\item перемножить их и получить число $n=pq$; +\item найти $\ph(n)=\ph(pq)=(p-1)(q-1)$; +\item выбрать некоторое натуральное число $e$, взаимно простое с + $\ph(n)$; +\item найти число $d$, являющееся решением сравнения $ed\equiv + 1\pmod{\ph(n)}$~--- существование такого числа гарантируется + свойством~(\ref{congruences_prop7}) сравнений + (\ref{prop_congruences}). Запишем $ed=1+k\ph(n) = 1 + k(p-1)(q-1)$. +\end{itemize} +После этого Алиса передает Бобу по открытому каналу связи числа $n$ и $e$. +Мы предполагаем, что {\it сообщение}, которое Боб хочет передать +Алисе, является натуральным числом $m$ таким, что $mN$. +Введем следующие операции сложения и умножения на множестве всех +многочленов над $R$: +пусть $a=(a_0,a_1,a_2,\dots)$, $b=(b_0,b_1,b_2,\dots)$. +Положим $a+b=(a_0+b_0,a_1+b_1,a_2+b_2,\dots)$, +$ab=(a_0b_0,a_0b_1+a_1b_0,a_0b_2+a_1b_1+a_2b_2,\dots)$. +Формально: $(a+b)_k=a_k+b_k$, $(ab)_k=\sum_{i=0}^ka_ib_{k-i}$. + +Проверим, что сумма многочленов действительно является многочленом, то +есть, что начиная с некоторого места все коэффициенты в $a+b$ равны +нулю. Поскольку $a$ является многочленом, найдется натуральное $M$ +такое, что $a_i=0$ при $i>M$. Поскольку $b$ является многочленом, +найдется натуральное $N$ такое, что $b_i=0$ при $i>N$. Но тогда при +$i > \max(M,N)$ выполнено и $a_i=0$, и $b_i=0$, откуда +$(a+b)_i = a_i + b_i = 0$ для всех таких $i$. + +Чуть сложнее строго показать, что произведение многочленов является +многочленом. Пусть снова $a_i=0$ при всех $i>M$, и $b_j=0$ при всех +$j>N$. Мы утверждаем, что при $k > M+N$ коэффициент +$(ab)_k$ равен нулю. Действительно, по определению +$$(ab)_k = \sum_{i+j = k}a_ib_j.$$ +Заметим, что при $i+j>M+N$ выполнено хотя бы одно из неравенств $i>M$, +$j>N$ (иначе, если $i\leq M$ и $j\leq N$, то $i+j\leq M+N$~--- +противоречие). Значит, каждое слагаемое в сумме, стоящей в правой +части, равно нулю, ибо $a_i = 0$ при $i>M$, а $b_j=0$ при +$j>N$. Поэтому и вся сумма $(ab)_k$ равна нулю. + +Множество всех многочленов над $R$ с определенными таким образом +операциями обозначим через $R[x]$. +\end{definition} + +\begin{remark} +В обозначении $R[x]$ буква $x$ пока не несет никакого смысла; чуть +ниже мы узнаем, что такое каноническая запись многочлена, и $x$ станет +вполне определенным элементом $R[x]$. Тем не менее, на ее место можно +выбрать любую другую букву. +\end{remark} + +\begin{theorem} +$R[x]$ является кольцом (ассоциативным, коммутативным, с $1$). +\end{theorem} +\begin{proof} +Необходимо проверить восемь аксиом из определения кольца +(\ref{def:ring}). Сложение в $R[x]$ происходит +покомпонентно, поэтому первые четыре аксиомы, отражающие свойства +сложения (ассоциативность и +коммутативность, наличие нейтрального элемента и +противоположных) сразу следуют из соответствующих свойств сложения в +кольце $R$. Отметим лишь, что роль нейтрального элемента по сложению +играет последовательность $(0,0,0,\dots)$, а роль противоположной к +последовательности $(a_0,a_1,a_2,\dots)$ играет последовательность +$(-a_0,-a_1,-a_2,\dots)$. + +Ассоциативность умножения: пусть $a=(a_0,a_1,\dots)$, +$b=(b_0,b_1,\dots)$, $c=(c_0,c_1,\dots)$~--- элементы $R[x]$. Тогда +\begin{align*} +((ab)c)_l&=\sum_{k=0}^l(ab)_kc_{l-k}=\sum_{k=0}^l\sum_{i=0}^ka_ib_{k-i}c_{l-k},\\ +(a(bc))_l&=\sum_{i=0}^la_i(bc)_{l-i}=\sum_{i=0}^la_i\sum_{j=0}^{l-i}b_jc_{l-i-j}\\ +&=\sum_{i=0}^la_i\sum_{i+j=i}^lb_jc_{l-i-j}. +\end{align*} +Сделав замену $k=i+j$ в последней сумме, получаем +$(a(bc))_l=\sum_{i=0}^l a_i\sum_{k=i}^lb_{k-i}c_{l-k}$. Теперь видно, +что суммы в выражениях для $((ab)c)_l$ и $(a(bc))_l$ равны; можно +считать, что суммирования производятся по парам $(i,k)$ таким, что +$0\leq i\leq k\leq l$. + +Покажем, что элемент $e=(1,0,0,\dots)$ является нейтральным по +умножению. Действительно, $(ae)_k=\sum_{i=0}^ka_ie_{k-i}=a_k$ и +$(ea)_k=\sum_{i=0}^ke_ia_{k-i}=a_k$. Умножение коммутативно: +$(ab)_k=\sum_{i=0}^ka_ib_{k-i}$, +$(ba)_k=\sum_{j=0}^kb_ja_{k-j}=\sum_{k-j=0}^{k}b_{k-(k-j)}a_{k-j}$, и +осталось сделать замену $i=k-j$. + +Наконец, проверим дистрибутивность: +\begin{align*} +((a+b)c)_k&=\sum_{i=0}^k(a+b)_ic_{k-i}\\ +&=\sum_{i=0}^k(a_i+b_i)c_{k-i}\\ +&=\sum_{i=0}^k(a_ic_{k-i}+b_ic_{k-i})\\ +&=\sum_{i=0}^k(a_ic_{k-i})+\sum_{i=0}^k(b_ic_{k-i})\\ +&=(ac)_k+(bc)_k. +\end{align*} +\end{proof} + +\begin{remark}\label{rem_r_in_poly} +Можно считать, что кольцо $R$ является подмножеством кольца $R[x]$; +действительно, каждому элементу $a\in R$ соответствует многочлен +$(a,0,0,\dots)$, и операции на таких элементах в $R[x]$ соответствуют +операциям в $R$. В силу этого, многочлен $(0,0,0,\dots)$, являющийся +нейтральным элементом по сложению кольца $R[x]$, мы обозначаем просто +через $0$, а многочлен $e=(1,0,0,\dots)$~--- через $1$. Поэтому мы +часто будем писать $a$ вместо многочлена $(a,0,0,\dots)$ для элементов +$a\in R$. При этом, как нетрудно видеть, +$a\cdot (b_0,b_1,b_2,\dots)=(ab_0,ab_1,ab_2,\dots)$. +\end{remark} + +\begin{remark} +Как и в других кольцах, для натурального $n$ и $f\in R[x]$ мы +обозначаем через $f^n$ многочлен +$\underbrace{f\cdot\dots\cdot f}_{n}$; если $n=0$, положим $f^0=1\in +R[x]$. +\end{remark} + +\begin{definition} +Пусть $a=(a_0,a_1,a_2,\dots)$~--- многочлен над кольцом $R$. +\dfn{Степенью}\index{степень многочлена} многочлена $a$ называется +наибольшее $d$ такое, что +$a_d\neq 0$. Удобно считать, что степень нулевого многочлена +$(0,0,\dots)$ равна $-\infty$. Если же $a\neq 0$, то степень $a$~--- +натуральное число. Обозначение: $d=\deg(f)$. Заметим, что многочлены +степени $0$~--- это в точности ненулевые константы из $R$. +\end{definition} + +\begin{remark} +Обозначим через $x$ элемент $(0,1,0,0,\dots)\in R[x]$. Нетрудно +видеть, что $x^2=(0,0,1,0,0,\dots)$, и вообще +$x^n=(\underbrace{0,\dots,0}_{n},1,0,0,\dots)$ для всякого +натурального $n$. +С учетом замечания~\ref{rem_r_in_poly} любой элемент +$a=(a_0,a_1,a_2,\dots)\in R[x]$ можно записать как +\begin{align*} +a&=(a_0,a_1,a_2,a_3,\dots)\\ +&=(a_0,0,0,0,\dots)+(0,a_1,0,0,\dots)+(0,0,a_2,0,\dots)+\dots\\ +&=a_0\cdot(1,0,0,0,\dots)+a_1\cdot(0,1,0,0,\dots)+a_2\cdot(0,0,1,0,\dots)+\dots\\ +&=a_0+a_1x+a_2x^2+\dots. +\end{align*} +Конечно, в полученной сумме лишь конечное число ненулевых слагаемых; +если $\deg(a)=d$, можно записать $a=a_0+a_1x+\dots+a_dx^d$. Такая +запись называется \dfn{канонической записью + многочлена}\index{каноническая запись многочлена}. +\end{remark} + +\begin{theorem} +Пусть $R$~--- область целостности. Тогда +$\deg(f\cdot g)=\deg(f)+\deg(g)$ для любых $f,g\in R[x]$. +\end{theorem} +\begin{proof} +Пусть $m=\deg(f)$, $n=\deg(g)$. Запишем $f=a_0+a_1x+\dots+a_mx^m$, +$g=b_0+b_1x+\dots+b_nx^n$. По определению степени имеем $a_m\neq 0$ и +$b_n\neq 0$. Нетрудно видеть, что $fg=a_0b_0+\dots+a_mb_nx^{m+n}$ и +$a_mb_n\neq 0$, поскольку $R$~--- область целостности. +\end{proof} + +\begin{remark} +Заметим, что теорема верна и для случая $f=0$ или $g=0$ за счет нашего +соглашения $\deg(0)=-\infty$. +\end{remark} + +\begin{corollary}\label{cor:r[x]_is_domain} +Если $R$~--- область целостности, то $R[x]$~--- область целостности. +\end{corollary} +\begin{proof} +Пусть $fg=0$; предположим, что $f\neq 0$, $g\neq 0$, тогда $\deg(f)$ и +$\deg(g)$~--- натуральные числа, поэтому и $\deg(fg)$~--- натуральное число. +\end{proof} + +\begin{corollary} +Пусть $R$~--- область целостности. +Многочлен $f\in R[x]$ является обратимым тогда и только тогда, когда +он имеет степень $0$, то есть является элементом $f=r\in R$, и $r$ +обратим в $R$. Иными словами, $R[x]^*=R^*$. +\end{corollary} +\begin{proof} +Пусть $f\in R[x]^*$ и $g\in R[x]$~--- обратный элемент к $f$: +$fg=1$. При этом $\deg(f)+\deg(g)=\deg(fg)=\deg(1)=0$. Если одна из +степеней $f,g$ равна $-\infty$, то и $\deg(fg)$ равнялась бы +$-\infty$; поэтому оба числа $\deg(f)$, $\deg(g)$ натуральны и, +следовательно, равны $0$. Значит, $f,g\in R$~--- константы, +произведение которых равно $1\in R$. Поэтому $f\in R^*$. + +Обратно, если $f\in R^*$, обозначим через $g\in R^*$ обратный элемент +к $f$ в $R$. Тогда $fg=1$, и если рассмотреть $f,g$ как многочлены, +получим, что $f\in R[x]^*$. +\end{proof} + +% 12.11.2014 + +\subsection{Делимость в кольце многочленов} + +\literature{[F], гл. VI, \S~1, п. 1--2; [K1], гл. 5, \S~2, п. 3; \S~3, +п. 1; [vdW], гл. 3, \S~14.} + +Начиная с этого места мы считаем, что кольцо $R$ является областью +целостности (тогда по теореме~\ref{cor:r[x]_is_domain} и $R[x]$ +является областью целостности). + +Сейчас мы перенесем основные определения из +раздела~\ref{subsect_divide} на случай кольца многочленов. + +\begin{definition} +Пусть $f,g\in R[x]$. Говорят, что многочлен $g$ +\dfn{делит}\index{делимость!многочленов} +многочлен $f$ (или что $f$ \dfn{делится на} $g$), если $f=gp$ для +некоторого $p\in R[x]$. Обозначение: +$g\divides f$. +\end{definition} +\begin{proposition}[Свойства делимости в кольце многочленов] +Пусть $f,g,h\in R[x]$. Тогда +\begin{enumerate} +\item $f\divides f$ и $f\divides 1$; +\item если $h\divides f$, $h\divides g$, то $h\divides f+g$; +\item если $h\divides f$, то $h\divides fg$; +\item если $h\divides g$, $g\divides f$, то $h\divides f$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item $f=f\cdot 1=1\cdot f$. +\item если $f=hp$, $g=hq$, то $f+g=h(p+q)$. +\item если $f=hp$, то $fg=hgp$. +\item если $g=hp$, $f=gq$, то $f=hpq$. +\end{enumerate} +\end{proof} + +\begin{definition} +Два элемента $f,g\in R[x]$ называются +\dfn{ассоциированными}\index{ассоциированность!многочленов}, если +$g\divides f$ и $f\divides g$. +\end{definition} +\begin{proposition} +Ассоциированность является отношением эквивалентности. +\end{proposition} +\begin{proof} +Очевидно. +\end{proof} + +\begin{proposition} +$f,g\in R[x]$ ассоциированы тогда и только тогда, когда $f=cg$ для +некоторой обратимой константы $c\in R^*$. +\end{proposition} +\begin{proof} +Если $f=cg$ для $c\in R^*$, то $g\divides f$ и $g=c^{-1}f$, поэтому +$f\divides g$. Обратно, из $g\divides f$ следует, что $f=gp$, а из +$f\divides g$ следует, что $g=fq$. Поэтому $f=gp=fqp$, откуда +$f(1-pq)=0$. Заметим, что $R[x]$~--- область целостности, поэтому +$f=0$ или $1-pq=0$. Если +$f=0$, то и $g=0$, и доказывать нечего. Иначе получаем, что $1=pq$, +откуда $p\in R[x]^*=R^*$. Значит, +$p$~--- ненулевая константа, что и требовалось доказать. +\end{proof} + +\begin{theorem}[О делении с остатком в кольце многочленов] +Пусть $R$~--- область целостности, $f,g\in R[x]$, $g\neq 0$, +и старший коэффициент многочлена $g$ обратим. Существуют единственные +многочлены $h,r\in R[x]$ такие, что $f=gh+r$ и $\deg(r)<\deg(g)$. +\end{theorem} +\begin{proof} +Сначала докажем существование индукцией по $\deg(f)$. Если +$\deg(f)<\deg(g)$, можно записать $f=g\cdot 0+f$, то есть, взять $h=0$ +и $r=f$. + +Пусть теперь $\deg(f)\geq\deg(g)$. Запишем $f=a_mx^m+\dots$, +$g=b_nx^n+\dots$, где $m=\deg(f)$, $n=\deg(g)$. Таким образом, +$a_m\neq 0$, $b_n\neq 0$ и $m\geq n$. Более того, по нашему +предположению коэффициент $b_n$ обратим в $R$. +Рассмотрим многочлен +$f_0=f-g\cdot a_m b_n^{-1} x^{m-n}$. Степень $g$ равна $n$, +степень монома +$a_m b_n^{-1}x^{m-n}$ равна $m-n$, поэтому степень многочлена +$g\cdot a_m b_n^{-1}x^{m-n}$ равна $m$, как и степень $f$. Значит, +степень $f_0$ не превосходит $m$. + +Посмотрим на коэффициент многочлена +$f_0$ при $x^m$. Он равен разности коэффициентов $f$ и +$g\cdot a_m b_n^{-1}x^{m-n}$ при $x^m$, то есть, +$a_m-b_n\cdot a_m b_n^{-1}=0$. Значит, степень $f_0$ строго +меньше $m=\deg(f)$. Поэтому к $f_0$ можно применить +предположение индукции и записать $f_0=gh_0+r_0$, +где $\deg(r)<\deg(g)$. Тогда $f=f_0+g\cdot a_m b_n^{-1}x^{m-n} += gh_0+r_0+g\cdot a_m b_n^{-1}x^{m-n} += g(h_0+a_mb_n^{-1}x^{m-n})+r_0$. Возьмем +$h=h_0+a_m b_n^{-1}x^{m-n}$ и $r=r_0$; тогда $f=gh+r$ и +все еще $\deg(r)=\deg(r_0)<\deg(g)$. + +Осталось доказать единственность: предположим, что $f=gh+r$ и +$f=g\widetilde{h}+\widetilde{r}$. Тогда +$g(h-\widetilde{h})=\widetilde{r}-r$. Степени +многочленов $r$ и $\widetilde{r}$ меньше степени $g$, поэтому степень +правой части равенства меньше степени $g$; в то же время, степень +правой части равна сумме степеней $g$ и $h-\widetilde{h}$. Такое +возможно только если степень $h-\widetilde{h}$ равна $-\infty$, то +есть, $h=\widetilde{h}$, откуда и $r=\widetilde{r}$. +\end{proof} + +\begin{remark} +Заметим, что условие обратимости старшего коэффициента многочлена $g$ +автоматически выполняется, если $R$~--- поле. Таким образом, +над полем можно делить любой многочлен на любой ненулевой. +\end{remark} + +\subsection{Многочлен как функция} + +\literature{[F], гл. III, \S~1, пп. 4--7; [K1], гл. 6, \S~1, п. 1--2; [vdW], гл. 5, \S~28.} + +\begin{definition}\label{dfn:poly-value} +Пусть $f=a_0+a_1x+\dots+a_nx^n\in R[x]$, +$c\in R$. \dfn{Значением}\index{значение многочлена} +многочлена $f$ в точке $c$ называется +$f(c)=a_0+a_1c+\dots+a_nc^n=\sum_{i=0}^\infty a_ic^i\in R$. +\end{definition} + +\begin{remark}\label{rem_poly_function} +Таким образом, с каждым многочленом $f\in R[x]$ связано отображение +$\widetilde{f}\colon R\to R$, $c\mapsto f(c)$. +Мы называем это отображение \dfn{полиномиальной + функцией}\index{полиномиальная функция}, заданной +многочленом $f$. +\end{remark} + +\begin{proposition}\label{prop:evaluation-properties} +Для любых $f,g\in R[x]$, $c\in R$, выполнено +\begin{enumerate} +\item $(f+g)(c)=f(c)+g(c)$; +\item $(fg)(c)=f(c)\cdot g(c)$; +\item если $f=r\in R$, то $f(c)=r$ +\end{enumerate} +\end{proposition} +\begin{proof} +Пусть $f=\sum_{i=0}^\infty a_ix^i$, $g=\sum_{i=0}^\infty +b_ix^i$. +\begin{enumerate} +\item $f+g=\sum_{i=0}^\infty (a_i+b_i)x^i$, поэтому +$(f+g)(c)=\sum_{i=0}^\infty +(a_i+b_i)c^i=\sum_{i=0}^\infty(a_ic^i)+\sum_{i=0}^\infty(b_ic^i)=f(c)+g(c)$. +\item $fg=\sum_{m=0}^\infty\sum_{i+j=m}^\infty (a_ib_jx^m)$, поэтому +$f(c)g(c)=(\sum_{i=0}^\infty a_ic^i)(\sum_{j=0}^\infty +b_jc^j)=\sum_{i,j=0}^\infty +(a_ib_jc^{i+j})=\sum_{m=0}^\infty\sum_{i+j=m}(a_ib_jc^{m})=(fg)(c)$. +\item $f(c)=r+0\cdot c+\dots=r$. +\end{enumerate} +\end{proof} + +\begin{definition} +Пусть $f\in R[x]$, $c\in R$. Говорят, что $c$ является +\dfn{корнем}\index{корень многочлена} +многочлена $f$, если $f(c)=0$. +\end{definition} + +\begin{theorem}[Лемма Безу]\label{thm_bezout} +Пусть $f\in R[x]$, $c\in R$. +Многочлен $f$ делится на многочлен $(x-c)$ тогда и только тогда, когда +$c$ является корнем $f$. Более точно, остаток от деления многочлена +$f$ на $(x-c)$ равен $f(c)$. +\end{theorem} +\begin{proof} +Поделим $f$ на $x-c$ с остатком (заметим, что это можно сделать, +поскольку старший коэффициент многочлена $x-c$ обратим). +$f = (x-c)h + r$. Заметим, что $\deg(r) < \deg(x-c) = 1$, поэтому +$r\in R$~--- константа. Подставим $c$ в обе части этого равенства: +$$f(c) = ((x-c)h + r)(c) = ((x-c)h)(c) + r(c) = 0\cdot h(c) + r = r.$$ +Если $f$ делится на $x-c$, то $r=0$, и потому $f(c) = 0$. Обратно, +если $f(c) = 0$, то и $r=0$, и потому $f$ делится на $(x-c)$. +\end{proof} + +\begin{proposition}\label{prop_linear_factors} +Пусть $f\in R[x]$, $f\neq 0$. Тогда $f$ можно записать в виде +$f=(x-c_1)\dots (x-c_m)h$, где $c_1,\dots,c_m\in R$~--- все корни $f$ +(возможно, с повторениями), а $h\in R[x]$~--- +многочлен, у которого нет корней в кольце $R$. +\end{proposition} +\begin{proof} +Доказываем индукцией по $\deg(f)$. База: $\deg(f)=0$, то есть, $f$~--- +ненулевая константа. Это многочлен без корней, поэтому можно взять +$m=0$ и $h=f$. Теперь пусть $\deg(f)>0$. Если у $f$ нет корней, опять +можно взять $m=0$, $h=f$. Если же $c$~--- корень $f$, то (по +теореме~\ref{thm_bezout}) $f=(x-c)f_1$, $\deg(f_1)<\deg(f)$, и к +$f_1$ можно +применить предположение индукции. Поэтому $f_1$ имеет нужное +разложение, и, дописывая к нему скобку $(x-c)$, получаем разложение +для $f$. + +Теперь мы получили, что $f = (x-c_1)\dots (x-c_m)h$ для некоторых +$c_1,\dots,c_m\in R$ и многочлена $h\in R[x]$ без корней. +Очевидно, что каждый $c_i$, $i=1,\dots,m$, является корнем +$f$. Осталось показать, что среди $c_1,\dots,c_m$ встречаются все +корни $f$. Если $c$~--- некоторый корень $f$, то +$0=f(c)=(c-c_1)\dots(c-c_m)h(c)$. При этом $h(c)\neq 0$, поскольку у +$h$ нет корней, значит (поскольку $R$~--- область целостности), +одна из скобок вида $(c-c_i)$ равна $0$, +поэтому $c$ содержится среди $c_1,\dots,c_m$. +\end{proof} + +\begin{corollary}\label{cor_number_of_roots} +Число различных корней ненулевого многочлена над областью целостности +не превосходит его степени. +\end{corollary} +\begin{proof} +Посмотрим на разложение из предложения~\ref{prop_linear_factors}. +Все корни $c$ многочлена $f\in R[x]$ содержатся среди $c_1,\dots,c_m$, +поэтому их число не больше $m$, а $m=\deg(f)-\deg(h)\leq\deg(f)$. +\end{proof} + +Позже (см. замечание~\ref{rem_number_of_roots_with_multiplicities}) мы +уточним это следствие с помощью понятия {\it кратности} корня. + +\begin{definition} +Пусть $f,g\in R[x]$~--- многочлены над областью целостности +$R$. Говорят, что многочлен $f$ \dfn{функционально + равен}\index{функциональное равенство многочленов} многочлену $g$, +если $f(c)=g(c)$ для +любого $c\in R$. Иными словами, многочлены функционально равны, если +задаваемые ими функции равны: $\widetilde{f}=\widetilde{g}$ +(см.~замечание~\ref{rem_poly_function}). Обычное равенство многочленов +при этом иногда называют +\dfn{формальным равенством}\index{формальное равенство многочленов}: +многочлены $f$ и $g$ формально равны, если $f=g$. +\end{definition} + +\begin{example} +Пусть $R=\mb Z/2\mb Z=\{\ol{0},\ol{1}\}$. Рассмотрим многочлен +$f=x^2-x$. Заметим, что $f(\ol{0})=f(\ol{1})=\ol{0}$. Поэтому +многочлен $f$ функционально равен многочлену $0$, но, конечно, $f\neq +0$. Этот пример обобщается на поле $R=\mb Z/p\mb Z$: достаточно взять +$f=x^p-x$ и вспомнить малую теорему Ферма +(следствие~\ref{cor_fermat}). +\end{example} + +\begin{remark} +Очевидно, что из формального равенства многочленов следует +функциональное: если $f=g$, то $f(c)=g(c)$ для любого $c\in R$. +\end{remark} + +\begin{theorem} +Если область целостности $R$ бесконечна, то из функционального +равенства многочленов над $R$ следует их формальное равенство. +\end{theorem} +\begin{proof} +Пусть $f,g\in R[x]$ и $f(c)=g(c)$ для всех $c\in R$. Посмотрим на +разность $h=f-g\in R[x]$. Для любого $c\in R$ выполнено +$h(c)=f(c)-g(c)=0$, поэтому $c$~--- корень $h$. Если $h$ ненулевой, то +по следствию~\ref{cor_number_of_roots} число корней $h$ не превосходит +его степени; с другой стороны, как мы только что видели, любой элемент +бесконечного кольца $R$ является корнем $h$~--- противоречие. Значит, +$h=0$, поэтому и $f=g$. +\end{proof} + +\subsection{Многочлены над $\mb R$ и $\mb C$} + +\literature{[F], гл. III, \S~1, п. 8; гл. VI, \S~1, п. 7; [K1], + гл. 6, \S~3, п. 1; \S~4, п. 1.} + +Сейчас мы уточним разложение из предложения~\ref{prop_linear_factors} +для случая многочленов над полями $\mb R$ и $\mb C$. + +\begin{definition} +Поле $k$ называется \dfn{алгебраически + замкнутым}\index{поле!алгебраически замкнутое}, если у любого +многочлена $f\in k[x]$ степени выше нулевой имеется корень в $k$. +\end{definition} + +\begin{example} +Поле комплексных чисел $\mb C$ является алгебраически замкнутым. Это +утверждение называется \dfn{основной теоремой алгебры}\index{основная + теорема алгебры}; в нашем курсе +мы будем пользоваться им без доказательства. С другой стороны, поле +вещественных чисел $\mb R$ не алгебраически замкнуто: например, у +многочлена $x^2+1$ нет вещественных корней. +\end{example} + +\begin{theorem}[Разложение многочлена над алгебраически замкнутым + полем]\label{thm_irreducible_complex} +Пусть $k$~--- алгебраически замкнутое поле. Тогда любой ненулевой +многочлен $f\in k[x]$ представляется в виде +$f=c_0(x-c_1)\dots(x-c_n)$, где $c_0,c_1,\dots,c_n\in k$. +\end{theorem} +\begin{proof} +По следствию~\ref{prop_linear_factors} можно записать $f=(x-c_1)\dots +(x-c_m)h$, где у $h\in k[x]$ нет корней; по определению алгебраической +замкнутости из этого следует, что $\deg(h)\leq 0$, поэтому $h=c_0\in +k$~--- константа. +\end{proof} + +\begin{theorem}[Разложение многочлена над полем вещественных чисел]\label{thm_irreducible_real} +Пусть $f\in\mb R[x]$, $f\neq 0$. Тогда $f$ можно представить в виде +$f=c_0(x-c_1)\dots (x-c_s)(x^2+a_1x+b_1)\dots(x^2+a_rx+b_r)$, где +$c_0,c_1,\dots,c_s,a_1,\dots,a_r,b_1,\dots,b_r\in\mb R$ и $a_i^2-4b_i<0$ +для всех $i=1,\dots,r$. +\end{theorem} +\begin{proof} +Доказываем индукцией по степени $f$. Если $\deg(f)=0$, то $f=c_0$, +$s=0$, $r=0$. Пусть теперь $\deg(f)>0$. Рассмотрим $f$ как многочлен +над комплексными числами. По основной теореме алгебры у $f$ есть +корень $\lambda\in\mb C$. + +Если $\lambda\in\mb R$, то $f$ делится на +$x-\lambda$, и можно записать $f=(x-\lambda)g$. При этом +$\deg(g)<\deg(f)$, и по предположению индукции $g$ раскладывается в +произведение нужного вида; дописывая к этому разложению скобку +$(x-\lambda)$, получаем и разложение для $f$. + +Если же $\lambda\in\mb C\setminus\mb R$, рассмотрим $f(\ol{\lambda})$: +\begin{align*} +f(\ol{\lambda})&=a_0+a_1\ol{\lambda}+\dots+a_n\ol{\lambda}^n\\ +&=\ol{a_0}+\ol{a_1\lambda}+\dots+\ol{a_n\lambda^n}\\ +&=\ol{f(\lambda)}\\ +&=\ol{0}\\ +&=0. +\end{align*} +Значит, и $\lambda$, и $\ol{\lambda}$ являются корнями $f$. Поэтому +$f$ делится на $(x-\lambda)(x-\ol{\lambda})$. Запишем +$f=(x-\lambda)(x-\ol{\lambda})g$. Заметим, что +$(x-\lambda)(x-\ol{\lambda})= +x^2-(\lambda+\ol{\lambda})x+\lambda\ol{\lambda}= +x^2-(2\Ree(\lambda))+|\lambda|^2$~--- квадратичный многочлен с +вещественными коэффициентами. Поэтому коэффициенты многочлены $g$ +также вещественны, $\deg(g)<\deg(f)$ и можно применить предположение +индукции. Кроме того, дискриминант квадратичного многочлена +$(x-\lambda)(x-\ol{\lambda})$ меньше $0$, поскольку у него нет +вещественных корней. Поэтому нужное разложение многочлена $f$ +получается приписыванием к разложению $g$ указанного квадратичного +многочлена. +\end{proof} + +\subsection{Кратные корни и производная} + +\literature{[F], гл. VI, \S~2, пп. 1, 3; [K1], гл. 6, \S~1, п. 3--4; + [vdW], гл. 5, \S\S~27--28.} + +Мы возвращаемся к рассмотрению многочленов над произвольной областью +целостности $R$. + +\begin{definition} +Пусть $f\in R[x]$, $c\in R$. Говорят, что $c$ является корнем +многочлена $f$ +\dfn{кратности $m$}\index{корень многочлена!кратности $m$}, если $f$ +делится на $(x-c)^m$, но +не делится на $(x-c)^{m+1}$. Корень $f$ кратности $1$ называют +\dfn{простым корнем $f$}\index{корень многочлена!простой}, а корень +кратности $>1$~--- \dfn{кратным корнем $f$}\index{корень многочлена!кратный}. +\end{definition} + +\begin{lemma}\label{lem_root_multiplicity_equiv} +Пусть $f\in R[x]$, $c\in R$, $m\geq 1$. Элемент $c$ является корнем +$f$ кратности +$m$ тогда и только тогда, когда $f$ можно представить в виде +$f=(x-c)^m\cdot g$, где многочлен $g\in R[x]$ таков, что $g(c)\neq 0$. +\end{lemma} +\begin{proof} +Если $c$~--- корень $f$ кратности $m$, то $f=(x-c)^m\cdot g$ для +некоторого $g\in R[x]$. Если $g(c)=0$, то по теореме Безу $g$ делится +на $(x-c)$, поэтому $g=(x-c)h$ и $f=(x-c)^{m+1}h$, то есть, $f$ +делится на $(x-c)^{m+1}$~--- противоречие. + +Обратно, если $f=(x-c)^m\cdot g$ и $g(c)\neq 0$, то $f$ делится на +$(x-c)^m$. Если при этом $f$ делится на $(x-c)^{m+1}$, то +$f=(x-c)^{m+1}\cdot h$. Сравнивая два выражения для $f$,получаем +$(x-c)^m\cdot g=(x-c)^{m+1}\cdot h$, откуда $(x-c)^m(g-(x-c)h)=0$. Так +как $R[x]$~--- область целостности, получаем $g-(x-c)h=0$, откуда +$g=(x-c)h$ и $g(c)=0$~--- противоречие. +\end{proof} + +\begin{remark}\label{rem_number_of_roots_with_multiplicities} +Таким образом, если в выражении для многочлена $f$ из +следствия~\ref{prop_linear_factors} собрать скобки, +соответствующие одинаковым корням, вместе, то скобка $(x-c)$ окажется +с показателем, в точности равным кратности $c$ как корня $f$. +В частности, из этого немедленно следует, что сумма кратностей корней +многочлена $f$ не превосходит его степени. +\end{remark} + +\begin{definition} +Пусть $f\in R[x]$, $f=\sum_{s=0}^\infty a_sx^s$. +\dfn{Производным многочленом} от многочлена $f$ +(или его \dfn{производной}\index{производная}) называется многочлен +$f'=\sum_{s=1}^\infty sa_sx^{s-1}$. +\end{definition} +\begin{remark} +Напомним, что для элемента $c\in R$ и натурального числа $n$ можно +положить +$nc=\underbrace{c+\dots+c}_{n}=\underbrace{(1+\dots+1)}_{n}\cdot c\in R$. +\end{remark} + +% 19.11.2014 + +\begin{proposition}[Свойства производной]\label{prop:derivative-properties} +Пусть $f,g\in R[x]$, $c\in R$, $m\geq 1$. Тогда +\begin{enumerate} +\item $(f+g)'=f'+g'$ + (\dfn{аддитивность}\index{аддитивность!производной}); +\item $(cf)'=cf'$; +\item $(fg)'=f'g+fg'$ (\dfn{тождество Лейбница}\index{тождество + Лейбница}); +\item $(g^m)'=mg^{m-1}g'$. +\end{enumerate} +\end{proposition} +\begin{proof} +Пусть $f=\sum_{s=0}^\infty{a_sx^s}$, $g=\sum_{s=0}^\infty{b_sx^s}$. +\begin{enumerate} +\item $f+g=\sum_{s=0}^\infty{(a_s+b_s)x^s}$, поэтому +$$(f+g)'=\sum_{s=1}^\infty{s(a_s+b_s)x^{s-1}}= +\sum_{s=1}^\infty(sa_sx^{s-1})+\sum_{s=1}^\infty(sb_sx^{s-1})= +f'+g'.$$ +\item $cf=\sum_{s=0}^\infty ca_sx^s$, поэтому +$(cf)'=\sum_{s=1}^\infty{sca_sx^{s-1}}= +c\sum_{s=1}^\infty{sa_sx^{s-1}}= cf'$. +\item Докажем сначала тождество Лейбница для {\it мономов} +(многочленов вида $ax^n$): если $f=ax^n$, $g=bx^m$, то $fg=abx^{m+n}$ +и $(fg)'=(m+n)abx^{m+n-1}$, в то время как $f'=nax^{n-1}$, +$g'=mbx^{m-1}$, откуда $f'g+fg'=nabx^{m+n-1}+mabx^{m+n-1}=(fg)'$. +Пусть теперь $f,g$ произвольны. Запишем их в виде суммы мономов (это +можно сделать с любым многочленом): $f=f_1+\dots+f_r$, +$g=g_1+\dots+g_s$. +Тогда +\begin{align*} +fg&=(f_1+\dots+f_r)(g_1+\dots+g_s)\\ +&=\sum_{\substack{1\leq i\leq r\\1\leq j\leq s}}f_ig_j. +\end{align*} +Возьмем производную и воспользуемся уже доказанным свойством +аддитивности. Кроме того, заметим, что мы доказали тождество Лейбница +для мономов $f_i$ и $g_j$, поэтому +$(f_ig_j)'=f'_ig_j+f_ig'_j$. Получаем: +\begin{align*} +(fg)'&=\sum_{\substack{1\leq i\leq r\\1\leq j\leq + s}}(f_ig_j)'\\ +&=\sum_{\substack{1\leq i\leq r\\1\leq j\leq + s}}(f'_ig_j+f_ig'_j)\\ +&=\sum_{\substack{1\leq i\leq r\\1\leq j\leq + s}}(f'_ig_j) + \sum_{\substack{1\leq i\leq r\\1\leq + j\leq s}}(f_ig'_j)\\ +&=(f'_1+\dots+f'_r)(g_1+\dots+g_s)+(f_1+\dots+f_r)(g'_1+\dots+g'_s)\\ +&=(f_1+\dots+f_r)'(g_1+\dots+g_s)+(f_1+\dots+f_r)(g_1+\dots+g_s)'\\ +&=f'g+fg' +\end{align*} +\item Проведем индукцию по $m$. Для $m=1$ получаем тождество $g'=g'$. +Пусть теперь $m>1$, тогда $(g^m)'=(g\cdot g^{m-1})'=g'\cdot g^{m-1} ++ g\cdot (g^{m-1})'=g^{m-1}g'+g\cdot (m-1)g^{m-2}g'=mg^{m-1}g'$, что и +требовалось. +\end{enumerate} +\end{proof} + +\begin{proposition}[Связь между корнями многочлена и его производной]\label{prop_roots_and_derivative} +Пусть $f\in R[x]$, $c\in R$. Элемент $c$ является кратным корнем +многочлена $f$ тогда и только тогда, когда $c$ является корнем и $f$, +и $f'$. +\end{proposition} +\begin{proof} +Если $c$~--- кратный корень $f$, то $f$ делится на $(x-c)^2$. Запишем +$f=(x-c)^2\cdot g$ и посчитаем производную от обеих частей: +$f'=((x-c)^2\cdot g)' = ((x-c)^2)'g+(x-c)^2g' = 2(x-c)g+(x-c)^2g' = +(x-c)(2g+(x-c)g')$. +Значит, $c$ является и корнем $f'$. + +Обратно, если $c$ корень $f$ и $f'$, запишем $f=(x-c)g$ и $f'=(x-c)h$. +При этом $(x-c)h=f'=((x-c)g)'=(x-c)'g+(x-c)g'=g+(x-c)g'$. Значит, +$(x-c)(h-g')=g$, откуда $f=(x-c)g=(x-c)^2(h-g')$, и $c$~--- кратный +корень $f$. +\end{proof} + +Для исследования более тонких вопросов, касающихся кратностей корней, +нам удобно будет предположить, что основное кольцо $R$ является полем. + +\begin{definition} +Пусть $k$~--- поле. \dfn{Характеристикой}\index{характеристика поля} +поля $k$ называется +наименьшее число $p$ такое, что $\underbrace{1+\dots+1}_{p}=0$ в $k$, +если оно существует; в противном случае говорят, что характеристика +$k$ равна $0$. Обозначение: $\cchar(k)=p$. +\end{definition} + +\begin{examples} +Поля $\mb Q$, $\mb R$, $\mb C$ имеют характеристику $0$: никакая сумма +единиц не равна нулю. Поле $\mb +Z/p\mb Z$ имеет характеристику $p$: действительно, +$\underbrace{\overline{1}+\dots+\overline{1}}_{m}=\ol{m}$, причем +$\ol{p}=\ol{0}$ и $\ol{m}\neq\ol{0}$ при $1\leq m\leq p-1$. +\end{examples} + +\begin{lemma} +Характеристика поля равна $0$ или простому числу. +\end{lemma} +\begin{proof} +Заметим, что характеристика поля не может равняться $1$, поскольку в +поле $1\neq 0$ (см. определение~\ref{def:field}). Если же +$\cchar(k)=ab$~--- составное число ($a,b>1$), заметим, что +$0=\underbrace{1+\dots+1}_{ab} = +(\underbrace{1+\dots+1}_a)(\underbrace{1+\dots+1}_b)$. Поле является +областью целостности, поэтому одна из двух получившихся скобок равна +$0$, но $a,b1$, и характеристика поля $k$ равна +нулю. Элемент $c$ является корнем $f$ кратности $m$ тогда и только +тогда, когда $f(c)=f'(c)=\dots=f^{(m-1)}(c)=0$ и $f^{(m)}(c)\neq 0$. +\end{theorem} +\begin{proof} +Если $c$ является корнем $f$ кратности $m$, то $c$ является корнем +$f'$ кратности $m-1$, \dots, корнем $f^{(m-1)}$ кратности $1$, и не +является корнем $f^{(m)}$. + +Обратно, если $f(c)=f'(c)=\dots=f^{(m-1)}(c)=0$ и $f^{(m)}(c)\neq 0$, +воспользуемся индукцией по $m$. +База $m=1$: $f(c)=0$ и $f'(c)\neq 0$~--- по +теореме~\ref{prop_roots_and_derivative} из этого +следует, что $c$~--- простой корень $f$. +Многочлен $f'$ таков, что он и его +первые $m-2$ производные имеют корень $c$, а $(m-1)$-ая производная не +равна нулю в точке $c$. По предположению индукции $c$~--- корень $f'$ +кратности $m-1$. По +теореме~\ref{root_multiplicity_and_derivative_exact} тогда $c$~--- +корень $f$ кратности $m$, что и требовалось доказать. +\end{proof} + +\subsection{Интерполяция} + +\literature{[F], гл. VI, \S~4, пп. 1--3; [K1], гл. 6, \S~1, п. 2; [vdW], гл. 5, \S~29.} + +\begin{definition} +Пусть $k$~--- поле, $x_1,\dots,x_n\in k$~--- некоторые попарно различные +элементы $k$, и $y_1,\dots,y_n\in k$. \dfn{Интерполяционной + задачей}\index{интерполяционная задача} +(или \dfn{задачей интерполяции в $n$ точках}) с +данными $(x_1,\dots,x_n;y_1,\dots,y_n)$ мы будем называть задачу +нахождения многочлена $f\in k[x]$ такого, что $f(x_i)=y_i$ для всех +$i=1,\dots,m$. +\end{definition} + +\begin{theorem} +Интерполяционная задача имеет не более одного решения среди +многочленов степени, не превосходящей $n-1$. Более того, если $f$, +$g$~--- два решения одной интерполяционной задачи, то $f-g$ делится на +многочлен $(x-x_1)\dots(x-x_n)$. +\end{theorem} +\begin{proof} +Пусть $f,g\in k[x]$~--- два многочлена, +являющихся решениями одной интерполяционной задачи с +данными $(x_1,\dots,x_n;y_1,\dots,y_n)$. Это означает, что +$f(x_i)=y_i=g(x_i)$ для всех $i=1,\dots,n$. Рассмотрим многочлен +$h=f-g$; тогда $h(x_i)=f(x_i)-g(x_i)=0$ для всех $i$. Все $x_i$ +различны, поэтому у многочлена $h$ есть $n$ различных корней +$x_1,\dots,x_n$. По предложению~\ref{prop_linear_factors} из этого +следует, что $h$ делится на $(x-x_1)\dots(x-x_n)$. В частности, если +$f$ и $g$ были многочленами степени не выше $n-1$, то и степень $h$ не +превосходит $n-1$, откуда $h=0$ и $f=g$. +\end{proof} + +\begin{remark} +У многочлена степени $n-1$ ровно $n$ коэффициентов; неформально +говоря, эти $n$ <<степеней свободы>> фиксируются выбором его значений +в $n$ точках. +\end{remark} + +Сейчас мы покажем, что всякая задача интерполяции в $n$ точках имеет решение, +являющееся многочленом степени не выше $n-1$ (и, стало быть, имеет +единственное решение среди многочленов такой степени). Мы явно +построим по данным интерполяционной задачи нужный многочлен нужной +степени, и даже двумя способами: Лагранжа и Ньютона. + +Пусть $(x_1,\dots,x_n;y_1,\dots,y_n)$~--- фиксированная +интерполяционная задача. Обозначим +$$ +\ph_i=(x-x_1)\dots\widehat{(x-x_i)}\dots(x-x_n); +$$ +здесь знак $\widehat{}$ над скобкой означает, что соответствующий +множитель нужно пропустить. Более формально, +$$ +\ph_i=\prod_{\substack{1\leq j\leq n\\j\neq i}}(x-x_j). +$$ +Отметим, что $\ph_i$ является многочленом степени $n-1$, а его +корни~--- элементы $x_1,\dots,\widehat{x_i},\dots,x_n$. + +Посмотрим теперь на многочлен $\ph_i/\ph_i(x_i)$. Эта запись имеет +смысл, поскольку $\ph_i(x_i)\neq 0$. Указанный многочлен принимает +значение $1$ в точке $x_i$ и значения $0$ во всех остальных точках из +набора $x_1,\dots,x_n$. + +Наконец, рассмотрим сумму $f=\sum_{i=1}^n +y_i\ph_i/\ph_i(x_i)$. При подстановке $x_i$ в многочлен $f$ все +слагаемые, кроме $y_i\ph_i/\ph_i(x_i)$, обратятся в $0$, а указанное +слагаемое примет значение $y_i$. Значит, указанный многочлен является +решением нашей интерполяционной задачи. Кроме того, степень $f$ не +превосходит $n-1$, поскольку степень каждого $\ph_i$ равна $n-1$. + +Выпишем его еще раз: +$$ +f=\sum_{i=1}^n y_i\frac{(x-x_1)\dots\widehat{(x-x_i)}\dots(x-x_n)}{(x_i-x_1)\dots + \widehat{(x_i-x_i)}\dots(x_i-x_n)}. +$$ +Многочлен $f$ называется \dfn{интерполяционным многочленом + Лагранжа}\index{интерполяционный многочлен!Лагранжа}. + +Обратимся теперь ко второму способу, который носит название +\dfn{интерполяционного многочлена + Ньютона}\index{интерполяционный многочлен!Ньютона}. Он решает ту же самую +задачу интерполяции в $n$ точках и имеет степень не выше $n-1$; +конечно, из единственности решения следует, что он совпадает с +интерполяционным многочленом Лагранжа и отличается лишь формой +записи. Форма Ньютона удобна, когда добавление новых точек к +интерполяционной задаче происходит последовательно. + +А именно, мы построим серию многочленов $f_1,f_2,\dots,f_n$ таких, что +многочлен $f_i$ имеет степень не выше $i-1$ и решает задачу +интерполяции в $i$ точках с данными +$(x_1,\dots,x_i;y_1,\dots,y_i)$. Построении будет происходить по +индукции: мы опишем, как строить $f_1$ и как по многочлену $f_i$ +строить многочлен $f_{i+1}$; очевидно, что $f_n$ будет решением +исходной интерполяционной задачи. + +Задача интерполяции в одной точке проста~--- в качестве многочлена +$f_1$, принимающего значение $y_1$ в точке $x_1$, можно взять +константу: $f_1=y_1$~--- это действительно многочлен степени не выше +$0$, что и требовалось. +Предположим теперь, что многочлен $f_i$ построен, то есть, +$f_j(x_j)=y_j$ для всех $j=1,\dots,i$, и $\deg(f_i)\leq i-1$. Как +построить $f_{i+1}$? Будем искать его в виде +$f_{i+1}=f_i+c_{i+1}(x-x_1)\dots(x-x_i)$, где $c_{i+1}\in k$~--- некоторая +константа. Это гарантирует нам, что значения +$f_i$ в точках $x_1,\dots,x_i$ не испортятся: добавка $c_{i+1}(x-x_1)\dots +(x-x_i)$ обращается в $0$ в этих точках. Это означает, что +$f_{i+1}(x_j)=y_j$ для $j=1,\dots,i$. Кроме того, степень $f_{i+1}$ не +превосходит $i$. Осталось добиться выполнения условия +$f_{i+1}(x_{i+1})=y_{i+1}$ подбором константы $c_{i+1}$. +То есть, нам нужно, чтобы +$f_i(x_{i+1})+c_{i+1}(x_{i+1}-x_1)\dots(x_{i+1}-x_i)=y_{i+1}$. Отсюда +легко находится $c_{i+1}$: +$$ +c_{i+1}=\frac{y_{i+1}-f_i(x_{i+1})}{(x_{i+1}-x_1)\dots(x_{i+1}-x_i)}. +$$ +Заметим, что знаменатель этой дроби~--- ненулевая константа. + +Таким образом, интерполяционный многочлен Ньютона является многочленом +$f_n$ в последовательности +\begin{align*} +f_1&=y_1;\\ +f_2&=f_1+\frac{y_2-f_1(x_2)}{x_2-x_1};\\ +f_3&=f_2+\frac{y_3-f_2(x_3)}{(x_3-x_1)(x_3-x_2)};\\ +&\vdots\\ +f_n&=f_{n-1}+\frac{y_n-f_{n-1}(x_n)}{(x_n-x_1)\dots(x_n-x_{n-1})}. +\end{align*} + +\subsection{НОД и неприводимость}\label{ssect:polynomial_gcd} + +\literature{[F], гл. VI, \S~1, пп. 3--6; [K1], гл. 5, \S~3, п. 1--2.} + +Продолжим построение теории делимости в кольце многочленов, +параллельной теории делимости в кольце целых чисел. Начиная с этого +места, мы будем рассматривать многочлены над полем $k$. + +\begin{definition} +Пусть $f,g\in k[x]$. Многочлен $d$ называется \dfn{общим + делителем}\index{общий делитель!многочленов} +многочленов $f$ и $g$, если $d\divides f$ и $d\divides g$. +\end{definition} + +\begin{definition} +Пусть $f,g\in k[x]$. Многочлен $d$ называется \dfn{наибольшим общим + делителем}\index{наибольший общий делитель!многочленов} многочленов +$f$ и $g$ (обозначение: $d=\gcd(f,g)$), если +\begin{enumerate} +\item $d$~--- общий делитель $f$ и $g$; +\item если $d'$~--- еще какой-нибудь общий делитель $f$ и $g$, то + $d'\divides d$. +\end{enumerate} +\end{definition} + +\begin{remark} +Сразу же заметим, что если $d$ и $d'$~--- два наибольших общих +делителя многочленов $f$ и $g$, то по определению имеем $d\divides d'$ и +$d'\divides d$; это означает, что многочлены $d$ и $d'$ ассоциированы, то +есть, отличаются домножением на ненулевую константу. В кольце целых +чисел у каждого элемента не более двух ассоциированных~--- он сам и +противоположный к нему, и поэтому можно выбрать из них +неотрицательный, и считать его наибольшим общим делителем. В кольце +многочленов неизвестно, какой из (возможного) множества +ассоциированных выбирать; +можно, конечно, всегда выбирать многочлен со старшим коэффициентом +$1$, но мы этого не будем делать, и будем говорить, что $\gcd$ +многочленов {\em определен с точностью до ассоциированности}. +\end{remark} + +% 26.11.2014 + +\begin{theorem}\label{thm_gcd_polynomials} +Наибольший общий делитель многочленов $f,g\in k[x]$ существует, +определен однозначно с точностью до ассоциированности, и может быть +представлен в виде +$\gcd(f,g)=u_0f+v_0g$ для некоторых $u_0,v_0\in k[x]$ +\end{theorem} +\begin{proof} +Заметим, что $\gcd(0,g)=g$, поэтому можно считать, что $f\neq 0$ и +$g\neq 0$. Рассмотрим множество $I$ многочленов вида $uf+vg$ для +всевозможных $u,v\in k[x]$ и выберем из них ненулевой многочлен +$d=u_0f+v_0g$ наименьшей степени (возможно, таких несколько~--- +возьмем любой из +них). Мы утверждаем, что $d$ является наибольшим общим делителем $f$ и +$g$. Поделим $f$ на $d$ с остатком: $f=dh+r$, где +$\deg(r)<\deg(d)$. Тогда $r=f-dh=f-(u_0f+v_0g)h=(1-u_0h)f+(-v_0h)g$ +лежит в $I$ и имеет меньшую степень; поэтому $r=0$, то есть, $f$ +делится на $d$. Аналогично, $g$ делится на $d$. Это означает, что +$d$~--- общий делитель $f$ и $g$. Если же $h$~--- какой-то общий +делитель $f$ и $g$, то и $d=u_0f+v_0g$ делится на $h$. +\end{proof} + +\begin{remark} +Представление из теоремы~\ref{thm_gcd_polynomials} называется, как и в +случае целых чисел, \dfn{линейным представлением наибольшего общего + делителя}\index{линейное представление НОД!многочленов}. +\end{remark} + +Совершенно аналогично случаю целых чисел происходит и \dfn{алгорифм + Эвклида}\index{алгорифм Эвклида} в кольце многочленов: единственное +отличие состоит в том, +что при каждом шаге алгорифма убывает не модуль числа, а степень +многочлена: + +\begin{lemma} +Если $f=gq+r$ для $f,g\in k[x]$, то $\gcd(f,g)=\gcd(g,r)$. +\end{lemma} +\begin{proof} +Пусть $d=\gcd(f,g)$; тогда $r=f-gq$ делится на $d$, и если $h$~--- +некоторый общий делитель $g$ и $r$, то $f=gq+r$ делится на $h$, +поэтому $h$ является общим делителем $f$ и $g$, и по определению +наибольшего общего делителя должно выполняться $h\divides d$. Поэтому +$d$ является и наибольшим общим делителем $g$ и $r$. +\end{proof} + +Теперь для того, чтобы найти $\gcd(f,g)$, можно считать, что +$\deg(f)\geq\deg(g)$ и $g\neq 0$. +Запишем $f=gq_1+r_1$ и заметим, что +$\gcd(f,g)=\gcd(g,r_1)$, причем $\gcd(r_1)<\gcd(g)$, поэтому можно +перейти от пары $(f,g)$ к паре $(g,r_1)$ и повторить операцию: +\begin{align*} +f&=gq_1+r_1\\ +g&=r_1q_2+r_2\\ +r_1&=r_2q_3+r_3\\ +&\dots +\end{align*} +Процесс не может продолжаться бесконечно, поскольку степень остатка +убывает. Стало быть, он остановится, когда очередной остаток окажется +равным $0$; если $r_n$~--- последний ненулевой остаток, то +$\gcd(f,g)=\gcd(g,r_1)=\gcd(r_1,r_2)=\dots=\gcd(r_{n-1},r_n)=\gcd(r_n,0)=r_n$. + +Уточним степени +многочленов, входящих в линейное представление НОД из +теоремы~\ref{thm_gcd_polynomials}: +\begin{proposition} +Пусть $f,g\in k[x]$, $d=\gcd(f,g)$, $\deg(f)=m$, +$\deg(g)=n$. Существуют многочлены $u_0,v_0\in k[x]$ такие, что +$\deg(u_0)\deg(v_0g)=\deg(v_0)+\deg(g)=\deg(v_0)+n$ и $\deg(v_0)> в термине <<поле рациональных функций>> несколько +обманчиво: мы уже убедились, что не стоит отождествлять многочлен +$f\in k[x]$ с функцией $k\to k$, $c\mapsto f(c)$. Точно так же, можно +попытаться сопоставить рациональной функции $\frac{f}{g}\in k(x)$ +отображение $k\to k$, $c\mapsto f(c)/g(c)$, однако она не определена +в точках $c$, для которых $g(c)=0$; кроме этого, у разных +представителей класса дроби $f/g$ будут разные области определения: +например, дробь $\frac{1}{x-1}$ не определена в точке $1$, а равная ей +дробь $\frac{x}{x(x-1)}$ не определена в точках $0$ и $1$. Может +оказаться, что указанное отображение не определено вообще ни в одной +точке: для поля $k=\mb Z/p\mb Z$ знаменатель дроби $\frac{1}{x^p-x}$, +например, обращается в $0$ во всех точках $c\in k$. Это показывает, +что с подстановкой значений в дроби нужно быть предельно +аккуратным. +\end{remark} + +\begin{definition} +Рациональная функция $\frac{f}{g}\in k(x)$ называется +\dfn{правильной}\index{правильная дробь}, если $\deg(f)<\deg(g)$ +\end{definition} + +\begin{lemma} +Это определение корректно, то есть, не зависит от выбора +представителей: если +$\frac{f}{g}=\frac{\widetilde{f}}{\widetilde{g}}$, и +$\deg(f)<\deg(g)$, то $\deg(\tld{f})<\deg(\tld{g})$. +\end{lemma} +\begin{proof} +Если $\frac{f}{g}=\frac{\tld{f}}{\tld{g}}$, то $f\tld{g}=\tld{f}g$, +поэтому $\deg(f)+\deg(\tld{g})=\deg(\tld{f})+\deg(g)$. +\end{proof} + +\begin{lemma}\label{lem_sum_of_proper} +Сумма, разность и произведение правильных дробей~--- правильные дроби. +\end{lemma} +\begin{proof} +Пусть $\frac{f}{g}$ и $\frac{\tld{f}}{\tld{g}}$~--- правильные +дроби, то есть, $\deg(f)<\deg(g)$ и $\deg(\tld{f})<\deg(\tld{g})$. Тогда +$\frac{f}{g}+\frac{\tld{f}}{\tld{g}}=\frac{f\tld{g}+\tld{f}g}{g\tld{g}}$. +При этом $\deg(f\tld{g})<\deg(g\tld{g})$ и +$\deg(\tld{f}g)<\deg(g\tld{g})$, поэтому и полученная сумма является +правильной дробью. Для случая разности достаточно заметить, что +противоположная дробь к правильной дроби также является +правильной. Наконец, $\deg(f\tld{f})<\deg(g\tld{g})$, поэтому и +произведение $\frac{f\tld{f}}{g\tld{g}}$ является правильной дробью. +\end{proof} + +\begin{lemma}\label{lem:proper_fraction_is_not_poly} +Если многочлен равен правильной дроби, то он нулевой. +\end{lemma} +\begin{proof} +Предположим, что $f\in k[x]$~--- некоторый многочлен, +$\psi = \frac{g}{h} \in k(x)$~--- правильная дробь (здесь $g,h\in +k[x]$), +и $f=\psi$. Равенство $f = \frac{g}{h}$ означает, что +$fh = g$, и поэтому $\deg(g) = \deg(f) + \deg(h)$. С другой стороны, +по определению правильной дроби $\deg(g) < \deg(h)$. +Поэтому $\deg(f) < 0$, то есть, $f=0$. +\end{proof} + +\begin{proposition}\label{prop_sum_poly_and_proper} +Любую рациональную функцию $\ph\in k(x)$ можно единственным образом +представить в виде суммы многочлена и правильной рациональной функции: +$\ph=f+\psi$, где $f\in k[x]$, $\psi\in k(x)$, и если +$\ph=\tld{f}+\tld{\psi}$, то $f=\tld{f}$ и $\psi=\tld{\psi}$. Более +того, знаменатель $\psi$ можно взять равным знаменателю $\ph$, то +есть, если $\ph=\frac{a}{b}$ для некоторых $a,b\in k[x]$, то +$\psi=\frac{c}{b}$ для некоторого $c\in k[x]$. +\end{proposition} +\begin{proof} +Запишем $\ph=\frac{a}{b}$ для некоторых $a,b\in k[x]$, $b\neq 0$. Поделим $a$ на +$b$ с остатком: $a=bq+r$, где $q,r\in k[x]$ и $\deg(r)<\deg(b)$. Тогда +$\ph=\frac{a}{b}=\frac{bq+r}{b}=\frac{bq}{b}+\frac{r}{b}=\frac{q}{1}+\frac{r}{b}=q+\frac{r}{b}$, +и дробь $\frac{r}{b}$ правильная. +Докажем единственность: +пусть $f+\psi=\tld{f}+\tld{\psi}$, +тогда $f-\tld{f}=\tld{\psi}-\psi$. В левой части этого равенства стоит +многочлен, в правой~--- правильная дробь (по лемме~\ref{lem_sum_of_proper}); +из леммы~\ref{lem:proper_fraction_is_not_poly} следует, +что $f - \tld{f}=0$, то есть, $f=\tld{f}$ и $\psi = \tld{\psi}$. +Заметим, наконец, что в нашем построении знаменатель $\psi$ равен +знаменателю $\phi$. +\end{proof} + +Выделение многочлена является первым шагом на пути к выявлению +структуры поля рациональных функций. + +\begin{definition} +Рациональная функция $\psi\in k(x)$ называется +\dfn{простейшей}\index{простейшая дробь}, если ее можно представить в +виде +$\psi=\frac{f}{p^m}$, где $f,p\in k[x]$, $p$~--- неприводимый +многочлен, $m\geq 1$~--- натуральное число, и $\deg(f)<\deg(p)$. +\end{definition} + +Наша цель~--- доказать, что любая правильная рациональная функция +представляется (в некотором смысле единственным образом) в виде суммы +простейших. + +\begin{lemma}\label{prop_coprime_denominators} +Пусть $\frac{f}{gh}\in k(x)$~--- правильная рациональная функция, и +многочлены $g,h\in k[x]$ взаимно просты: $\gcd(g,h)=1$.. Тогда +$\frac{f}{gh}$ можно представить в виде +$\frac{f}{gh}=\frac{a}{g}+\frac{b}{h}$, где +$\frac{a}{g},\frac{b}{h}\in k(x)$~--- правильные рациональные +функции. +\end{lemma} +\begin{proof} +Запишем $ug+vh=1$. Тогда +$\frac{f}{gh}=f\cdot\frac{1}{gh}=f\cdot\frac{ug+vh}{gh}=f\cdot(\frac{ug}{gh}+\frac{vh}{gh})=f\cdot(\frac{u}{h}+\frac{v}{g})=\frac{fv}{g}+\frac{uf}{h}$. В +силу предложения~\ref{prop_sum_poly_and_proper} можно записать дроби +$\frac{fv}{g}$ и $\frac{uf}{h}$ как суммы многочленов и правильных +дробей с теми же знаменателями. Соединяя многочлены вместе, получаем +$\frac{f}{gh}=c+\frac{a}{g}+\frac{b}{h}$, где $a,b,c\in +k[x]$. Наконец, из этого равенство видно, что $c$ является суммой +правильных дробей, то есть, по лемме~\ref{lem_sum_of_proper}, +правильной дробью, и из единственности в +предложении~\ref{prop_sum_poly_and_proper}, $c=0$. +\end{proof} + +\begin{lemma}\label{lem_proper_irreducible} +Правильную дробь вида $\frac{f}{p^m}$ (здесь $f,p\in k[x]$, $m>1$) +можно записать в виде суммы +$\frac{a_1}{p}+\frac{a_2}{p^2}+\dots+\frac{a_m}{p^m}$, где $a_i\in +k[x]$, $\deg{a_i}<\deg{p}$. +\end{lemma} +\begin{proof} +Индукция по $m$. База $m=1$ очевидна. Переход: пусть $m>1$. Поделим $f$ +на $p$ с остатком: $f=pq+r$, $\deg(r)<\deg(p)$. Теперь можно записать +$\frac{f}{p^m}=\frac{pq+r}{p^m}=\frac{pq}{p^m}+\frac{r}{p^m}=\frac{q}{p^{m-1}}+\frac{r}{p^m}$ +и по предположению индукции первую дробь можно записать как сумму +дробей, в которых присутствуют знаменатели $p, p^2,\dots,p^{m-1}$, а +числители имеют степень, меньшую степени $p$. Приписывая слагаемое +$\frac{r}{p^m}$, получаем то, что требовалось. +\end{proof} + +% 03.12.2014 + +Наконец, все готово для доказательства главной теоремы. +\begin{theorem}\label{thm_sum_of_simplest} +Пусть $\frac{f}{g}\in k(x)$~--- правильная дробь, $g=p_1^{m_1}\dots +p_s^{m_s}$~--- каноническое разложение $g$ на неприводимые +множители. Тогда $\frac{f}{g}$ можно представить в виде суммы +простейших дробей, в знаменателях которых стоят +$p_1,p_1^2,\dots,p_1^{m_1}$, $p_2,p_2^2,\dots,p_2^{m_2}$,\dots, +$p_s,p_s^2,\dots,p_s^{m_s}$. Кроме того, такое представление +единственно с точностью до порядка, в котором записаны слагаемые. +\end{theorem} +\begin{proof} +По предложению~\ref{prop_coprime_denominators} можно расщепить +знаменатель правильной дроби на два взаимно простых сомножителя; +применяя ее несколько раз, получаем, что +$\frac{f}{g}=\frac{f_1}{p_1^{m_1}}+\dots+\frac{f_s}{p_s^{m_s}}$. Далее, +по лемме~\ref{lem_proper_irreducible}, каждое слагаемое вида +$\frac{f_i}{p_i^{m_i}}$ представляется в виде суммы простейших. + +Для доказательства единственности предположим, что сумма простейших +дробей указанного вида равна другой сумме простейших дробей того же +вида. Докажем, что все числители соответствующих дробей в обеих частях +этого равенства совпадают. Предположим противное~--- нашлись +различные числители в дробях с одинаковыми знаменателями в левой и +правой частях. Без ограничения общности (с точности до нумерации +многочленов $p_1,\dots,p_s$) можно считать, что знаменатели этих +дробей~--- степени многочлена $p_1$. Посмотрим на +все дроби в левой и правой части, знаменатели которых~--- степени +$p_1$: пусть в левой части стоит +$\frac{a_1}{p_1}+\frac{a_2}{p_1^2}+\dots+\frac{a_{m_1}}{p_1^{m_1}}$, а +в правой части~--- +$\frac{b_1}{p_1}+\frac{b_2}{p_1^2}+\dots+\frac{b_{m_1}}{p_1^{m_1}}$. По +нашему предположению, $a_n\neq b_n$ для некоторого $n$. Рассмотрим +максимальное такое $n$. Тогда +$a_{n+1}=b_{n+1},\dots,a_{m_1}=b_{m_1}$, поэтому дроби +$\frac{a_{n+1}}{p_1^{n+1}},\dots,\frac{a_{n+1}}{p_1^{n+1}}$ в левой +части равны соответственно дробям +$\frac{b_{n+1}}{p_1^{n+1}},\dots,\frac{b_{n+1}}{p_1^{n+1}}$ в правой +части. Вычеркивая эти дроби, получаем равенство вида +$$ +\frac{a_1}{p_1}+\frac{a_2}{p_1^2}+\dots+\frac{a_n}{p_1^n}+A= +\frac{b_1}{p_1}+\frac{b_2}{p_1^2}+\dots+\frac{b_n}{p_1^n}+B, +$$ +где $A$ и $B$~--- суммы дробей, в знаменателях которых стоит +степени $p_2,\dots,p_s$. При этом, по предположению, $a_n\neq b_n$. +Домножим указанное равенство на $p_1^np_2^{m_2}\dots p_s^{m_s}$: +\begin{align*} +&(a_1p_1^{n-1}+a_2p_1^{n-2}+\dots+a_n)p_2^{m_2}\dots p_s^{m_s} + +Ap_1^np_2^{m_2}\dots p_s^{m_s} =\\ +&(b_1p_1^{n-1}+b_2p_1^{n-2}+\dots+b_n)p_2^{m_2}\dots p_s^{m_s} + +Bp_1^np_2^{m_2}\dots p_s^{m_s}. +\end{align*} +Это уже равенство многочленов (мы избавились от всех знаменателей). +Раскроем скобки и заметим, что в левой части лишь одно слагаемое не +содержит множитель $p_1$, а именно, $a_np_2^{m_2}\dots +p_s^{m_s}$. Действительно, по предположению, $A$ не содержит +степени $p_1$ в знаменателях, и остальные слагаемые слева (если они +вообще есть) также делятся на $p_1$. Аналогично, в правой части лишь +слагаемое $b_np_2^{m_2}\dots p_s^{m_s}$ не содержит множитель +$p_1$. Поэтому наше равенство принимает вид +$$ +a_np_2^{m_2}\dots p_s^{m_s}+(\dots)\cdot p_1 = +b_np_2^{m_2}\dots p_s^{m_s}+(\dots)\cdot p_1. +$$ +Значит, разность $a_np_2^{m_2}\dots p_s^{m_s}-b_np_2^{m_2}\dots +p_s^{m_s}=(a_n-b_n)p_2^{m_2}\dots p_s^{m_s}$ делится на $p_1$; однако, +$p_2,\dots,p_s$ взаимно просты с $p_1$, поэтому $a_n-b_n$ делится на +$p_1$. Но мы начинали с суммы простейших дробей, то есть, +$\deg(a_n)<\deg(p_1)$ и $\deg(b_n)<\deg(p_1)$, откуда +$\deg(a_n-b_n)<\deg(p_1)$ и, стало быть, $a_n=b_n$~--- противоречие. +\end{proof} + +\begin{corollary} +\begin{enumerate} +\item Любая правильная дробь из $\mb C(x)$ представляется в виде суммы +дробей вида $\frac{a}{(x-c)^m}$, где $a,c\in\mb C$, $m\geq +1$. +\item Любая правильная дробь из $\mb R(x)$ представляется в виде суммы +дробей вида $\frac{a}{(x-c)^m}$, где $a,c\in\mb R$, $m\geq 1$, и +дробей вида +$\frac{cx+d}{(x^2+ax+b)^m}$, где $a,b,c,d\in\mb R$, $a^2-4b<0$, $m\geq +1$. +\end{enumerate} +\end{corollary} +\begin{proof} +Напрямую следует из теоремы~\ref{thm_sum_of_simplest} и теорем +\ref{thm_irreducible_complex}, \ref{thm_irreducible_real}. +\end{proof} + +Теорема~\ref{thm_sum_of_simplest} не указывает явного алгоритма +нахождения разложения правильной дроби в сумму простейших. Этот +алгоритм можно извлечь из доказательства +предложения~\ref{prop_coprime_denominators} и +леммы~\ref{lem_proper_irreducible}, но он несколько замысловат: +например, в доказательстве~\ref{prop_coprime_denominators} требуется +умение находить коэффициенты в линейном представлении наибольшего +общего делителя. На практике для нахождения разложения в сумму +простейших хорошо работает метод неопределенных коэффициентов. Кроме +того, можно выписать и явные формулы (конечно, если известно +разложение знаменателя дроби на неприводимые многочлены). Приведем +формулы для простейшего случая: рациональной функции над комплексными +числами, знаменатель которой не имеет кратных корней. + +\begin{proposition} +Пусть $\frac{f}{g}\in\mb C(x)$~--- правильная дробь, и $g=(x-c_1)\dots +(x-c_n)$, где $c_1,\dots,c_n\in\mb C$~--- попарно различные числа. +Тогда $\frac{f}{g}=\frac{a_1}{x-c_1}+\dots+\frac{a_n}{x-c_n}$, где +$a_i=f(c_i)/g'(c_i)$. +\end{proposition} +\begin{proof} +По теореме~\ref{thm_sum_of_simplest} существует разложение вида +$\frac{f}{g}=\sum_{i=1}^n\frac{a_i}{x-c_i}$; осталось +найти коэффициенты $a_j$ для всех $j$. +Домножим это равенство на $g$: +$$ +f=\sum_{i=1}^n a_i(x-c_1)\dots\widehat{(x-c_i)}\dots(x-c_n) +$$ +(напомним, что крышечка над множителем означает, что его нужно +пропустить в произведении). +Подставим $c_j$; все слагаемые справа, кроме $j$-го, содержат +множитель $(x-c_j)$, поэтому обращаются в нуль. Значит, +$$ +f(c_j)=a_j(c_j-c_1)\dots\widehat{(c_j-c_j)}\dots(c_j-c_n). +$$ + +Посмотрим теперь на производную многочлена +$g=(x-c_1)\dots(x-c_n)$: +\begin{align*} +g'&=((x-c_j)(x-c_1)\dots\widehat{(x-c_j)}\dots(x-c_n))'\\ +&=(x-c_j)'(x-c_1)\dots\widehat{(x-c_j)}\dots(x-c_n)+ + (x-c_j)((x-c_1)\dots\widehat{(x-c_j)}\dots(x-c_n))'.\\ +&=(x-c_1)\dots\widehat{(x-c_j)}\dots(x-c_n)+ + (x-c_j)((x-c_1)\dots\widehat{(x-c_j)}\dots(x-c_n))'. +\end{align*} +Наконец, подставим $c_j$, и второе слагаемое обратится в $0$: +$g'(c_j)=(c_j-c_1)\dots\widehat{(c_j-c_j)}\dots(c_j-c_n)$. +Сравнивая с полученным выше выражением для $f(c_j)$, получаем, что +$f(c_j)=a_jg'(c_j)$, откуда $a_j=f(c_j)/g'(c_j)$, что и требовалось. +\end{proof} diff --git a/set-theory.tex b/set-theory.tex new file mode 100644 index 0000000..23f1a28 --- /dev/null +++ b/set-theory.tex @@ -0,0 +1,828 @@ + +\section{Наивная теория множеств} + +\subsection{Множества} + +\literature{[K1], гл. 1, \S~5, п. 1; [vdW], гл. 1, \S~1.} + +Мы не будем давать точных определений основным понятиям теории +множеств, этим занимается аксиоматическая теория множеств. Наш подход +к теории множеств совершенно наивен; под множеством мы будем понимать +некоторый {\it набор} ({\it совокупность}, {\it семейство}) +объектов~--- {\it элементов}. Природа этих объектов для нас не очень +важна: это могут +быть, скажем, натуральные числа, а могут быть другие +множества. Множество полностью определяется своими элементами. Иными +словами, два множества $A$ и $B$ равны тогда и только тогда, когда они +состоят из одних и тех же элементов: $x\in A$ тогда и только тогда, +когда $x\in B$. + +Как задать множество? Самый простой способ~--- перечислить его +элементы следующим образом: $A=\{1,2,3\}$. +Сразу отметим, что каждый +объект $x$ может либо являться элементом данного множества $A$ (это +записывается так: $x\in A$), либо не +являться его элементом ($x\not\in A$); он не может быть элементом +множества $A$ <<два раза>>. Поэтому запись $\{1,2,1,3,3,2\}$ задает то +же самое множество, что и запись $\{1,2,3\}$, и запись $\{2,3,1\}$. + +Прямое перечисление может задать только конечное множество. Для +задания бесконечных множеств можно использовать неформальную запись с +многоточием, например, $\mb N=\{0,1,2,3,\dots\}$~--- множество натуральных +чисел. + +\begin{remark} +Мы будем считать, что $0$ является натуральным числом. +\end{remark} + +В такой записи с многоточием мы предполагаем, что читатель понимает, +какие именно элементы имеются в виду. Многоточие может стоять и +справа, и слева: например, запись $\{\dots,-4,-2,0,2,4,\dots\}$ призвана +обозначать множество четных чисел. + +Мы предполагаем также, что нам известны такие множества, изучающиеся в +школе, как множество вещественных чисел $\mb R$, множество +рациональных чисел $\mb Q$, множество целых чисел $\mb Z$. + +Очень важный пример множества~--- пустое множество $\emptyset$. Это +такое множество, что высказывание $x\in\emptyset$ ложно для любого +объекта $x$. + +Чуть более строгий способ задания множества: $A=\{s\in S\mid s\text{ + удовлетворяет свойству }P\}$; здесь вертикальная черта $\mid$ +читается как <<таких, что>>, а $P$~--- то, что в математической +логике называется {\it предикатом}, то есть, высказыванием, которое +может для каждого объекта $s$ быть истинным или ложным. Для записи +предикатов (и вообще высказываний) полезны значки $\forall$ (<<для +любого>>), $\exists$ (<<существует>>) и $\exists!$ (<<существует +единственный>>). Эти значки называются {\it кванторами} и также имеют +строгий смысл, но для нас они будут служить просто сокращениями +интуитивно понятных фраз <<для любого>>, <<существует>> и <<существует +единственный>>. Например, $\forall x\in\mathbb N, x>-5$ и $\exists! +x\in\mathbb N, 3x=15$~--- истинные +высказывания, а $\forall x\in\mathbb N, x<20$~--- ложное. + +Теперь мы можем более точным образом описать множество всех четных +чисел: $\{x\in\mb Z\mid \exists y\in\mb Z: x=2y\}$. Еще одно полезное +сокращение позволяет записать множество четных чисел так: $\{2x\mid +x\in\mb Z\}$. Множество четных чисел мы будем обозначать через $2\mb +Z$. + +Обратите внимание, что порядок, в котором идут кванторы в +высказывании, чрезвычайно важен: высказывание $\forall x\in\mb Z\exists +y\in\mb Z:x=y+1$, очевидно, истинно (из любого целого числа можно +вычесть $1$). А вот высказывание $\exists y\in\mb Z\forall x\in\mb +Z:x=y+1$ означает существование такого загадочного целого числа $y$, +которое на единицу меньше любого целого числа. Понятно, что это +высказывание ложно. + +На самом деле, запись $\{s\in S\mid s\text{ + удовлетворяет свойству }P\}$ задает не просто множество, а +{\it подмножество} множества $S$. Если множество $T$ таково, что любой +элемент множества $T$ является и элементом множества $S$, то говорят, +что $T$ является подмножеством $S$ и пишут $T\subseteq S$. Более +строго, $T\subseteq S$ тогда и только тогда, когда из $x\in T$ следует +$x\in S$. Конструкцию <<из \dots следует \dots>> можно записывать +значком $\Rightarrow$; в определении подмножества тогда можно писать +$x\in T\Rightarrow x\in S$. Заметим, что стрелочка идет только в одну +сторону; если бы было верно и $x\in S\Rightarrow x\in T$, то множества +$S$ и $T$ совпадали бы. Таким образом, если $T\subseteq S$ и +$S\subseteq T$, то $S=T$, поскольку в этом случае $x\in +S\Leftrightarrow X\in T$; множества $S$ и $T$ состоят из +одних и тех же элементов. + +Примеры: $\mb N\subseteq\mb Z\subseteq\mb Q\subseteq\mb R$. Кроме +того, $2\mb Z\subseteq\mb Z$. Более того, $\emptyset\subseteq X$ для +любого множества $X$: пустое множество является подмножеством любого +множества. В частности, $\emptyset\subseteq\emptyset$. Не следует +путать значки $\subseteq$ и $\in$: так, $\emptyset\not\in\emptyset$. К +тому же, слева от значка $\in$ может стоять объект любой природы, а +слева от значка $\subseteq$~--- только множество. + +Следующее важное понятие~--- {\it мощность} множества. Неформально +говоря, это количество элементов в множестве. Мощность множества $X$ +обозначается через $|X|$. Четко различаются два +случая: когда мощность множества конечна и когда она +бесконечна. Если мощность множества конечна, то она измеряется +натуральным числом (вообще говоря, это практически является +определением натурального числа). Например, $|\emptyset|=0$, +$|\{1,2,3\}|=|\{2,1,3,2,2,1\}|=3$. Когда мощность множества $X$ не является +натуральным числом, говорят, что $X$ бесконечно: $|X|=\infty$. +Если множество $X$ конечно, то любое его подмножество $Y$ также +конечно, и $|Y|\leq |X|$. Более того, если $Y$~--- подмножество +конечного множества $X$, +то $|Y|=|X|$ тогда и только тогда, +когда $Y=X$. Если же $Y\subseteq X$ и $Y\neq X$ (в этом случае +говорят, что $Y$~--- {\it собственное подмножество} $X$), то $|Y|<|X|$. + +\subsection{Операции над множествами} + +\literature{[K1], гл. 1, \S~5, п. 1; [vdW], гл. 1, \S~1.} + +Операции над множествами предоставляют массу способов получать новые +множества из уже имеющихся. Мы обсудим по крайней мере следующие +операции: + +\begin{itemize} +\item объединение $\cup$, +\item пересечение $\cap$, +\item разность $\setminus$, +\item симметрическая разность $\Delta$, +\item (декартово) произведение $\times$, +\item несвязное объединение (копроизведение) $\coprod$, +\item факторизация $/$. +\end{itemize} + +Пересечение $A\cap B$ множеств $A$ и $B$ состоит из всех элементов, лежащих и в +$A$, и в $B$. Более формально, $x\in A\cap B$ тогда и только тогда, +когда $x\in A$ и $x\in B$. + +Объединение $A\cup B$ множеств $A$ и $B$ состоит из всех элементов, +лежащих в $A$ или в $B$ (возможно, и в $A$, и в $B$). Иначе говоря, +$x\in A\cup B$ тогда и только тогда, когда $x\in A$ или $x\in B$. + +Разность $A\setminus B$ состоит из элементов $A$, не лежащих в $B$: +$A\setminus B=\{x\in A\mid x\not\in B\}$. Иначе говоря, $x\in +A\setminus B$ тогда и только тогда, когда $x\in A$ и $x\not\in B$. + +Симметрическая разность $A$ и $B$ состоит из элементов, лежащих ровно +в одном из этих множеств. Это можно записать, например, так: $A\Delta +B=(A\cup B)\setminus(A\cap B)$. + +Несвязное объединение $A\coprod B$ предназначено для того, чтобы +объединить два +множества $A$ и $B$ (которые, возможно, имеют непустое пересечение) +так, чтобы в результате элементы из $A$ и из $B$ <<не +перемешались>>: все элементы из $A$ оказались отличными от всех +элементов из $B$. Представьте, что элементы множества $A$ выкрашены в +красный цвет, а элементы $B$~--- в синий цвет. После этого они стали +все различны (их пересечение стало пустым), и мы рассмотрели их +объединение. Если множества $A$ и $B$ конечны, то $|A\coprod +B|=|A|+|B|$. + +Произведение множества $A$ и $B$~--- это множество всех упорядоченных +пар $(a,b)$, где $a\in A$, $b\in B$. Запись $(a,b)$ означает, что мы +заботимся о порядке элементов $a,b$ (в отличие от записи +$\{a,b\}$): пара $(a,b)$, вообще говоря, не равна паре $(b,a)$, если +$a\neq b$. Более строго, $(a,b)=(a',b')$ тогда и только тогда, когда +$a=a'$ и $b=b'$. + +Итак, $A\times B=\{(a,b)\mid a\in A,b\in B\}$. Например, +$$ +\{1,2,3\}\times\{x,y\}=\{(1,x),(2,x),(3,x),(1,y),(2,y),(3,y)\}. +$$ +В +школе изучают декартову плоскость, которая фактически представляет +собой квадрат вещественной прямой: $\mb R^2=\mb R\times\mb +R$. Заметим, что $|A\times B|=|A|\times |B|$ для конечных множеств +$A$, $B$. + +Несложно обобщить понятия пересечения и объединения на несколько +множеств: $A_1\cap A_2\cap\dots\cap A_n$, $A_1\cup A_2\cup\dots\cup +A_n$. Например, $A_1\cap A_2\cap A_3\cap A_4=((A_1\cap A_2)\cap +A_3)\cap A_4$; и на самом деле порядок расстановки скобок в таком +выражении не имеет значения. Более интересно попробовать обобщить +понятие произведения; заметим, что $A_1\times (A_2\times A_3)$ не +равно $(A_1\times A_2)\times A_3$. Действительно, первое множество +состоит из упорядоченных пар, первый элемент которых лежит в $A_1$, а +второй является упорядоченной парой элементов из $A_2$ и $A_3$. В то +же время второе множество состоит из совершенно других упорядоченных +пар: первый их элемент является упорядоченной парой элементов из $A_1$ +и $A_2$, а второй элемент лежит в множестве $A_3$. Но по аналогии с +упорядоченной парой можно определить {\it упорядоченную тройку} и +получить множество $A_1\times A_2\times A_3=\{(a_1,a_2,a_3)\mid a_1\in +A_1,a_2\in A_2,a_3\in A_3\}$ (не совпадающее ни с $A_1\times(A_2\times +A_3)$, ни с $(A_1\times A_2)\times A_3$!). Совершенно аналогично +определяется {\it упорядоченная $n$-ка} или {\it кортеж} из $n$ +элементов $(a_1,\dots,a_n)$, что позволяет определить произведение +$A_1\times A_2\times\dots\times A_n$. + +Несложно определить пересечение и объединение для произвольного (не +обязательно конечного) набора множеств: если $(A_i)_{i\in I}$~--- +семейство множеств, проиндексированное некоторым индексным множеством +$I$, то $\bigcap_{i\in I}A_i$~--- пересечение множеств $A_i$~--- +состоит из элементов, которые лежат в каждом $A_i$, а $\bigcup_{i\in + I}A_i$~--- объединение множеств $A_i$~--- состоит из элементов, +которые лежат хотя бы в одном из $A_i$. + +С помощью упорядоченных пар +мы можем более строго определить несвязное объединение множеств +$A$ и $B$: рассмотрим множества $\{0\}\times A$ и $\{1\}\times B$ +(состоящие из <<покрашенных элементов>> $(0,a)$ для $a\in A$ и $(1,b)$ +для $b\in B$). Теперь все элементы $(0,a)$ и $(1,b)$ уж точно +различны, и можно положить $A\coprod B=(\{0\}\times A)\cup(\{1\}\times +B)$. + +\subsection{Отображения} + +\literature{[K1], гл. 1, \S~5, п. 2, [vdW], гл. 1, \S~2.} + +{\em Наивное определение}: \dfn{отображение}\index{отображение} +$f\colon X\to Y$ +сопоставляет +каждому элементу $x\in X$ некоторый элемент $y\in Y$. При этом пишут +$y=f(x)$ или $x\mapsto y$ и $y$ называют \dfn{образом}\index{образ} +элемента $x$ при отображении +$f$. Вместе с каждым отображением нужно помнить его +\dfn{область определения}\index{область определения} $X$ и +\dfn{область значений}\index{область значений} $Y$; например, +отображения +$\mathbb N\to\mathbb N$, $x\mapsto x^2$ и $\mb R\to\mb R$, $x\mapsto +x^2$~--- два совершенно разных отображения. + +Для каждого множества $X$ можно рассмотреть \dfn{тождественное + отображение}\index{тождественное отображение} $\id_X\colon X\to X$, +переводящее каждый элемент $x\in X$ в $x$. + +С каждым декартовым произведением $X\times Y$ множеств $X$ и $Y$ +связаны отображения $\pi_1\colon X\times Y\to X$ и $\pi_2\colon +X\times Y\to Y$, определенные следующим образом: отображение $\pi_1$ +сопоставляет паре $(x,y)$ элементов $x\in X$, $y\in Y$ элемент $x$, а +отображение $\pi_2$ сопоставляет этой паре элемент $y$. Эти +отображения называются \dfn{каноническими + проекциями}\index{каноническая проекция}. + +Пусть $f\colon X\to Y$~--- отображение, и $A\subseteq X$; +\dfn{образом}\index{образ} подмножества $A$ называется +множество образов всех элементов из $A$: $f(A)=\{y\in Y\mid \exists +x\in A\colon f(x)=y\}=\{f(x)\mid x\in A\}$. Если же $B\subseteq Y$, +можно посмотреть на все элементы $X$, образы которых лежат в +$B$. Получаем \dfn{(полный) прообраз}\index{прообраз} подмножества $B$: +$f^{-1}(B)=\{x\in X\mid f(x)\in B\}$. Вообще, говорят, что $x$ +является прообразом элемента $y\in Y$, если $f(x)=y$; таким образом, +полный прообраз подмножества составлен из всех прообразов всех его +элементов. + +%17.09.2014 + +Если $f\colon X\to Y$~--- отображение множеств и $A\subseteq X$, можно +определить \dfn{ограничение}\index{ограничение} отображения $f$ на +$A$. Это отображение, +которое мы будем обозначать через $f|_A$, из $A$ в $Y$, задаваемое, +неформально говоря, тем же правилом, что и $f$. Более точно, +$f|_A(x)=f(x)$ для всех $x\in A$. + +Пусть теперь даны два отображения, $f\colon X\to Y$, $g\colon Y\to +Z$. Их \dfn{композиция}\index{композиция} $g\circ f$~--- это новое +отображение из $X$ в +$Z$, переводящее элемент $x\in X$ в $g(f(x))\in Z$. То есть, $(g\circ +f)(x)=g(f(x))$ для всех $x\in X$. Обратите внимание, что мы записываем +композицию справа налево: в записи $g\circ f$ сначала применяется $f$, +а потом $g$. + +\begin{theorem}[Ассоциативность композиции]\label{thm_composition_associative} +Пусть $X,Y,Z,T$~--- множества, $f\colon X\to Y$, $g\colon Y\to Z$, +$h\colon Z\to T$. Тогда отображения $(h\circ g)\circ f$ и $h\circ +(g\circ f)$ из $X$ в $T$ совпадают. +\end{theorem} +\begin{proof} +Что значит, что два отображения совпадают? Во-первых, должны совпадать +их области определения и значений; и действительно, $(h\circ g)\circ +f$ и $h\circ (g\circ f)$ действуют из $X$ в $T$. Во-вторых, они должны +совпадать в каждой точке. Возьмем любой элемент $x\in X$ и проверим, +что $((h\circ g)\circ f)(x)=(h\circ (g\circ f))(x)$. Действительно, +$$((h\circ g)\circ f)(x)=(h\circ g)(f(x))=h(g(f(x)))$$ +и +$$(h\circ(g\circ f))(x)=h((g\circ f)(x))=h(g(f(x))).$$ +\end{proof} + +Еще одно полезное свойство композиции: пусть $f\colon X\to Y$~--- +отображение. Тогда $f\circ\id_X=\id_Y\circ f=f$. Действительно, +$(f\circ\id_X)(x)=f(\id_X(x))=f(x)$ и $(\id_Y\circ +f)(x)=\id_Y(f(x))=f(x)$. + +Все отображения из множества $X$ в множество $Y$ образуют множество, +которое мы будем обозначать через $\Map(X,Y)$ или через +$Y^X$. Последнее обозначение связано с тем, что для конечных $X$, $Y$ +имеет место равенство $|Y^X|=|Y|^{|X|}$. В частности, если +$X=\emptyset$, то существует ровно одно отображение из $X$ в $Y$: +$|Y^\emptyset|=1$. Если же, наоборот, $Y=\emptyset$, то для непустого +$X$ отображений из $X$ в $\emptyset$ вообще нет: точке из $X$ нечего +сопоставить. Таким образом, $\emptyset^X=\emptyset$ для непустого +$X$. Наконец, для пустого $Y$, как и для любого другого, +существует ровно одно отображение из $\emptyset$ в $Y$ +(тождественное), поэтому $|\emptyset^\emptyset|=1$. + +\begin{definition} +Пусть $f\colon X\to Y$~--- отображение. +\begin{enumerate} +\item +$f$ называется \dfn{инъективным отображением}, или +\dfn{инъекцией}\index{инъекция}, если из +$x_1\neq x_2$ следует, что $f(x_1)\neq f(x_2)$ для $x_1,x_2\in +X$. Иными словами, у каждого элемента $Y$ не более одного прообраза. +\item +$f$ называется \dfn{сюръективным отображением}, или +\dfn{сюръекцией}\index{сюръекция}, если +для каждого $y\in Y$ найдется $x\in X$ такой, что $f(x)=y$. Иными +словами, у каждого элеента $Y$ не менее одного прообраза. +\item +$f$ называется \dfn{биективным отображением}, или +\dfn{биекцией}\index{биекция}, если +оно инъективно и сюръективно. +\end{enumerate} +\end{definition} + +\begin{example} +Обозначим через $\mb R_{\geq 0}$ множество неотрицательных +вещественных чисел: $\mb R_{\geq 0}=\{x\in\mb R\mid x\geq +0\}$. Рассмотрим четыре отображения +\begin{eqnarray*} +&&f_1\colon\mb R\to\mb R, x\mapsto x^2;\\ +&&f_2\colon\mb R\to\mb R_{\geq 0}, x\mapsto x^2;\\ +&&f_3\colon\mb R_{\geq 0}\to\mb R, x\mapsto x^2;\\ +&&f_4\colon\mb R_{\geq 0}\to\mb R_{\geq 0}, x\mapsto x^2. +\end{eqnarray*} +\end{example} +Хотя эти отображения задаются одной и той же формулой (возведение в +квадрат), их свойства совершенно различны: $f_4$ биективно; $f_3$ +инъективно, но не сюръективно; $f_2$ сюръективно, но не инъективно; +$f_1$ не инъективно и не сюръективно. + +\begin{definition}\label{dfn:inverse-map} +Пусть $f\colon X\to Y$~--- отображение. Отображение $g\colon Y\to X$ +называется \dfn{левым обратным}\index{обратное отображение!левое} к +$f$, если $g\circ f = \id_X$. Отображение $g\colon Y\to X$ называется +\dfn{правым обратным}\index{обратное отображение!правое} к $f$, если +$f\circ g = \id_Y$. Наконец, $g$ называется +\dfn{[двусторонним] обратным}\index{обратное отображение} к $f$, если +оно одновременно является левым обратным и правым обратным к $f$. +Отображение $f$ называется +\dfn{обратимым слева}\index{обратимое отображение!слева}, +если у него есть левое обратное, +\dfn{обратимым справа}\index{обратимое отображение!справа}, если у +него есть правое обратное, и просто +\dfn{обратимым}\index{обратимое отображение} (или +\dfn{двусторонне обратимым}\index{обратимое отображение!двусторонне}), +если у него есть обратное. +\end{definition} + +\begin{lemma}\label{lemma:invertible_left_and_right} +Если у отображение $f\colon X\to Y$ есть левое обратное и правое +обратное, то они совпадают. Таким образом, отображение обратимо тогда +и только тогда, когда оно обратимо слева и обратимо справа. +\end{lemma} +\begin{proof} +Пусть у $f$ есть левое обратное $g_L$ и правое обратное $g_R$. По +определению это означает, что +$g_L\circ f=\id_X$ и $f\circ g_R = \id_Y$. +Рассмотрим отображение $(g_L\circ f)\circ g_R$. По теореме об +ассоциативности композиции~\ref{thm_composition_associative} оно равно +$g_L\circ (f\circ g_R)$. С другой стороны, +$(g_L\circ f)\circ g_R = \id_X\circ g_R = g_R$ и +$g_L\circ (f\circ g_R) = g_L\circ\id_Y = g_L$. Поэтому $g_L = g_R$. +\end{proof} + +Покажем, что мы на самом деле уже встречали понятия левой, правой и +двусторонней обратимости под другими названиями. + +\begin{theorem}\label{thm:sur-inj-reformulations} +Пусть $f\colon X\to Y$~--- отображение. +\begin{enumerate} +\item Пусть $X$ непусто. $f$ обратимо слева тогда и только тогда, + когда $f$ инъективно. +\item $f$ обратимо справа тогда и только тогда, когда $f$ сюръективно. +\item $f$ обратимо тогда и только тогда, когда $f$ биективно. +\end{enumerate} +\end{theorem} +\begin{proof} +\begin{enumerate} +\item +Предположим, что $f$ обратимо слева, то есть, $g\circ f = \id_X$ для +некоторого $g\colon Y\to X$. Покажем инъективность $f$: пусть +$x_1,x_2\in X$ таковы, что $f(x_1) = f(x_2)$. Применяя $g$, получаем, +что $g(f(x_1)) = g(f(x_2))$. Но $g(f(x)) = (g\circ f)(x) = \id_X(x) = +x$ для всех $x\in X$, поэтому $x_1 = x_2$. + +Обратно, предположим, что $f$ инъективно, построим к $f$ левое +обратное отображение $g\colon Y\to X$. В силу непустоты $X$ можно +выбрать некоторый элемент $c\in X$. Для определения отображения $g$ +нам нужно задать его значение для каждого $y\in Y$. Возьмем $y\in Y$; +в силу инъективности найдется не более одного элемента $x\in X$ +такого, что $f(x) = y$. Если такой элемент (ровно один) есть, положим +$g(y) = x$. Если же его нет, положим $g(y) = c$. +Проверим, что так определенное отображение $g$ действительно является +левым обратным к $f$. Действительно, для всякого $x_0\in X$ элемент +$f(x_0)$ лежит в $Y$, и есть ровно один элемент $x\in X$ такой, что +$f(x) = f(x_0)$~--- это сам $x_0$. Поэтому в силу нашего определения +$g(f(x_0)) = x_0 = \id_X(x_0)$. Мы получили, что для произвольного +$x_0\in X$ справедливо $(g\circ f)(x_0) = \id_X(x_0)$. Поэтому +$g\circ f = \id_X$. +\item +Предположим, что $f$ обратимо справа, то есть, $f\circ g = \id_Y$ для +некоторого $g\colon Y\to X$. Покажем сюръективность $f$; нужно +проверить, что для каждого $y\in Y$ найдется элемент $x\in X$ такой, +что $f(x) = y$. Действительно, положим $x = g(y)$. Тогда +$f(x) = f(g(y)) = (f\circ g)(y) = \id_Y(y) = y$. + +Обратно, предположим, что $f$ сюръективно. Построим отображение +$g\colon Y\to X$ такое, что $f\circ g = \id_Y$. Для этого мы должны +определить $g(y)$ для каждого $y\in Y$. В силу сюръективности найдется +хотя бы один элемент $x\in X$ такой, что $f(x) = y$. Тогда положим +$g(y) = x$. Очевидно, что $f(g(y)) = y$ для всех $y\in Y$. + +{\small +\begin{remark}\label{remark:axiom-of-choice} +На самом деле тот факт, что мы можем {\it одновременно} для каждого +$y\in Y$ выбрать один какой-нибудь элемент $x\in X$ со свойством +$f(x)=y$, и получится корректно заданное отображение, является одной +из аксиом теории множеств (она +называется~\dfn{аксиомой выбора}\index{аксиома выбора}). Фактически, +она равносильна как раз тому, что мы доказываем: обратимости справа +любого сюръективного отображения. Заметим, что при доказательстве +первого пункта теоремы такой проблемы не возникает: там при построении +левого обратного отображения мы либо выбираем единственный прообраз, +либо (в случае пустого прообраза) отправляем наш элемент в +фиксированный элемент $c$. Здесь же прообраз может быть огромным, и +возможность одновременно в огромном количестве прообразов выбрать по +одному элементу как раз и гарантируется аксиомой выбора. Мы не +обсуждаем строгую формализацию понятия множества, поэтому игнорируем +все проблемы, связанные с аксиомой выбора. +\end{remark} +} +\item Пусть $f$ обратимо. Тогда, очевидно, оно обратимо слева и + обратимо справа. По доказанному выше, из этого следует, что $f$ + инъективно и сюръективно (заметим, что в доказательстве того, что из + обратимости слева следует инъективность, мы не использовали + предположение о непустоте $X$). Значит, $f$ биективно. + + Обратно, пусть $f$ биективно, то есть, инъективно и + сюръективно. Предположим сначала, что $X$ непусто. Тогда, по + доказанному выше, $f$ обратимо слева и обратимо справа. По + лемме~\ref{lemma:invertible_left_and_right} из этого следует, что + $f$ обратимо. Осталось рассмотреть случай, когда $X = + \emptyset$. Покажем, что в этом случае и $Y = \emptyset$. Для этого + вспомним, что $f$ сюръективно. По определению это означает, что для + каждого $y\in Y$ найдется $x\in X$ такой, что $f(x) = y$. Если $Y$ + непусто, то для какого-нибудь элемента $y\in Y$ должен найтись + элемент $x\in X$, а это невозможно, поскольку $X$ пусто. Мы + показали, что $X = Y = \emptyset$; но в этом случае есть + единственное отображение $f\colon X\to Y$ (тождественное), и + единственное отображение $g\colon Y\to X$ будет обратным к нему. +\end{enumerate} +\end{proof} + +Если $f\colon X\to Y$~--- некоторое отображение, можно рассмотреть его +\dfn{график}\index{график} +$$ +\Gamma_f=\{(x,f(x))\mid x\in X\}\subseteq X\times Y. +$$ +Это понятие помогает нам дать точное определение понятию +отображения. Нетрудно видеть, что график отображения $f$ однозначно +определяет само $f$. С другой стороны, какие подмножества $X\times Y$ +могут быть графиками отображений из $X$ в $Y$? Нетрудно понять, что +над каждой точкой $x\in X$ должна находиться ровно одна точка $(x,y)$ +из графика (у каждой точки $x$ есть ровно один образ). Это приводит +нас к следующему определению. + +\begin{definition} +Упорядоченная тройка $(X,Y,\Gamma)$, где $X,Y$~--- множества и +$\Gamma\subseteq X\times Y$, называется +\dfn{отображением}\index{отображение} из $X$ в +$Y$, если +\begin{enumerate} +\item для любого $x\in X$ из того, что $(x,y_1)\in\Gamma$ и +$(x,y_2)\in\Gamma$, следует, что $y_1=y_2$; +\item для любого $x\in X$ существует $y\in Y$ такое, что + $(x,y)\in\Gamma$. +\end{enumerate} +\end{definition} + +\subsection{Бинарные отношения} + +\literature{[K1], гл. 1, \S~6, п. 1.} + +\begin{definition} +\dfn{Бинарным отношением}\index{отношение!бинарное} на множестве $S$ +называется подмножество +$R\subseteq S\times S$. Если $(x,y)\in S$, говорят, что +\dfn{$x$ находится в отношении $R$ с $y$}\index{отношение}, и пишут +$xRy$. +\end{definition} + +%24.09.2014 + +\begin{examples}\label{examples:relations} +Отношение $\geq$ на множестве $\mb R$: $\geq=\{(x,y)\in\mb R\times\mb +R\mid x\geq y\}$. Аналогично~--- на множестве $\mb Z$, или +на множестве $\mb N$. Отношения $\leq$, $>$, $<$ на тех же +множествах. Отношение равенства на $\mb R$: $\{(x,x)\mid x\in\mb +R\}$~--- аналогично на любом множестве. +Отношение делимости на целых числах (точное определение будет +дано во второй главе). +На множестве всех прямых на декартовой плоскости можно ввести +отношение параллельности и отношение перпендикулярности. +\end{examples} + +Для визуализации отношений полезно рисовать их графики~--- +изображать множества точек, координаты которых лежат в данном +отношении. + +\subsection{Отношения эквивалентности} + +\literature{[K1], гл. 1, \S~6, п. 2; [vdW], гл. 1, \S~5.} + +Определение отношения достаточно общее; на практике встречаются +отношения, +удовлетворяющие некоторым из следующих свойств. + +\begin{definition} +Пусть $R\subseteq X\times X$~--- бинарное отношение на множестве $X$. +\begin{enumerate} +\item $R$ называется \dfn{рефлексивным}\index{отношение!рефлексивное}, + если для любого $x\in X$ + выполнено $xRx$. +\item $R$ называется \dfn{симметричным}\index{отношение!симметричное}, + если для любых $x,y\in X$ из + $xRy$ следует $yRx$. +\item $R$ называется \dfn{транзитивным}\index{отношение!транзитивное}, + если для любых $x,y,z\in X$ + из $xRy$ и $yRz$ следует $xRz$. +\item $R$ называется \dfn{отношением + эквивалентности}\index{отношение!эквивалентности}, если оно + рефлексивно, симметрично и транзитивно. +\end{enumerate} +\end{definition} + +\begin{examples} +Посмотрим на примеры~\ref{examples:relations}. +Нетрудно видеть, что отношения $\geq$, $\leq$, $>$, $<$ на множестве +$\mb R$ транзитивны, но не симметричны. При этом отношения $\geq$ и +$\leq$ рефлексивны. Отношение равенства на любом множестве является +отношением эквивалентности. Отношение делимости рефлексивно и +транзитивно. Отношение параллельности прямых на плоскости (если +учесть, что прямая параллельна самой себе) является отношением +эквивалентности. Отношение перпендикулярности симметрично, но не +рефлексивно и не транзитивно. +\end{examples} + +\begin{definition}\label{def_equiv_class} +Пусть $\sim$~--- отношение эквивалентности на множестве $X$. Для +элемента $x\in X$ рассмотрим множество $\{y\in X\mid y\sim x\}$. Мы +будем обозначать его через $\overline{x}$ или $[x]$ и называть +\dfn{классом эквивалентности}\index{класс эквивалентности} элемента $x$. +\end{definition} + +\begin{theorem}[О разбиении на классы эквивалентности]\label{thm_quotient_set} +Пусть $\sim$~--- отношение эквивалентности на множестве $X$. +Тогда $X$ разбивается на классы эквивалентности, то есть, каждый +элемент множества $X$ лежит в каком-то классе, и любые два класса либо +не пересекаются, либо совпадают. +\end{theorem} +\begin{proof} +Из рефлексивности следует, что $x\in\overline{x}$, поэтому каждый +элемент лежит в каком-то классе. Пусть $\overline{x}$ и +$\overline{y}$~--- два класса эквивалентности и +$\overline{x}\cap\overline{y}\neq\emptyset$. Выберем +$z\in\overline{x}\cap\overline{y}$; тогда $z\sim x$ и $z\sim +y$. Докажем, что на самом деле $\overline{x}=\overline{y}$, проверив +включения в обе стороны. Возьмем $t\in\overline{x}$; тогда $t\sim +x$, $x\sim z$, $z\sim y$, откуда $t\sim y$, то есть, +$t\in\overline{y}$. Поэтому +$\overline{x}\subseteq\overline{y}$. Аналогично, +$\overline{y}\subseteq\overline{x}$. +\end{proof} + +\begin{definition}\label{def_quotient_set} +Пусть $\sim$~--- отношение эквивалентности на множестве $X$. +Множество всех классов эквивалентности элементов $X$ называется +\dfn{фактор-множеством}\index{фактор-множество} множества $X$ по +отношению $\sim$ и +обозначается через $X/\sim$. Отображение $\pi\colon X\to X/\sim$, +сопоставляющее каждому элементу $x\in X$ его класс эквивалентности +$\overline{x}$, называется +\dfn{канонической проекцией}\index{каноническая проекция} множества +$X$ на фактор-множество $X/\sim$. Нетрудно видеть, что это отображение +сюръективно. +\end{definition} + +\subsection{Метод математической индукции} + +\literature{[K1], гл. 1, \S~7; [vdW], гл. 1, \S~3; [B], гл. 1, п. 2.} + +Пусть $P(n)$~--- набор высказываний, зависящий от натурального +параметра $n$. \dfn{Принцип математической индукции}\index{принцип + математической индукции} гласит, что если +$P(0)$ +истинно (\dfn{база индукции}\index{база индукции}) и для любого +натурального $k$ из истинности $P(k)$ следует истинность +$P(k+1)$ (\dfn{индукционный переход}\index{индукционный переход}), то +$P(n)$ +истинно для всех натуральных $n$. + +Эквивалентная переформулировка принципа математической индукции +гласит, что в любом непустом множестве натуральных чисел есть +минимальный элемент. Этот принцип (или какой-то равносильный ему), как +правило, принимается за аксиому в современных аксиоматиках натуральных +чисел. + +Покажем, что если в любом непустом множестве натуральных чисел есть +минимальный элемент, то принцип математической индукции +выполняется. Будем действовать от противного: предположим, что $P(0)$ +истинно, и для любого $k\in\mb N$ из истинности $P(k)$ следует +истинность $P(k+1)$, но, в то же время, $P(n)$ истинно не для всех +$n$. Пусть $A\subseteq\mb N$~--- множество натуральных чисел $n$, для +которых $P(n)$ ложно; оно непусто по нашему предположению. +Тогда в $A$ есть минимальный элемент $a$. Если $a=0$, то $P(0)$ ложно +(поскольку $a\in A$), что противоречит базе индукции. Если же $a>0$, +то $a-1$ также является натуральным числом, и $a-1\notin A$ в силу +минимальности. Поэтому $P(a-1)$ истинно. Но тогда из индукционного +перехода следует, что и $P(a) = P((a-1)+1)$ истинно~--- противоречие. + +Принципа математической индукции равносилен следующему +принципу полной индукции: пусть +$P(n)$~--- набор высказываний, зависящий от натурального параметра +$n$. Если $P(0)$ истинно и из истинности $P(0), P(1),\dots,P(k)$ +следует истинность $P(k+1)$, то $P(n)$ истинно для всех натуральных $n$. + +\subsection{Операции} + +\literature{[K1], гл. 4, \S~1, п. 1.} + +\begin{definition} +Пусть $X$~--- множество. \dfn{Бинарной + операцией}\index{операция!бинарная} на множестве $X$ +называется отображение $X\times X\to X$. +\end{definition} + +\begin{examples} +Отображения $\mb R\times\mb R\to\mb R$, задаваемые формулами +$(a,b)\mapsto a+b$, $(a,b)\mapsto ab$, $(a,b)\mapsto a-b$, являются +бинарными операциями. Отображение $(a,b)\mapsto a^b$ является бинарной +операцией на множестве $\mb N_{\geq 0}$ положительных натуральных чисел. +\end{examples} + +\begin{definition} +Пусть $\ph\colon X\times X\to X$~--- бинарная операция на множестве $X$. +\begin{enumerate} +\item Операция $\ph$ называется +\dfn{ассоциативной}\index{операция!ассоциативная}\index{ассоциативность}, если +$\ph(\ph(a,b),c)=\ph(a,\ph(b,c))$ выполняется для всех +$a,b,c\in X$. +\item Операция $\ph$ называется + \dfn{коммутативной}\index{операция!коммутативная}\index{коммутативность}, + если + $\ph(a,b)=\ph(b,a)$ выполняется для всех $a,b\in X$. +\end{enumerate} +\end{definition} +Нетрудно видеть, что операции сложения и умножения на множестве +вещественных чисел являются ассоциативными и коммутативными, а вот +возведение в степень +положительных натуральных положительных чисел не является ни +ассоциативной, ни коммутативной операцией. + +\begin{definition} +Пусть $\bullet$~--- бинарная операция на множестве $X$. +Элемент $e\in X$ называется +\dfn{левым нейтральным}\index{нейтральный элемент!левый} +(или \dfn{левой единицей}\index{единица!левая}) по отношению к операции +$\bullet$, если $e\bullet x = x$ для любого $x\in X$. Элемент $e\in X$ +называется +\dfn{правым нейтральным}\index{нейтральный элемент!правый} (или +\dfn{правой единицей}\index{единица!правая}) по +отношению к $\bullet$, если +$x\bullet e = x$ для любого $x\in X$. Элемент $e\in X$ называется +\dfn{нейтральным}\index{нейтральный элемент} (или +\dfn{единицей}\index{единица}), если он одновременно является +левым и правым нейтральным. +\end{definition} + +Отметим, что бинарная операция возведения в степень на множестве +$\mb R$ обладает правой единицей (это $1$: действительно, $a^1 = a$), +но не обладает левой единицей. + +\begin{lemma} +Если $\bullet\colon X\times X\to X$~--- бинарная операция, +и в $X$ есть правая единица и левая единица относительно +$\bullet$, то они совпадают. +\end{lemma} +\begin{proof} +Действительно, если $e_L\in X$~--- левая единица, а $e_R\in X$~--- +правая единица, то по определению левой единицы выполнено $e_L\bullet +e_R = e_R$, а по определению правой единицы выполнено $e_L\bullet e_R += e_L$. Поэтому +$e_L = e_L\bullet e_R = e_R$. +\end{proof} + +\begin{definition} +Пусть $\bullet$~--- бинарная операция на множестве $X$, и в $X$ есть +нейтральный элемент $e$ относительно этой операции. +Пусть $x\in X$. Элемент $y\in X$ называется +\dfn{левым обратным}\index{обратный элемент!левый} +(относительно операции $\bullet$) к $x$, если $yx = e$. +Элемент $y\in X$ называется +\dfn{правым обратным}\index{обратный элемент!правый} (относительно +операции $\bullet$) к $x$, если $xy = e$. +Если $y\in X$ одновременно является левым и правым обратным к +$x$, то он называется просто \dfn{обратным}\index{обратный элемент} к +$x$. Элемент $x$ называется +\dfn{обратимым слева}\index{обратимый элемент!слева}, +если у него есть левый +обратный, \dfn{обратимым справа}\index{обратимый элемент!справа}, +если у него есть правый обратный, и +\dfn{обратимым}\index{обратимый элемент}, если у него есть обратный. +\end{definition} + +\begin{lemma} +Пусть $\bullet$~--- бинарная операция на множестве $X$, и в $X$ есть +нейтральный элемент $e$ относительно это операции. Предположим, что +операция $\bullet$ ассоциативна. Пусть элемент $x$ обратим слева и +обратим справа. Тогда он обратим. Иными словами, если у элемента есть +левый и правый обратный относительно ассоциативной операции, то они +совпадают. +\end{lemma} +\begin{proof} +Пусть $y_L$~--- левый обратный к $x$, а $y_R$~--- правый обратный к +$x$. По определению это означает, что $y_L\bullet x = e$ +и $x\bullet y_R = e$. Но тогда +$$ +y_R = e\bullet y_R = (y_L\bullet x)\bullet y_R = y_L\bullet (x\bullet y_R) = +y_L\bullet e = y_L +$$ +(обратите внимание, что в середине мы воспользовались ассоциативностью +операции $\bullet$). +\end{proof} + +Пусть на $X$ задана бинарная операция $\bullet$, и $a,b,c\in +X$. Выражение $a\bullet b\bullet c$ не определено: для его однозначной +интерпретации необходимо расставить скобки, и получится либо +$(a\bullet b)\bullet c$, либо $a\bullet (b\bullet c)$. Если операция +$\bullet$ ассоциативна, то результат вычисления этих двух выражений +одинаков. Пусть теперь $a,b,c,d\in X$. Скобки в выражении $a\bullet +b\bullet c\bullet d$ можно расставить уже пятью вариантами: +$$ +((a\bullet b)\bullet c)\bullet d,\quad +(a\bullet (b\bullet c))\bullet d,\quad +(a\bullet b)\bullet (c\bullet d),\quad +a\bullet((b\bullet c)\bullet d),\quad +a\bullet (b\bullet (c\bullet d)). +$$ +Оказывается, что если операция $\bullet$ ассоциативна, то результат +вычисления всех этих выражений одинаков. +Аналогично, в выаржении любой длины для указания порядка, в котором +выполняются операции, необходимо расставить скобки. Оказывается, для +ассоциативной операции результат выполнения +не зависит от порядка расстановки скобок. Это +свойство называется \dfn{обобщенной + ассоциативностью}\index{ассоциативность!обобщенная}. Поэтому для +ассоциативных операций ставить скобки в подобных выражениях не +обязательно. + +\begin{theorem} +Если на множестве $X$ задана ассоциативная операция $\bullet$, то она +обладает обобщенной ассоциативностью: результат вычисления выражения +$x_1\bullet x_2\bullet\dots\bullet x_n$ не зависит от расстановки в +нем скобок. +\end{theorem} +\begin{proof} +Будем доказывать индукцией по $n$. База $n=3$ является определением +ассоциативности. Пусть теперь $n>3$, и для всех меньших $n$ теорема +уже доказана. +Достаточно показать, что результат при любой расстановке скобок +совпадает с результатом при следующей расстановке, в которой все скобки +<<сдвинуты влево>> +$$ +(\dots ((x_1\bullet x_2)\bullet x_3)\bullet\dots\bullet x_n). +$$ +Возьмем произвольную расстановку и посмотрим на действие, которое +выполняется последним: оно состоит в перемножении некоторого выражения +от $x_1,\dots,x_k$ и некоторого выражения от $x_{k+1},\dots,x_n$: +$$ +(\dots x_1\bullet\dots\bullet x_k\dots) \bullet +(\dots x_{k+1}\bullet\dots\bullet x_n\dots). +$$ +При этом $1 < k < n$. + +Предположим сначала, что $k = n-1$. Тогда последняя операция состоит в +перемножении скобки, в которой стоят $x_1,\dots,x_{n-1}$, на $x_n$. В +выражении от $x_1,\dots,x_{n-1}$ мы можем, по предположению индукции, +сдвинуть все скобки влево, не меняя результата. Приписывая справа +$x_n$, получаем как раз выражение нужного вида уже от +$x_1,\dots,x_n$, и доказательство закончено. + +Пусть теперь $k> означает +произвольный элемент некоторого основного поля $k$. +\begin{definition}\label{def:vector_space} +Пусть $k$~--- поле. +Множество $V$ вместе с операциями $+\colon V\times V\to V$, +$\cdot\colon V\times k\to V$ называется \dfn{векторным + пространством}\index{векторное пространство} +(точнее~--- \dfn{правым векторным пространством}), +если выполняются следующие свойства (называемые {\em аксиомами + векторного пространства}): +\begin{enumerate} +\item $(u+v)+w=u+(v+w)$ для любых $u,v,w\in V$ ({\em ассоциативность сложения}); +\item существует $0\in V$ такой, что $0+v=v+0=v$ для всех $v\in V$ + ({\em нейтральный элемент по сложению}); +\item для любого $v\in V$ найдется элемент $-v\in V$ такой, что + $v+(-v)=(-v)+v=0$ ({\em обратный элемент по сложению=противоположный + элемент}); +\item $u+v=v+u$ для любых $u,v\in V$ ({\em коммутативность сложения}); +\item $(u+v)a=u\cdot a+v\cdot a$ для любых $u,v\in V$, + $a\in k$ ({\em левая дистрибутивность}); +\item $u(a+b) = u\cdot a + u\cdot b$ для любых $u\in V$, + $a,b\in k$ ({\em правая дистрибутивность}); +\item $u\cdot(a\cdot b)=(u\cdot a)\cdot b$ для любых $u\in V$, + $a,b\in k$ ({\em внешняя ассоциативность}); +\item $u\cdot 1 = u$ для любого $u\in U$ ({\em унитальность}). +\end{enumerate} +При этом элементы пространства $V$ называются +\dfn{векторами}\index{вектор}, а +элементы поля $k$~--- \dfn{скалярами}\index{скаляр}. +\end{definition} + +\begin{remark} +Заметим, что первые три аксиомы не включают в себя умножение на скаляр +и выражают тот факт, что $V$ с операцией сложения является {\em + группой} (см. определение~\ref{def_group}); четвертая аксиома +означает, что эта группа коммутативна. +\end{remark} +\begin{remark} +Обратите внимание, что знаки $+$ и $\cdot$ в аксиомах используются в +разных смыслах: $+$ может означать сложение как в векторном +пространстве $V$, так и в поле $k$, а $\cdot$ означает умножение +скаляра на вектор и умножение скаляров в поле $k$. Упражнение: +про каждый знак $+$ и $\cdot$ в аксиомах векторного пространства +скажите, какую именно операцию он обозначает. +Символ <<$0$>> также используется в дальнейшем в двух смыслах: он может +обозначать как нулевой элемент поля, так и нулевой элемент векторного +пространства. При желании мы могли бы как-нибудь различать их (некоторые +авторы пишут $\overline{0}$ для нулевого вектора), но +не будем этого делать, поскольку из контекста всегда ясно, какой +элемент имеется в виду (а если не ясно, читатель получает +хорошее упражнение). +\end{remark} +\begin{remark} +Мы постараемся всегда при умножении вектора на скаляр записывать +вектор слева, а вектор справа, то есть, писать $v\cdot a$ для $v\in V$ +и $a\in k$. Вместе с тем, можно было бы везде писать $a\cdot v$ +вместо $v\cdot a$. Читателю предлагается переписать +определение~\ref{def:vector_space} в таких терминах и убедиться, что +получатся совершенно аналогичные аксиомы (за счет коммутативности +умножения в поле!) Более щепетильные авторы различают две конвенции +в записи и говорят о {\em правых векторных пространствах} +и {\em левых векторных пространствах}, соответственно. +Отметим, что естественное обобщение понятия векторного пространства +на произвольные кольца (не обязательно коммутативные) требует +строгого различения этих двух понятий. +\end{remark} + +\begin{examples} +\begin{enumerate} +\item Для натурального $n$ рассмотрим множество всех столбцов высоты + $n$, состоящих из элементов поля $k$: + $k^n=\{\begin{pmatrix}a_1 \\ \vdots \\ a_n\end{pmatrix}\mid a_i\in + k\}$. Введем на $k^n$ естественные операции [покомпонентного] + сложения и [покомпонентного] умножения на скаляры. Тогда $k^n$ + превратится в векторное пространство над полем $k$: справедливость + всех аксиом немедленно следует из свойств операций над матрицами, + поскольку можно рассматривать такие столбцы как матрицы $n\times 1$: + $k^n=M(n,1,k)$. +\item Аналогично, множество всех строк длины $n$ над $k$ с + покомпонентными операциями сложения и умножения на скаляры образует + векторное пространство над $k$; мы будем обозначать его через + ${}^nk$. Альтернативно, ${}^nk=M(1,n,k)$. +\item Обобщая предыдущие примеры, можно заметить, что множество + $M(m,n,k)$ всех матриц фиксированного размера $m\times n$ с обычными + операциями сложения матриц и умножения на скаляры образует векторное + пространство над $k$. +\item Аналогично первым двум примерам, можно рассмотреть множества столбцов +{\em бесконечной высоты} и строк {\em бесконечной ширины}, состоящих +из элементов поля $k$. И то, и другое~--- это просто множество бесконечных +последовательностей $a_1,a_2,\dots$, где все $a_i$ лежат в $k$. +Различие между множеством столбцов и множеством строк лишь в форме записи. +Множество таких последовательностей, воспринимаемых как столбцы, +мы будем обозначать через $k^\infty$, а множество последовательностей, +воспринимаемых как строки~--- через ${}^{\infty}k$. +На каждом из этих множеств определены операции [покомпонентного] +сложения и [покомпонентного] умножения на элементы поля $k$. Несложно +проверить выполнение для них всех свойств из +определения~\ref{def:vector_space}, поэтому $k^\infty$ и ${}^{\infty}k$ +являются векторными пространствами над полем $k$. +\item Пусть $E$~--- множество [свободных] векторов на стандартной + эвклидовой плоскости. Из школьного курса известно, что сложение + векторов и умножение векторов на вещественные числа обладает всеми + свойствами из определения векторного пространства. Поэтому $E$ можно + рассматривать как векторное пространство над $\mb R$. + Аналогично, множество векторов в трехмерном пространстве является + векторным пространством над $\mb R$. +\item Пусть $k\subseteq L$~--- поля. Элементы $L$ можно складывать + между собой и умножать на элементы поля $k$ (на самом деле, их можно + перемножать и между собой, но мы забудем про эту операцию). Все + свойства из определения векторного пространства немедленно следуют + из свойств операций в поле. Поэтому + $L$ естественным образом является векторным пространством над + $k$. Например, $\mb R$~--- векторное пространство над $\mb Q$, а + $\mb C$~--- векторное пространство над $\mb Q$ и над $\mb R$. Кроме + того, любое поле является (не очень интересным) векторным + пространством над самим собой. +\item Многочлены от одной переменной над полем $k$ можно складывать + между собой и умножать на скаляры из $k$; поэтому $k[x]$ (с + естественными операциями) является векторным пространством над $k$ + (необходимые аксиомы немедленно следуют из свойств операций в + $k[x]$). +\end{enumerate} +\end{examples} + +\begin{proposition} +Пусть $V$~--- векторное пространство над $k$. Тогда +\begin{enumerate} +\item $v\cdot 0=0$ для любого вектора $v\in V$, где $0\in k$; +\item $0\cdot a = 0$ для любого скаляра $a\in k$, где $0$~--- нулевой вектор; +\item $v\cdot (-1)=-v$ для любого вектора $v\in V$. +\end{enumerate} +\end{proposition} +\begin{proof} +\begin{enumerate} +\item Заметим, что $v\cdot 0 = v\cdot (0+0) = v\cdot 0 + v\cdot + 0$. Прибавим к обеим частям $-(v\cdot 0)$; получим + $(-v\cdot 0) + v\cdot 0 = (-v\cdot 0) + v\cdot 0 + v\cdot 0$, откуда + $0=0+v\cdot 0=v\cdot 0$, что и требовалось. +\item Заметим, что $0\cdot a = (0+0)\cdot a = 0\cdot a ++ 0\cdot a$. Прибавим к обеим частям $-(0\cdot a)$; получим +$-(0\cdot a) + 0\cdot a = -(0\cdot a) + 0\cdot a ++ 0\cdot a$, откуда $0 = 0 + 0\cdot a = 0\cdot a$, +что и требовалось. +\item Воспользуемся первой частью: $0 = v\cdot 0 = v\cdot (1+(-1)) = + v\cdot 1 + v\cdot (-1) = v + v\cdot (-1)$. Прибавим к обеим частям + $(-v)$; получим $-v = (-v) + v + v\cdot (-1) = 0 + v\cdot (-1) = + v\cdot (-1)$. +\end{enumerate} +\end{proof} + +\subsection{Подпространства} + +\begin{definition} +Пусть $V$~--- векторное пространство над полем $k$. +Подмножество $U\subseteq V$ называется +\dfn{подпространством}\index{подпространство}, если выполнены следующие условия: +\begin{enumerate} +\item $0\in U$; +\item если $u,v\in U$, то и $u+v\in U$; +\item если $u\in U$, $a\in k$, то $u\cdot a\in U$. +\end{enumerate} +Тот факт, что $U$ является подпространством $V$, мы будем обозначать +так: $U\leq V$. +\end{definition} + +\begin{remark} +Если $U\leq V$, то $-u\in U$ для любого $u\in +U$. Действительно, для любого $u\in U$ +выполнено $-u = u\cdot (-1)\in U$. +\end{remark} + +\begin{examples} +\begin{enumerate} +\item В любом пространстве $V$ есть <<тривиальные>> подпространства + $0\leq V$ и $V\leq V$. +\item Пусть $V = k[x]$, $U = \{f\in k[x]\mid f(1) = 0\}$. Тогда +$U\leq V$. +\item Пусть $k[x]_{\leq n}$~--- множество многочленов степени не выше + $n$: $k[x]_{\leq n}=\{f\in k[x]\mid \deg(f)\leq n\}$. Нетрудно + проверить, что $k[x]_{\leq n}\leq k[x]$. +\item Множество векторов, параллельных некоторой плоскости, является + подпространством трехмерного пространства векторов. +% добавить пример про все подпространства плоскости и трехмерного пространства! +\end{enumerate} +\end{examples} + +\begin{lemma} +Пересечение произвольного набора подпространств пространства $V$ +является подпространством в $V$. +\end{lemma} +\begin{proof} +Пусть $\{U_\alpha\}_{\alpha\in A}$~--- подпространства в +$V$. Пусть $u,v\in\bigcap_{\alpha\in A}U_\alpha$. По определению +пересечения выполнено $u,v\in U_\alpha$ для всех $\alpha$. Так как +$U_\alpha\leq V$, то для каждого $\alpha$ выполнено $u+v\in U_\alpha$, +откуда $u+v\in\bigcap_{\alpha\in A}U_\alpha$. Кроме того, если +$a\in k$, то для каждого $\alpha$ выполнено $ua\in +U_\alpha$, откуда $ua\in\bigcap_{\alpha\in A}U_\alpha$. +\end{proof} + +\begin{definition} +Пусть $U_1,\dots,U_m$~--- подпространства в $V$. +\dfn{Суммой} подпространств $U_1,\dots,U_m$ называется множество +всевозможных сумм элементов $U_1,\dots,U_m$. +Обозначение: $U_1+\dots+U_m$. +Более точно, +$$ +U_1+\dots+U_m = \{u_1+\dots+u_m\mid u_1\in U_1,\dots,u_m\in U_m\}. +$$ +\end{definition} +Несложно проверить (упражнение!), что для любых подпространств +$U_1,\dots,U_m$ в $V$ их сумма $U_1+\dots+U_m$ также является +подпространством в $V$. +\begin{lemma} +Пусть $U_1,\dots,U_m$~--- подпространства векторного пространства $V$. +Тогда их сумма $U_1+\dots+U_m$~--- это наименьшее (по включение) +векторное подпространство в $V$, содержащее каждое из подпространств +$U_1,\dots,U_m$. +\end{lemma} +\begin{proof} +Очевидно, что каждое из подпространств $U_1,\dots,U_m$ содержится +в сумме $U_1+\dots+U_m$ (достаточно рассмотреть суммы +вида $u_1+\dots+u_m$, в которых все элементы, кроме одного, равны нулю). +С другой стороны, если некоторое подпространство пространства $V$ +содержит $U_1,\dots,U_m$, то оно обязано содержать и все элементы +вида $u_1+\dots+u_m$ ($u_i\in U_i$), поэтому обязано содержать +$U_1+\dots+U_m$. +\end{proof} + +Итак, любой элемент $u\in U_1+\dots+U_m$ можно представить +в виде $u = u_1+\dots+u_m$ для некоторых $u_i\in U_i$. +Нас интересует случай, когда такое представление +{\em единственно}. + +\begin{definition} +Пусть $U_1,\dots,U_m$~--- подпространства векторного пространства $V$. +Будем говорить, что $V$ является \dfn{прямой суммой} подпространств +$U_1,\dots,U_m$, если каждый элемент $v\in V$ можно единственным образом +представить в виде суммы $v = u_1+\dots+u_m$, где все $u_i\in U_i$. +Обозначение: $V=U_1\oplus\dots\oplus U_m$ или +$V = \bigoplus_{i=1}^m U_i$. +\end{definition} + +\begin{examples} +\begin{enumerate} +\item Пусть $V = k^3$~--- пространство столбцов высоты $3$ над полем $k$, +$U = \{\begin{pmatrix} * \\ * \\ 0 \end{pmatrix}\}$~--- подпространство +столбцов, третья координата которых равна нулю, +$W = \{\begin{pmatrix} 0 \\ 0 \\ * \end{pmatrix}\}$~--- подпространство +столбцов, первые две координаты которых равны нулю. +Тогда $V$ является прямой суммой $U$ и $W$: $V = U\oplus W$. +\item Пусть $V = k^n$~--- пространство столбцов высоты $n$ над полем $k$. +Обозначим через $U_i$ подпространство столбцов в $V$, в которых на всех +местах кроме, возможно, $i$-го, стоит нуль: +$$ +U_i = \{\begin{pmatrix}0 \\ \vdots \\ 0 \\ * \\ 0 \\ \vdots \\ 0\end{pmatrix}\}. +$$ +Тогда $V = U_1\oplus\dots\oplus U_n$. +\item Пусть теперь снова $V = k^3$, $U_1$~--- множество столбцов вида +$\begin{pmatrix} a \\ a \\ 0\end{pmatrix}$, где $a\in k$; +$U_2$~--- множество столбцов вида +$\begin{pmatrix} b \\ 0 \\ 0\end{pmatrix}$, где $b\in k$; +$U_3$~--- множество столбцов вида +$\begin{pmatrix} 0 \\ c \\ d\end{pmatrix}$, где $c,d\in k$. +Тогда $V$ {\em не является} прямой суммой подпространств $U_1, U_2, U_3$. +Дело в том, что столбец вида $\begin{pmatrix}0 \\ 0 \\ 0\end{pmatrix}$ +можно разными способами представить в виде суммы трех векторов $u_1\in U_1$, +$u_2\in U_2$, $u_3\in U_3$. Действительно, +во-первых, +$$ +\begin{pmatrix} 0 \\ 0 \\ 0\end{pmatrix} += +\begin{pmatrix} 1 \\ 1 \\ 0\end{pmatrix} + +\begin{pmatrix} -1 \\ 0 \\ 0\end{pmatrix} + +\begin{pmatrix} 0 \\ -1 \\ 0\end{pmatrix}, +$$ +а во-вторых, разумеется, +$$ +\begin{pmatrix} 0 \\ 0 \\ 0\end{pmatrix} += +\begin{pmatrix} 0 \\ 0 \\ 0\end{pmatrix} + +\begin{pmatrix} 0 \\ 0 \\ 0\end{pmatrix} + +\begin{pmatrix} 0 \\ 0 \\ 0\end{pmatrix}. +$$ +\end{enumerate} +\end{examples} + +В последнем примере мы показали, что пространство {\em не является} +прямой суммой данных подпространств, предъявив два различных разложения +для {\em нулевого} вектора. Предположим теперь, что у нас есть набор +подпространств в $V$, сумма которых равна $V$. Следующее предложение +показывает, что для доказательства того, что эта сумма прямая, +достаточно доказать, что $0$ единственным образом представляется +в виде суммы векторов из этих подпространств. + +\begin{proposition}\label{prop:direct_sum_zero_criteria} +Пусть $U_1,\dots,U_n$~--- подпространства в $V$. +Пространство $V$ является прямой суммой этих подпространств тогда +и только тогда, когда выполняются два следующих условия: +\begin{enumerate} +\item $V = U_1 + \dots + U_n$; +\item если $0 = u_1 + \dots + u_n$ для некоторых $u_i\in U_i$, то +$u_1 = \dots = u_n = 0$. +\end{enumerate} +\end{proposition} +\begin{proof} +Предположим сначала, что $V = U_1\oplus\dots\oplus V_n$. +Тогда по определению $V = U_1 + \dots + U_n$. +Предположим, что $0 = u_1 + \dots + u_n$, где $u_1\in U_1,\dots,u_n\in U_n$. +Заметим, что также $0 = 0 + \dots + 0$, где $0\in U_1,\dots,0\in U_n$. +Из определения прямой суммы теперь следует, что +$u_1 = 0,\dots,u_n=0$. + +Обратно, пусть выполняются два условия выше, и пусть $v\in V$. +Из первого условия следует, что мы можем записать +$v = u_1 + \dots + u_n$ для некоторых $u_1\in U_1,\dots,u_n\in U_n$. +Осталось доказать, что такое представление единственно. +Если $v = u'_1 + \dots + u'_n$ для $u'_1\in U_1,\dots,u'_n\in U_n$, +то $0 = v - v = (u_1 - u'_1) + \dots + (u_n - u'_n)$, где каждая +разность $u_i - u'_i$ лежит в $U_i$. Из второго условия теперь +следует, что $u_i - u'_i = 0$ для всех $i$, то есть, +что два данных разложения на самом деле совпадают. +\end{proof} + +Приведем еще один полезный критерий разложения пространства +в прямую сумму {\em двух} подпространств. + +\begin{proposition}\label{prop:direct-sum-criteria-for-2} +Пусть $U,W\leq V$. Пространство $V$ является прямой суммой $U$ и $W$ +тогда и только тогда, когда $V = U+W$ и $U\cap W = \{0\}$. +\end{proposition} +\begin{proof} +Предположим, что $V = U\oplus W$. Тогда $V = U + W$ по определению +прямой суммы. Если $v\in U\cap W$, то можно записать +$0 = v + (-v)$, где $v\in U$, $(-v)\in W$. Из единственности представления +$0$ в виде суммы векторов из $U$ и $W$ теперь следует, что $v=0$. +Поэтому $U\cap W = \{0\}$. + +Для доказательства обратного утверждения предположим, что $V = U+W$ +и $U\cap W = \{0\}$. Пусть $0 = u+w$, где $u\in U$, $w\in W$. +По предложению~\ref{prop:direct_sum_zero_criteria} +нам достаточно доказать, что $u=w=0$. Но из $0=u+w$ следует, +что $u = -w\in W$, в то время $u\in U$. Значит, +$u\in U\cap W$, и потому $u=0$ и $w = -u = 0$, что и требовалось. +\end{proof} + +\begin{remark} +Представьте три прямые $U_1$, $U_2$, $U_3$, проходящие через $0$ +на эвклидовой плоскости $V$. Очевидно, что $V = U_1 + U_2 + U_3$ +и $U_1\cap U_2 = U_2\cap U_3 = U_3\cap U_1 = \{0\}$. +Это значит, что {\em наивное} обобщение предложения~\ref{prop:direct-sum-criteria-for-2} +неверно. +\end{remark} + +% 02.03.2015 + +\subsection{Линейная зависимость и независимость} +\literature{[F], гл. XII, \S~1, п. 2; [K2], гл. 1, + \S~1, п. 2, \S~2, п. 1; [KM], ч. 1, \S~2; [vdW], гл. 4, \S~19.} + +\begin{definition}\label{dfn:linear-combination-and-span} +Пусть $V$~--- векторное пространство над $k$, $v_1,\dots,v_n\in V$ и +$a_1,\dots,a_n\in k$. Выражение вида +$v_1a_1+\dots+v_na_n$ называется \dfn{линейной + комбинацией}\index{линейная комбинация} элементов +$v_1,\dots,v_n$. Отметим, что иногда линейной +комбинацией называется сама формальная сумма +$v_1a_1+\dots+v_na_n$, а иногда~--- ее значение (то есть, +элемент $V$). +Множество всех линейных комбинаций векторов $v_1,\dots,v_m$ +называется их \dfn{линейной оболочкой} и обозначается +через $\la v_1,\dots,v_m\ra$. +Полезно определить линейную оболочку и для бесконечного множества векторов: +пусть $S\subseteq V$~--- произвольное подмножество векторного +пространства $V$. Его линейной оболочкой называется +множество всех линейных комбинаций вида $v_1a_1 + \dots + v_na_n$, +где $v_1,\dots,v_n\in S$. Обозначение: $\la S\ra$. +\end{definition} +\begin{remark} +Нетрудно проверить, что линейная оболочка произвольного подмножества +в $V$ является векторным подпространством в $V$. +Заметим также, что линейная оболочка пустого подмножества +$\varnothing\subset V$ равна тривиальному подпространству $\{0\}$. +\end{remark} + +\begin{definition}\label{dfn:spanning-set} +Пусть $V$~--- векторное пространство, $v_1,\dots,v_m\in V$. +Будем говорить, что $v_1,\dots,v_m$~--- \dfn{система образующих} +пространства $V$ (или что векторы $v_1,\dots,v_m$ \dfn{порождают} +пространство $V$, или что пространство $V$ \dfn{порождается} +векторами $v_1,\dots,v_m$), если их линейная оболочка совпадает с $V$: +$\la v_1,\dots,v_m\ra = V$. +Пространство называется \dfn{конечномерным}, если +оно порождается некоторым конечным набором векторов. +Можно определить систему образующих и в случае бесконечного набора +векторов: подмножество $S\subseteq V$ называется \dfn{системой образующих} +пространства $V$, если его линейная оболочка совпадает с $V$. +\end{definition} +\begin{examples} +\begin{enumerate} +\item Пространство столбцов $k^n$ конечномерно. Действительно, обозначим +через $e_i\in k^n$ столбец, у которого в $i$-ой позиции стоит $1$, а +в остальных~--- $0$. Нетрудно проверить, что векторы +$e_1,\dots,e_n$ порождают $k^n$. +\item Пространство многочленов $k[x]$ над полем $k$ не является конечномерным. +Действительно, предположим, что оно порождается некоторым конечным набором +многочленов. Пусть $m$~--- наибольшая из степеней этих многочленов. +Тогда все линейные комбинации элементов нашего набора являются многочленами +степени не выше $m$, и поэтому их множество не совпадает со всем +пространством $k[x]$. +\end{enumerate} +\end{examples} + +\begin{definition} +Пространство, не являющееся конечномерным, называется +\dfn{бесконечномерным}. По определению это означает, что +{\em никакой} конечный набор элементов этого пространства не порождает его. +\end{definition} + +Пусть $v_1,\dots,v_n\in V$, и пусть $v\in\la v_1,\dots,v_n\ra$. По определению +это означает, что существуют коэффициенты $a_1,\dots,a_n\in k$ такие, +что $v = v_1a_1 + \dots + v_na_n$. +Зададимся вопросом: единственен ли такой набор коэффициентов? +Пусть $b_1,\dots,b_n\in k$~--- еще один набор скаляров, для которого +$v = v_1b_1 + \dots + v_nb_n$. +Вычитая одно равенство из другого, получаем +$0 = v_1(b_1 - a_1) + \dots + v_n(b_n - a_n)$. +Мы записали $0$ как линейную комбинацию векторов $v_1,\dots,v_m$. +Если единственный способ сделать это тривиален (положить все коэффициенты +равными $0$), то $b_i = a_i$ для всех $i$, и поэтому наш набор коэффициентов +$a_1,\dots,a_n$ единственен. + +\begin{definition}\label{def:linearly_independent} +Набор векторов $v_1,\dots,v_n\in V$ называется \dfn{линейно независимым}, +если из равенства $v_1a_1 + \dots + v_na_n = 0$ следует, что +$a_1 = \dots = a_n$. Назовем выражение вида +$v_1a_1 + \dots + v_na_n$ \dfn{тривиальной линейной комбинацией}, +если все ее коэффициенты равны нулю: $a_1 = \dots = a_n$. +Тогда векторы $v_1,\dots,v_n\in V$ линейно независимым если и только если +никакая их нетривиальная линейная комбинация не равна нулю. +В таком виде определение удобно обобщить на произвольное (не обязательно +конечное) множество векторов: подмножество $S\subseteq V$ назовем +\dfn{линейно независимым}, если из того, что некоторая линейная комбинация +векторов $S$ равна нулю, следует, что все ее коэффициенты равны нулю. +\end{definition} + +\begin{definition} +Набор векторов $S\subseteq V$, который {\em не является} линейно независимым, +называется \dfn{линейно зависимым}. По определению это означает, +что {\em существует} некоторая нетривиальная линейная комбинация +векторов из $S$, которая равна нулю. Таким образом, +набор $v_1,\dots,v_n\in V$ \dfn{линейно зависим}, если существуют +коэффициенты $a_1,\dots,a_n\in k$, не все из которых равны нулю, такие, +что $v_1a_1 + \dots + v_na_n = 0$ +\end{definition} + +\begin{remark} +Еще одна полезная переформулировка: набор векторов линейно зависим тогда и только тогда, +когда некоторый вектор из него выражается через остальные (то есть, +лежит в линейной оболочке остальных). Действительно, +если набор $S$ линейно зависим, то существует нетривиальная линейная зависимость +вида $v_1a_1 + \dots + v_na_n = 0$. Нетривиальность означает, что некоторый +ее коэффициент отличен от нуля; без ограничения общности можно считать, +что $a_1\neq 0$. Но тогда $v_1 = -\frac{a_2}{a_1}v_2 - \dots - \frac{a_n}{a_1}v_n$. +Обратное следствие очевидно. Упражнение: проверьте, +что наша переформулировка работает и для <<вырожденных>> случаев +наборов из одного вектора. +\end{remark} + +\begin{remark} +Рассуждение перед определением~\ref{def:linearly_independent} показывает, +что набор $v_1,\dots,v_n$ линейно независим тогда и только тогда, +когда у каждого вектора из линейной оболочки $\la v_1,\dots,v_n\ra$ есть +только одно представление в виде линейной комбинации векторов +$v_1,\dots,v_n$. Аналогично, линейная независимость +произвольного подмножества $S\subseteq V$ означает, что +у каждого вектора из линейной оболочки $\la S\ra$ есть только +одно представление в виде линейной комбинации векторов из $S$. +\end{remark} + +\begin{examples} +\begin{enumerate} +\item Набор из трех векторов +$\begin{pmatrix}1 \\ 0 \\ 0 \\ 0\end{pmatrix}, +\begin{pmatrix}0 \\ 0 \\ 1 \\ 0\end{pmatrix}, +\begin{pmatrix}0 \\ 0 \\ 0 \\ 1\end{pmatrix} \in k^4$ +линейно независим. Действительно, их линейная комбинация с коэффициентами +$a_1,a_2,a_3$ равна $\begin{pmatrix} a_1 \\ 0 \\ a_2 \\ a_3\end{pmatrix}$, +и из равенства нулю этого вектора следует, что $a_1 = a_2 = a_3$. +\item Пусть $n$~--- произвольное натуральное число. +Тогда набор $1,x,x^2,\dots,x^n$ линейно независим в пространстве +многочленов $k[x]$ (упражнение!). Более того, бесконечное множество +$\{1,x,x^2,\dots,x^n,\dots\}$ линейно независимо в $k[x]$. +\item Любое множество векторов, содержащее нулевой вектор, линейно зависимо. +\item Набор из одного вектора $v\in V$ линейно независим тогда и только тогда, +когда $v\neq 0$. +\item Набор из двух векторов $u,v\in V$ линейно независим тогда и только тогда, +когда ни один из них не получается из другого умножением на скаляр +(почему?). +\end{enumerate} +\end{examples} + +\begin{lemma}\label{lemma_lnz_lz_up_down} +Пусть $V$~--- векторное пространство, $X\subseteq Y\subseteq V$. Если +$Y$ линейно независимо, то и $X$ линейно независимо. Если $X$ линейно +зависимо, то и $Y$ линейно зависимо. +\end{lemma} +\begin{proof} +Очевидно. +\end{proof} + +Следующая лемма окажется чрезвычайно полезной. Она утверждает, что если +имеется линейно зависимый набор векторов, в котором первый вектор отличен +от нуля, то один из векторов набора выражается через предыдущие; +тогда его можно выбросить, не изменив линейную оболочку набора. + +\begin{lemma}[о линейной зависимости]\label{lemma:linear-dependence-lemma} +Пусть набор $(v_1,\dots,v_n)$ векторов пространства $V$ линейно зависим, и +$v_1\neq 0$. Тогда существует индекс $j\in\{2,\dots,n\}$ такой, что +\begin{itemize} +\item $v_j\in\la v_1,\dots,v_{j-1}\ra$; +\item $\la v_1,\dots,v_n\ra = \la v_1,\dots,\widehat{v_j},\dots,v_n\ra$. +\end{itemize} +\end{lemma} +\begin{proof} +По условию найдутся $a_1,\dots,a_n\in k$ такие, что +$v_1a_1+\dots+v_na_n = 0$. +Пусть $j$~--- наибольший индекс, для которого $a_j\neq 0$. +Тогда +$$ +v_j = - \frac{a_1}{a_j}v_1 - \dots - \frac{a_{j-1}}{a_j}v_{j-1}, +$$ +и первый пункт доказан. Очевидно, что +$\la v_1,\dots,\widehat{v_j},\dots,v_n\ra\subseteq\la v_1,\dots,v_n\ra$. +Покажем обратное включение. Пусть $u\in \la v_1,\dots,v_n\ra$. +Это означает, что $u = v_1c_1 + \dots + v_nc_n$ для некоторых +$c_1,\dots,c_n\in k$. Заменим в правой части +вектор $v_j$ на его выражение через $v_1,\dots,v_{j-1}$; получим, +что $u$ есть линейная комбинация векторов $v_1,\dots,\widehat{v_j},\dots,v_n$, +что и требовалось. +\end{proof} + +\begin{corollary}\label{cor:lnz-becomes-lz} +Пусть набор векторов $v_1,\dots,v_n$ линейно независим, и $v\in V$. +Набор $v_1,\dots,v_n,v$ линейно зависим тогда и только тогда, +когда $v$ лежит в $\la v_1,\dots,v_n\ra$. +\end{corollary} +\begin{proof} +Если набор $v_1,\dots,v_n,v$ линейно зависим, то +(по лемме~\ref{lemma:linear-dependence-lemma}) некоторый вектор в нем +выражается через предыдущие. Это не может быть один из $v_1,\dots,v_n$ +в силу линейной независимости $v_1,\dots,v_n$ +\end{proof} + +Следующая теорема играет ключевую роль в изучении линейно независимых +и порождающих систем. + +\begin{theorem}\label{thm:independent-set-smaller-than-generating} +В конечномерном векторном пространстве количество элементов в любом линейно независимом +множестве не превосходит количества элементов в любом порождающем множестве. +Иными словами, если $u_1,\dots,u_m$ линейно независимые векторы пространства $V$, +и $\la v_1,\dots,v_n\ra = V$, то $m\leq n$. +\end{theorem} +\begin{proof} +Опишем процесс, на каждом шаге которого мы заменяем один +вектор из $\{v_i\}$ на один вектор из $\{u_j\}$. +Заметим сначала, что при добавлении к $v_1,\dots,v_n$ любого вектора +мы получим линейно зависимую систему. В частности, набор +$u_1,v_1,\dots,v_n$ линейно зависим. По лемме~\ref{lemma:linear-dependence-lemma} +мы можем выкинуть из этого набора один из векторов $v_1,\dots,v_n$ +(скажем, $v_j$) так, +что оставшиеся векторы все еще будут порождать $V$. +Мы получили набор вида $u_1,v_1,\dots,\widehat{v_j},\dots,v_n$, порождающий $V$. +Снова заметим, что при добавлении к нему любого вектора мы получим линейно зависимую +систему. В частности, система $u_1,u_2,v_1,\dots,\widehat{v_j},\dots,v_n$ линейно зависима. +По лемме~\ref{lemma:linear-dependence-lemma} какой-то вектор в ней выражается через предыдущие. +Понятно, что это не $u_2$: это бы означало, что $u_1,u_2$ линейно зависимы. +Значит, это один из $v_i$. Лемма~\ref{lemma:linear-dependence-lemma} утверждает, что его +можно выбросить, и оставшиеся векторы все еще будут порождать $V$. + +Теперь ясно, что мы можем продолжать этот процесс: на $i$-ом шаге у нас есть +порождающий набор $u_1,\dots,u_{i-1},v_{j_1},\dots$ длины $n$. Добавим к нему вектор $u_i$, +поместив его после $u_{i-1}$, и получим линейно зависимый набор +$u_1,\dots,u_i,v_{j_1},\dots$. По лемме~\ref{lemma:linear-dependence-lemma} некоторый +вектор из этого набора выражается через предыдущие. Это не может быть один из векторов +$u_1,\dots,u_i$ в силу линейной независимости набора $u_1,\dots,u_m$. +Поэтому это один из $v_i$; его можно выбросить и линейная оболочка набора не изменится. + +Заметим теперь, что на каждом шаге мы заменяем один вектор из $v_i$ на один вектор +из $u_j$. +Если же $m>n$, это означает, что после $n$-го шага мы получили порождающий набор +вида $u_1,\dots,u_n$. Добавляя вектор $u_{n+1}$ мы должны получить линейно зависимый +набор, который в то же время является подмножеством линейно независимого набора +$u_1,\dots,u_m$, чего не может быть. +\end{proof} + +\begin{proposition}\label{prop:subspace-of-fin-dim-is-fin-dim} +Любое подпространство конечномерного векторного пространства конечномерно. +\end{proposition} +\begin{proof} +Пусть $V$~--- конечномерное пространство, $U\leq V$. Построим цепочку +векторов $v_1,v_2,\dots$ следующим образом. +Заметим для начала, что если $U = \{0\}$, то $U$ конечномерно и доказывать +нечего. Если же $U\neq \{0\}$, выберем ненулевой вектор $v_1\in U$. +Очевидно, что $\la v_1\ra\subseteq U$. +Если на самом деле $\la v_1\ra = U$, то доказательство окончено. Иначе +можно выбрать $v_2\in U$ так, что $v_2\notin\la v_1\ra$. +Теперь мы получили набор $v_1,v_2$, и $\la v_1,v_2\ra\subseteq U$. +Продолжим процесс: на $i$-ом шаге у нас есть набор $v_1,\dots,v_{i-1}$ такой, +что $\la v_1,\dots,v_{i-1}\ra\subseteq U$. Если на самом деле имеет место равенство, +то $U$ конечномерно, что и требовалось. Если нет~--- выберем +$v_i\in U$ так, что $v_i\notin\la v_1,\dots,v_{i-1}$. Заметим, что +на каждом шаге мы получаем линейно независимый набор. Действительно, +если векторы $v_1,\dots,v_i$ линейно зависимы, то по лемме~\ref{lemma:linear-dependence-lemma} +какой-то из них выражается через предыдущие, что невозможно в силу выбора +каждого вектора. +Но по теореме~\ref{thm:independent-set-smaller-than-generating} длина +этого линейно независимого набора векторов пространства $V$ не превосходит +количества элементов в некотором (конечном) порождающем множестве (которое +существует по предположению теоремы). Поэтому описанный процесс не может +продолжаться бесконечно. +\end{proof} + +\subsection{Базис} +\literature{[F], гл. XII, \S~1, п. 2; [K2], гл. 1, + \S~2, п. 1--2; [KM], ч. 1, \S~2; [vdW], гл. 4, \S~20.} + +\begin{definition} +Пусть $V$~--- векторное пространство над полем $k$. +Набор векторов называется \dfn{базисом} пространства $V$, +если он одновременно линейно независим и порождает $V$. +\end{definition} + +Неформально говоря, линейно независимые наборы векторов очень +<<маленькие>>, а системы образующих~--- <<большие>>. На стыке этих +двух плохо совместимых свойств возникает понятие базиса. Сейчас мы +сформулируем и докажем несколько эквивалентных переформулировок +понятия базиса. + +\begin{theorem}\label{thm:basis-equiv} +Подмножество $\mc B\subseteq V$ является базисом тогда и только тогда, +когда любой вектор $V$ представляется в виде линейной комбинации +элементов из $\mc B$, причем единственным образом. +\end{theorem} +\begin{proof} +Если $\mc B$~--- базис, то по определению системы образующих любой +вектор из $V$ представляется в виде линейной комбинации элементов из +$\mc B$. Если таких представления у вектора $v\in V$ два, например, +$u_1a_1+\dots+u_na_n = v = u_1b_1+\dots+u_nb_n$ для +некоторых $u_i\in\mc B$, $a_i,b_i\in k$, то +$u_1(a_1-b_1)+\dots+u_n(a_n-b_n)=0$, и из линейной +независимости $\mc B$ следует, что все коэффициенты в этой линейной +комбинации равны $0$, откуда $a_i=b_i$ для всех $i$, и на +самом деле два представления вектора $v$ совпадают. + +Обратно, если любой вектор $V$ представляется в виде линейной +комбинации элементов из $\mc B$ единственным образом, то $\mc B$ +является системой образующих, и если она линейно зависима, то имеется +нетривиальная линейная комбинация +$v_1a_1+\dots+v_na_n=0=v_1\cdot 0+\dots+v_n\cdot 0$. Мы +получили два различных представления одного вектора $0\in V$ (они +различны, поскольку не все $a_i$ равны нулю)~--- противоречие. +\end{proof} + +\begin{theorem}\label{thm:spanning-list-contains-basis} +Из любой конечной системы образующих пространства $V$ можно выбрать +базис. +\end{theorem} +\begin{proof} +Пусть $v_1,\dots,v_n$~--- система образующих пространства $V$. +Сейчас мы выбросим из нее некоторые векторы так, чтобы она стала базисом $V$. +А именно, последовательно для $j=1,2,\dots,n$, мы выбросим +$v_j$, если $v_j\in\la v_1,\dots,v_{j-1}\ra$. Заметим, что при каждом выбрасывании +линейная оболочка векторов не меняется, поскольку мы выбрасываем только такие векторы, +которые выражаются через предыдущие. Покажем, что полученный в итоге +набор векторов линейно независим. Если он линейно зависим, то +по лемме~\ref{lemma:linear-dependence-lemma} там найдется вектор, лежащий +в линейной оболочке предыдущих; но такой вектор был бы выкинут в процессе. +Заметим, что лемму~\ref{lemma:linear-dependence-lemma} можно применить, поскольку +первый вектор в нашем наборе обязан быть ненулевым: линейная оболочка пустого +набора равна $\{0\}$. +\end{proof} + +% 16.03.2015 + +\begin{corollary}\label{cor:a-basis-exists} +В любом конечномерном пространстве есть базис. +\end{corollary} +\begin{proof} +По определению, в конечномерном пространстве есть конечная система образующих. +По теореме~\ref{thm:spanning-list-contains-basis} из нее можно выбрать базис. +\end{proof} + +\begin{remark} +На самом деле, базис есть в любом пространстве, даже бесконечномерном. +Доказательство этого факта, однако, требует тонкого рассуждения +с использованием {\em аксиомы выбора}\index{аксиома выбора} +(см. замечание~\ref{remark:axiom-of-choice} +в недрах доказательства теоремы~\ref{thm:sur-inj-reformulations}), +поэтому мы воздержимся от него. В нашем курсе речь будет вестись только +о конечномерных пространствах; формулировки для бесконечномерных пространств +мы приводим только тогда, когда они в точности повторяют формулировки +в конечномерном случае. +\end{remark} + +Следующая теорема в некотором смысле двойственна +теореме~\ref{thm:spanning-list-contains-basis}. +\begin{theorem}\label{thm:li-contained-in-a-basis} +Любой линейно независимый набор векторов в конечномерном пространстве +можно дополнить до базиса. +\end{theorem} +\begin{proof} +Пусть $u_1,\dots,u_m$~--- линейно независимая система векторов пространства $V$, +и пусть $v_1,\dots,v_n$~--- произвольная порождающая система пространства $V$ +(она существует по определению конечномерности). +Положим для начала $\mc B = \{u_1,\dots,u_m\}$ и +проделаем следующую процедуру последовательно для $j=1,\dots,n$: +если вектор $v_j$ не лежит в линейной оболочке $\la\mc B\ra$ множества $\mc B$, +то добавим его к $\mc B$; а если лежит~--- пропустим. Заметим, что +после каждого такого шага множество $\mc B$ все еще линейно независимо +(следствие~\ref{cor:lnz-becomes-lz}). После $n$-го шага мы получим, +что {\em каждый} из векторов $v_1,\dots,v_n$ лежит в $\la\mc B\ra$. +Но тогда и любой вектор, выражающийся через $v_1,\dots,v_n$, лежит +в $\la\mc B\ra$. Поэтому $\la\mc B\ra = V$. +\end{proof} + +В качестве применения теоремы~\ref{thm:li-contained-in-a-basis} приведем следующий +полезный результат. +\begin{proposition} +Пусть $V$~--- конечномерное пространство, $U\leq V$. Тогда существует +подпространство $W\leq V$ такое, что $U\oplus W = V$. +\end{proposition} +\begin{proof} +По предложению~\ref{prop:subspace-of-fin-dim-is-fin-dim} пространство $U$ +конечномерно. По следствию~\ref{cor:a-basis-exists} в нем есть базис, +скажем, $u_1,\dots,u_m$. Система векторов $u_1,\dots,u_m$ в пространстве +$V$ линейно независима; по теореме~\ref{thm:li-contained-in-a-basis} +ее можно дополнить до базиса. Этот базис имеет вид +$u_1,\dots,u_m,w_1,\dots,w_n$ для некоторых векторов $w_1,\dots,w_n\in V$. +Пусть $W = \la w_1,\dots,w_n\ra$. Покажем, что $U\oplus W = V$. +По предложению~\ref{prop:direct-sum-criteria-for-2} для этого достаточно +проверить, что $U + W = V$ и $U\cap W = \{0\}$. + +Покажем сначала, что $U + W = V$. +Пусть $v\in V$; поскольку $u_1,\dots,u_m,w_1,\dots,w_n$~--- базис $V$, +можно записать +$v = u_1a_1 + \dots + u_ma_m + w_1b_1 + \dots + w_nb_n$ +для некоторых скаляров $a_i,b_j\in k$. +Обозначим $u = u_1a_1 + \dots + u_ma_m$, $w = w_1b_1 + \dots + w_nb_n$; +тогда $v = u+w$, причем $u\in U$, $w\in W$. + +Пусть теперь $v\in U\cap W$. Тогда существуют скаляры $a_i,b_j\in k$ +такие, что $v = u_1a_1 + \dots + u_ma_m = w_1b_1 + \dots + w_nb_n$. +Но тогда $u_1a_1 + \dots + u_ma_m - w_1b_1 - \dots - w_nb_n = 0$~--- +линейная комбинация, равная нулю. Из линейной независимости +нашего набора следует, что все ее коэффициенты равны нулю, +а потому и $v=0$. +\end{proof} + + +\subsection{Размерность} +\literature{[F], гл. XII, \S~1, п. 2; [K2], гл. 1, + \S~2, п. 1--2; [KM], ч. 1, \S~2; [vdW], гл. 4, \S~19.} + +Мы говорили о {\em конечномерных} пространствах, не зная, что такое +{\em размерность}. Как же определить размерность векторного пространства? +Интуитивно понятно, что размерность пространства столбцов $k^n$ должна равняться $n$. +Заметим, что столбцы +$$ +\begin{pmatrix} +1 \\ 0 \\ \vdots \\ 0 +\end{pmatrix}, +\begin{pmatrix} +0 \\ 1 \\ \vdots \\ 0 +\end{pmatrix},\dots, +\begin{pmatrix} +0 \\ 0 \\ \vdots \\ 1 +\end{pmatrix} +$$ +образуют базис в $k^n$. Поэтому хочется определить размерность пространства $V$ +как количество элементов в базисе $V$. Но возникает проблема: в {\em каком} базисе? +Конечномерное пространство $V$ может иметь много различных базисов, +и могло бы оказаться, что у него есть базисы разной длины. +Следующая теорема утверждает, что этого не происходит. + +\begin{theorem}\label{thm:bases-have-equal-cardinality} +Пусть $V$~--- конечномерное векторное пространство. В любых двух +базисах $V$ поровну элементов. +\end{theorem} +\begin{proof} +Пусть $\mc B_1$, $\mc B_2$~--- два [конечных] базиса $V$. +Тогда $\mc B_1$~--- линейно независимая система, а $\mc B_2$~--- порождающая +система; по теореме~\ref{thm:independent-set-smaller-than-generating} +количество элементов в $\mc B_1$ не больше, чем в $\mc B_2$. +С другой стороны, $\mc B_2$~--- линейно независимая система, +а $\mc B_1$~--- порождающая, поэтому количество элементов +в $\mc B_2$ не больше, чем в $\mc B_1$. Поэтому в них поровну элементов. +\end{proof} + +\begin{definition} +Пусть $V$~--- конечномерное векторное пространство над полем +$k$. Количество элементов в любом его базисе называется +\dfn{размерностью}\index{размерность} пространства $V$ и обозначается +через +$\dim_kV$ или просто через $\dim V$. Если же в $V$ нет конечной +системы образующих, то любой +базис $V$ содержит бесконечное число элементов; в этом случае мы пишем +$\dim_kV=\infty$ и говорим, что пространство $V$ +\dfn{бесконечномерно}\index{векторное пространство!бесконечномерное}. +\end{definition} + +\begin{proposition}\label{prop:dimension_is_monotonic} +Пусть $V$~--- конечномерное векторное пространство над $k$ и +$U