Skip to content

引力波的探测与数据分析

探测器对引力波的响应

image-20260211192111036 (图示:展示了不同频率的引力波源,从量子涨落到双黑洞并合)

目前人们主要关注的引力波集中在四个频率区间,而对应的探测手段也各有不同。

  • 10151018 Hz:来自宇宙早期的引力波会改变宇宙微波背景(CMB)辐射的极化。所以通过测量 CMB 的极化能够探寻原初引力波的存在。
  • 107109 Hz:人们通过测量银河系内的脉冲星对地球射来的射电脉冲的到达时间来测量它们传播途中所受引力波的影响。近年来有越来越多迹象表明我们可能已经接近探测到这一频段的引力波,之后我们会专门讨论脉冲星阵列(PTA)的引力波探测。
  • 1040.1 Hz:人们将于 2030s 发射绕太阳(USA, LISA, 太极)或者绕地球(天琴)的卫星编队。通过测量卫星之间的激光通信时间,从而探测来自额外双超大质量黑洞,极端质量比旋进,银河系双白矮星等源的引力波。
  • 10103 Hz:LIGO/Virgo 的探测(恒星质量双黑洞,中子星等)取得了极大的成功。在下个十年人们将建造第三代探测器,比如欧洲的 Einstein Telescope 和美国的 Cosmic Explorer。中国也有可能建造专注千赫兹的 (4kHz) 探测器,从而与国外的探测器实现频率空间互补。

接下来我们来讨论最熟悉的情况,地面探测器的基本工作原理。我们将采取两种不一样的方法,一种引力波作用于镜子,一种引力波作用于光。两种观点最后导致一样的结果。

image-20260211193235366

引力波作用于光

接下来我们首先在 TT 规范下考虑干涉仪的响应。我们把干涉仪的双臂分别放在 x, y 轴上。简单起见我们假设引力波沿着 z 轴传播,极化(偏振)态为"+"。

ds2=dt2+(1+h+(tz))dx2+(1h+(tz))dy2+dz2

简化起见我们省略下标 "+"。我们把分光镜 (Beam Splitter) 和后端镜 (End Mirror) 看作自由悬浮的物体,那么引力波来后,它们应该走测地线。另外,由于上述度规与 x, y 无关,那么 ux,uy 应该是守恒量(回忆之前证明克尔时空 ut,uϕ 是守恒量时用到了 gαβtϕ 无关)。又由于上述度规是对角的

ux=dxdτ=0,uy=dydτ=0

因此这些镜子的坐标都不变。当然,对于给定的 Δx=x,Δy=y,对应的真实长度 (proper length) 应该是

Lx=(1+12h(t))x,Ly=(112h(t))y

h>0 时,x 臂伸长而 y 臂缩短;反之 x 臂缩短 y 臂伸长。其次,让我们来考虑干涉仪中光的传播。考虑在 ti 从分光镜出发沿 x 臂传播的光

ds2=0dt2=(1+h(t))dx2

由于臂长远小于波长,我们近似认为传播一个来回时 h(t) 不变。所以到达 x 后端镜时

txti=(1+12h(t))x=Lx

而从 x 后端镜返回分光镜

tfxtx=(1+12h(t))x=Lxtfxti=2Lx

同理对于向 y 臂传播又反射回来的光

tfyti=2Lytfxtfy=2Lx2Ly=2h(t)

如果光的频率是 ω0。反射回来的光的相位差是

Δϕ=ω0(tfxtfy)=2ω0h(t)

而此相位差会导致在暗口 (dark port) 两束光不再是完美相消,由此我们在 dark port 会观察到与 h 成正比的信号。

引力波作用于镜子

接下来我们讨论第二种观点。我们可以选取原点放在分光镜的局部惯性系 gαβ=ηαβ+O(Rμνλρxλxρ),假设局部惯性系的坐标为 (t^,x^,y^,z^),那么新的度规可以通过如下的坐标系变换从原来的 TT 规范下的度规转换而来

x=(112h(t^z^))x^,y=(1+12h(t^z^))y^t=t^14h˙(t^z^)(x^2y^2),z=z^14h˙(t^z^)(x^2y^2)

从而得到

ds2=dt^2+dx^2+dy^2+dz^2+12(x^2y^2)h¨(t^z^)(dt^dz^)2

虽然这个表达式是从 TT 规范变换而来,但可以证明它不仅在原点附近满足真空爱因斯坦方程:它自己就是一个严格解。在此参考系内的镜子的运动方程(通过计算 d2x^jdt2=Rj0k0GWx^k)可以得到

{x^=Lx=(1+12h(t^))x,y^=z^=0对于 x 臂的后端镜y^=Ly=(112h(t^))y,x^=z^=0对于 y 臂的后端镜

因此光从 x 臂走一个来回和从 y 臂走一个来回的相位差

Δϕ2ω0h(t)

与之前在 TT 规范得到的一致。

在 TT 规范中(镜子不动光传播变化)和局部惯性系中(镜子受引力波影响光传播不变)我们对镜子和光的描述有所不同,某种程度类似于量子力学中薛定谔图象与海森堡图象。不管是用哪一种描述,最后的被测量量,暗口的相位差,总是一致的。对于实际的干涉仪,人们在每个臂还添加了额外的镜子使之成为 Fabry-Perot 光腔,这样每个臂的光强能得到提升,以增加灵敏度。

image-20260211193651142

探测器数据分析

接下来我们将讨论怎么从引力波探测器的数据中提取有用的信号,并进行分析。我们将集中讨论地面探测器的情况。为此我们先进行统计与随机过程的一些知识准备,以便之后的应用。

随机过程

考虑一个一维函数 y(t),其中 t 是时间,而 y(t) 随时间的演化不依赖其初值。那么 y(t) 就描述了一个随机过程。比如引力波探测器里的噪声就是一个随机过程。对于单一随机过程的时间演化是无法预测的,人们能做的是在概率意义上谈论其演化。而概率隐含的意义就是如果有很多类似的随机过程(比如来自平行宇宙),发生各种结果的分布是多少。而这些很多随机过程的集合被称为系综 (ensemble)。

随机过程的系综能被一个概率分布描述

Pn(yn,tn;;y2,t2;y1,t1)dyndy2dy1

这个函数告诉我们此随机过程在 t1 时的值在 (y1,y1+dy1),...,tn 时值在 (yn,yn+dyn) 的概率。理论上如果我们知道了在 t1,t2,,tn 所有点的概率我们便有了整个系综的统计性质。但事实上很多时候系统处于某种统计平衡态,那时我们可以根据较少信息来计算 P。知道 P 后,我们可以计算所谓的系综平均

y(t1)=y1P1(y1,t1)dy1

y 在时间 t1 的系综平均,而

y(t1)y(t2)=y2y1P2(y2,t2;y1,t1)dy1dy2

则是 y(t2)y(t1) 的系综平均。在概率 Pn 之外,我们还可以定义条件概率

Pn(yn,tn|yn1,tn1;;y1,t1)dyn

代表已知 y(t)t1 时取值 y1,…,tn1 时取值 yn1,然后在 tn 时取值 (yn,yn+dyn) 区间的概率。根据定义我们有

Pn(yn,tn;;y1,t1)=Pn(yn,tn|yn1,tn1;;y1,t1)Pn1(yn1,tn1;;y1,t1)

这个公式与条件概率公式 P(A,B)=P(A|B)P(B)=P(B|A)P(A) 是一致的。由此知道所有 P1,P2Pn 我们可以计算出条件概率 Pn。反过来知道了条件概率 P2,P3, 我们也可以从 P1 出发重构所有 Pn

稳态随机过程

Pn 只与时间差而不是绝对时间相关时,此随机过程系综被认为是稳态随机过程。

Pn(yn,tn+τ;;y1,t1+τ)=Pn(yn,tn;;y1,t1)

Pn 只与时间差相关时,相应的条件概率也只与时间差相关。

image-20260211234017377

注意此稳态性质并不意味着概率密度本身与时间无关。比如考虑一个分子的随机运动,如果已知在 t1v1=0,那么在 t2 时,P2(v2,t2|0,t1) 便会比较集中在 v2=0 附近(如果 t2t1 接近)。这个过程是稳态的,不管在哪个时间 t1,v=0,在其之后的时间都有 P2(v2,t2|0,t1)=P2(v2,t2t1|0,0)。在这之后我们主要讨论稳态随机过程。我们将把 P1(y1,t1) 写作 P(y1),把 P2(y2,t2|y1,t1) 写作 P2(y2,t|y1)

马尔可夫过程

一个随机过程在其下一个时刻的演化只和当前时刻的状态相关时

Pn(yn,tn|yn1,tn1;;y1,t1)=Pn(yn,tn|yn1,tn1)

被称为一个马尔可夫过程。由于下一个时刻的演化只和前一个时刻的值有关,因此此过程系综完全由 P1(y)P2(y2,t|y1)=P2(y2,t;y1,0)P1(y1) 决定。

比如说,在空气中运动的一个尘埃粒子的速度分量 vx(t) 是个马尔可夫过程。但是,此粒子的位置 x(t) 并不是一个马尔可夫过程,因为它不仅与初始位置有关,也与初始速度有关。而 {x(t),v(t)} 也被认为是一个二维的马尔可夫过程。

高斯过程

当一个随机过程的概率分布都是高斯型时,比如

Pn(yn,tn;;y1,t1)=Aexp[j=1nk=1nαjk(yjy¯)(yky¯)]

时,它被称为一个高斯过程。这里

  1. Aαjk 都只和 t2t1,t3t1,,tnt1 等时间差有关。
  2. A 是一个正的归一化常数。
  3. αjk 是一个正定矩阵。
  4. y¯ 是一个常数:可以证明 y¯=y=yP(y)dy

高斯分布和高斯随机过程在物理系统中十分常见。比如,处于热平衡的房间里某一快空间内的气体分子数 N(t) 便是一个高斯过程。通常情况下,当我们观察一个宏观系统,其内部有很多自由度,往往对应的宏观测量量就是高斯的。在数学上,这和中心极限定理有关:

假设 y 是一个随机变量,其概率分布是 P(y),因此平均值和标准差分别是

y¯=y=yP(y)dy(σy)2=(yy¯)2=y2y¯2

那么如果有 N 个类似的随机变量 y1,yn,它们的平均值(在 N 很大时)Y=1Ni=1Nyi 将满足一个均值为 y¯,标准差 σY=σyN 的高斯分布

P(Y)=12πσY2e(Yy¯)2/2σY2

我们可以看到不管之前单一随机变量 yi 的概率分布为如何,多个加在一起的综合效应总是高斯的。这就是为什么生活中有那么多高斯分布。

image-20260212000617770

相关函数

对于一个随机过程,我们有时候用时间平均 y¯ 来代替系统平均。这是因为长时间的演化该随机过程可能可以有效的遍历整个系综的统计实现。对于任意 y(t) 的函数 F,其时间平均定义为

F¯[y(t)]limT1TT/2T/2F[y(t)]dt

而如果 y(t) 的时间平均是 y¯,那么 y(t) 的关联函数定义为

Cy(τ)[y(t)y¯][y(t+τ)y¯]limT1TT/2T/2[y(t)y¯][y(t+τ)y¯]dtimage-20260211233659891

这个函数描述了 t 时候的 yt+τ 时候的 y 之间的关联性。这个 τ 有时也被称作延迟时间。对于实际物理系统,可能其状态的时间相关性在某个特征时间后就消失了,这个特征时间通常被称为弛豫时间。当 τ=0 时,我们有 Cy(0)=(yy¯)2=(yy¯)2=σy2

而如果同时有两个随机过程 x(t)y(t),那么我们也可以定义它们之间的关联函数

Cxy(τ)x(t)y(t+τ)

有时 Cy(τ) 被称为自相关函数以区分上面两个随机过程的互相关函数。我们发现互相关函数满足

Cxy(τ)=Cyx(τ)

而且 Cyy(τ)=Cy(τ)。我们也可以写下两个随机过程的相关矩阵

[Cxx(τ)Cxy(τ)Cyx(τ)Cyy(τ)]=[Cx(τ)Cxy(τ)Cyx(τ)Cy(τ)]

很明显这种相关矩阵能够被推广到更多随机过程的情况下。

傅立叶变换和谱密度

这两个概念对引力波数据分析至关重要。其中傅立叶变换

y~(f)=y(t)ei2πftdt

我们在讨论黑洞与中子星的波型时已经见到过。其反变换为

y(t)=y~(f)ei2πftdf

一个函数经过一个正变换和一个反变换又能回到自身。而在实际情况中,测到的数据长度不可能是无限的。因此我们需要在时间上作某种截断。定义

yT(t)=y(t)T/2<t<T/2yT(t)=0t<T/2,t>T/2

这样 yT(t) 的傅立叶变换 y~T(f) 就是有限的了。可以证明 (Parseval 定理)

T/2T/2y2(t)dt=yT2(t)dt=|y~T(f)|2df=20|y~T(f)|2df

其中最后一个等式用到了 yT(t) 是实数,所以 y~T(f)=y~(f)。从这个式子我们可以看出来

limT1TT/2T/2y2(t)dt=limT2T0|y~T(f)|2df

由此我们可以考虑定义谱密度函数

Sy(f)limT2T|T/2T/2(y(t)y¯)ei2πftdt|2

绝对值之内的表达式就是 y~T(f),但是这里把平均的值给去掉了。根据此定义

0Sy(f)df=limT1TT/2T/2(yy¯)2dt=(yy¯)2=σy20Sy(f)df=Cy(0)=σy2

因此把不同频率谱密度加到一起就是 y 的平方差。而我们这里积分是从 0,是因为 Sy(f)=Sy(f) ,所以可以把负频率的信息"折叠"到正频率轴上。这样的谱密度也称为单边谱密度

Sy双边(f)=12Sy单边(f)

这只是一个 Convention 的问题。但若是用双边谱密度那么负频率也得考虑。

image-20260212220414776 如图,LIGO 在 2007 年 3 月测量的探测器读出的双臂长度差 $x(t)$ 的谱密度。在 150Hz 以上,其主要贡献是光子到达时间的非均匀性引起散粒噪声;在 150Hz 和 40Hz 之间主要来源是镜子镀的膜的涨落引起的布朗噪声;在 40Hz 以下主要是地震噪声。图中的 y 轴画的是 $\sqrt{S_x(f)}$,其单位为 $m/\sqrt{\text{Hz}}$。如果 $x(t)$ 和 $y(t)$ 是两个随机过程,那么类似于 $S_y(f)$ 的定义,我们也可以定义 $S_{xy}(f)$ (交叉谱密度) $$ S_{xy}(f) = \lim_{T\to\infty} \frac{2}{T} \int_{-T/2}^{T/2} (x(t)-\bar{x}) e^{-i2\pi f t} dt \int_{-T/2}^{T/2} (y(t')-\bar{y}) e^{i2\pi f t'} dt' $$

显然 Syy(f)=Sy(f)。而如果 x(t)y(t) 是两个不同随机过程,一般来说 Sxy(f) 是复数

Sxy(f)=Sxy(f)=Syx(f)

因此我们可以集中讨论正频率情况

[Sxx(f)Sxy(f)Syx(f)Syy(f)]=[Sx(f)Sxy(f)Syx(f)Sy(f)]

描述了一个二维随机过程 {x(t),y(t)} 的谱密度的分布。与此同时,Wiener-Khintchine 定理说对于任意随机过程 y(t),其相关函数 Cy(τ) 和谱密度 Sy(τ) 满足如下关系式:

Cy(τ)=0Sy(f)cos(2πfτ)df,Sy(f)=40Cy(τ)cos(2πfτ)dτ

类似的对于二维随机过程有

Cxy(τ)=12Sxyei2πfτdf=120(Sxyei2πfτ+Syxei2πfτ)dfSxy(τ)=2Cxy(τ)ei2πfτdτ=20(Cxy(f)ei2πfτ+Cyx(f)ei2πfτ)df

定理的证明可以参照 Kip Thorne 的讲义。有了以上关系,我们计算

x(f)y~(f)=x(t)y(t)ei2πftei2πftdtdt

t=t+τ,遍历定理

Cxy(τ)e2πifτdτe2πi(ff)tdt=12Sxyδ(ff)

类似的还有

2y(f)y~(f)=Sy(f)δ(ff)

直观上,我们来理解下谱密度 Sy(f) 到底是啥意思。考虑一个随机过程 y(t) 在时间 0Δt 之间的演化。那么它的傅利叶变换可以包括从 f=f=1/Δt 之间的频率。我们考虑 f(f,) 附近的 y 的平方差

[Δy(f,Δt)]2=limN2Nn=N/2N/2|1ΔtnΔt(n+1)Δt[y(t)y¯]ei2πftdt|2

其中这个 "2" 是考虑了正频和负频的贡献,而对 N 求和平均反应了系统平均的一种方式。上述表达式也可以写作

[Δy(f,Δt)]2=limN2N|n=N/2N/21ΔtnΔt(n+1)Δt[y(t)y¯]ei2πftdt|2

定义 T=NΔt

limT2T|T/2T/2(yy¯)ei2πftdt|21Δt=Sy(f)/Δt

通常把观测窗口时长 Δt 的倒数 1ΔtΔf 称为带宽(bandwidth)。而在窗口 Δtyf 频率处涨落的平方根为

Δy(Δt,f)=Sy(f)Δf,Δf=1Δt

日常生活中有 Sy(f) 的常见型态有多种。比如 Sy(f) 要是和频率无关,它通常被称为白噪声。在这个情况下任意频率 f 下的 y 的平分差 Δy(Δt,f) 都和频率无关。我们来看下为什么散粒噪声谱便是白噪声。如果我们接收到很多脉冲,每个脉冲的形状都一样:F(t) (特征宽度 τp)

y(t)=iF(tti)脉冲i达时间ti是随机的

那么

y(f)y~(f)=iF(f)ei2πftijF~(f)ei2πftj=jF(f)F~(f)=R|F~(f)|2δ(ff)

其中R是单位时间脉冲数

Sy(f)=2R|F~(f)|2

当每个 τp 内都有 Rτp1 时,中心极限定理告诉我们 y(t) 实际上是一个高斯随机过程。而当我们感兴趣的 f1τp

F~(f)F~(0)Sy(f)=2R|F~(0)|2,Cy(τ)=R|F~(0)|2δ(τ)image-20260217203923481

另一方面,如果 Sy(f)1/f,那么对于任意 Δt1/f,对应的 Δy(Δt,f)=Sy(f)Δf 都是常数。所以在 f 的对数指标上等间距的导致的 Δy 涨落一样大。被称为闪烁噪声 (flicker)。而如果 y(t) 对应于一个随机行走,可以证明其 Sy(f)1/f2,被称为随机行走噪声。当然,对于谱密度只和两点关联函数有关,它只反映了随机过程的一小部分信息。(可以想象 n 点关联函数, n>2

信噪比与匹配滤波

在实际的干涉仪测量中,我们测到的数据一般可以写作

d(t)=n(t)+h(t)

其中 n(t) 是探测器噪声,而 h(t) 为我们想提取的引力波信号。那么怎样提取 h(t) 和测量数据中 h(t) 的大小呢?假设一种最简单情况,即 h(t) 的波型是已知的。我们可以定义一种滤波器

D(t)=d(t)k(tt)dt=n(t)k(tt)dt+h(t)k(tt)dt=N(t)+H(t)

对于测量的 d(t) 我们只知道 D(t),但不知道 N(t)H(t) 分别多少。但是,我们可以估计 N(t) 的概率分布

N(t)=n(t)k(tt)dt=0N2(t)=df1e2πif1tdf2e2πif2tn~(f1)n~(f2)k(f1)k(f2)=0dfSn(f)|k(f)|2

而我们的目的是选取合适的 k(t) 使得 S/N2 最大化。使其最大化的滤波函数为

k~(f)=Const.×h~(f)Sn(f)Wiener 滤波函数

而将其代入对应的 S/N2,我们得到

SNR=SN2=20|h~(f)|2Sn(f)df信噪比

因此,对于给定波型,我们可以选取对应合适的滤波器使得期望的信号相对于期望的噪声达到最大。但实际情况中,我们虽然在理论中可以计算双黑洞和双中子星的波型 h(λ)(其中 λ = {质量, 自旋, 偏心率, 各种角度}),但系统的内禀参数 λ 却是未知的。因此,在实际操作时我们要要在内禀参数空间选取不同的点一次又一次的作滤波。每一次我们都将得到

image-20260217204136588

当选取的 λ 接近于真值并且滤波函数的时间 t 接近于数据中信号所处的时间时,我们会发现一个较大的 SNR 的峰,标志着我们找到了数据中的信号。这个寻找过程叫做匹配滤波。

参数估计

很明显由于噪声的影响,我们并不能唯一的从数据中确定真值 H。即使我们找到 Hmax 使得对应的 SNR 最大,也无法保证真值 H 便是 Hmax。因此在一般情况下我们探测到引力波事件后需要对波源的参数估计其误差范围。常用的方法有基于贝叶斯理论的贝叶斯参数估计,其被广泛应用于引力波数据分析。在本课程中我们介绍一种近似的,较为简单的方法 —— Fisher 信息方法。这种方法在引力波事件的 SNR 较大,对应的参数概率分布是高斯时较为准确,与贝叶斯方法一致。

我们先定义两个波型的内积

(g,h)=2g~(f)h~(f)Sn(f)dfSNR2=(h,h)

对于每一个事件,都有一个真实的 λ0。那我们怎么通过数据分析得到 λ0 的较好估计呢?

考虑(频域)数据 d(f)=h~(λ0,f)+n(f)。如果我们测量的系统参数是 λ,那么数据减去期望的信号的残差为

d(f)h~(λ,f)=[h~(λ0)h~(λ)]+n(f)h~λ(λ0λ)+n(f)

如果 λ=λ0,残差正好是探测器噪声,但一般情况下第一项也不为 0。如果我们想最小化残差,比如要求残差的 SNR 最小,那么

(SNR残差2)λi|λmax=0=λi(dh~,dh~)|λmax(dh~(λmax),hλi(λmax))=0

或者

(h~(λ0)h~(λmax),hλi(λmax))=(n,hλi(λmax))

定义等 式的右边 vi(n,hλi(λmax))(n,hλi(λ0))vi 显然是一个高斯随机变量。其均值为 0。而它的协方差矩阵

Γijvivj=(n,hλiu0)(hλju0,n)=(hλi,hλj)|λ0

这个矩阵被称为 Fisher 信息矩阵,因此随机变量 v 的概率分布为

P(v)=1det(2πΓ)exp(12(Γ1)ijvivj)

(Γ1)ij 这里是 Fisher 信息矩阵的逆。而上式其实也可以写作

(h~λj,h~λi)Δλj=vi 或 ΓijΔλj=vi,Δλ=λ0λmaxΔλj=(Γ1)jivi

因此对最佳拟合 λmax (或称为最大似然拟合) 的估计可以由上式给出。由于 vi 是一个高斯随机变量,Δλ 也是一个高斯随机变量。类似的,Δλ 的概率分布为

P(Δλ)det(Γ)2πexp(12ΓijΔλiΔλj)

可以看出 Fisher 信息矩阵的逆描述了测量误差的平方差。比如

(Δλi)rms=Δλi21/2=Var Δλi1/2=(Γ1)ii

Built with VitePress