뤼야님이 가장 마지막에 단 댓글을 읽고 제가 드리고자 하는 말씀을 좀 더 길고 상세히 써 보는 것도 좋을 것 같다는 생각을 했습니다. 다음은 뤼야님의 그 댓글 중에 써 놓으신 가정들입니다.

A1. P(G)는 일정.
A2. P(W)는 시간에 따라 감소.
A3. P(W)와 P(G∩W)는 미분가능. :이것은 차분으로 대체가능해 보이나 일단 편의상 집어넣은 공리입니다.

==============
1. 확률변수
확률변수는 무작위실험(random experiment)을 실수(real number)로 대응시키는 규칙(함수)입니다. 보다 정확하게 말하면 무작위시행에서 나올 수 있는 모든 결과값(outcome)의 집합(이걸 표본공간 sample space라고 합니다)의 부분집합(각각의 부분집합을 '사건'이라고 부릅니다)들을 실수에 대응시키는 거지요. 두개의 주사위를 던지는 무작위시행을 생각해 보지요. 이 무작위 시행의 표본공간은 {(1,1), (1,2), ... (6,6)}입니다. 확률변수 X는 이 표본공간에서 두개의 주사위의 합을 나타낸다고 하면 X는 {2,3,4,...,12} 중에서 하나의 값을 취합니다. X=3이라는 상태는 표본공간의 부분집합 중에서 {(1,2),(2,1)}에 대응됩니다. 이건 '두 눈의 합이 3인 사건'이 됩니다. 원래 확률은 표본공간의 부분집합(즉, 사건 event)에 대해 정의가 됩니다만(즉, 특정한 '사건'이 일어날 확률로 정의가 됩니다만), 확률변수가 '사건'을 실수값에 대응시키는 까닭에 임의의 확률변수가 주어진다면 확률은 확률변수가 특정한 값을 가질 확률로 해석할 수 있습니다. 같은 표본공간이라고 해도 대응시키는 규칙이 달라지면 확률은 다르게 주어집니다. 에컨대 X를 두개의 주사위의 합이 아니라 두개의 주사위 중에서 작은 수라고 정의한다면 X는 {1,2,3,4,5,6}의 값을 취하고 X=3에 대응되는 사건은 {(1,3),(2,3),(3,3),(3,2),(3,1)}이 됩니다. 

2. Joint probability and marginal probability without time
임의의 두 표본공간(두 표본공간은 동일한 표본공간일 수도 있습니다)에서 각각 확률변수를 정의하게 되면 확률은 두개의 확률변수가 특정한 값을 취할 확률로 확장되어 정의가 됩니다. 만일 세개의 확률변수가 있다면 당연히 세개의 확률변수가 특정한 값들을 취할 확률로 정의가 되지요. 이 확률을 joint probability(결합확률분포라고 하던가요)라고 합니다. 논의를 불필요하게 확장하지 말고 뤼야님의 예로 한정하기 위해 G와 W라는 확률변수만을 고려해 보겠습니다. 

"신이 존재하는가"하는 random experiment의 상태는 {존재한다, 존재하지 않는다}입니다. 확률변수 G를 신이 존재하는 경우 1, 존재하지 않는 경우 0으로 정의하지요. 그러면 확률은 G에는 G=1이라는 사건과 G=0이라는 사건이 있습니다. '세계가 존재한다'는 random experiment에 대해 W를 같은 방식으로 정의하면 W에는 W=1이라는 사건과 W=0이라는 사건 두개가 존재하지요. 따라서 (G,W)라는 결합확률변수의 분포는 (G=1,W=0),(G=0,W=0),(G=1,W=1),(G=1,W=0) 이렇게 네가지의 상태에 대해 정의가 됩니다.

이 경우 marginal distribution은 아주 간단히 정의가 됩니다. 
P(G=1) = P(G=1,W=1)+P(G=1,W=0)

3. Joint probability and marginal probability with time
이제 '시간'이라는 변수를 고려해 보겠습니다. 확률변수가 시간에 따라 다른 값을 취하는 경우입니다. 편의상 차를 몰고 가다 사고가 나느냐 마느냐 하는 binary random experiment에서 G=1을 사고가 나는 경우로 정의하겠습니다. 술을 마시느냐 마시지 않느냐는 random experiment에서 술을 마신다는 사건을 W=1로 정의하겠습니다. 시간은 이산적으로 흐른다고 가정하고 시간의 흐름의 단위는 10분이라고 하겠습니다. 논의를 아주 극단적으로 간단하게 만들기 위해 t=0, 1, 2 이렇게 세 시점만 존재한다고 가정하겠습니다.

이 상황에서 random variable은 몇개일까요? G와 W일까요? 그게 아니라 G(t) and W(s) at t=0,1,2 and s=0,1,2가 되니다. 예컨대 (G(0)=1,W(0)=1)이라는 사건(현재 술을 먹고 동시에 또는 10분 이내에 차사고를 일으키는 사건)과 (G(0)=1,G(1)=1,W(0)=1)이라는 사건(현재 술을 먹고 10분 뒤에 차사고를 일으키는 사건), 그리고 (G(0)=0,G(1)=1,W(0)=1,W(1)=1)이라는 사건(10분 전에도 술을 먹고 현재도 술을 먹고 있는데 10분 전에는 차사고가 안 났고 현재는 차사고를 일으키는 사건)은 다른 사건(event)이지요. 그래서 joint distribution은 (G(0),G(1),G(2),W(0),W(1),W(2))의 6차원 결합확률변수에 대해 정의를 해야 합니다.
즉, P[G(0)=0,G(1)=0,G(2)=0,W(0)=0,W(1)=0,W(2)=0], P[G(0)=0,G(1)=0,G(2)=0,W(0)=0,W(1)=0,W(2)=1], ..., P[G(0)=1,G(1)=1,G(2)=1,W(0)=1,W(1)=1,W(2)=1] 의 총 2^6=64개의 사건에 대한 결합확률분포가 나오게 됩니다.

이때 marginal distribution은 어떻게 정의가 될까요? 예컨대 P[G(0)=1]= P[G(0)=1,W(0)=0]+P[G(0)=1,W(0)=1]일까요? 그렇지 않고 다음과 같이 정의가 됩니다.
P[G(0)=1] = sum_x1 sum_x2 sum_x3 sum_x4 sum_x5 {P[G(0)=1,G(1)=x1,G(2)=x2,W(0)=x3,W(1)=x4,W(2)=x5]} where x1,x2,x3,x4,x5 belong to {0,1} respectively

표기법을 좀 일반화시켜볼까요? 
G(_t)를 t 시점의 G가 아닌 모든 다른 시점에서의 G의 집합이라고 하지요. 예컨대 G(_0) = {G(1),G(2)}입니다. W 를 모든 t에서 W의 집합이라고 정의하지요. 그러면 W={W(0),W(1),W(2)}입니다. S={0,1}이라고 정의하고 S^2 = {0,1}x{0,1} = {(0,0),(0,1),(1,0),(0,1)}, S^3= {0,1}x{0,1}x{0,1} = {(0,0,0),(0,0,1),...,(1,1,1)}이라고 정의하겠습니다. 그러면 
P[G(0)=1] = sum_s sum_r {P[G(0)=1,G(_0)=r,W=s]} for all r in S^2 and s in S^3
라고 간단히 쓸 수 있겠네요.

만일 이산적 시간이 아닌 연속적 시간을 모델링한다면 이보다 훨씬 복잡해집니다. ("미분가능"이라는 표현은 연속적 시간을 말씀하시는 거지요.) 고작 세개의 시점만이 존재하는 상황에서도 총 64개의 사건이 나왔는데 이 시간이 무한이 많고 연속적이면 도저히 머리속으로는 상상이 안 되지요. 하지만 위의 표기를 이용하면 표기할 수는 있습니다. 일단 t 는 [0,1]사이의 임의의 값을 갖는다고 해 보겠습니다. t는 굳이 0과 1 사이일 필요는 없습니다만, W(t)와 G(s)가 이진변수인 까닭에 연속시간에서 t는 반드시 bounded되어 있어야 하므로 [0,1]이나 [-T1,T2]나 아무런 차이가 없습니다. 

위에 쓴 G(_t)라는 집합과 W라는 집합은 이런 연속시간에서는 다음과 같이 정의될 수 있습니다. 
G(_t) = {G(s) for all s!=t}, W = {W(t) for all t}
그리고 다음과 같은 함수를 하나 정의하지요. delta(s,r) = 1 for [s,r]; 0 otherwise.
이 delta라는 함수를 이용해 다음과 같은 집합을 정의하겠습니다. A = {j|sum_j delta(s_j,r_j)=1 for j=1,...,inf, s_j in [0,1], r_j in [0,1]}

이제 marginal distribution은 다음과 같이 정의할 수 있겠네요.
P[G(0)=1] = sum_j sum_i {P[G(0)=1,G(_0)=delta(s_j,r_j),W=delta(s_i,r_i)]} + sum_k s{P[G(0)=1,G(_0)=0,W=delta(s_k,r_k)]} + sum_l {P[G(0)=1,G(_0)=delta(s_l,r_l),W=0]} for all i,j,k,l in A

4. 결론에 대신해서
다른 글에도 써 놓았습니다만, 제가 보기에 뤼야님은 '사건(event)'을 명확하게 정의하지 않으셨습니다. t(G)라는 함수가 아니라 G(t)라는 함수를 사용하십사고 권해드린 것도 뤼야님이 생각하시는 '사건'이 뭔지 확실하게 먼저 규정을 해 보시라는 이유에서 였습니다. 님께서 W와 G를 시간차원이 없는 사건으로 간주하시는 경우(즉, 3번과 같은 결합확률분포를 고려하시는 것이 아니라 2번과 같은 결합확률분포를 고려하시는 경우)에는 t(G)<t(W)는 아무런 의미가 없습니다. 반대로 W가 시간에 따라 상태가 달라질 수 있는 확률변수로 고려하시는 경우에는 G와 W는 단순히 G와 W가 아니라 실은 G(s)와 W(t)이고, 모든 가능한 s와 t에 대해 서로 다른 G(s)와 W(t)가 존재하며, 이들의 상태를 다 고려해야만 P[G]라는 것을 얘기할 수 있는 겁니다. 

이렇게 보면 뤼야님의 가정 A1, A2, A3가 어떤 부분이 문제가 있는지 보실 수 있을 겁니다.
A1. P(G)는 일정
A2. P(W)는 시간에 따라 감소
A3. P(W)와 P(G∩W)는 미분가능

님은 마치 G와 W가 정태적 사건인양 생각하시고 계시면서도 P(W)에서는 W가 시간에 따라 변한다고 말씀하고 계시지요. 님이 G와 W가 시간상의 사건인지 아니면 임의의 시점에서 발생한 일회적 사건만을 생각하시는 것인지 명확하게 규정하지 못하셨기 때문에 이런 혼동이 일어나는 거지요. 그리고 이런 혼동 때문에 A1과 A2에서 말하는 marginal distribution이 명확하게 정의되지 않고 있는 겁니다.

* 부언: 님이 시간이라는 차원을 도입하면서부터는 실은 님은 확률과정론(stochastic process)에 대한 언급을 하고 계시는 겁니다. 님은 비록 아무렇지도 않게 '미분가능'이라는 개념을 '차분가능'이라는 개념의 확장 정도로 생각하십니다만, 실제로는 그렇게 간단하지 않습니다. 개념적으로야 차분가능은 시간이 이산적으로 흐른다는 것을 전제하는 것이고 미분가능은 시간이 연속적으로 흐른다는 것을 전제하는 것에 불과합니다만, 실제로 이론의 전개에서는 엄청난 차이가 납니다.

** 부언 2: 혹 G(0)만을 고려하시는 것이라고 생각하실 지 모르겠습니다. 하지만 그렇게 되면 P(G)가 (시간에 따라) 일정하다는 말은 의미가 없어지지요. 그리고 W(t) for all t 들을 고려하시면서 G(0)만을 생각하신다면 G(t) for t>0는 확률변수가 아니라는 것을 의미하므로 P[W(t),G(s)]for any t,s>0 은 무조건 P[W(t)=1]이 됩니다. 게다가 그렇게 되면 P[G(t)=1]은 0 또는 1 for all t>0 됩니다만 0<P[G(0)=1]<1 이 되므로 P(G)가 시간에 따라 일정할 수 없게 되므로 A1과 상충하게 됩니다.