論文書きました


先日、BMC pregnancy & childbirth誌という雑誌に投稿した論文がAcceptされました。
これは産婦人科の臨床系雑誌で、産婦人科ジャンルでは上位25%以内に入る雑誌です。
論文自体はオープンアクセスでどなたでもご覧いただけます。

Ooba H, Maki J, Masuyama H. Evaluating the impact of a trial of labor after cesarean section on labor duration: a retrospective cohort study. BMC Pregnancy Childbirth. 2024 Aug 15;24(1):542.

https://bmcpregnancychildbirth.biomedcentral.com/articles/10.1186/s12884-024-06744-0

論文解説記事は数多あれど、自分で書いた論文の解説を自分でしてる人ってあんまり見たことない気がします。
そして、他の人がどんなことを考えて論文書いてるのかって気になりませんか?(僕は気になります)
先ず隗より始めよということで、論文を書いていたり、Reviseで突っ込まれたところなどを備忘として残し共有することで、後続の方の参考になれば幸いです。

Introduction


帝王切開をめぐる現状

昨今、世界的に帝王切開率が上昇しています。
過去に行われたWHO(世界保健機関)の調査によると、一部の国では出産の50%以上が帝王切開で行われているそうです。

本邦においても帝王切開率は全国平均で18%を超え、特に高度医療機関においては37.3%にも達しています。
帝王切開は時に母子の命を救う重要な手術ですが、反復して行うことで以下のようなリスクが高まることが指摘されています。

・手術時間の延長
・重度の骨盤内癒着
・術中出血量の増加
・輸血の必要性の増加

長期的には不妊、ハイリスク妊娠、産後の過多月経、月経困難症などのリスクも指摘されており、女性のQOL(生活の質)に大きな影響を与える可能性があります。

TOLACの重要性と課題

帝王切開後の経膣分娩トライアル(Trial of Labor after Ceasarean section: TOLAC) は、反復帝王切開に伴うこれらのリスクを回避する有効な方法として注目されています。
成功した場合はVBAC (Vaginal Birth After Cesarean section)とよばれ、以下のようなメリットがあるとされています:

・母体の感染や発熱リスクの低下
・産後出血リスクの低下
・医療費の削減

しかし、TOLACには課題もあり、最大の懸念は子宮破裂のリスクです。
子宮破裂とは前回の帝王切開時の傷により薄くなった子宮筋層部分が破れることを言い、こうなってしまった場合は超緊急帝王切開が必要となってしまいます。
このような理由から、TOLACが失敗し緊急帝王切開となった場合は予定帝王切開よりも合併症のリスクが高くなる可能性が指摘されています。
そのため本邦では基本的に帝王切開をした方は次回の妊娠も帝王切開を行うことが多く、TOLACを行っている分娩施設は一部の医療機関に限られています。

先行研究の知見と限界

分娩開始から子宮口全開大までの時期を分娩第1期といい、子宮口全開大から児娩出までの時期を分娩第2期といいます(児娩出から胎盤娩出までの時期を分娩第3期といいます)。
これまでの研究で、TOLAC中の分娩所要時間、特に分娩第2期の長さが延長するとTOLAC中の子宮破裂が起きやすいことが知られていました。
しかし帝王切開により子宮に傷がある人の分娩所要時間を、帝王切開をしたことがない人と同様に考えてよいのかということに関するデータはありませんでした。
人情としては、子宮が切られていたら収縮力が弱まったりして分娩時間は延長しそうな気もします。
したがって、TOLACが分娩時間に与える影響を正確に評価することは臨床的に重要な問いです。

帝王切開を受ける女性は骨盤が狭かったり、血圧が上がりやすかったり、何かしら「帝王切開になりやすい特性」のようなものがあります。
TOLACを行う女性の分娩時間が変化した場合、このような特性の一部が分娩時間に影響したのか、それとも子宮筋に傷があることそのものが原因なのかを特定したいというのが今回の研究のモチベーションです。
一番いいのはランダム化比較試験を行うことですが、妊婦の方々をランダムに分けて方や帝王切開、方や経腟分娩として次の妊娠での分娩時間を見るなんて研究は、倫理的に到底許容されるものではありません。
ここに因果推論が入り込む余地があるわけです。

また、帝王切開を受けやすい特性のある女性は、当然TOLAC中にも帝王切開に移行する可能性が高いわけですが、そのような場合は経腟分娩にかかる時間は原理的に計測できないため、打ち切りとしないといけません。
過去にTOLACの分娩所要時間を調べた研究はあるものの、緊急帝王切開による打ち切りが考慮されていなかったり、母体の年齢や体形、胎児のサイズや分娩誘発などの処置を考慮に入れたものがなかったりすることが問題でした。
今回の研究は、そのような行間を埋めるものとなっています。

Methods


研究デザインと対象

この研究は後ろ向きコホート研究として設計し、2012年1月1日から2021年12月31日までの10年間、単一の医療機関で収集されたデータを使用しました。

対象となったのは以下の条件を満たす方です:

  • 妊娠37週0日から41週6日の単胎妊娠
  • 自然陣痛または分娩誘発を試みた症例

除外基準は以下です:

  • 予定された選択的帝王切開症例
  • 37週未満の早産例
  • 42週以降の過期産例
  • 子宮内胎児死亡(IUFD)例
  • 多胎妊娠例

データの定義と収集方法

データは日本産科婦人科学会周産期データベースの共通カテゴリに従って電子カルテから抽出し分類しました。

定義:
TOLAC群:過去に帝王切開歴がある患者
非TOLAC群:帝王切開歴のない患者
分娩時間:陣痛の開始から分娩終了までの総時間(分娩第一期と第二期を含む)
陣痛開始時間は妊婦さんの自己申告に基づいています。
例えば8月17日の20時頃から痛くなったと証言した方が8月18日の正午に分娩したとすれば分娩時間は16時間となる、といった具合です。

サンプルサイズの計算:
予想されるハザード比を0.80、αエラーを0.05、βエラーを0.20、脱落率を5%と仮定し、Schoenfeldの式:

$$D_S=\frac{(1+w)^2(z_{\alpha / 2}+z_\beta)^2}{{w(\log(HR)})^2}$$

を用いてサンプルサイズを計算しました。
生存時間解析におけるサンプルサイズ計算は

https://toukeier.hatenablog.com/entry/how-to-determine-sample-size-in-cox-proportional-hazard-model/

などを参照ください。
対象施設の2021年度の出生統計ではTOLACの比率が7%でしたので、この数字を用いて必要サンプルサイズを計算し、必要な症例数を3,007人と算出しました。
なお、一般にSchoenfeldの式はFreedman式

$$D_F=\frac{\left(z_{\alpha / 2}+z_\beta\right)^2(w \cdot H R+1)^2}{w(H R-1)^2}$$

よりも例数を少なく見積もることができることが利点とも欠点とも言われています。
これはハザード比を線形項として扱うかログスケールで扱うか、割り付け比wを使うか処置群の割合pを使うか、イベント率を考慮するかどうかに依ります。
参考までにFreedman式で計算すると、必要なサンプルサイズは3429人となります。

統計解析

データ処理と欠損値の扱い:
分娩時間に関するデータが欠損しているケースや、全データのうち25%以上の項目が欠損しているデータは除外しました。
基本的に分娩の都度携わったスタッフが分娩記録を記載しているため、データの欠損はあったとしてもランダムな欠損(MAR: Missing At Random)であると仮定しました。
従って、除外していない項目については多重代入法を用いて欠損値を補完しました。

傾向スコアの計算:
過去に分娩時間延長のリスクとして同定されている14の潜在的交絡因子(母体年齢、母体BMI、母体国籍、母体の経膣分娩歴、母体の喫煙歴、妊娠糖尿病、前期破水、胎児の性別、胎児の出生時体重、胎位、分娩誘発の有無、無痛分娩の有無、子宮底圧迫の有無、吸引分娩の有無)を含めた傾向スコアを設計しました。
傾向スコアの算出にはロジスティック回帰を用いています。
傾向スコアについては

https://qiita.com/satsat/items/bc95ffb41d41d6c57bee

https://www.slideshare.net/slideshow/ss-248615526/248615526

などを参照ください。

逆確率重み付け(IPTW):
TOLAC群は傾向スコアの逆数、非TOLAC群:(1-傾向スコアの逆数)として重みづけを行っています。
IPTWについては

https://qiita.com/s1ok69oo/items/ab9c80a353eb45fad78d

などを参照ください。
従って、今回推定しているのは平均処置効果(Average Treatment Effect:ATE) ということになります。
また、ここは議論が分かれるところだと思うのですが、今回は極端な重みによる数値的な不安定さを避けるため、上下1%の傾向スコアをトリミングしました。

生存時間解析:
Cox比例ハザード回帰分析を使用し、IPTWの適用前後でそれぞれハザード比を算出しました。生存曲線の比較にはLog-Rank検定を使用しています。

感度分析

異なる手法で一貫した結果が得られれば、研究結果の信頼性が高いと判断できます。
今回はプロペンシティスコアマッチング、ブートストラップ法(1000回の反復)、区間打ち切りの3つを行い、分析結果の頑健性を評価しました。

  1. プロペンシティスコアマッチング
    プロペンシティスコアマッチングは、TOLAC群と非TOLAC群の間で、背景因子が類似した参加者同士をペアにする方法です。
    各参加者の傾向スコア(TOLACを受ける確率)を計算し、TOLAC群の各参加者に対して最も近い傾向スコアを持つ非TOLAC群の参加者をマッチングします。マッチングされたペアのみを用いて分析することで、両群の背景因子をより均等にすることができます。
    ただし、マッチングによってサンプルサイズが減少するため、統計的検出力が低下する可能性があります。
    IPTWと傾向スコアは対象にしているものや利点・欠点が異なるため、別々の解析法で一貫して同じ傾向を示すことができればその結果は頑健であると考えることができます。
  2. ブートストラップ
    ブートストラップは、元のデータセットから繰り返し再サンプリングを行い、推定値の信頼区間を求める方法です。
    元のデータセットから同じサイズのサンプルをランダムに抽出し、抽出したサンプルに対してCox比例ハザード回帰分析を適用し、ハザード比を算出します。
    この過程を1000回繰り返し、得られた1000個のハザード比の分布から、95%信頼区間を計算しています。
    この方法はデータの分布に関する仮定が少なくて済み、推定値の安定性を評価することが可能です。
  3. 区間打ち切り
    今回の査読で最も突っ込まれたのが、分娩開始時間が自己申告制であるため、想起バイアスが生じる可能性があったことです。先の例では、8月17日の20時頃から痛くなったと証言した方は本当に20時から痛くなったのか?という部分に疑問の余地があります。そこで、区間打ち切りを仮定した感度分析も行いました。
    区間打ち切りはイベント(この場合は陣痛開始)の正確な時間が不明で、ある時間区間内で発生したことだけがわかっている場合に用いる手法です。
    今回の場合、分娩時間は病院のスタッフが正確に記録を残していたため、陣痛の開始(≒分娩時間の開始)時点のみが不正確である恐れがありました。
    そこで、報告された陣痛開始時間を中心とした時間区間(下限:報告時間 – 指定時間、上限:報告時間 + 指定時間)を設定し、3つの異なる時間幅(±4時間、±8時間、±12時間)とした場合にハザード比がどのように変化するかを検討しました。
    このようにすることで、陣痛開始時間の不確実性を考慮に入れられ、結果のロバストネスを確認することができます。ただし、経産婦さんなどでは分娩時間が6時間など短い方もいらっしゃるため、計算した下限時間が負の値になる場合は0.1時間に丸めて非負の生存時間を確保しました。

結果


3,707人の女性のうち、723人の女性が除外基準に当てはまり、20人の女性が分娩時間のデータ欠損のため除外されたため、2,964人の女性が解析に組み込まれました。
そのうちTOLAC群は187人 (6.3%)、非TOLAC群は2,777人 (93.7%)でした。
緊急帝王切開による打ち切りはTOLAC群で46人、非TOLAC群で107人でした。

TOLAC群のほうが高齢で、妊娠糖尿病の割合、吸引分娩の割合、緊急帝王切開の割合が高く、非TOLAC群のほうが経膣分娩歴を持つ割合、分娩誘発の割合、子宮底圧迫の割合が高い傾向がありました。

傾向スコアのROC曲線下面積 (AUC)は0.80 (95% CI: 0.77–0.84)で、傾向スコアモデルの判別能力はまずまず良好であることがわかりました。
傾向スコアのカーネル密度プロットもある程度重なっていることが確認できました。

IPTW適用前のハザード比 (HR)は0.83 (95% CI: 0.70–0.98, P = 0.027)で、TOLAC群は非TOLAC群と比較して分娩時間が有意に長い傾向にありました。

しかし、IPTW適用後のHRは0.98 (95% CI: 0.74–1.30, P = 0.91)で、TOLAC群と非TOLAC群の間で、分娩時間に有意な差は認めなくなりました。

プロペンシティスコアマッチングを行った後のHRは1.02 (95% CI: 0.81–1.28, P = 0.88)で、IPTW適用後の主解析結果と一致しました。
ブートストラップ法による解析では、IPTW適用前のHRは0.83 (95% CI: 0.70–0.97)でしたが、IPTW適用後はHR 1.07 (95% CI: 0.87–1.33)で、やはり同様の傾向でした。
区間打ち切りによる解析では、IPTW適用前は区間幅が広がるほどTOLAC群の分娩時間が長くなる傾向がありました(±4時間:HR 0.68 (95% CI: 0.48–0.97, P = 0.031)、±8時間:HR 0.45 (95% CI: 0.24–0.83, P = 0.011)、±12時間:HR 0.40 (95% CI: 0.20–0.79, P = 0.008))が、IPTW適用後は、陣痛開始時間の不確実性を考慮しても群間で有意差がない結果となりました。(±4時間:HR 1.00 (95% CI: 0.90–1.11, P = 0.96)、±8時間:HR 1.05 (95% CI: 0.87–1.27, P = 0.63)、±12時間:HR 1.23 (95% CI: 0.99–1.51, P = 0.06))

考察


今回の研究において、交絡因子の調整前はTOLAC群は非TOLAC群と比較して分娩時間が延長する傾向にありましたが、交絡因子を調整すると、TOLAC群と非TOLAC群の間での分娩時間の差がなくなりました。
これらの結果は、複数の感度分析でも一貫していました。

このことから、TOLAC群で観察された分娩時間の延長は、帝王切開の既往そのものよりも他の母体・胎児因子(母体年齢、経腟分娩歴の有無、胎児の体重など)に起因する可能性が高く、帝王切開の既往自体は分娩時間に大きな影響を与えない可能性が示唆されました。

過去の研究では、TOLAC群の分娩第一期の所要時間は非TOLAC群と差がないことが報告されていた一方で、分娩第二期はTOLAC群の方がわずかに延長する傾向があるとされていました。
今回の研究では、交絡因子を適切に調整することで、全体の分娩時間に有意差がないことを示し、第二期の差が帝王切開創以外の要因に起因する可能性を示した点で新規性があります。

研究の強みと限界は以下のようにまとめられます。

研究の強み

14の潜在的交絡因子を考慮した傾向スコアを使用。
逆確率重み付け(IPTW)法によるバイアスの最小化。
緊急帝王切開による打ち切りを考慮した生存時間分析の実施。
複数の感度分析(傾向スコアマッチング、ブートストラップ法、区間打ち切り)による結果の頑健性の確認。

研究の限界

単一施設での後ろ向き研究であるため、一般化可能性に制限がある。
TOLAC群の前回帝王切開の理由に関するデータが不足している。
分娩開始時刻の自己申告による想起バイアスの可能性が(区間打ち切りの解析を行った後でもなお)残る。
10年分のデータを使用しているため、この期間での臨床的なプラクティスに変化があった可能性があり、それが結果に影響を与えている可能性がある。
分娩第一期と第二期を分けて評価できていない。

所感

医学領域でもRCTはゴールドスタンダードであることは変わりありませんが、実際は倫理的な部分でデザインすら組みにくいことが多くあります。
特に産婦人科、小児科領域は扱う対象がよりセンシティブであり、そのためなのか内科領域などに比べるとやや遅れているように個人的には思います。
しかし実際にそこに患者はいるわけで、エビデンスの狭間で悩みながら臨床を行うことも日々多くあります。

「因果推論って結局仮定の話じゃんね」、「RCTじゃないとエビデンスとは言えないよ」みたいなご意見はその通りだと思いますし、疫学で流行してるTarget Trial Emulationみたいなものも挑戦してみたいなという気持ちもありますが、同じテーマについていろんな人がいろんなデータでいろんな解析をして、似たような結果が積み重なってやっぱりこの結果が正しいみたいだよってなるのが巨人の肩の上ってことなのかなあと思います。医学領域は特に。
正直今回の研究もあーしておけばよかったこうしておけばよかったとかいろいろあるし拙いなあとも思うところもありますが、せめて巨人の垢くらいにはなれそうな研究を今後もしていきたいなと思います。

最終更新: