写真 1 枚から 3D スプラットへ — Apple の LiTo を WebXR で
12:00 JSTLiTo(Surface Light Field Tokenization)は ICLR 2026 に採択された Apple Machine Learning Research のプロジェクトで、写真 1 枚から 3D オブジェクトを生成します。多くの画像→3D 手法と異なり、視点依存の見え方 — 鏡面ハイライト、反射、フレネル効果 — を、ジオメトリとライティングを明確に分離したまま捉えます。ネイティブ出力は 3D ガウシアンスプラットで、これまで扱ってきたスプラット→XR のパイプラインと自然に噛み合います。
実態を正しく押さえる
何かを積み上げる前に、ツールの正体を正確に押さえます。LiTo は PyTorch の研究用コードベースで、2 つのモデル(点群トークナイザーと画像→3D の拡散トランスフォーマー)に加え、学習済みチェックポイントと実行可能な FastAPI デモを含みます(リポジトリ、論文)。Apple が公開しているものの、Swift ライブラリでも Core ML モデルでも visionOS コンポーネントでもなく、リポジトリに Apple プラットフォーム向けのコードは含まれていません。
また GPU 負荷が高く、1 枚あたり H100 で約 5 秒、M4 Max で約 160 秒です。Apple Silicon でも動きますが、端末上ではなくワークステーション/クラウド向けのモデルです。
ライセンス: LiTo は Apple の研究用サンプルコードライセンス(MIT/BSD/Apache ではない)で提供され、モデルの重み(LICENSE_MODEL)と生成サンプル(LICENSE_generated_samples)には別途の条件があります。条件を確認しない限り出力は研究用途とみなし、そのまま製品に載せられると考えないでください。
現実的なパイプライン:画像 → スプラット → WebXR
XR との誠実な接点は、Apple プラットフォーム統合ではなく出力形式を経由します。
- LiTo のデモをローカル(Apple Silicon でも、遅いながら動作)またはレンタルの NVIDIA GPU で実行し、画像 1 枚を入力します。
- 結果をガウシアンスプラットの
.plyとして書き出します。再構成ノートブックは PLY を直接保存し、コミュニティ製の ComfyUI ラッパーは「PLY 書き出し」ノードを追加して 1 枚の画像→スプラットの流れを提供します。 - その PLY を WebXR スプラットレンダラーで読み込みます。ヘッドセット対応ビューアーを公開するなら SuperSplat、コードレベルで作るなら Spark や Babylon.js。いずれも Quest 3 ブラウザと Vision Pro Safari(機能フラグで WebXR を有効化)で動作します。
これは具体的に作れるデモです。1 枚の写真が、LiTo の視点依存ライティングを保ったまま、ヘッドセットの中で歩き回れるスプラットになります。
Vision Pro の注意点
LiTo のコンテンツを Apple Vision Pro にネイティブで載せるのは、難しく、損失を伴う部分です。RealityKit と PolySpatial にはネイティブのガウシアンスプラットレンダラーがなく、LiTo も変換を提供しません。2 つの経路はどちらもコストを伴います。
- サードパーティの Metal スプラットレンダラー(例:MetalSplatter) — スプラットを保てますが、Apple 標準フレームワークの外で Swift/Metal の実装が必要です。
- スプラットをテクスチャ付きメッシュ → USDZ に変換 — RealityKit にきれいに載りますが、LiTo の核心である視点依存ライティングを捨てることになります。
したがって Vision Pro は注意付きのストレッチ目標と捉えてください。確実で実演可能な成果は 1 枚の画像 → LiTo スプラット → WebXR で、これはヘッドセットのブラウザで今日動きます。
注意点
- Apple Vision Pro / Core ML 用ツールではありません。 Apple Research のリポジトリだからといって AVP 用ツールにはなりません。端末上で動く経路を持たないサーバー級の PyTorch です。
- 研究ライセンスであり、オープンソースではありません。 出力を再利用する前に
LICENSE・LICENSE_MODEL・LICENSE_generated_samplesを確認してください。 - 重いです。 データセンター GPU で数秒、ノート PC で数分。計算資源を見越して計画してください。
- スプラット配信の前提は常に同じ: ヘッドセットのフレームレートに合わせてガウシアン数を抑え、取り込み時の向き補正に備えます。
関連リンク
- LiTo プロジェクトページ(インタラクティブ 3DGS デモ) ・ Apple ML Research
- apple/ml-lito リポジトリ ・ 論文(arXiv)
- ComfyUI-LiTo(1 枚の画像 → スプラット → PLY)
- SuperSplat ・ Spark ・ Babylon.js ガウシアンスプラッティング
- MetalSplatter(visionOS ネイティブ)
- スマホで撮るガウシアンスプラット — Scaniverse から WebXR と Godot へ — 撮影ベースの対になる記事
- Image-blaster → エンジン → ヘッドセット — もう一つの AI アセット→XR 経路
- ハッカソン詳細 — 参加資格、チーム編成、AI ポリシー
- Luma で参加登録
ご質問はお問い合わせページからどうぞ。