wan2.1のローカル環境構築から使い方を徹底解説｜RTX5000シリーズでおきるエラー解決方法

2025年8月20日

ローカルで高品質の動画を生成できる驚きのアプリケーションがアリババからリリースされました。

この驚きの動画生成AI「wan2.1」をローカルで使いたい方へ、Wan2.1の機能や環境構築方法、ワークフローの工夫からRTX5000シリーズで起きやすいエラーと解決方法までをわかりやすく解説します。

この記事でわかること

Wan2.1はなにがすごいのか？
環境構築方法やセットアップ手順
RTX5000シリーズで起きるエラーと解決策
ComfyUIを使ったワークフロー構築の方法
LoRA対応による拡張と活用の仕方
利用料金やライセンスに関する注意点
DiscordやGoogle Colabで使用する方法

【ブラックパッケージ】XFX Swift AMD Radeon™ RX 9070XT Triple Fan Gaming Edition トリプルファンゲーミングエディション RX-97TSWF3B9-1Y 国内正規品

(5387)

￥102,800 (2025年12月1日 02:53 GMT +09:00 時点 - )

【ブラックパッケージ】XFX Swift AMD Radeon™ RX 9060 XT OC 16GB Gaming EditionゲーミングエディションRX-96TSW16BQ-1Y国内正規品

(5501)

只今、価格を取得しています。

(2025年12月1日 02:53 GMT +09:00 時点 - )

【ブラックパッケージ】XFX Swift AMD Radeon™ RX 9070XT White Triple Fan Gaming Edition トリプルファンゲーミングエディション RX-97TSWF3W9-1Y 国内正規品

(5502)

￥104,800 (2025年12月1日 02:53 GMT +09:00 時点 - )

【ブラックパッケージ】XFX Swift AMD Radeon™ RX 9060 XT OC 16GB White Gaming EditionホワイトゲーミングエディションRX-96TSW16WQ-1Y国内正規品

￥57,800 (2025年12月1日 02:53 GMT +09:00 時点 - )

【ブラックパッケージ】XFX Swift AMD Radeon™ RX 9060XT OC White Triple Fan Gaming Edition with 16GBホワイトトリプルファンゲーミングエディションRX-96TS316W7-1Y国内正規品

只今、価格を取得しています。

(2025年12月1日 02:53 GMT +09:00 時点 - )

wan2.1 をローカルで使う方法と環境構築手順

Wan2.1の機能とは？

Wan2.1は高性能な生成系モデルで、ローカル環境でも高品質な動画を生成できるアプリです。具体的には次のような機能があります。

高解像度の画像生成
テキストからの自然な変換
LoRAや外部プラグインとの連携

動画生成に当たり速度重視、品質重視など様々なモデルがあります。

実際にWan2.1で生成した動画

この動画は日本語でプロンプトを書いて生成した動画です。

プロンプトは日本語で「リアルテイスト、パティシエの服装の猫がホールケーキを作っている。アメリカ家庭のキッチン」と短めで720ｐで生成しました。５秒の生成でも20分ほどかかりました。

Wan2.1はなにがすごい？

Wan2.1が注目される理由は以下の点です。

ローカル動作でクラウド依存がない
高速な処理能力でリアルタイム利用が可能
ユーザー自身の環境に合わせた柔軟なカスタマイズ

特に、オフラインでも利用できる点が多くのユーザーにとって魅力ですが、なんといってもSoraなどと違い、Loraなどで自分でカスタマイズ・コントロールして動画を少ないGPUで生成できる環境を構築できることです。

動作環境を満たすための要件

wan2.1を快適に利用するためには、推奨される動作環境を確認する必要があります。

項目	推奨環境
GPU	RTX3000シリーズ以上
VRAM	6GBから生成可能高画質は12GB以上推奨
OS	Windows10以降、Linux最新環境
RAM	32GB以上推奨

上記を満たしていない場合、動作が不安定になる可能性があります。

wan2.1をローカル環境でのセットアップする手順

セットアップの流れは次の通りです。

Pythonと依存ライブラリのインストール
Wan2.1モデルのダウンロード
環境変数の設定
実行確認と動作テスト

この流れを踏むことでスムーズに利用を始められます。私はPinokio.coという多くのAIアプリを統合管理できるアプリでインストールしました。

Pinokio.coでインストールするメリットはクリックするだけで環境を構築できることで、コマンド入力が苦手な人でも簡単にAIソフトをインストールすることができます。

Pinokio.coに関してはこちら

Director Life

Stable Diffusionのローカル環境を簡単構築するpinokio.co | Director Life Stable Diffusionをローカル環境構築にはアプリ以外にもpythonのパッケージダウンロードなどPC初心者では触れたこと無い部分やエラーへの対処が難しい面があります。しか…

Pinokio.coでWan2.1をインストールする手順

自分のPCにインストールした時の環境

CPU	AMD Ryzen 7 7700
GPU	RTX 5070ti
メモリ	32GB
ストレージ	1TB

STEP

Pinokioのブラウザマークをクリックする

ホームの画面右上の地球マークをクリックしてAIアプリ一覧を探せるページに移動する

STEP

Wanを選択する

選択するとインストールボタンがあるのでクリックしてインストールをする。インストール画面がでるので終わるまで待つ

STEP

インストールが完了するとUIが表示できるようになる

インストールが終わったらスタートボタンをクリックしUIが立ち上がることを確認する

Wan2.1のRTX5000シリーズでおきるエラーと解決方法

RTX5000シリーズ特有のエラーが報告されているようで私も5070tiを使用しているため下の画像のようなエラー文が出て動画の生成に失敗しました。

エラー文の内容

"The generation of the video has encountered an error, please check your terminal for more information. 'SM89 kernel is not available. Make sure you have GPUs with compute capability 8.9.'"

エラー文を直訳すると

「動画の生成中にエラーが発生しました。詳細については端末を確認してください。『SM89 カーネルが利用できません。計算能力 8.9 を持つ GPU が搭載されていることを確認してください。』」

どういうことかというとRTX5000シリーズ（Blackwell）に合わせたカーネル（オペレーティングシステム (OS) の中心的な部分）が不足しているため動かないという状態でした。

私の使用している5070 Ti は Blackwell 世代のためエラーが発生に直面しました。
NVIDIA公式の CC（Compute Capability）一覧では GeForce RTX 5070 Ti は CC 12.0 に分類されています。つまり、デフォルトでインストールされた状態ではSM89（8.9）専用でビルドされた SageAttentionなのでCC 12.0のSageAttention を入れ直す必要がでました。

この作業は自己責任で行ってください。

私はアプリケーション開発の専門家ではないので、下記のURLを参考にChatGPTに投げかけながらSageAttentionのフォルダを削除してインストールしなおしました。

参考元：https://github.com/deepbeepmeep/Wan2GP/issues/746

これでWan2.1で無事動画を生成することができました。

Wan2.1の基本的な使い方

Wan2.1の基本的な使い方は次の３ステップになります

モデルを選ぶ
プロンプトを入力する
生成ボタンを押す

Stable diffusionを触ったことがある方ならネガティブプロンプトからSEED値などイメージしやすい項目もあるので操作に苦労することは少なそうです。

基本的には画像生成と同じで、はじめはスピード重視のモデルで数多く生成してよさそうなSEED値をみつけたらそれを高画質モデルで生成しなおすといった流れになるかと思います。

ただ、画像生成と違って動画生成は時間がかかるのがネックになります。

モデルの特徴と早見表

Wanには多くのモデルがあり、それぞれ特徴があります。まずはモデル別の特徴を確認して自身のPCスペックと用途にあったモデルを選ぶようにします。

用途別早見表

用途	推奨モデル	補足
生成速度重視	LTX Video 13B Distilled Wan 2.1 T2V 1.3B CausVid Lora	高速・生成テスト向き
最高品質	Hunyuan Video Wan 2.1 T2V 14B Wan Vace 14B	本番動画向け
高度制御	Wan Vace 1.3B / 14B Phantom FantasySpeaking	モーショントランスファー、音声同期
長尺動画	LTX Video 13B Sky Reels v2 Wan Vace＋Sliding Windows	長編・連続生成
低スペック環境	Wan Fun InP 1.3B Wan 2.1 T2V 1.3B Wan Vace 1.3B	VRAM 6GB でも可

グラボのVRAM量別に適したモデル

VRAM	推奨モデル	特徴
6–8GB	Wan 2.1 T2V 1.3B Wan Fun InP 1.3B Wan Vace 1.3B	軽量、試作用、低スペック対応
10–12GB	Wan 2.1 T2V 14B Wan Fun InP 14B Hunyuan Video（最適化） LTX Video 13B	高品質生成が可能
16GB+	全モデル利用可	長尺、複数 Lora 同時利用
20GB+	MoviiGen（実験的）	1080p、最長・最高品質

初心者向け

はじめて使う場合 → Wan 2.1 T2V 1.3B（軽くて速い）
本番品質を求める場合 → Hunyuan Video or Wan 14B
とにかく速く試したい場合 → LTX Video 13B Distilled or CausVid Lora
特殊用途 → VACE（制御）、FantasySpeaking（リップシンク）、LTX（長尺）

性能比較（概要）

速度: CausVid Lora > LTX Distilled > Wan 1.3B > Wan 14B > Hunyuan > MoviiGen
品質: Hunyuan > Wan 14B > LTX > Wan 1.3B > CausVid
VRAM効率: Wan 1.3B > LTX（最適化版） > Wan 14B > Hunyuan > MoviiGen

各モデルの特徴と詳細説明

Wan 2.1 Text2Video 1.3B

パラメータ数: 13億
VRAM: 最低 6GB
速度: 高速生成
品質: サイズに対して良好
最適用途: クイック反復、低スペック環境
コマンド: python wgp.py --t2v-1-3B

Wan 2.1 Text2Video 14B

パラメータ数: 140億
VRAM: 推奨 12GB 以上
速度: 遅いが高品質
品質: 優れたディテールと一貫性
最適用途: 最終的なプロダクション動画
コマンド: python wgp.py --t2v-14B

Wan Vace 1.3B

種類: 高度な動画制御用 ControlNet
VRAM: 最低 6GB
特徴: モーショントランスファー、オブジェクト注入、インペインティング
用途: 高度な動画操作
コマンド: python wgp.py --vace-1.3B

Wan Vace 14B

種類: 大規模 ControlNet モデル
VRAM: 推奨 12GB 以上
特徴: 全 Vace 機能を高品質で利用可能
用途: プロ向け動画編集ワークフロー

MoviiGen（実験的）

解像度: 1080p を目標
VRAM: 必要 20GB 以上
速度: 非常に遅い生成
特徴: シネマ品質の動画生成（2.1 / 1 比率に特化）
ステータス: 実験的、フィードバック歓迎

Wan 2.1 Image2Video 14B

パラメータ数: 140億
VRAM: 推奨 12GB 以上
速度: 遅いが高品質
品質: 優れたディテールと一貫性
最適用途: Lora の多くが対応
コマンド: python wgp.py --i2v-14B

FLF2V

種類: 始点／終点フレーム特化
解像度: 720p 最適化
サポート: Wan チーム公式
用途: 特定の始点・終点を持つ画像から動画化

Wan 2.1 特殊モデル

Multitalk: 2人までのリップシンク／音声駆動アニメーション
FantasySpeaking: 人や物体のリップシンクアニメーション
Phantom: 人や物体の転写（720p、30ステップ以上推奨）
Recam Master: 別視点生成（81フレーム以上必要）
Sky Reels v2 Diffusion: 「無限長」動画生成に特化

Wan Fun InP 1.3B

パラメータ数: 13億
VRAM: 最低 6GB
品質: サイズに対して良好
用途: エントリーレベルの画像アニメーション
コマンド: python wgp.py --i2v-1-3B

Wan Fun InP 14B

パラメータ数: 140億
VRAM: 推奨 12GB 以上
品質: より優れた最終画像サポート
制限: 既存の Lora との相性が良くない

Hunyuan Video モデル

Hunyuan Video Text2Video: オープンソース T2V モデル最高クラスの品質、最大 10 秒生成
Hunyuan Video Custom: 特定人物の注入に特化、キャラクターの一貫性に優れる
Hunyuan Video Avatar: 最大 15 秒の高品質音声／歌声同期動画生成

LTX Video モデル

LTX Video 13B: 長尺動画用、720p 高速生成、VRAM 要件 4 倍削減
LTX Video 13B Distilled: 1 分以内で生成、高速かつ高品質

モデルを理解したら次はUIの解説をします。

Wan2.1の管理画面の解説

モデルの選択項目
プロンプト入力欄
画質と動画比率の切り替え
詳細設定機能
生成開始ボタン

①モデルの選択項目の解説

Wanのバージョンや動画生成モデルの切り替えを行えます。最新はWan2.2になります。

モデルの解説にも書きましたが、テキストから動画を生成するモデルや画像から動画を生成するモデルなどいろいろあり、どんな動画を生成したいのかを選びます。
またモデルバージョンによって選べるモデル数に違いがあります。

②プロンプト入力欄

Wan2.1では日本語でプロンプトに対応しておりSoraAIのように気楽に動画生成ができます。
しかし日本独特の表現などはほかのAIソフト同様に理解できないのでより厳密に生成をするなら翻訳サイトを利用して英語プロンプトで生成するのが良いです。

③画質と動画比率の切り替え

動画の画質を選択できます。最高で1080pまで生成できます。

動画比率として正方形からスマホサイズまで選択できます。

④詳細設定機能

アドバンスモードという項目にチェックを入れると詳細な設定をできるエリアが表示されます。

動画のサンプラーも選択できる項目があります。

Loraやネガティブプロンプトを入力する箇所や音楽を入れることもできます。

次は実際にプロンプトを入力して動画を生成してみます。

プロンプト：リアルテイスト、アロハシャツに麦わら帽子を被ったゴールデンハムスターがビーチで日光浴をしている。

Realistic taste, a golden hamster wearing an aloha shirt and a straw hat is sunbathing on the beach.

生成した動画がこちら

今度は人間を生成してみることにしました。

プロンプト：アジア人女性二人、オフィスカジュアルな服装で笑いながら会話している。

Two Asian women dressed in office casual attire are laughing and talking.

生成時間: 9m 58s

動きを加えると破綻が見えた、特に手や指がおかしいのであたりのSEED値をさがすかネガティブプロンプトをしっかり入力する必要がありそう。

ComfyUIでのワークフロー構築方法

＊現在動作をテスト中、後日追記予定

ComfyUIを利用すれば、直感的にカスタマイズができワークフローを詳細に組み立てられるようです。

モジュールをドラッグ＆ドロップ
ノード同士を接続して処理を可視化
条件分岐やループを設定可能

可視的なフロー設計により、複雑なプロセスも理解しやすくなります。

wan2.1をローカルでの使い方をさらに便利にする方法

LoRA対応による拡張と活用
料金プランと利用可能な範囲
ライセンスに関する注意点
ディスコードを通じたサポートの活用
Discordチャンネルから利用する方法
GoogleColabで利用する方法の選択肢
wan2.1 ローカル使い方のまとめ

LoRA対応による拡張と活用

Lorasを使えば「スタイル追加」「キャラクター再現」「動画高速化」が可能
Multiplier と プリセット を活用すれば柔軟かつ効率的
Accelerator Lora を組み合わせることで大幅に時間短縮できる

Wan2.1ではLoRAをLorasと呼称しており、機能も同じようになっています。以後Lorasと呼びます。

動画生成をもっと自分好みにカスタマイズしたい！
そんなときに役立つのが Loras（Low-Rank Adaptations） です。

Loras を使えば、WanGP のモデルに「特定のスタイル」「キャラクター」「効果」を簡単に追加できます。導入方法から使い方・応用テクニックまでをわかりやすく解説します。

Lorasの基本とディレクトリ構造

Loraファイルは、対象モデルごとにフォルダに配置します。

Text-to-Video (T2V) → loras/, loras/1.3B/, loras/14B/
Image-to-Video (I2V) → loras_i2v/
Hunyuan モデル → loras_hunyuan/, loras_hunyuan_i2v/
LTX Video → loras_ltxv/
Flux → loras_flux/

Loras の使い方

Loraファイルをフォルダに配置
WanGPを起動
Advanced → Loras セクションを開く
使いたいLoraにチェック
Multiplier（倍率） を設定（初期値は 1.0）

⑤Multiplierの設定方法について

倍率は「どのくらいLoraを効かせるか」を決めるものです。いろいろな設定方法があります。

単純な倍率 1.2 0.8 → Lora1: 強め、Lora2: 弱め
時間ベース（ステップごとに変化） 0.9,0.8,0.7 → 生成の進行に合わせて効果が変化
Wan 2.2 特有（High Noise / Low Noise フェーズ分け） 0;1 → High Noise 無効、Low Noise 有効

Loraプリセットで手軽に再利用

同じテイストで動画を生成する人には毎回数値を設定するのが面倒だと思います。
そこで便利なのが プリセット機能。このファイルを作っておけば毎回の起動時の設定を効率よく、または昔作ったテイストを試したいときにもすぐに反映できて楽です。

Lora＋倍率＋プロンプトを .lset ファイルとして保存
起動時に読み込み可能
Web UI から編集・削除・共有もOK

Loras Accelerators – 高速化の秘密

一部のLoraは 生成を高速化 するために設計されています。
代表的なものは以下の通り

名前	特徴	生成ステップ
FusioniX	複数加速器＋スタイル統合、品質も向上	8–10
Safe-Forcing lightx2v	2ステップ生成可、2倍速	2–8
CausVid	4–12ステップ生成、2倍速	12（推奨）
AccVid	cfg=1で動作、通常より高速	通常と同じ

特によさげな生成結果を探すために大量生成したい場合に「CausVid Lora」がよく選ばれています。

その他パフォーマンス向上のコツ

アプリ再起動なしで追加／削除可能
--check-loras で非互換ファイルをフィルタ
Loraはオンデマンドで読み込み → VRAM節約
複数同時使用もOK
探すなら Civitai / HuggingFace / Discord
作成するなら Kohya / OneTrainer / 自作データセット

よくあるトラブル

Loraが効かない → モデルサイズ（1.3B / 14B）や形式を確認
処理が重い → 有効Loraを減らす / 倍率を下げる
メモリエラー → 小さいモデルを選ぶ / 解像度を下げる / 量子化を有効化

WanGP を使いこなすなら、Loras の理解は必須！
ぜひ試して、あなたの作品に個性とスピードを加えてください。

料金プランと利用可能な範囲

wan2.1自体はオープンソースで提供されているため無料です。

ライセンスに関する注意点

商用利用の可否や配布制限は、利用規約に従う必要があります。特に商用で利用する場合には、必ずライセンス条項を確認することが欠かせません。

Discordチャンネルから利用する方法

一部の機能はDiscordチャンネル経由で利用可能です。環境構築が難しい人にとっては手軽な選択肢になりますが個人で運営されているチャンネルしか見当たらなかったのでここに掲載はしません。ご自身で見つけた場合も注意して参加してください（クレジット制で料金を請求される可能性がある）。

Wanの運営に直接問い合わせたい場合は運営のディスコードにメッセージを送ってください。
https://discord.com/invite/AKNgpMK4Yj

GoogleColabで利用する方法の選択肢

GoogleColabを活用することで、ローカル環境が整っていなくても利用できます。ただし、Colab環境の制約があるため、処理速度や保存領域に注意が必要です。

この記事ではローカル環境構築について記述しているためColab環境に関しては言及しません。

wan2.1 ローカル使い方のまとめ

Wan2.1の基本機能を理解することが鍵
高速処理や柔軟なカスタマイズが魅力
動作環境を満たして安定稼働を実現
RTX5000シリーズ特有のエラー対策
ComfyUIで直感的なワークフロー構築が可能
LoRAで表現力をさらに拡張できる
ライセンス確認で商用利用のリスクを回避
Discordコミュニティを活用して疑問を解決
Discordチャンネル経由で環境構築不要の利用も可能
GoogleColabで手軽に始められる選択肢がある
wan2.1 ローカル使い方を理解すれば効率的な作業が可能
自分に合った利用方法を見極めてモデル選択をして生成時間を節約する
継続的なアップデートでさらに快適な利用が期待できる

情報をもっと得たい方向けにコミュニティの様子や作例などがRedditで確認できます。

https://www.reddit.com/r/comfyui/comments/1jno096/wan_released_videotovideo_control_loras_some

URLをコピーしました！

URLをコピーしました！

Stable diffusionおすすめデスクトップPC選び方と推奨スペック

wan2.1のローカル環境構築から使い方を徹底解説｜RTX5000シリーズでおきるエラー解決方法

wan2.1 をローカルで使う方法と環境構築手順

Wan2.1の機能とは？

実際にWan2.1で生成した動画

Wan2.1はなにがすごい？

動作環境を満たすための要件

wan2.1をローカル環境でのセットアップする手順

Pinokio.coでWan2.1をインストールする手順

Wan2.1のRTX5000シリーズでおきるエラーと解決方法

Wan2.1の基本的な使い方

モデルの特徴と早見表

初心者向け

性能比較（概要）

Wan2.1の管理画面の解説

①モデルの選択項目の解説

②プロンプト入力欄

③画質と動画比率の切り替え

④詳細設定機能

ComfyUIでのワークフロー構築方法

wan2.1をローカルでの使い方をさらに便利にする方法

LoRA対応による拡張と活用

Lorasの基本とディレクトリ構造

Loras の使い方

Loraプリセットで手軽に再利用

Loras Accelerators – 高速化の秘密

その他パフォーマンス向上のコツ

よくあるトラブル

料金プランと利用可能な範囲

ライセンスに関する注意点

Discordチャンネルから利用する方法

GoogleColabで利用する方法の選択肢

wan2.1 ローカル 使い方のまとめ

関連記事

wan2.1 ローカル使い方のまとめ