メインコンテンツへスキップ

ControlNet

ControlNetとは、Stable Diffusionなどの画像生成AIに追加の制御情報を与えて、より精密で意図した画像を生成するための拡張技術である。

ControlNetの基本概念
#

定義と目的
#

ControlNetは条件付き画像生成を実現する技術で、テキストプロンプトだけでは困難な構図、ポーズ、形状、エッジなどの具体的な制御を可能にする。

仕組み
#

既存のStable Diffusionモデルに追加のネットワークとして接続し、参照画像から抽出した制御情報(エッジ、深度、ポーズなど)を基に画像生成を誘導する。

主要なControlNetモデル
#

1. Canny
#

特徴: エッジ検出による輪郭制御

  • 用途: 線画やスケッチからの画像生成
  • 制御内容: オブジェクトの輪郭や境界線
  • 適用例: 建築物の線画から写実的な建物を生成

2. OpenPose
#

特徴: 人体のポーズ制御

  • 用途: 特定のポーズを持つ人物画像生成
  • 制御内容: 関節位置、手足の角度、体の向き
  • 適用例: スポーツ選手の動作を別のキャラクターで再現

3. Depth
#

特徴: 深度情報による立体構造制御

  • 用途: 3D空間の奥行き感を保持した画像生成
  • 制御内容: オブジェクトの前後関係、距離感
  • 適用例: 部屋の奥行きを保ったまま内装を変更

4. Normal Map
#

特徴: 表面の法線情報による質感制御

  • 用途: 物体の表面の凹凸や質感制御
  • 制御内容: 表面の向き、光の反射方向
  • 適用例: 彫刻の質感を保ったまま素材を変更

5. Scribble
#

特徴: 手描きスケッチからの制御

  • 用途: ラフな手描き線画からの画像生成
  • 制御内容: 大まかな形状や配置
  • 適用例: 簡単な落書きから完成されたイラスト生成

6. Lineart
#

特徴: 線画による詳細制御

  • 用途: アニメ線画やイラスト線画からの着色
  • 制御内容: 正確な線画情報
  • 適用例: モノクロ線画のカラーリング

7. Segmentation
#

特徴: 領域分割による部分制御

  • 用途: 画像の各部分(空、建物、人物など)の個別制御
  • 制御内容: セマンティックな領域情報
  • 適用例: 風景写真の空だけを変更

8. IP-Adapter (Image Prompt)
#

特徴: 参照画像のスタイル適用

  • 用途: 特定の画像のスタイルや雰囲気を他の画像に適用
  • 制御内容: 色調、画風、雰囲気
  • 適用例: 有名絵画のスタイルで新しい画像を生成

ControlNetの使用方法
#

WebUIでの基本設定
#

1. ControlNet拡張機能をインストール
2. 制御用参照画像をアップロード
3. 使用するControlNetモデルを選択
4. Weight(影響度)を調整(通常0.5-1.5)
5. 通常のプロンプトと組み合わせて生成

ComfyUIでの使用
#

Load ControlNet Model → Apply ControlNet → KSampler
    Preprocess Image

設定パラメータ
#

Weight(重み)
#

  • 0.5-0.8: 軽い制御、自然な変化を許可
  • 0.8-1.2: 標準的な制御
  • 1.2-1.5: 強い制御、厳密に従う

Guidance Start/End
#

  • Start: 制御開始タイミング(通常0.0)
  • End: 制御終了タイミング(通常1.0)

Control Mode
#

  • Balanced: バランス型制御
  • My prompt is more important: プロンプト優先
  • ControlNet is more important: 制御情報優先

関連記事

ComfyUI

ComfyUIは、Stable Diffusionなどの拡散モデルを使用した画像生成のためのノードベースUIである。 ComfyUI | Generate video, images, 3D, audio with AI ComfyUIの基本概念 # ノードベースワークフロー # ComfyUIは従来のテキストボックス形式ではなく、ノード(節点)を線で繋ぐ方式でワークフローを構築する。各ノードが特定の機能を持ち、それらを組み合わせて複雑な画像生成プロセスを作成できる。 基本的なノード構成 # 入力系ノード # Checkpoint Loader: モデル(チェックポイント)を読み込む CLIP Text Encode: プロンプトをテキストエンコーディングする Empty Latent Image: 生成する画像のサイズを指定 処理系ノード # KSampler: 実際の画像生成(サンプリング)を行う VAE Decode: 潜在空間から画像に変換 LoRA Loader: LoRAモデルを適用 出力系ノード # Save Image: 生成された画像を保存 Preview Image: 画像をプレビュー表示 ワークフローの例 # 基本的な画像生成ワークフローは以下のような流れになる:

FLUX.1 [dev]をComfyUIで試してみる

Stable Diffusionの共同開発者たちによって設立されたベンチャー企業Black Forest Labsが発表した画像生成AIモデルであるFLUX.1をComfyUIから使えるようにローカル環境へインストールする。 インストール # FLUX.1 \[dev\]のインストール # 基本的にComfyUIでFlux AIを使う方法:詳細ガイドを参考にしてインストールしたが、現時点(2024/8/1 2)でいくつかの相違点があった。 flux1-dev.sftがflux1-dev.safetensorsにファイル名変更されている VAEはae.safetensors · black-forest-labs/FLUX.1-schnell at mainからダウンロードする それ以外は問題なくインストールできた。 FLUX.1 \[schnel\]のインストール # 最軽量のモデルFLUX.1 \[schnel\]もインストールする。 black-forest-labs/FLUX.1-schnell at mainからflux1-schnell.safetensorsをダウンロードしComfyUI/models/unetへ置く。 (オプション)FP8 CLIP用のチェックポイント # flux1-schnell-fp8.safetensors · Comfy-Org/flux1-schnell at mainからflux1-dev-fp8.safetensorsをダウンロードしComfyUI/models/checkpoints/へ置く flux1-schnell-fp8.safetensors · Comfy-Org/flux1-schnell at mainからflux1-schnell-fp8.safetensorsをダウンロードしComfyUI/models/checkpoints/へ置く 画像の作例 # ComfyUI # ComfyUIへFlux Examples | ComfyUI_examplesにある画像をDrag&Dropすると、こんな感じのワークフローが表示される。

チェックポイント

画像生成AIにおけるチェックポイント(Checkpointは、学習済みの拡散モデル全体が保存されたファイルのこと。 チェックポイントの基本概念 # 定義 # チェックポイントは、Stable Diffusionなどの画像生成モデルの完全な学習済み重みを含むファイル。モデル全体の「スナップショット」と考えることができる。 ファイル形式と容量 # 拡張子: .ckpt、.safetensors ファイルサイズ: 通常2GB~7GB程度 safetensors形式: より安全で高速な新しい形式として推奨 リアル系(写実的)チェックポイント # SD1.5ベース # Realistic Vision V6.0 Civitai: https://civitai.com/models/4201/realistic-vision-v60-b1 Realistic Vision V6.0 B1 - V5.1 Hyper (VAE) | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/SG161222/Realistic_Vision_V6.0_B1_noVAE SG161222/Realistic_Vision_V6.0_B1_noVAE · Hugging Face 最も人気の高い写実系モデルの一つ ChilloutMix Civitai: https://civitai.com/models/6424/chilloutmix ChilloutMix - Chilloutmix-Ni-pruned-fp32-fix | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/swl-models/chilloutmix swl-models/chilloutmix · Hugging Face アジア系人物に強い写実モデル CyberRealistic V9.0 Civitai: https://civitai.com/models/15003/cyberrealistic CyberRealistic - v9.0 | Stable Diffusion Checkpoint | Civitai 柔軟性の高い写実系モデル SDXLベース # RealVisXL V5.0 Civitai: https://civitai.com/models/139562/realvisxl-v50 CivitaiCivitai SDXL版の主要写実系モデル CyberRealistic XL V6.0 Civitai: https://civitai.com/models/312530/cyberrealistic-xl CyberRealistic XL - v6.0 | Stable Diffusion XL Checkpoint | Civitai 高解像度写実画像生成 アニメ・イラスト系チェックポイント # SD1.5ベース # Anything V5 Civitai: https://civitai.com/models/9409/or-anything-xl Stable Diffusion Models Hugging Face: https://huggingface.co/genai-archive/anything-v5 GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model アニメ系の定番モデル AbyssOrangeMix3 (AOM3) Civitai: https://civitai.com/models/9942/abyssorangemix3-aom3 AbyssOrangeMix2 - Hardcore - AbyssOrangeMix2_hard | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/WarriorMama777/OrangeMixs abyssorangemix2_Hard.civitai.info · TaiouIV/Model at main 高品質アニメイラスト生成 YesMix V5.0 Civitai: https://civitai.com/models/9139/checkpointyesmix 【Checkpoint】YesMix - v5.0 | Stable Diffusion Checkpoint | Civitai アニメNSFW特化モデル Mistoon Anime V1.0 Civitai: https://civitai.com/models/24149/mistoonanime Mistoon_Anime - v1.0 noobai | Illustrious Checkpoint | Civitai カートゥーン風アニメスタイル SDXLベース # Anything XL Civitai: https://civitai.com/models/9409/or-anything-xl 万象熔炉 | Anything XL - XL | Stable Diffusion XL Checkpoint | Civitai SDXL版アニメ特化モデル Nova Anime XL Civitai: https://civitai.com/models/376130/nova-anime-xl Nova Anime XL - IL v10.0 | Illustrious Checkpoint | Civitai 最新のアニメ特化XLモデル 汎用・多目的チェックポイント # 公式・準公式 # Stable Diffusion XL Base 1.0 Civitai: https://civitai.com/models/101055/sd-xl Dreamshaper XL | Open Laboratory 次世代高解像度公式モデル コミュニティ開発 # DreamShaper V8 (SD1.5) Civitai: https://civitai.com/models/4384/dreamshaper DreamShaper - 8 | Stable Diffusion Checkpoint | Civitai 汎用性の高いバランス型モデル DreamShaper XL V2.1 Civitai: https://civitai.com/models/112902/dreamshaper-xl DreamShaper XL - v2.1 Turbo DPM++ SDE | Stable Diffusion XL Checkpoint | Civitai SDXL版汎用モデル 特殊・マージ系チェックポイント # AnyOrangeMix Civitai: https://civitai.com/models/21503/anyorangemix-anything-abyssorangemix CivitaiCivitai AnythingとAbyssOrangeMixの融合 OrangeChillMix V7.0 Civitai: https://civitai.com/models/9486/orangechillmix OrangeChillMix - v7.0_fixed | Stable Diffusion Checkpoint | Civitai AbyssOrangeMixとChilloutMixの融合 ダウンロード時の注意点 # ファイル形式 # .safetensors: より安全で推奨される形式 .ckpt: 従来形式(セキュリティ上注意が必要) VAEについて # 一部のモデルは別途VAEファイルが必要である。“Baked VAE"と記載されているモデルは内蔵済みのため不要である。

LoRA

LoRA(Low-Rank Adaptation)は、大規模言語モデルやその他のニューラルネットワークを効率的にファインチューニングする手法。 従来のファインチューニングでは、事前学習済みモデルの全てのパラメータを更新する必要があったが、LoRAでは低ランク分解という数学的手法を使い、少ないパラメータで効果的な学習を実現する。

Claude DesktopでMCPサーバを起動できない(command not found)

Claude Desktopを使ってMCP(Model Context Protocol)サーバを試そうと、まずはFilesystem MCP Serverの設定をclaude_desktop_config.jsonに書いて、Claud Desktopを起動したがエラーが発生した。 参考: For Claude Desktop Users - Model Context Protocol { "mcpServers": { "filesystem": { "command": "npx", "args": [ "-y", "@modelcontextprotocol/server-filesystem", "/Users/htakeuchi/Downloads" ] } } } ログを確認すると、 command not found: /Users/htakeuchi/Downloads とあり、オプションをコマンドとして実行しようとして失敗しているっぽい。 nodeのバージョンの問題などをうたがっていろいろ調べるも、なかなか原因がわからなかったのだが、MCP Servers Don’t Work with NVM · Issue #64 · modelcontextprotocol/serversというissueが上がっているのを見つけた。 どうやらNVMで入れたnodeだとうまく動かないらしい。このページを参考に/usr/local/bin/npx-for-claudeを作成して実行権限を与え、 #!/usr/bin/env bash export PATH="/Users/htakeuchi/.nvm/versions/node/v20.10.0/bin/:$PATH" exec npx "$@" claude_desktop_config.jsonを以下のように書き換えたら無事動いた。 { "mcpServers": { "filesystem": { "command": "npx-for-claude", "args": [ "-y", "@modelcontextprotocol/server-filesystem", "/Users/htakeuchi/Downloads" ] } } }

Obsidian Copilotプラグイン

Obsidian Copilotは、ObsidianのノートをAIが理解し、文章作成、要約、翻訳、ブレインストーミング、そしてVault内の情報検索などができるObsidianのプラグイン。 主な特長 # 多様なAIモデルに対応: OpenAI (GPT-4oなど)、Anthropic (Claude)、Google (PaLM 2) から、OllamaやLM Studio経由のローカルモデルまで利用可能。 プライバシー重視: Vault内の情報はローカルのベクトルデータベースに保存され、許可なく外部に送信されることはない。 多彩な機能: チャット、コマンド実行、カスタムプロンプト、Vault全体へのQ&Aなど、用途に応じた使い分けが可能。 シームレスな統合: ObsidianのUIに完全に統合され、思考を中断することなくAIの力を借りられる。 1. 導入と設定 # ステップ1: インストール # Obsidianの 設定 > コミュニティプラグイン を開く。 安全モード をオフにし、探す ボタンをクリックする。 「Copilot」を検索し、インストール後に有効化する。 ステップ2: APIキーの設定 # 設定 > Copilot を開く。 利用したいAIサービス(例: OpenAI)のAPIキーを取得し、「API設定」に貼り付ける。 ステップ3: モデルの選択 # 「モデル設定」で、デフォルトで使用するAIモデル(例: gpt-4o)を選択する。 他のサービス(Claudeなど)やローカルモデルを使いたい場合は、「カスタムモデルを追加」から設定する。 設定が完了すると、サイドバーにアイコンが表示され、クリックするとチャットパネルが開く。