メインコンテンツへスキップ

VAE

VAE(Variational Autoencoder:変分オートエンコーダとは、Stable Diffusionなどの画像生成AIにおいて重要な役割を果たすニューラルネットワークの構成要素である。

適切なVAEを使用することで画像の鮮明化、豊かな色彩、適切なコントラストなどの効果を得られる。

VAEの基本概念
#

定義と役割
#

VAEは潜在空間実際の画像の間を変換する役割を担う。具体的には以下の2つの機能を持つ。

  1. エンコーダー(Encoder): 実際の画像を潜在空間の表現に圧縮
  2. デコーダー(Decoder): 潜在空間の表現を実際の画像に復元

Stable DiffusionにおけるVAE
#

Stable Diffusionは潜在拡散モデルであり、直接画像を生成するのではなく、まず潜在空間で拡散過程を実行し、最後にVAEで実際の画像に変換する。

VAEの具体的な働き
#

画像生成プロセスでの位置
#

テキストプロンプト → U-Net(拡散処理)→ 潜在表現 → VAE(デコード)→ 最終画像

潜在空間の利点
#

  • 計算効率: 512×512画像を64×64の潜在表現で処理(8分の1に圧縮)
  • メモリ削減: より少ないVRAMで高解像度画像生成が可能
  • 処理速度: 小さなデータサイズでの高速処理

VAEが画像に与える影響
#

色彩・明度
#

  • 彩度: 色の鮮やかさや深さ
  • コントラスト: 明暗の差
  • 色温度: 暖色・寒色のバランス

画像品質
#

  • 鮮明度: 画像の輪郭やディテールの明確さ
  • ノイズ除去: 不要なノイズの軽減
  • 全体的な見た目: 画像の印象や雰囲気

関連記事

チェックポイント

画像生成AIにおけるチェックポイント(Checkpointは、学習済みの拡散モデル全体が保存されたファイルのこと。 チェックポイントの基本概念 # 定義 # チェックポイントは、Stable Diffusionなどの画像生成モデルの完全な学習済み重みを含むファイル。モデル全体の「スナップショット」と考えることができる。 ファイル形式と容量 # 拡張子: .ckpt、.safetensors ファイルサイズ: 通常2GB~7GB程度 safetensors形式: より安全で高速な新しい形式として推奨 リアル系(写実的)チェックポイント # SD1.5ベース # Realistic Vision V6.0 Civitai: https://civitai.com/models/4201/realistic-vision-v60-b1 Realistic Vision V6.0 B1 - V5.1 Hyper (VAE) | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/SG161222/Realistic_Vision_V6.0_B1_noVAE SG161222/Realistic_Vision_V6.0_B1_noVAE · Hugging Face 最も人気の高い写実系モデルの一つ ChilloutMix Civitai: https://civitai.com/models/6424/chilloutmix ChilloutMix - Chilloutmix-Ni-pruned-fp32-fix | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/swl-models/chilloutmix swl-models/chilloutmix · Hugging Face アジア系人物に強い写実モデル CyberRealistic V9.0 Civitai: https://civitai.com/models/15003/cyberrealistic CyberRealistic - v9.0 | Stable Diffusion Checkpoint | Civitai 柔軟性の高い写実系モデル SDXLベース # RealVisXL V5.0 Civitai: https://civitai.com/models/139562/realvisxl-v50 CivitaiCivitai SDXL版の主要写実系モデル CyberRealistic XL V6.0 Civitai: https://civitai.com/models/312530/cyberrealistic-xl CyberRealistic XL - v6.0 | Stable Diffusion XL Checkpoint | Civitai 高解像度写実画像生成 アニメ・イラスト系チェックポイント # SD1.5ベース # Anything V5 Civitai: https://civitai.com/models/9409/or-anything-xl Stable Diffusion Models Hugging Face: https://huggingface.co/genai-archive/anything-v5 GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model アニメ系の定番モデル AbyssOrangeMix3 (AOM3) Civitai: https://civitai.com/models/9942/abyssorangemix3-aom3 AbyssOrangeMix2 - Hardcore - AbyssOrangeMix2_hard | Stable Diffusion Checkpoint | Civitai Hugging Face: https://huggingface.co/WarriorMama777/OrangeMixs abyssorangemix2_Hard.civitai.info · TaiouIV/Model at main 高品質アニメイラスト生成 YesMix V5.0 Civitai: https://civitai.com/models/9139/checkpointyesmix 【Checkpoint】YesMix - v5.0 | Stable Diffusion Checkpoint | Civitai アニメNSFW特化モデル Mistoon Anime V1.0 Civitai: https://civitai.com/models/24149/mistoonanime Mistoon_Anime - v1.0 noobai | Illustrious Checkpoint | Civitai カートゥーン風アニメスタイル SDXLベース # Anything XL Civitai: https://civitai.com/models/9409/or-anything-xl 万象熔炉 | Anything XL - XL | Stable Diffusion XL Checkpoint | Civitai SDXL版アニメ特化モデル Nova Anime XL Civitai: https://civitai.com/models/376130/nova-anime-xl Nova Anime XL - IL v10.0 | Illustrious Checkpoint | Civitai 最新のアニメ特化XLモデル 汎用・多目的チェックポイント # 公式・準公式 # Stable Diffusion XL Base 1.0 Civitai: https://civitai.com/models/101055/sd-xl Dreamshaper XL | Open Laboratory 次世代高解像度公式モデル コミュニティ開発 # DreamShaper V8 (SD1.5) Civitai: https://civitai.com/models/4384/dreamshaper DreamShaper - 8 | Stable Diffusion Checkpoint | Civitai 汎用性の高いバランス型モデル DreamShaper XL V2.1 Civitai: https://civitai.com/models/112902/dreamshaper-xl DreamShaper XL - v2.1 Turbo DPM++ SDE | Stable Diffusion XL Checkpoint | Civitai SDXL版汎用モデル 特殊・マージ系チェックポイント # AnyOrangeMix Civitai: https://civitai.com/models/21503/anyorangemix-anything-abyssorangemix CivitaiCivitai AnythingとAbyssOrangeMixの融合 OrangeChillMix V7.0 Civitai: https://civitai.com/models/9486/orangechillmix OrangeChillMix - v7.0_fixed | Stable Diffusion Checkpoint | Civitai AbyssOrangeMixとChilloutMixの融合 ダウンロード時の注意点 # ファイル形式 # .safetensors: より安全で推奨される形式 .ckpt: 従来形式(セキュリティ上注意が必要) VAEについて # 一部のモデルは別途VAEファイルが必要である。“Baked VAE"と記載されているモデルは内蔵済みのため不要である。

中央競馬のデータ取得

スクレイピングしない場合 # [競馬AI] スクレイピングしない競馬データの取得とデータ構造について - Qiita JRA-VAN データラボ 1986年から約30年分のあらゆる公式競馬データをデータベース化 前走・近走結果の情報、リアルタイムオッズや発走1時間前の馬体重などの最新情報も即座に反映 月額 2,090円(2023年1月現在) データ取得はJRA VAN SDK(C#/C++/Delphi7 /VB2019)を介して行う必要がありWindows前提 JRA-VAN Data Lab. JVData 仕様書 JRDB データはテキストで取得可能 JRDBデータのご案内 ベーシック 月額 1,980円(2023年1月現在) アドバンス 月額 2,480円(2023年1月現在) Mac上で使用したいことと、テキスト形式でのデータ提供の方が取り回しが簡単なため、自分の用途としてはJRDBの方がマッチしているか。 スクレイピングする場合 # 機械学習で競馬予想をしてみた系のまとめ - Qiita netkeiba.comをスクレイピングしている事例が多い。 競馬の予測をガチでやってみた - stockedge.jpの技術メモ netkeiba-scraperが2019年6月現在動くかの話(Ubuntu 18.04.2 LTS) - Qiita

宝くじ・公営ギャンブルの控除率

https://www.soumu.go.jp/main_content/000084191.pdf 実行還元率 控除率 宝くじ 45.7 54.3 サッカーくじ 49.6 50.4 競馬 74.1 25.9 オートレース 74.8 25.2 競艇 74.8 25.2 競輪 75.0 25.0

ControlNet

ControlNetとは、Stable Diffusionなどの画像生成AIに追加の制御情報を与えて、より精密で意図した画像を生成するための拡張技術である。 ControlNetの基本概念 # 定義と目的 # ControlNetは条件付き画像生成を実現する技術で、テキストプロンプトだけでは困難な構図、ポーズ、形状、エッジなどの具体的な制御を可能にする。 仕組み # 既存のStable Diffusionモデルに追加のネットワークとして接続し、参照画像から抽出した制御情報(エッジ、深度、ポーズなど)を基に画像生成を誘導する。 主要なControlNetモデル # 1. Canny # 特徴: エッジ検出による輪郭制御 用途: 線画やスケッチからの画像生成 制御内容: オブジェクトの輪郭や境界線 適用例: 建築物の線画から写実的な建物を生成 2. OpenPose # 特徴: 人体のポーズ制御

ComfyUI

ComfyUIは、Stable Diffusionなどの拡散モデルを使用した画像生成のためのノードベースUIである。 ComfyUI | Generate video, images, 3D, audio with AI ComfyUIの基本概念 # ノードベースワークフロー # ComfyUIは従来のテキストボックス形式ではなく、ノード(節点)を線で繋ぐ方式でワークフローを構築する。各ノードが特定の機能を持ち、それらを組み合わせて複雑な画像生成プロセスを作成できる。 基本的なノード構成 # 入力系ノード # Checkpoint Loader: モデル(チェックポイント)を読み込む CLIP Text Encode: プロンプトをテキストエンコーディングする Empty Latent Image: 生成する画像のサイズを指定 処理系ノード # KSampler: 実際の画像生成(サンプリング)を行う VAE Decode: 潜在空間から画像に変換 LoRA Loader: LoRAモデルを適用 出力系ノード # Save Image: 生成された画像を保存 Preview Image: 画像をプレビュー表示 ワークフローの例 # 基本的な画像生成ワークフローは以下のような流れになる:

LoRA

LoRA(Low-Rank Adaptation)は、大規模言語モデルやその他のニューラルネットワークを効率的にファインチューニングする手法。 従来のファインチューニングでは、事前学習済みモデルの全てのパラメータを更新する必要があったが、LoRAでは低ランク分解という数学的手法を使い、少ないパラメータで効果的な学習を実現する。