<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm on M1KE BL0G</title><link>https://www.m1ke.org/tags/llm/</link><description>Recent content in Llm on M1KE BL0G</description><generator>Hugo -- gohugo.io</generator><language>ja-jp</language><copyright>mike</copyright><lastBuildDate>Tue, 21 Apr 2026 00:42:16 +0900</lastBuildDate><atom:link href="https://www.m1ke.org/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>AI推論スタック整理ノート</title><link>https://www.m1ke.org/p/ai%E6%8E%A8%E8%AB%96%E3%82%B9%E3%82%BF%E3%83%83%E3%82%AF%E6%95%B4%E7%90%86%E3%83%8E%E3%83%BC%E3%83%88/</link><pubDate>Tue, 21 Apr 2026 00:42:16 +0900</pubDate><guid>https://www.m1ke.org/p/ai%E6%8E%A8%E8%AB%96%E3%82%B9%E3%82%BF%E3%83%83%E3%82%AF%E6%95%B4%E7%90%86%E3%83%8E%E3%83%BC%E3%83%88/</guid><description>&lt;img src="https://www.m1ke.org/p/ai%E6%8E%A8%E8%AB%96%E3%82%B9%E3%82%BF%E3%83%83%E3%82%AF%E6%95%B4%E7%90%86%E3%83%8E%E3%83%BC%E3%83%88/deep_learning.jpeg" alt="Featured image of post AI推論スタック整理ノート" /&gt;&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;機械学習のアーキの選定で色々比較したくなったが、用語がたくさんありすぎて混乱してきた&lt;/li&gt;
&lt;li&gt;昔はモデルはPyTorchで作り、GPU推論はCUDAとTensorRT、CPU推論はONNXでOKだった&lt;/li&gt;
&lt;li&gt;しかし、LLM関連やEdge側での実行、CUDA以外にもOpenCL、Vulkanなど色々あるので複雑化している&lt;/li&gt;
&lt;li&gt;例えば、Gemma4 e2bをJetsonでGPUモードで動かす時に、何のbackendで動かせばいいかを調べる必要がある&lt;/li&gt;
&lt;li&gt;そこで、AIに用語を改めてまとめて整理してもらったので、そのノートを残す&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="全体像"&gt;全体像&lt;/h2&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt; 1
&lt;/span&gt;&lt;span class="lnt"&gt; 2
&lt;/span&gt;&lt;span class="lnt"&gt; 3
&lt;/span&gt;&lt;span class="lnt"&gt; 4
&lt;/span&gt;&lt;span class="lnt"&gt; 5
&lt;/span&gt;&lt;span class="lnt"&gt; 6
&lt;/span&gt;&lt;span class="lnt"&gt; 7
&lt;/span&gt;&lt;span class="lnt"&gt; 8
&lt;/span&gt;&lt;span class="lnt"&gt; 9
&lt;/span&gt;&lt;span class="lnt"&gt;10
&lt;/span&gt;&lt;span class="lnt"&gt;11
&lt;/span&gt;&lt;span class="lnt"&gt;12
&lt;/span&gt;&lt;span class="lnt"&gt;13
&lt;/span&gt;&lt;span class="lnt"&gt;14
&lt;/span&gt;&lt;span class="lnt"&gt;15
&lt;/span&gt;&lt;span class="lnt"&gt;16
&lt;/span&gt;&lt;span class="lnt"&gt;17
&lt;/span&gt;&lt;span class="lnt"&gt;18
&lt;/span&gt;&lt;span class="lnt"&gt;19
&lt;/span&gt;&lt;span class="lnt"&gt;20
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[アプリ / サーバ / SDK]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; LM Studio / Ollama / 自作CLI / 自作C++・Pythonアプリ / MediaPipe Tasks API
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[LLM・推論ランタイム]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; llama.cpp / ONNX Runtime / MNN / ncnn / LiteRT / LiteRT-LM / TensorRT-LLM
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[acceleratorの差し込み口]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; CUDA EP / TensorRT EP / 各runtimeの CUDA backend / Vulkan backend / OpenCL backend / WebGPU backend
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[モデル形式・配布形式]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; .onnx / .mnn / .gguf / .tflite / .task / .litertlm / safetensors
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[低レベルGPU/計算API]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; CUDA / TensorRT / Vulkan / OpenCL / OpenGL ES / OpenGL / WebGPU / WebGL
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[OS・SDK・ドライバ]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; JetPack / Jetson Linux / NVIDIA driver / compiler toolchains
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[ハードウェア]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; CPU / GPU / NPU / TPU / RAM / ストレージ
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;この図でのコツは、&lt;strong&gt;モデル&lt;/strong&gt;と&lt;strong&gt;ランタイム&lt;/strong&gt;と&lt;strong&gt;低レベルAPI&lt;/strong&gt;を絶対に混ぜないこと。&lt;/li&gt;
&lt;li&gt;たとえば &lt;strong&gt;Qwen はモデル&lt;/strong&gt;、&lt;strong&gt;MNN はランタイム&lt;/strong&gt;、&lt;strong&gt;&lt;code&gt;.mnn&lt;/code&gt; はそのランタイム向けモデル形式&lt;/strong&gt;、&lt;strong&gt;Vulkan はさらに下のGPU API&lt;/strong&gt;。 (&lt;a class="link" href="https://github.com/QwenLM/qwen3?utm_source=chatgpt.com" title="Qwen3 is the large language model series ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="レイヤー別の全体表"&gt;レイヤー別の全体表&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;レイヤー&lt;/th&gt;
&lt;th&gt;何が入るか&lt;/th&gt;
&lt;th&gt;役割&lt;/th&gt;
&lt;th&gt;代表例&lt;/th&gt;
&lt;th&gt;根拠&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;0. ハードウェア&lt;/td&gt;
&lt;td&gt;SoC（System on Chip）, CPU, GPU, RAM&lt;/td&gt;
&lt;td&gt;実際に演算する物理マシン&lt;/td&gt;
&lt;td&gt;Jetson Orin Nano, GeForce RTX, NVIDIA RTX PRO、Tegra K1 Soc&lt;/td&gt;
&lt;td&gt;Jetson は edge/embedded、RTX / RTX PRO は desktop / laptop / workstation 側の NVIDIA GPU 群。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;1. OS / 配布SDK&lt;/td&gt;
&lt;td&gt;OS, BSP, ドライバ同梱SDK&lt;/td&gt;
&lt;td&gt;ハードを使える状態にする&lt;/td&gt;
&lt;td&gt;JetPack, Jetson Linux, Windows, Linux&lt;/td&gt;
&lt;td&gt;Jetson 系と RTX PC / workstation 系で土台が異なる。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;2. ベンダー計算SDK / 推論SDK / graphics API&lt;/td&gt;
&lt;td&gt;GPU を叩く低レベル基盤や推論SDK&lt;/td&gt;
&lt;td&gt;GPU/アクセラレータ計算や推論最適化&lt;/td&gt;
&lt;td&gt;CUDA, TensorRT, TensorRT-RTX, Vulkan, OpenCL, OpenGL, WebGPU, WebGL&lt;/td&gt;
&lt;td&gt;TensorRT-RTX は RTX GPU 向けの compact inference library。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;3. モデル形式 / IR / バンドル&lt;/td&gt;
&lt;td&gt;モデルの保存・交換・配布形式&lt;/td&gt;
&lt;td&gt;ランタイムに渡す「中身」&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.onnx&lt;/code&gt;, &lt;code&gt;.mnn&lt;/code&gt;, &lt;code&gt;.gguf&lt;/code&gt;, &lt;code&gt;.tflite&lt;/code&gt;, &lt;code&gt;.task&lt;/code&gt;, &lt;code&gt;.litertlm&lt;/code&gt;, &lt;code&gt;.safetensors&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;ONNX は open format、&lt;code&gt;.task&lt;/code&gt; は MediaPipe 向け self-contained package、&lt;code&gt;.litertlm&lt;/code&gt; は LiteRT-LM 向け形式。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;4. 汎用推論ランタイム&lt;/td&gt;
&lt;td&gt;モデルを実行する本体&lt;/td&gt;
&lt;td&gt;推論実行、スケジューリング、メモリ管理&lt;/td&gt;
&lt;td&gt;ONNX Runtime, MNN, ncnn, LiteRT&lt;/td&gt;
&lt;td&gt;ORT は cross-platform accelerator、MNN は lightweight inference engine、LiteRT は on-device framework、ncnn は Vulkan 利用の軽量推論系。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;5. LLM専用ランタイム&lt;/td&gt;
&lt;td&gt;LLM特有の処理を担当&lt;/td&gt;
&lt;td&gt;KV cache, sampler, stateful inference&lt;/td&gt;
&lt;td&gt;llama.cpp, LiteRT-LM, TensorRT-LLM, TensorRT Edge-LLM, MNN-LLM&lt;/td&gt;
&lt;td&gt;TensorRT Edge-LLM は embedded 向け C++ LLM/VLM runtime。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;6. バックエンド / Execution Provider&lt;/td&gt;
&lt;td&gt;下のハードaccelerator先への接続&lt;/td&gt;
&lt;td&gt;どのGPU/NPU/CPUで実行するか選ぶ&lt;/td&gt;
&lt;td&gt;CUDA EP, TensorRT EP, Vulkan backend, OpenCL backend, WebGPU backend&lt;/td&gt;
&lt;td&gt;ORT は EP でaccelerator先を差し替え、LiteRT の Linux GPU backend は WebGPU(Vulkan) 。 (&lt;a class="link" href="https://onnxruntime.ai/docs/execution-providers/?utm_source=chatgpt.com" title="ONNX Runtime Execution Providers"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;7. アプリ / API / 配布SDK&lt;/td&gt;
&lt;td&gt;ユーザーが触る入口&lt;/td&gt;
&lt;td&gt;実アプリとして使う&lt;/td&gt;
&lt;td&gt;MediaPipe Tasks, LLM Inference API, CLI, Python binding&lt;/td&gt;
&lt;td&gt;MediaPipe Tasks は solution API、LLM Inference API は on-device LLM 用、Gemma docs では LiteRT-LM CLI も案内されている。 (&lt;a class="link" href="https://ai.google.dev/edge/mediapipe/solutions/tasks?utm_source=chatgpt.com" title="MediaPipe Tasks | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="用語整理"&gt;用語整理&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;用語&lt;/th&gt;
&lt;th&gt;レイヤー&lt;/th&gt;
&lt;th&gt;分類&lt;/th&gt;
&lt;th&gt;ひとことで&lt;/th&gt;
&lt;th&gt;典型的に何の上で動くか / 何を使うか&lt;/th&gt;
&lt;th&gt;Jetson Orin Nano文脈&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;0&lt;/td&gt;
&lt;td&gt;ハードウェア&lt;/td&gt;
&lt;td&gt;NVIDIA の edge/embedded 向け SoC ボード&lt;/td&gt;
&lt;td&gt;JetPack / Jetson Linux の上&lt;/td&gt;
&lt;td&gt;物理マシン本体。 (&lt;a class="link" href="https://developer.nvidia.com/embedded/jetpack-sdk-62?utm_source=chatgpt.com" title="JetPack SDK"
target="_blank" rel="noopener"
&gt;NVIDIA Developer&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;JetPack&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;配布SDK&lt;/td&gt;
&lt;td&gt;Jetson 向け OS + AI stack まとめ&lt;/td&gt;
&lt;td&gt;Jetson Linux, CUDA, TensorRT, cuDNN などを同梱&lt;/td&gt;
&lt;td&gt;Jetson 開発の土台。 (&lt;a class="link" href="https://developer.nvidia.com/embedded/jetpack-sdk-62?utm_source=chatgpt.com" title="JetPack SDK"
target="_blank" rel="noopener"
&gt;NVIDIA Developer&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;低レベル計算基盤&lt;/td&gt;
&lt;td&gt;NVIDIA GPU 計算の本流&lt;/td&gt;
&lt;td&gt;NVIDIA GPU / CUDA driver&lt;/td&gt;
&lt;td&gt;Jetson で NVIDIA 流に速くする土台。 (&lt;a class="link" href="https://docs.nvidia.com/cuda/cuda-programming-guide/?utm_source=chatgpt.com" title="CUDA Programming Guide"
target="_blank" rel="noopener"
&gt;NVIDIA Docs&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;cuDNN&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2〜3&lt;/td&gt;
&lt;td&gt;DNNライブラリ&lt;/td&gt;
&lt;td&gt;NVIDIA の DL primitives&lt;/td&gt;
&lt;td&gt;CUDA の上&lt;/td&gt;
&lt;td&gt;JetPack に同梱。多くのフレームワークが内部利用。 (&lt;a class="link" href="https://developer.nvidia.com/embedded/jetpack-sdk-62?utm_source=chatgpt.com" title="JetPack SDK"
target="_blank" rel="noopener"
&gt;NVIDIA Developer&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2〜3&lt;/td&gt;
&lt;td&gt;推論SDK&lt;/td&gt;
&lt;td&gt;NVIDIA GPU 向け推論最適化/実行SDK&lt;/td&gt;
&lt;td&gt;CUDA の上&lt;/td&gt;
&lt;td&gt;Jetson/NVIDIA 本流の推論高速化。 (&lt;a class="link" href="https://docs.nvidia.com/deeplearning/tensorrt/latest/index.html?utm_source=chatgpt.com" title="NVIDIA TensorRT Documentation"
target="_blank" rel="noopener"
&gt;NVIDIA Docs&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT-LLM&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;LLM専用ランタイム&lt;/td&gt;
&lt;td&gt;TensorRT 系の LLM 特化版&lt;/td&gt;
&lt;td&gt;NVIDIA GPU, TensorRT&lt;/td&gt;
&lt;td&gt;Qwen3 例もある。Jetson/NVIDIA LLM 本流の一つ。 (&lt;a class="link" href="https://nvidia.github.io/TensorRT-LLM/overview.html?utm_source=chatgpt.com" title="Overview — TensorRT LLM"
target="_blank" rel="noopener"
&gt;NVIDIA GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenCL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;標準 compute API&lt;/td&gt;
&lt;td&gt;ベンダー横断の GPU/CPU 計算API&lt;/td&gt;
&lt;td&gt;各ベンダーの OpenCL 実装&lt;/td&gt;
&lt;td&gt;NVIDIA 専用ではない。 (&lt;a class="link" href="https://www.khronos.org/opencl/?utm_source=chatgpt.com" title="OpenCL - The Open Standard for Parallel Programming of ..."
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;PoCL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;OpenCL実装&lt;/td&gt;
&lt;td&gt;OpenCL の実装の1つ&lt;/td&gt;
&lt;td&gt;Clang/LLVM を利用、CPU/一部GPU targets&lt;/td&gt;
&lt;td&gt;OpenCL “規格” ではなく “実装”。 (&lt;a class="link" href="https://portablecl.org/?utm_source=chatgpt.com" title="Portable Computing Language: PoCL"
target="_blank" rel="noopener"
&gt;PoCL&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Vulkan&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;低レベル graphics+compute API&lt;/td&gt;
&lt;td&gt;low-level GPU API&lt;/td&gt;
&lt;td&gt;GPU driver の上&lt;/td&gt;
&lt;td&gt;Jetson は Vulkan をサポート。 (&lt;a class="link" href="https://www.vulkan.org/?utm_source=chatgpt.com" title="Home | Vulkan | Cross platform 3D Graphics"
target="_blank" rel="noopener"
&gt;Vulkan&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenGL / OpenGL ES&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;graphics API&lt;/td&gt;
&lt;td&gt;主に描画 API&lt;/td&gt;
&lt;td&gt;GPU driver の上&lt;/td&gt;
&lt;td&gt;Jetson がサポート。推論ランタイム内部の補助経路に出ることもある。 (&lt;a class="link" href="https://www.khronos.org/opengl/?utm_source=chatgpt.com" title="OpenGL - The Industry&amp;#39;s Foundation for High Performance ..."
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;WebGL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;Web graphics API&lt;/td&gt;
&lt;td&gt;ブラウザ向け 3D API&lt;/td&gt;
&lt;td&gt;HTML Canvas 上、OpenGL ES ベース&lt;/td&gt;
&lt;td&gt;native Jetson 推論の中心ではない。 (&lt;a class="link" href="https://www.khronos.org/webgl/?utm_source=chatgpt.com" title="WebGL - Low-Level 3D Graphics API Based on OpenGL ES"
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;WebGPU&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;Web/汎用GPU API&lt;/td&gt;
&lt;td&gt;Web 向けの新しい GPU API&lt;/td&gt;
&lt;td&gt;Vulkan / Metal / D3D12 等にマップされる&lt;/td&gt;
&lt;td&gt;LiteRT Linux GPU backend の表記に登場。 (&lt;a class="link" href="https://www.w3.org/TR/webgpu/?utm_source=chatgpt.com" title="WebGPU"
target="_blank" rel="noopener"
&gt;W3C&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ONNX&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;モデル形式 / IR&lt;/td&gt;
&lt;td&gt;open model format&lt;/td&gt;
&lt;td&gt;ONNX Runtime, TensorRT などへ渡す&lt;/td&gt;
&lt;td&gt;形式であってランタイムではない。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.onnx&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;ファイル形式&lt;/td&gt;
&lt;td&gt;ONNX の実ファイル&lt;/td&gt;
&lt;td&gt;ORT, TensorRT, MNN converter など&lt;/td&gt;
&lt;td&gt;中立的な受け渡し形式。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TFLite / &lt;code&gt;.tflite&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;モデル形式&lt;/td&gt;
&lt;td&gt;LiteRT 系のモデル形式&lt;/td&gt;
&lt;td&gt;LiteRT / MediaPipe&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.task&lt;/code&gt; や &lt;code&gt;.litertlm&lt;/code&gt; の元になることがある。 (&lt;a class="link" href="https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference?utm_source=chatgpt.com" title="LLM Inference guide | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.task&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;タスクバンドル&lt;/td&gt;
&lt;td&gt;モデル + tokenizer + metadata の bundle&lt;/td&gt;
&lt;td&gt;MediaPipe Tasks / LLM Inference API&lt;/td&gt;
&lt;td&gt;単体モデルではなく配布バンドル。 (&lt;a class="link" href="https://ai.google.dev/gemma/docs/conversions/hf-to-mediapipe-task?utm_source=chatgpt.com" title="Convert Hugging Face Safetensors to MediaPipe Task | Gemma"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.litertlm&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;LLMバンドル/形式&lt;/td&gt;
&lt;td&gt;LiteRT-LM runtime 向け形式&lt;/td&gt;
&lt;td&gt;LiteRT-LM&lt;/td&gt;
&lt;td&gt;Gemma の LiteRT-LM 配布で登場。 (&lt;a class="link" href="https://ai.google.dev/edge/litert/next/litert_lm_npu?utm_source=chatgpt.com" title="Run LLMs using LiteRT-LM | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.mnn&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;モデル形式&lt;/td&gt;
&lt;td&gt;MNN 用のモデル形式&lt;/td&gt;
&lt;td&gt;MNN / MNN-LLM&lt;/td&gt;
&lt;td&gt;ONNX などから変換される。 (&lt;a class="link" href="https://github.com/alibaba/MNN/blob/master/tools/converter/README.md?utm_source=chatgpt.com" title="MNN/tools/converter/README.md at master - GitHub"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;GGUF / &lt;code&gt;.gguf&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;モデル形式&lt;/td&gt;
&lt;td&gt;llama.cpp 系で一般的な配布形式&lt;/td&gt;
&lt;td&gt;llama.cpp, LM Studio など&lt;/td&gt;
&lt;td&gt;Qwen/Gemma の GGUF 配布も多い。Qwen3 README は GGUF 利用例を案内。 (&lt;a class="link" href="https://github.com/QwenLM/qwen3?utm_source=chatgpt.com" title="Qwen3 is the large language model series ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;safetensors&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;モデル重み形式&lt;/td&gt;
&lt;td&gt;Hugging Face 系で一般的&lt;/td&gt;
&lt;td&gt;PyTorch/Transformers などから変換元に&lt;/td&gt;
&lt;td&gt;Gemma → &lt;code&gt;.task&lt;/code&gt; 変換元として公式に案内。 (&lt;a class="link" href="https://ai.google.dev/gemma/docs/conversions/hf-to-mediapipe-task?utm_source=chatgpt.com" title="Convert Hugging Face Safetensors to MediaPipe Task | Gemma"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ONNX Runtime&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;汎用推論ランタイム&lt;/td&gt;
&lt;td&gt;ONNX を実行する engine&lt;/td&gt;
&lt;td&gt;CPU / CUDA EP / TensorRT EP / ほか&lt;/td&gt;
&lt;td&gt;中立的で移植性が高い。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;MNN&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;汎用推論ランタイム&lt;/td&gt;
&lt;td&gt;Alibaba の軽量推論 engine&lt;/td&gt;
&lt;td&gt;CPU / Vulkan など&lt;/td&gt;
&lt;td&gt;Qwen を含む on-device 系で使われる。 (&lt;a class="link" href="https://github.com/alibaba/mnn?utm_source=chatgpt.com" title="MNN: A blazing-fast, lightweight inference engine battle- ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ncnn&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;汎用推論ランタイム&lt;/td&gt;
&lt;td&gt;Tencent の軽量推論 engine&lt;/td&gt;
&lt;td&gt;CPU / Vulkan&lt;/td&gt;
&lt;td&gt;Jetson でも Vulkan 前提で使いうる。 (&lt;a class="link" href="https://github.com/Tencent/ncnn/wiki/how-to-build?utm_source=chatgpt.com" title="how to build · Tencent/ncnn Wiki"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;LiteRT&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;on-device推論基盤&lt;/td&gt;
&lt;td&gt;Google の on-device ML/GenAI framework&lt;/td&gt;
&lt;td&gt;CPU/GPU/NPU&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.tflite&lt;/code&gt; と &lt;code&gt;.litertlm&lt;/code&gt; を扱う基盤。 (&lt;a class="link" href="https://ai.google.dev/edge/litert?utm_source=chatgpt.com" title="LiteRT: High-Performance On-Device Machine Learning ..."
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;llama.cpp&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;LLMランタイム&lt;/td&gt;
&lt;td&gt;C/C++ のローカル LLM engine&lt;/td&gt;
&lt;td&gt;CPU, CUDA, Vulkan など&lt;/td&gt;
&lt;td&gt;Qwen/Gemma をローカルで動かす代表格。 (&lt;a class="link" href="https://github.com/ggml-org/llama.cpp?utm_source=chatgpt.com" title="ggml-org/llama.cpp: LLM inference in C/C&amp;#43;&amp;#43; - GitHub"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;LiteRT-LM&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;LLMランタイム&lt;/td&gt;
&lt;td&gt;LiteRT 上の LLM 専用 framework&lt;/td&gt;
&lt;td&gt;LiteRT / CPU/GPU/NPU backends&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.litertlm&lt;/code&gt; を動かす本体。 (&lt;a class="link" href="https://ai.google.dev/edge/litert-lm/overview?utm_source=chatgpt.com" title="LiteRT-LM Overview | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;MNN-LLM&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;LLMランタイム&lt;/td&gt;
&lt;td&gt;MNN 上の LLM engine&lt;/td&gt;
&lt;td&gt;MNN&lt;/td&gt;
&lt;td&gt;export と inference を提供。 (&lt;a class="link" href="https://github.com/alibaba/MNN/blob/master/transformers/README.md?utm_source=chatgpt.com" title="MNN/transformers/README.md at master · alibaba/MNN - GitHub"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA EP&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;Execution Provider&lt;/td&gt;
&lt;td&gt;ORT から CUDA を使う差し込み口&lt;/td&gt;
&lt;td&gt;ONNX Runtime + CUDA&lt;/td&gt;
&lt;td&gt;ORT で NVIDIA GPU を使う道。 (&lt;a class="link" href="https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html?utm_source=chatgpt.com" title="CUDA Execution Provider - onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT EP&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;Execution Provider&lt;/td&gt;
&lt;td&gt;ORT から TensorRT を使う差し込み口&lt;/td&gt;
&lt;td&gt;ONNX Runtime + TensorRT&lt;/td&gt;
&lt;td&gt;ORT で NVIDIA 向け高速化する道。 (&lt;a class="link" href="https://onnxruntime.ai/docs/execution-providers/TensorRT-ExecutionProvider.html?utm_source=chatgpt.com" title="NVIDIA - TensorRT | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Vulkan backend&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;runtime backend&lt;/td&gt;
&lt;td&gt;Vulkan を使う実行経路&lt;/td&gt;
&lt;td&gt;ncnn, llama.cpp など&lt;/td&gt;
&lt;td&gt;Jetson で使える可能性が高い backend。 (&lt;a class="link" href="https://github.com/Tencent/ncnn/wiki/how-to-build?utm_source=chatgpt.com" title="how to build · Tencent/ncnn Wiki"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenCL backend&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;runtime backend&lt;/td&gt;
&lt;td&gt;OpenCL を使う実行経路&lt;/td&gt;
&lt;td&gt;一部 runtimes / LiteRT Android&lt;/td&gt;
&lt;td&gt;Jetson で主役とは限らない。 (&lt;a class="link" href="https://www.khronos.org/opencl/?utm_source=chatgpt.com" title="OpenCL - The Open Standard for Parallel Programming of ..."
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;WebGPU backend&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;runtime backend&lt;/td&gt;
&lt;td&gt;WebGPU を使う実行経路&lt;/td&gt;
&lt;td&gt;LiteRT Linux GPU backend&lt;/td&gt;
&lt;td&gt;LiteRT Linux は &lt;code&gt;WebGPU (Vulkan)&lt;/code&gt; と明記。 (&lt;a class="link" href="https://ai.google.dev/edge/litert/next/gpu?utm_source=chatgpt.com" title="GPU acceleration with LiteRT | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;MediaPipe Tasks&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7&lt;/td&gt;
&lt;td&gt;API/SDK&lt;/td&gt;
&lt;td&gt;使いやすい solution API&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.task&lt;/code&gt; を読み込む&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.task&lt;/code&gt; バンドルの受け皿。 (&lt;a class="link" href="https://ai.google.dev/edge/mediapipe/solutions/tasks?utm_source=chatgpt.com" title="MediaPipe Tasks | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;LLM Inference API&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7&lt;/td&gt;
&lt;td&gt;API/SDK&lt;/td&gt;
&lt;td&gt;MediaPipe の on-device LLM API&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.task&lt;/code&gt; bundle など&lt;/td&gt;
&lt;td&gt;Android guide では LiteRT-LM への移行推奨も記載。 (&lt;a class="link" href="https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference?utm_source=chatgpt.com" title="LLM Inference guide | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Qwen&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3の中身 / モデルそのもの&lt;/td&gt;
&lt;td&gt;モデル系列&lt;/td&gt;
&lt;td&gt;Alibaba Cloud の LLM family&lt;/td&gt;
&lt;td&gt;Transformers, llama.cpp, MNN, TensorRT-LLM 等で実行可能&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;MNNそのものではない&lt;/strong&gt;。 (&lt;a class="link" href="https://github.com/QwenLM/qwen3?utm_source=chatgpt.com" title="Qwen3 is the large language model series ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Gemma&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;3の中身 / モデルそのもの&lt;/td&gt;
&lt;td&gt;モデル系列&lt;/td&gt;
&lt;td&gt;Google 系のオープンモデル family&lt;/td&gt;
&lt;td&gt;LiteRT-LM, llama.cpp, LM Studio など&lt;/td&gt;
&lt;td&gt;&lt;code&gt;.task&lt;/code&gt; / &lt;code&gt;.litertlm&lt;/code&gt; 系とも接続。 (&lt;a class="link" href="https://ai.google.dev/gemma/docs/run?utm_source=chatgpt.com" title="Run Gemma content generation and inferences"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;GeForce RTX / NVIDIA RTX PRO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;0&lt;/td&gt;
&lt;td&gt;ハードウェア / GPU製品ライン&lt;/td&gt;
&lt;td&gt;NVIDIA の desktop / laptop / workstation 向け GPU 群&lt;/td&gt;
&lt;td&gt;Windows / Linux + NVIDIA driver の上&lt;/td&gt;
&lt;td&gt;Jetson とは別の PC / workstation 側の比較対象。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT-RTX&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;2〜4&lt;/td&gt;
&lt;td&gt;推論SDK / inference library&lt;/td&gt;
&lt;td&gt;RTX GPU 向けの軽量 TensorRT 系推論ライブラリ&lt;/td&gt;
&lt;td&gt;NVIDIA RTX GPU / Windows / Linux&lt;/td&gt;
&lt;td&gt;RTX PC 向け。&lt;strong&gt;Edge / Embedded 向けではない&lt;/strong&gt;。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT Edge-LLM&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;LLM / VLM専用ランタイム&lt;/td&gt;
&lt;td&gt;embedded 向けの軽量 C++ inference runtime&lt;/td&gt;
&lt;td&gt;Jetson / DRIVE + TensorRT + CUDA&lt;/td&gt;
&lt;td&gt;Jetson/DRIVE 系の edge runtime。&lt;strong&gt;現時点では JetPack 7.1 / Jetson Thor での公式案内が強い&lt;/strong&gt;。&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="よくある混同"&gt;よくある混同&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;よくある混同&lt;/th&gt;
&lt;th&gt;正しい整理&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Qwen は MNN か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。&lt;strong&gt;Qwen はモデル&lt;/strong&gt;、&lt;strong&gt;MNN はランタイム&lt;/strong&gt;。Qwen3 公式 README では llama.cpp / MNN / TensorRT-LLM など複数の実行先が案内されている。 (&lt;a class="link" href="https://github.com/QwenLM/qwen3?utm_source=chatgpt.com" title="Qwen3 is the large language model series ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.task&lt;/code&gt; はモデル形式か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;半分 yes 、より正確には &lt;strong&gt;MediaPipe 向け task bundle&lt;/strong&gt; 。モデル本体に tokenizer と metadata を同梱した self-contained package 。 (&lt;a class="link" href="https://ai.google.dev/gemma/docs/conversions/hf-to-mediapipe-task?utm_source=chatgpt.com" title="Convert Hugging Face Safetensors to MediaPipe Task | Gemma"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;.litertlm&lt;/code&gt; は LiteRT-LM 専用か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;実務上は &lt;strong&gt;LiteRT-LM runtime 向けの LLM bundle/format&lt;/strong&gt; と考えてよい。Gemma docs でも LiteRT-LM CLI で &lt;code&gt;.litertlm&lt;/code&gt; を使うと案内されている。 (&lt;a class="link" href="https://ai.google.dev/edge/litert/next/litert_lm_npu?utm_source=chatgpt.com" title="Run LLMs using LiteRT-LM | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ONNX はランタイムか？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。&lt;strong&gt;ONNX は形式&lt;/strong&gt;、&lt;strong&gt;ONNX Runtime は実行エンジン&lt;/strong&gt;。 (&lt;a class="link" href="https://onnxruntime.ai/docs/?utm_source=chatgpt.com" title="ONNX Runtime | onnxruntime"
target="_blank" rel="noopener"
&gt;ONNX Runtime&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;PoCL は OpenCL か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。&lt;strong&gt;OpenCL は規格&lt;/strong&gt;、&lt;strong&gt;PoCL はその実装の1つ&lt;/strong&gt;。 (&lt;a class="link" href="https://www.khronos.org/opencl/?utm_source=chatgpt.com" title="OpenCL - The Open Standard for Parallel Programming of ..."
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;WebGL と WebGPU は同じか？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。WebGL は &lt;strong&gt;OpenGL ES ベースの web graphics API&lt;/strong&gt;、WebGPU は &lt;strong&gt;より新しい web 向け GPU API&lt;/strong&gt; で、graphics だけでなく compute も重視している。 (&lt;a class="link" href="https://www.khronos.org/webgl/?utm_source=chatgpt.com" title="WebGL - Low-Level 3D Graphics API Based on OpenGL ES"
target="_blank" rel="noopener"
&gt;The Khronos Group&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Vulkan と CUDA は同じか？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。どちらも GPU を使えるが、CUDA は &lt;strong&gt;NVIDIA 専用の計算基盤&lt;/strong&gt;、Vulkan は &lt;strong&gt;標準の graphics+compute API&lt;/strong&gt; 。 (&lt;a class="link" href="https://docs.nvidia.com/cuda/cuda-programming-guide/?utm_source=chatgpt.com" title="CUDA Programming Guide"
target="_blank" rel="noopener"
&gt;NVIDIA Docs&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;LiteRT-LM は TensorRT-LLM の別名か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。LiteRT-LM は &lt;strong&gt;Google AI Edge 側&lt;/strong&gt;、TensorRT-LLM は &lt;strong&gt;NVIDIA 側&lt;/strong&gt; の別スタック。 (&lt;a class="link" href="https://ai.google.dev/edge/litert-lm/overview?utm_source=chatgpt.com" title="LiteRT-LM Overview | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT-RTX は TensorRT-LLM の RTX版か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。&lt;strong&gt;TensorRT-RTX は RTX向けの一般推論ライブラリ&lt;/strong&gt;。公式 docs でも native LLM は out of the box ではなく、TensorRT-LLM との統合も現時点では unavailable とされている。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TensorRT Edge-LLM は TensorRT-LLM の別名か？&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;No。&lt;strong&gt;TensorRT-LLM は desktop / data center を含む NVIDIA GPU 向けの LLM 最適化ライブラリ&lt;/strong&gt;、&lt;strong&gt;TensorRT Edge-LLM は Jetson / DRIVE 向けの embedded C++ runtime&lt;/strong&gt;。&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="具体的な選定手順"&gt;具体的な選定手順&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;NVIDIA 本流
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;PyTorch / ONNX / 一部 LLM&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;TensorRT / TensorRT-LLM / ONNX Runtime + CUDA or TensorRT EP&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;CUDA / TensorRT&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;これは JetPack に CUDA・TensorRT が入っているので、Jetson では最も自然な本流。 (&lt;a class="link" href="https://developer.nvidia.com/embedded/jetpack-sdk-62?utm_source=chatgpt.com" title="JetPack SDK"
target="_blank" rel="noopener"
&gt;NVIDIA Developer&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;ローカル LLM 汎用路線
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GGUF モデル&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;llama.cpp&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;CUDA backend / Vulkan backend / CPU&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;llama.cpp は複数 backend を同時ビルドでき、CUDA と Vulkan を併用可能。 (&lt;a class="link" href="https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md?utm_source=chatgpt.com" title="llama.cpp/docs/build.md at master · ggml-org/llama.cpp · GitHub"
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Google AI Edge 路線
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.litertlm&lt;/code&gt; または &lt;code&gt;.task&lt;/code&gt;&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LiteRT-LM / MediaPipe LLM Inference API&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LiteRT&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Linux GPU backend = WebGPU (Vulkan)&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Gemma の LiteRT-LM 系を Jetson で動かすなら、この理解がいちばん自然。 (&lt;a class="link" href="https://ai.google.dev/edge/litert/next/litert_lm_npu?utm_source=chatgpt.com" title="Run LLMs using LiteRT-LM | Google AI Edge"
target="_blank" rel="noopener"
&gt;Google AI for Developers&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;軽量 edge 推論路線（mnn）
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.mnn&lt;/code&gt;&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MNN / MNN-LLM&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Vulkan など&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;軽量 edge 推論路線（ncnn）
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;ncnn モデル&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ncnn&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Vulkan&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jetson Orin Nano&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;MNN も ncnn も edge/embedded 色が強い。 (&lt;a class="link" href="https://github.com/alibaba/mnn?utm_source=chatgpt.com" title="MNN: A blazing-fast, lightweight inference engine battle- ..."
target="_blank" rel="noopener"
&gt;GitHub&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;RTX PC / workstation 路線
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;ONNX モデル / CNN / Diffusion / Speech&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;TensorRT-RTX&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;GeForce RTX / NVIDIA RTX PRO&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Windows / Linux&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;これは Jetson ではなく、RTX PC / workstation 向けの NVIDIA 路線&lt;/li&gt;
&lt;li&gt;TensorRT-RTX は RTX GPU 向けの compact inference library で、build once / deploy anywhere に寄せた設計&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>