Tag: #llm

2026

18 posts

07- 09
小さな言語モデルをゼロから学習する — nanoGPT 級を MPS で回し、PPL・速度・メモリを自分で測る
#llm #transformer #python #open-source
07- 08
サンプリングは賭けだ — 1 回の正解 vs N 回の多数決、self-consistency で精度を買う代償を実測する
#llm #transformer #python #evaluation
07- 08
KVキャッシュは記憶のコスト — 文脈が伸びるほど decode が重くなる理由を実測する
#llm #transformer #python #open-source
07- 01
Sonnet 5 と Opus 4.8 を Claude Code で実測比較——コスト差1.67倍は本当に効くのか
#llm #benchmark #cost-analysis #coding-agent
06- 28
Attention は過去を読み直している — Q/K/V と O(T²) の壁を最小実装で覗く
#llm #transformer #python #open-source
06- 27
LLM はトークンを1つずつ予測している — 自己回帰ループを手元で覗く
#llm #transformer #python #open-source
06- 25
MLX vs ollama を M5 Pro で実測：Mac のローカル LLM、どっちのランタイムが速いか
#llm #benchmark #open-source #qwen #ollama
06- 24
コーディングLLMを M5 Pro 48GB で実測：「動く」と「使える」を分けるのは context の壁だった
#llm #benchmark #open-source #qwen
06- 19
DiffusionGemma を M5 Pro で実測：拡散LLMの「4倍速」は Apple Silicon で消える
#ai #llm #benchmark #open-source #google
06- 03
RAG を作る前に読む地図 — 用語が「どこで牙を剥くか」を先に押さえる
#rag #llm #ollama
05- 22
本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する
#rag #llm #production #python
05- 22
評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する
#rag #llm #evaluation #ollama #python
05- 21
Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker
#rag #llm #anthropic #ollama
05- 21
Retrieval を真面目に — chunking と hybrid search で recall を数値改善する
#rag #llm #ollama #python
05- 20
素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由
#rag #llm #ollama #python
05- 16
プロンプトは「手順書」から「契約書」へ：GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践
#ai #llm #prompt-engineering #gpt-5
04- 25
Qwen3.6-27B がアツい：27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点
#ai #llm #qwen #open-source #benchmark
01- 24
【GLM-4.7】Opus 4.5級の性能で激安？新星LLMの実力を徹底検証【モデル評価テンプレート付き】
#llm #glm #claude #review

Tag: #llm

小さな言語モデルをゼロから学習する — nanoGPT 級を MPS で回し、PPL・速度・メモリを自分で測る

サンプリングは賭けだ — 1 回の正解 vs N 回の多数決、self-consistency で精度を買う代償を実測する

KVキャッシュは記憶のコスト — 文脈が伸びるほど decode が重くなる理由を実測する

Sonnet 5 と Opus 4.8 を Claude Code で実測比較——コスト差1.67倍は本当に効くのか

Attention は過去を読み直している — Q/K/V と O(T²) の壁を最小実装で覗く

LLM はトークンを1つずつ予測している — 自己回帰ループを手元で覗く

MLX vs ollama を M5 Pro で実測：Mac のローカル LLM、どっちのランタイムが速いか

コーディングLLMを M5 Pro 48GB で実測：「動く」と「使える」を分けるのは context の壁だった

DiffusionGemma を M5 Pro で実測：拡散LLMの「4倍速」は Apple Silicon で消える

RAG を作る前に読む地図 — 用語が「どこで牙を剥くか」を先に押さえる

本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する

評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する

Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker

Retrieval を真面目に — chunking と hybrid search で recall を数値改善する

素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由

プロンプトは「手順書」から「契約書」へ：GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践

Qwen3.6-27B がアツい：27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

【GLM-4.7】Opus 4.5級の性能で激安？新星LLMの実力を徹底検証【モデル評価テンプレート付き】