カテゴリー
タグ
ai agent protocol developer-tools DataCenter Cost GPU Infrastructure Antigravity Claude Code Agent Skills bun rust zig anthropic claude-code runtime ai-coding typescript ci-cd github-actions astro firebase eslint prettier LLM Claude Claude Opus 4.7 ベンチマーク エージェント ClawdBot Messaging Productivity Codex OpenAI AgentSkills UX Sprite Pet 画像生成 DeepSeek DeepSeek-V4 MoE オープンソース CSS Theme OKLCH UI-UX GLM-4.7 Opus 4.5 google gemini ai-strategy distillation deep-think ai-industry GPT-5.5 Claude Mythos Gemini 3.1 Pro Grok 4.3 オーケストレーション gpt-5-5-instant gemini-3-flash claude-haiku-4-5 benchmark gpt-image-2 Nano Banana コスト比較 gpt-realtime-2 voice-ai gemini-live elevenlabs cartesia ai-agent harness-engineering context-engineering coding-agent Review Manga Tutorial Nano Banana Pro React FastAPI プロンプトエンジニアリング Gemini 3 Pro Responses API reasoning effort Qwen Alibaba Qwen3.6-27B RAG evaluation RAGAs Ollama Python golden-set reranker citations cross-encoder retrieval production observability PII OpenTelemetry bm25 chunking Editor Zed VSCode Cursor GPUI ACP 開発体験
Tag: #LLM
2026
13 posts
評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する
本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する
Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker
Retrieval を真面目に — chunking と hybrid search で recall を数値改善する
素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由
プロンプトは「手順書」から「契約書」へ:GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践
GPT-5.5 Instant がやってきた:ChatGPT デフォルトを刷新したリリースの背景・モデルカード比較・ユースケース
DeepSeek V4-Pro/Flash がアツい:1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手
Qwen3.6-27B がアツい:27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点
GPT-5.5・Opus 4.7・Gemini 3.1 Pro・Grok 4.3+Mythos:「最強モデル」を捨てオーケストレーションで勝つ
Claude Opus 4.7 徹底レポート:13%向上したコーディング性能と新しいxhigh努力レベルを解説
Deep ThinkからGemini 3.1 Proへ——Googleの「蒸留戦略」とAI業界ポジショニング
【GLM-4.7】Opus 4.5級の性能で激安?新星LLMの実力を徹底検証【モデル評価テンプレート付き】
