All Tags

2026

27 posts

05- 22
評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する
#RAG #LLM #evaluation #RAGAs #Ollama #Python #golden-set
05- 22
本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する
#RAG #LLM #production #observability #PII #OpenTelemetry #Python
05- 21
Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker
#RAG #LLM #Anthropic #Ollama #reranker #citations #cross-encoder
05- 21
Retrieval を真面目に — chunking と hybrid search で recall を数値改善する
#RAG #LLM #Ollama #Python #retrieval #bm25 #chunking
05- 20
素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由
#RAG #LLM #Ollama #Python #retrieval
05- 16
Bun が Zig から Rust に書き直された本当の理由 — Anthropic 買収・Zig の AI 禁止・Claude による 6 日 96 万行ポート
#bun #rust #zig #anthropic #claude-code #runtime #ai-coding
05- 16
プロンプトは「手順書」から「契約書」へ：GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践
#AI #LLM #プロンプトエンジニアリング #GPT-5.5 #OpenAI #Claude Opus 4.7 #Gemini 3 Pro #Responses API #reasoning effort
05- 09
gpt-realtime-2 はどこをブレイクスルーしたか — 主要4社リアルタイム音声モデル定量比較
#openai #gpt-realtime-2 #voice-ai #benchmark #gemini-live #elevenlabs #cartesia
05- 06
GPT-5.5 Instant がやってきた：ChatGPT デフォルトを刷新したリリースの背景・モデルカード比較・ユースケース
#gpt-5-5-instant #openai #llm #ai #gemini-3-flash #claude-haiku-4-5 #benchmark
05- 03
Codexペット機能を支える hatch-pet スキル徹底解剖——技術スタックと「他プロダクトへの流用」戦略
#Codex #OpenAI #AgentSkills #UX #Sprite #Pet #画像生成
04- 30
Zed 1.0登場——VSCode・Cursorユーザーから見た開発体験の違いと、刺さるユーザー像
#Editor #Zed #VSCode #Cursor #Rust #GPUI #ACP #開発体験
04- 25
DeepSeek V4-Pro/Flash がアツい：1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手
#AI #LLM #DeepSeek #DeepSeek-V4 #MoE #オープンソース #ベンチマーク #エージェント
04- 25
Qwen3.6-27B がアツい：27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点
#AI #LLM #Qwen #Alibaba #Qwen3.6-27B #オープンソース #ベンチマーク #エージェント
04- 24
GPT-5.5・Opus 4.7・Gemini 3.1 Pro・Grok 4.3＋Mythos：「最強モデル」を捨てオーケストレーションで勝つ
#AI #LLM #GPT-5.5 #Claude Opus 4.7 #Claude Mythos #Gemini 3.1 Pro #Grok 4.3 #オーケストレーション #エージェント
04- 22
gpt-image-2 徹底比較レポート：Nano Banana Pro／2との実運用コスト分析と使い分けガイド
#AI #画像生成 #OpenAI #Google #gpt-image-2 #Nano Banana #コスト比較
04- 17
Claude Opus 4.7 徹底レポート：13%向上したコーディング性能と新しいxhigh努力レベルを解説
#AI #LLM #Claude #Anthropic #Claude Opus 4.7 #ベンチマーク #エージェント
03- 11
ハーネスエンジニアリング入門：AIコーディングエージェントを「確実に動かす」設計思想
#ai-agent #harness-engineering #context-engineering #coding-agent
02- 27
ACP (Agent Client Protocol): エージェントとIDEを繋ぐオープンな標準規格
#ai #agent #protocol #developer-tools
02- 27
Nano Banana 2 登場：Proの頭脳をFlashの脚で走らせた結果
#AI #Google #Review
02- 21
Deep ThinkからGemini 3.1 Proへ——Googleの「蒸留戦略」とAI業界ポジショニング
#google #gemini #llm #ai-strategy #distillation #deep-think #ai-industry
02- 13
AIデータセンターの運営コストを構造化する──学習・推論にいくらかかるのか
#AI #DataCenter #Cost #GPU #Infrastructure
01- 25
Opus 4.5 Cost Efficiency Analysis
#Anthropic #Claude #AI
01- 24
ClawdBotが海外で人気爆発！AIエージェント×メッセージングの"ブレイクスルー"を徹底分析
#AI #ClawdBot #Messaging #Productivity
01- 24
【GLM-4.7】Opus 4.5級の性能で激安？新星LLMの実力を徹底検証【モデル評価テンプレート付き】
#LLM #GLM-4.7 #Opus 4.5 #AI
01- 17
Antigravity Skills完全ガイド：AIエージェントを専門家に変える新機能
#AI #Antigravity #Claude Code #Agent Skills
01- 16
AIエージェントのコード品質を劇的に高める「Skills」実践ガイド：React & FastAPI編
#AI #Antigravity #Claude Code #React #FastAPI
01- 01
Nano Banana Proで作る4コマ漫画：キャラクター一貫性を保つA-Zガイド
#AI #Manga #Tutorial #Nano Banana Pro #Gemini

2025

2 posts

09- 01
GitHub Actions CI/CD パイプライン構築の苦闘記 - TypeScript移行からFirebase統合まで
#typescript #ci-cd #github-actions #astro #firebase #eslint #prettier
01- 31
Fixing Theme Switching Issues in Astro with OKLCH Colors
#CSS #Astro #Theme #OKLCH #UI-UX

All Tags

評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する

本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する

Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker

Retrieval を真面目に — chunking と hybrid search で recall を数値改善する

素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由

Bun が Zig から Rust に書き直された本当の理由 — Anthropic 買収・Zig の AI 禁止・Claude による 6 日 96 万行ポート

プロンプトは「手順書」から「契約書」へ：GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践

gpt-realtime-2 はどこをブレイクスルーしたか — 主要4社リアルタイム音声モデル定量比較

GPT-5.5 Instant がやってきた：ChatGPT デフォルトを刷新したリリースの背景・モデルカード比較・ユースケース

Codexペット機能を支える hatch-pet スキル徹底解剖——技術スタックと「他プロダクトへの流用」戦略

Zed 1.0登場——VSCode・Cursorユーザーから見た開発体験の違いと、刺さるユーザー像

DeepSeek V4-Pro/Flash がアツい：1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手

Qwen3.6-27B がアツい：27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

GPT-5.5・Opus 4.7・Gemini 3.1 Pro・Grok 4.3＋Mythos：「最強モデル」を捨てオーケストレーションで勝つ

gpt-image-2 徹底比較レポート：Nano Banana Pro／2との実運用コスト分析と使い分けガイド

Claude Opus 4.7 徹底レポート：13%向上したコーディング性能と新しいxhigh努力レベルを解説

ハーネスエンジニアリング入門：AIコーディングエージェントを「確実に動かす」設計思想

ACP (Agent Client Protocol): エージェントとIDEを繋ぐオープンな標準規格

Nano Banana 2 登場：Proの頭脳をFlashの脚で走らせた結果

Deep ThinkからGemini 3.1 Proへ——Googleの「蒸留戦略」とAI業界ポジショニング

AIデータセンターの運営コストを構造化する──学習・推論にいくらかかるのか

Opus 4.5 Cost Efficiency Analysis

ClawdBotが海外で人気爆発！AIエージェント×メッセージングの"ブレイクスルー"を徹底分析

【GLM-4.7】Opus 4.5級の性能で激安？新星LLMの実力を徹底検証【モデル評価テンプレート付き】

Antigravity Skills完全ガイド：AIエージェントを専門家に変える新機能

AIエージェントのコード品質を劇的に高める「Skills」実践ガイド：React & FastAPI編

Nano Banana Proで作る4コマ漫画：キャラクター一貫性を保つA-Zガイド

GitHub Actions CI/CD パイプライン構築の苦闘記 - TypeScript移行からFirebase統合まで

Fixing Theme Switching Issues in Astro with OKLCH Colors