All Tags

2026

27 posts
  1. 評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する

    #RAG #LLM #evaluation #RAGAs #Ollama #Python #golden-set
  2. 本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する

    #RAG #LLM #production #observability #PII #OpenTelemetry #Python
  3. Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker

    #RAG #LLM #Anthropic #Ollama #reranker #citations #cross-encoder
  4. Retrieval を真面目に — chunking と hybrid search で recall を数値改善する

    #RAG #LLM #Ollama #Python #retrieval #bm25 #chunking
  5. 素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由

    #RAG #LLM #Ollama #Python #retrieval
  6. Bun が Zig から Rust に書き直された本当の理由 — Anthropic 買収・Zig の AI 禁止・Claude による 6 日 96 万行ポート

    #bun #rust #zig #anthropic #claude-code #runtime #ai-coding
  7. プロンプトは「手順書」から「契約書」へ:GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践

    #AI #LLM #プロンプトエンジニアリング #GPT-5.5 #OpenAI #Claude Opus 4.7 #Gemini 3 Pro #Responses API #reasoning effort
  8. gpt-realtime-2 はどこをブレイクスルーしたか — 主要4社リアルタイム音声モデル定量比較

    #openai #gpt-realtime-2 #voice-ai #benchmark #gemini-live #elevenlabs #cartesia
  9. GPT-5.5 Instant がやってきた:ChatGPT デフォルトを刷新したリリースの背景・モデルカード比較・ユースケース

    #gpt-5-5-instant #openai #llm #ai #gemini-3-flash #claude-haiku-4-5 #benchmark
  10. Codexペット機能を支える hatch-pet スキル徹底解剖——技術スタックと「他プロダクトへの流用」戦略

    #Codex #OpenAI #AgentSkills #UX #Sprite #Pet #画像生成
  11. Zed 1.0登場——VSCode・Cursorユーザーから見た開発体験の違いと、刺さるユーザー像

    #Editor #Zed #VSCode #Cursor #Rust #GPUI #ACP #開発体験
  12. DeepSeek V4-Pro/Flash がアツい:1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手

    #AI #LLM #DeepSeek #DeepSeek-V4 #MoE #オープンソース #ベンチマーク #エージェント
  13. Qwen3.6-27B がアツい:27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

    #AI #LLM #Qwen #Alibaba #Qwen3.6-27B #オープンソース #ベンチマーク #エージェント
  14. GPT-5.5・Opus 4.7・Gemini 3.1 Pro・Grok 4.3+Mythos:「最強モデル」を捨てオーケストレーションで勝つ

    #AI #LLM #GPT-5.5 #Claude Opus 4.7 #Claude Mythos #Gemini 3.1 Pro #Grok 4.3 #オーケストレーション #エージェント
  15. gpt-image-2 徹底比較レポート:Nano Banana Pro/2との実運用コスト分析と使い分けガイド

    #AI #画像生成 #OpenAI #Google #gpt-image-2 #Nano Banana #コスト比較
  16. Claude Opus 4.7 徹底レポート:13%向上したコーディング性能と新しいxhigh努力レベルを解説

    #AI #LLM #Claude #Anthropic #Claude Opus 4.7 #ベンチマーク #エージェント
  17. ハーネスエンジニアリング入門:AIコーディングエージェントを「確実に動かす」設計思想

    #ai-agent #harness-engineering #context-engineering #coding-agent
  18. ACP (Agent Client Protocol): エージェントとIDEを繋ぐオープンな標準規格

    #ai #agent #protocol #developer-tools
  19. Nano Banana 2 登場:Proの頭脳をFlashの脚で走らせた結果

    #AI #Google #Review
  20. Deep ThinkからGemini 3.1 Proへ——Googleの「蒸留戦略」とAI業界ポジショニング

    #google #gemini #llm #ai-strategy #distillation #deep-think #ai-industry
  21. AIデータセンターの運営コストを構造化する──学習・推論にいくらかかるのか

    #AI #DataCenter #Cost #GPU #Infrastructure
  22. Opus 4.5 Cost Efficiency Analysis

    #Anthropic #Claude #AI
  23. ClawdBotが海外で人気爆発!AIエージェント×メッセージングの"ブレイクスルー"を徹底分析

    #AI #ClawdBot #Messaging #Productivity
  24. 【GLM-4.7】Opus 4.5級の性能で激安?新星LLMの実力を徹底検証【モデル評価テンプレート付き】

    #LLM #GLM-4.7 #Opus 4.5 #AI
  25. Antigravity Skills完全ガイド:AIエージェントを専門家に変える新機能

    #AI #Antigravity #Claude Code #Agent Skills
  26. AIエージェントのコード品質を劇的に高める「Skills」実践ガイド:React & FastAPI編

    #AI #Antigravity #Claude Code #React #FastAPI
  27. Nano Banana Proで作る4コマ漫画:キャラクター一貫性を保つA-Zガイド

    #AI #Manga #Tutorial #Nano Banana Pro #Gemini

2025

2 posts
  1. GitHub Actions CI/CD パイプライン構築の苦闘記 - TypeScript移行からFirebase統合まで

    #typescript #ci-cd #github-actions #astro #firebase #eslint #prettier
  2. Fixing Theme Switching Issues in Astro with OKLCH Colors

    #CSS #Astro #Theme #OKLCH #UI-UX