Tag: #LLM

2026

13 posts
  1. 評価 (クライマックス) — RAGAs 4 指標で Part 1-3 の改善を客観評価する

    #RAG #LLM #evaluation #RAGAs #Ollama #Python #golden-set
  2. 本番運用 — Logging Safety / Drift / Cost / Rollback で RAG を運用する

    #RAG #LLM #production #observability #PII #OpenTelemetry #Python
  3. Generation を引用付きで書く — Anthropic Citations API と cross-encoder reranker

    #RAG #LLM #Anthropic #Ollama #reranker #citations #cross-encoder
  4. Retrieval を真面目に — chunking と hybrid search で recall を数値改善する

    #RAG #LLM #Ollama #Python #retrieval #bm25 #chunking
  5. 素朴な RAG の限界 — 100 行で動くけど「使える」とは言えない理由

    #RAG #LLM #Ollama #Python #retrieval
  6. プロンプトは「手順書」から「契約書」へ:GPT-3.5からGPT-5.5までの公式ガイド変遷と移行実践

    #AI #LLM #プロンプトエンジニアリング #GPT-5.5 #OpenAI #Claude Opus 4.7 #Gemini 3 Pro #Responses API #reasoning effort
  7. GPT-5.5 Instant がやってきた:ChatGPT デフォルトを刷新したリリースの背景・モデルカード比較・ユースケース

    #gpt-5-5-instant #openai #llm #ai #gemini-3-flash #claude-haiku-4-5 #benchmark
  8. DeepSeek V4-Pro/Flash がアツい:1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手

    #AI #LLM #DeepSeek #DeepSeek-V4 #MoE #オープンソース #ベンチマーク #エージェント
  9. Qwen3.6-27B がアツい:27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

    #AI #LLM #Qwen #Alibaba #Qwen3.6-27B #オープンソース #ベンチマーク #エージェント
  10. GPT-5.5・Opus 4.7・Gemini 3.1 Pro・Grok 4.3+Mythos:「最強モデル」を捨てオーケストレーションで勝つ

    #AI #LLM #GPT-5.5 #Claude Opus 4.7 #Claude Mythos #Gemini 3.1 Pro #Grok 4.3 #オーケストレーション #エージェント
  11. Claude Opus 4.7 徹底レポート:13%向上したコーディング性能と新しいxhigh努力レベルを解説

    #AI #LLM #Claude #Anthropic #Claude Opus 4.7 #ベンチマーク #エージェント
  12. Deep ThinkからGemini 3.1 Proへ——Googleの「蒸留戦略」とAI業界ポジショニング

    #google #gemini #llm #ai-strategy #distillation #deep-think #ai-industry
  13. 【GLM-4.7】Opus 4.5級の性能で激安?新星LLMの実力を徹底検証【モデル評価テンプレート付き】

    #LLM #GLM-4.7 #Opus 4.5 #AI