Sie können keinen Production-Agent betreiben, den Sie nicht verstehen. LangSmith ist LangChains Plattform für Tracing, Evaluation und Debugging von LLM-Anwendungen. Observability ist kein Nice-to-Have — es ist Voraussetzung für Production.
Jeder LangChain-Run wird automatisch getraced, wenn LangSmith konfiguriert ist:
export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=ls_...
export LANGCHAIN_PROJECT=my-agent
| Element | Details |
|---|---|
| LLM Calls | Input, Output, Token-Usage, Latenz, Modell |
| Tool Calls | Welches Tool, welche Parameter, Ergebnis |
| Chain Steps | Jeder Schritt einer Chain mit Input/Output |
| Retriever | Queries, gefundene Dokumente, Relevanz-Scores |
| Errors | Stacktraces, Retry-Versuche, Fallbacks |
Run: "Customer Support Agent"
├── Chain: "rag_chain"
│ ├── Retriever: "vector_search" (3 Dokumente, 120ms)
│ ├── LLM: "claude-sonnet" (450 Tokens, 890ms)
│ └── Parser: "json_output" (2ms)
├── Tool: "create_ticket" (Success, 340ms)
└── LLM: "claude-sonnet" (Final Response, 230 Tokens)
LangSmith ermöglicht systematische Evaluation Ihrer Chains:
from langsmith import Client
client = Client()
dataset = client.create_dataset("customer-queries")
client.create_examples(
inputs=[{"query": "Wo ist meine Bestellung?"}],
outputs=[{"expected": "Bestellstatus mit Tracking-Link"}],
dataset_id=dataset.id
)
from langsmith.evaluation import evaluate
results = evaluate(
my_chain.invoke,
data="customer-queries",
evaluators=[
correctness_evaluator,
relevance_evaluator,
helpfulness_evaluator
]
)
LangSmith Hub ermöglicht zentrale Prompt-Verwaltung:
Automatisierte Tests bei Prompt- oder Code-Änderungen:
Praxis-Tipp: Aktivieren Sie Tracing ab Tag 1. Die Kosten sind minimal, aber ohne Traces debuggen Sie blind. Erstellen Sie ein Test-Dataset mit mindestens 50 realen Nutzerfragen — das ist Ihr Goldstandard für Evaluationen.