Go错误处理在微服务中怎么做_Go分布式错误规范实践_技术教程

微服务中Go的error不应直接返回调用方，须统一映射为语义明确的状态码（HTTP）或标准gRPC code，封装为可识别类型并保留错误链，携带trace ID，禁止字符串匹配，确保可观测性与重试策略分层可控。

微服务中 Go 的 error 不该直接返回给调用方

在微服务间通信（如 HTTP/gRPC）中，直接把 fmt.Errorf("db timeout") 或底层库的原始 error 返回，会导致调用方无法区分是临时故障、业务拒绝还是系统崩溃。Go 的 error 接口本身不带状态码、重试建议或上下文标识，裸 error 会破坏服务契约。

HTTP 接口应统一转为 400 Bad Request、503 Service Unavailable 等语义明确的状态码，而非全塞 500 Internal Server Error
gRPC 接口必须映射到标准 codes.Code（如 codes.Unavailable、codes.InvalidArgument），不能靠字符串匹配错误信息做判断
跨服务传递的 error 需携带 trace ID 和发生位置（如 "svc-order:payment_client_timeout"），否则链路追踪里只剩 "context deadline exceeded" 这种泛化提示

用自定义 error 类型封装底层错误并保留因果链

Go 1.13 引入的 errors.Is 和 errors.As 让错误分类成为可能，但前提是错误类型可识别。推荐定义一组核心 error 类型，并用 fmt.Errorf("xxx: %w", err) 包裹底层 error，形成可展开的错误链。

type PaymentFailedError struct {
    OrderID string
    Code    string // "PAYMENT_DECLINED", "INSUFFICIENT_BALANCE"
}

func (e *PaymentFailedError) Error() string {
    return fmt.Sprintf("payment failed for order %s: %s", e.OrderID, e.Code)
}

// 使用时
if errors.Is(err, context.DeadlineExceeded) {
    return &PaymentFailedError{OrderID: orderID, Code: "TIMEOUT"}, codes.DeadlineExceeded
}

避免用字符串比较判断错误类型（如 strings.Contains(err.Error(), "timeout")），脆弱且无法跨语言兼容
所有包装 error 必须用 %w，否则 errors.Unwrap() 失效，链路中断
日志记录时用 log.Error("payment failed", "err", err)，而不是 err.Error()，确保结构化字段和堆栈完整

gRPC 错误码与 HTTP 状态码的双向映射要显式声明

Protobuf 定义的 gRPC 接口默认通过 status.Error(codes.XXX, msg) 构造错误，但前端或网关常消费 HTTP 接口。若未显式配置映射规则，codes.Unauthenticated 可能被转成 500 而非预期的 401，导致前端鉴权逻辑失效。

使用 google.golang.org/grpc/codes 和 google.golang.org/grpc/status 构建错误，而非手动拼接字符串
在 HTTP 网关层（如 grpc-gateway）配置 runtime.W ithErrorHandler，按 code 映射 HTTP 状态码，例如：codes.Unavailable → 503，codes.ResourceExhausted → 429
禁止在 handler 里写 http.Error(w, "bad request", http.StatusBadRequest)，绕过统一错误处理管道

超时与重试场景下 error 的处理必须分层决策

微服务调用链中，一个 context.DeadlineExceeded 可能来自客户端、网关、下游服务或 DB 连接池。盲目重试会放大雪崩风险；完全不重试又降低可用性。关键是在每层明确“谁该重试、重试几次、什么条件下跳过”。

客户端发起调用时设置短于上游 deadline 的 context（如上游给 5s，本地设 4.5s），留出缓冲时间做降级
对 codes.Unavailable / codes.DeadlineExceeded 可启用指数退避重试（最多 2 次），但对 codes.InvalidArgument 或 codes.AlreadyExists 绝对禁止重试
DB 层错误（如 sql.ErrNoRows）不应向上抛成 codes.Internal，而应转为业务语义错误（如 codes.NotFound）并由上层决定是否兜底

最易被忽略的是 error 的可观测性：同一个错误在不同服务日志里应有相同 trace ID、一致的 error code 字段、可被 Prometheus 按 error_code 标签聚合。否则排查时只能靠猜。