标题:Goamz 多部分上传:如何将 HTTP 流式响应直接分块上传至 S3

本文详解如何使用 goamz 实现大文件(如 2+ gb)的流式 http 下载 + s3 分块上传,解决 `io.readcloser` 不满足 `s3.readeratseeker` 接口要求的问题,并提供基于 `multi.putpart` 的可控、内存友好的替代方案。

在使用 goamz(mitchellh/goamz)进行 Amazon S3 多部分上传时,bucket.Multi.PutAll() 要求传入一个同时实现 io.ReaderAt 和 io.ReadSeeker 的对象(即 s3.ReaderAtSeeker)。但 http.Response.Body 仅是 io.ReadCloser,不支持随机读取(ReadAt)或回溯(Seek),因此无法直接用于 PutAll —— 这正是你遇到编译错误的根本原因:

cannot use resp.Body (type io.ReadCloser) as type s3.ReaderAtSeeker

虽然可尝试将整个响应体读入内存再封装为 bytes.Reader(它实现了 ReaderAtSeeker),但这对 2+ GB 文件极不现实,会导致 OOM。正确解法是绕过 PutAll,改用细粒度控制的 multi.PutPart 手动分块上传

✅ 推荐方案:流式分块上传(Streaming Chunked Upload)

该方案不缓存全部数据,按固定大小(如 5 MB)从 resp.Body 逐段读取、上传,内存占用恒定,且天然适配 HTTP chunked 响应:

// 1. 初始化 S3 客户端与存储桶
auth, err := aws.EnvAuth()
if err != nil {
    log.Fatalf("Auth error: %v", err)
}
s3Con := s3.New(auth, aws.USEast)
bucket := s3Con.Bucket("bucket-name")

// 2. 发起 HTTP GET 请求(确保服务端返回 Content-Length 或启用 chunked)
resp, err := http.Get(export_url)
if err != nil {
    log.Fatalf("HTTP GET error: %v", err)
}
defer resp.Body.Close()

// 3. 获取文件总长度(关键!用于计算分块数)
contentLength := resp.ContentLength
if contentLength == -1 {
    log.Fatal("Content-Length header missing; streaming multipart upload requires known size")
}

// 4. 初始化多部分上传
multi, err := bucket.InitMulti(s3Path, "text/plain", s3.Private, s3.Options{})
if err != nil {
    log.Fatalf("InitMulti error: %v", err)
}

const partSize = 5 * 1024 * 1024 // 5 MB per part (S3 min: 5 MB, except last part)
numParts := int((contentLength + partSize - 1) / partSize)

var parts []s3.CompletePart
buf := make([]byte, partSize)

// 5. 逐块读取并上传
for i := 0; i < numParts; i++ {
    // 计算当前块应读取的字节数(最后一块可能更小)
    remaining := contentLength - int64(i)*partSize
    readSize := int64(partSize)
    if remaining < partSize {
        readSize = remaining
    }

    // 从 resp.Body 精确读取 readSize 字节
    n, err := io.ReadFull(resp.Body, buf[:readSize])
    if err != nil && err != io.EOF && err != io.ErrUnexpectedEOF {
        log.Fatalf("ReadFull error at part %d: %v", i+1, err)
    }
    if n == 0 {
        break // 意外结束
    }

    // 上传当前块(注意:buf[:n] 是有效数据)
    part, err := multi.PutPart(i+1, bytes.NewReader(buf[:n]))
    if err != nil {
        log.Fatalf("PutPart %d error: %v", i+1, err)
    }
    parts = append(parts, part)

    log.Printf("Uploaded part %d/%d (%d bytes)", i+1, numParts, n)
}

// 6. 完成上传
if err := multi.Complete(parts); err != nil {
    log.Fatalf("Complete error: %v", err)
}
log.Println("✅ Multi-part upload completed successfully!")

⚠️ 关键注意事项

  • Content-Length 必须存在:PutPart 需预先知道每块大小及总块数,因此服务端必须返回 Content-Length。若仅支持 chunked transfer encoding 且无长度头,需先 HEAD 请求获取长度,或改用支持流式上传的 SDK(如官方 AWS SDK for Go v2 的 manager.Uploader)。

  • 最小分块大小:S3 要求除最后一块外,所有分块 ≥ 5 MB。代码中通过 partSize = 5MB 及 readSize 动态截断确保合规。

  • 错误处理与重试:生产环境应添加网络超时、重试逻辑(如 multi.PutPart 失败时重试该块)、进度回调及中断恢复(记录已上传 parts)。

  • 替代建议:goamz 已多年未维护。新项目强烈推荐迁移至 AWS SDK for Go v2,其 s3manager.Uploader 原生支持 io.Reader 流式上传,无需手动分块:

    uploader := s3manager.NewUploader(cfg)
    _, err := uploader.Upload(ctx, &s3.PutObjectInput{
        Bucket: aws.String("bucket-name"),
        Key:    aws.String(s3Path),
        Body:   resp.Body, // 直接传入!
        ContentType: aws.String("text/plain"),
    })

通过 PutPart 手动分块,你完全掌控内存与网络行为,既规避了 ReaderAtSeeker 的接口限制,又实现了真正零拷贝的大文件流式上传。