Trí thông minh dữ liệu tạo

Tinh chỉnh mô hình Amazon Titan Image Generator G1 của bạn bằng cách sử dụng tùy chỉnh mô hình Amazon Bedrock | Dịch vụ web của Amazon

Ngày:

Trình tạo hình ảnh Amazon Titan G1 là mô hình chuyển văn bản thành hình ảnh tiên tiến, có sẵn thông qua nền tảng Amazon, có thể hiểu các lời nhắc mô tả nhiều đối tượng trong nhiều ngữ cảnh khác nhau và ghi lại những chi tiết liên quan này vào hình ảnh mà nó tạo ra. Nó có sẵn ở các Khu vực AWS Miền Đông Hoa Kỳ (N. Virginia) và Miền Tây Hoa Kỳ (Oregon) và có thể thực hiện các tác vụ chỉnh sửa hình ảnh nâng cao như cắt xén thông minh, vẽ trong và thay đổi nền. Tuy nhiên, người dùng muốn điều chỉnh mô hình cho phù hợp với các đặc điểm riêng biệt trong bộ dữ liệu tùy chỉnh mà mô hình chưa được đào tạo. Bộ dữ liệu tùy chỉnh có thể bao gồm dữ liệu có tính độc quyền cao, phù hợp với nguyên tắc thương hiệu của bạn hoặc các phong cách cụ thể, chẳng hạn như chiến dịch trước đó. Để giải quyết các trường hợp sử dụng này và tạo hình ảnh được cá nhân hóa hoàn toàn, bạn có thể tinh chỉnh Amazon Titan Image Generator bằng dữ liệu của riêng mình bằng cách sử dụng mô hình tùy chỉnh cho Amazon Bedrock.

Từ việc tạo hình ảnh đến chỉnh sửa chúng, mô hình chuyển văn bản thành hình ảnh có ứng dụng rộng rãi trong nhiều ngành. Chúng có thể nâng cao khả năng sáng tạo của nhân viên và cung cấp khả năng tưởng tượng ra những khả năng mới chỉ bằng những mô tả bằng văn bản. Ví dụ, nó có thể hỗ trợ thiết kế và quy hoạch sàn cho các kiến ​​trúc sư và cho phép đổi mới nhanh hơn bằng cách cung cấp khả năng trực quan hóa các thiết kế khác nhau mà không cần quy trình tạo chúng thủ công. Tương tự, nó có thể hỗ trợ thiết kế trong nhiều ngành khác nhau như sản xuất, thiết kế thời trang trong bán lẻ và thiết kế trò chơi bằng cách hợp lý hóa việc tạo đồ họa và hình minh họa. Mô hình chuyển văn bản thành hình ảnh cũng nâng cao trải nghiệm khách hàng của bạn bằng cách cho phép quảng cáo được cá nhân hóa cũng như các chatbot trực quan mang tính tương tác và sống động trong các trường hợp sử dụng phương tiện truyền thông và giải trí.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn quy trình tinh chỉnh mô hình Amazon Titan Image Generator để tìm hiểu hai danh mục mới: chó Ron và mèo Smila, những thú cưng yêu thích của chúng tôi. Chúng tôi thảo luận về cách chuẩn bị dữ liệu cho nhiệm vụ tinh chỉnh mô hình và cách tạo công việc tùy chỉnh mô hình trong Amazon Bedrock. Cuối cùng, chúng tôi chỉ cho bạn cách kiểm tra và triển khai mô hình tinh chỉnh của mình với Thông lượng được cung cấp.

chú chó Ron con mèo mỉm cười

Đánh giá khả năng của mô hình trước khi tinh chỉnh công việc

Các mô hình nền tảng được đào tạo dựa trên lượng lớn dữ liệu, vì vậy có thể mô hình của bạn sẽ hoạt động đủ tốt ngay từ đầu. Đó là lý do tại sao bạn nên kiểm tra xem liệu bạn có thực sự cần tinh chỉnh mô hình cho trường hợp sử dụng của mình hay không hoặc liệu kỹ thuật nhanh chóng có đủ hay không. Hãy thử tạo một số hình ảnh về chú chó Ron và chú mèo Smila bằng mô hình Amazon Titan Image Generator cơ bản, như minh họa trong các ảnh chụp màn hình sau.

Đúng như dự đoán, mô hình có sẵn chưa biết Ron và Smila, và kết quả đầu ra được tạo ra cho thấy những con chó và mèo khác nhau. Với một số kỹ thuật nhanh chóng, chúng tôi có thể cung cấp thêm thông tin chi tiết để có được hình dáng gần hơn với những con vật cưng yêu thích của chúng tôi.

Mặc dù các hình ảnh được tạo ra giống với Ron và Smila hơn, nhưng chúng tôi thấy rằng mô hình không thể tái tạo toàn bộ hình ảnh giống với chúng. Bây giờ, chúng ta hãy bắt đầu công việc tinh chỉnh các bức ảnh của Ron và Smila để có được kết quả đầu ra nhất quán, được cá nhân hóa.

Tinh chỉnh Trình tạo hình ảnh Amazon Titan

Amazon Bedrock cung cấp cho bạn trải nghiệm serverless để tinh chỉnh mô hình Amazon Titan Image Generator của bạn. Bạn chỉ cần chuẩn bị dữ liệu và chọn siêu tham số, AWS sẽ xử lý công việc nặng nhọc cho bạn.

Khi bạn sử dụng mô hình Amazon Titan Image Generator để tinh chỉnh, một bản sao của mô hình này sẽ được tạo trong tài khoản phát triển mô hình AWS do AWS sở hữu và quản lý, đồng thời một công việc tùy chỉnh mô hình sẽ được tạo. Sau đó, công việc này sẽ truy cập dữ liệu tinh chỉnh từ VPC và mô hình Amazon Titan đã được cập nhật trọng số. Mô hình mới sau đó được lưu vào một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) nằm trong cùng tài khoản phát triển mô hình với mô hình được đào tạo trước. Hiện tại, nó chỉ có thể được sử dụng để suy luận bởi tài khoản của bạn và không được chia sẻ với bất kỳ tài khoản AWS nào khác. Khi chạy suy luận, bạn truy cập mô hình này thông qua một tính toán công suất cung cấp hoặc trực tiếp, sử dụng suy luận hàng loạt cho Amazon Bedrock. Độc lập với phương thức suy luận đã chọn, dữ liệu của bạn vẫn còn trong tài khoản của bạn và không được sao chép sang bất kỳ tài khoản nào do AWS sở hữu hoặc được sử dụng để cải thiện mô hình Amazon Titan Image Generator.

Sơ đồ sau minh họa quy trình làm việc này.

Quyền riêng tư dữ liệu và an ninh mạng

Dữ liệu của bạn được sử dụng để tinh chỉnh bao gồm lời nhắc cũng như các mô hình tùy chỉnh sẽ được giữ ở chế độ riêng tư trong tài khoản AWS của bạn. Chúng không được chia sẻ hoặc sử dụng để đào tạo mô hình hoặc cải tiến dịch vụ cũng như không được chia sẻ với các nhà cung cấp mô hình bên thứ ba. Tất cả dữ liệu dùng để tinh chỉnh đều được mã hóa trong quá trình truyền tải và khi lưu trữ. Dữ liệu vẫn ở cùng Khu vực nơi lệnh gọi API được xử lý. Bạn cũng có thể dùng Liên kết riêng AWS để tạo kết nối riêng tư giữa tài khoản AWS nơi chứa dữ liệu của bạn và VPC.

Chuẩn bị dữ liệu

Trước khi bạn có thể tạo một công việc tùy chỉnh mô hình, bạn cần phải chuẩn bị tập dữ liệu đào tạo của bạn. Định dạng của tập dữ liệu huấn luyện tùy thuộc vào loại công việc tùy chỉnh mà bạn đang tạo (tinh chỉnh hoặc tiếp tục đào tạo trước) và phương thức dữ liệu của bạn (chuyển văn bản thành văn bản, văn bản thành hình ảnh hoặc hình ảnh thành- nhúng). Đối với mô hình Amazon Titan Image Generator, bạn cần cung cấp những hình ảnh bạn muốn sử dụng để tinh chỉnh và chú thích cho từng hình ảnh. Amazon Bedrock kỳ vọng hình ảnh của bạn sẽ được lưu trữ trên Amazon S3 và các cặp hình ảnh cũng như chú thích sẽ được cung cấp ở định dạng JSONL với nhiều dòng JSON.

Mỗi dòng JSON là một mẫu chứa tham chiếu hình ảnh, URI S3 cho hình ảnh và chú thích bao gồm lời nhắc bằng văn bản cho hình ảnh. Hình ảnh của bạn phải ở định dạng JPEG hoặc PNG. Đoạn mã sau đây hiển thị một ví dụ về định dạng:

{"image-ref": "s3://bucket/path/to/image001.png", "caption": ""} {"image-ref": "s3://bucket/path/to/image002.png", "caption": ""} {"image-ref": "s3://bucket/path/to/image003.png", "caption": ""}

Vì “Ron” và “Smila” là những tên cũng có thể được sử dụng trong các ngữ cảnh khác, chẳng hạn như tên của một người, nên chúng tôi thêm các giá trị nhận dạng “Ron the dog” và “Smila the cat” khi tạo lời nhắc để tinh chỉnh mô hình của chúng tôi . Mặc dù đây không phải là yêu cầu đối với quy trình tinh chỉnh, nhưng thông tin bổ sung này mang lại sự rõ ràng hơn về ngữ cảnh cho mô hình khi nó được tùy chỉnh cho các lớp mới và sẽ tránh nhầm lẫn giữa '“Ron the dog” với một người tên là Ron và “ Chú mèo Smila” với thành phố Smila ở Ukraine. Sử dụng logic này, các hình ảnh sau đây hiển thị một mẫu tập dữ liệu đào tạo của chúng tôi.

Chú chó Ron nằm trên giường chó màu trắng Chú chó Ron ngồi trên sàn gạch Chú chó Ron đang nằm trên ghế ô tô
Chú mèo Smila nằm trên ghế dài Chú mèo Smila đang nằm trên ghế nhìn chằm chằm vào camera Chú mèo Smila nằm trong lồng chở thú cưng

Khi chuyển đổi dữ liệu của chúng tôi sang định dạng mà công việc tùy chỉnh mong đợi, chúng tôi nhận được cấu trúc mẫu sau:

{"hình ảnh-ref": "/ron_01.jpg", "caption": "Con chó Ron đang nằm trên giường con chó trắng"} {"image-ref": "/ron_02.jpg", "caption": "Con chó Ron ngồi trên sàn gạch"} {"image-ref": "/ron_03.jpg", "caption": "Con chó Ron đang nằm trên ghế ô tô"} {"image-ref": "/smila_01.jpg", "caption": "Con mèo mỉm cười nằm trên ghế"} {"image-ref": "/smila_02.jpg", "caption": "Mèo Smile ngồi cạnh cửa sổ cạnh tượng mèo"} {"image-ref": "/smila_03.jpg", "caption": "Con mèo Smila nằm trên lồng thú cưng"}

Sau khi tạo tệp JSONL, chúng tôi cần lưu trữ tệp đó trên vùng lưu trữ S3 để bắt đầu công việc tùy chỉnh của mình. Các tác vụ tinh chỉnh của Amazon Titan Image Generator G1 sẽ hoạt động với 5–10,000 hình ảnh. Đối với ví dụ được thảo luận trong bài đăng này, chúng tôi sử dụng 60 hình ảnh: 30 hình ảnh về chú chó Ron và 30 hình ảnh về con mèo Smila. Nói chung, việc cung cấp nhiều phong cách hoặc đẳng cấp hơn mà bạn đang cố gắng học sẽ cải thiện độ chính xác của mô hình đã tinh chỉnh của bạn. Tuy nhiên, bạn càng sử dụng nhiều hình ảnh để tinh chỉnh thì công việc tinh chỉnh sẽ càng cần nhiều thời gian hơn để hoàn thành. Số lượng hình ảnh được sử dụng cũng ảnh hưởng đến giá cả của công việc tinh chỉnh của bạn. tham khảo Giá Amazon Bedrock để biết thêm thông tin chi tiết.

Tinh chỉnh Trình tạo hình ảnh Amazon Titan

Bây giờ chúng ta đã có sẵn dữ liệu đào tạo, chúng ta có thể bắt đầu công việc tùy chỉnh mới. Quá trình này có thể được thực hiện thông qua bảng điều khiển Amazon Bedrock hoặc API. Để sử dụng bảng điều khiển Amazon Bedrock, hãy hoàn thành các bước sau:

  1. Trên bảng điều khiển Amazon Bedrock, chọn Mô hình tùy chỉnh trong khung điều hướng.
  2. trên Tùy chỉnh mô hình menu, chọn Tạo công việc tinh chỉnh.
  3. Trong Tên model được tinh chỉnh, nhập tên cho kiểu máy mới của bạn.
  4. Trong cấu hình công việc, nhập tên cho công việc đào tạo.
  5. Trong Dữ liệu đầu vào, nhập đường dẫn S3 của dữ liệu đầu vào.
  6. Trong tạp chí Siêu tham số phần, cung cấp các giá trị cho các mục sau:
    1. Số bước – Số lần mẫu được phơi theo từng đợt.
    2. Kích thước lô – Số lượng mẫu được xử lý trước khi cập nhật các thông số của mô hình.
    3. Tỷ lệ học – Tốc độ cập nhật các tham số của mô hình sau mỗi đợt. Việc lựa chọn các tham số này phụ thuộc vào một tập dữ liệu nhất định. Theo hướng dẫn chung, chúng tôi khuyên bạn nên bắt đầu bằng cách sửa kích thước lô thành 8, tốc độ học thành 1e-5 và đặt số bước theo số lượng hình ảnh được sử dụng, như chi tiết trong bảng sau.
Số lượng hình ảnh được cung cấp 8 32 64 1,000 10,000
Số bước được đề xuất 1,000 4,000 8,000 10,000 12,000

Nếu kết quả công việc tinh chỉnh của bạn không đạt yêu cầu, hãy cân nhắc việc tăng số bước nếu bạn không quan sát thấy bất kỳ dấu hiệu nào về kiểu trong hình ảnh được tạo và giảm số bước nếu bạn quan sát kiểu trong hình ảnh được tạo nhưng với hiện tượng giả hoặc mờ. Nếu mô hình tinh chỉnh không học được kiểu duy nhất trong tập dữ liệu của bạn ngay cả sau 40,000 bước, hãy xem xét tăng kích thước lô hoặc tốc độ học tập.

  1. Trong tạp chí Dữ liệu đầu ra phần này, hãy nhập đường dẫn đầu ra S3 nơi lưu trữ các đầu ra xác thực, bao gồm cả các số liệu về độ chính xác và tổn thất xác thực được ghi lại định kỳ.
  2. Trong tạp chí Quyền truy cập dịch vụ phần, tạo một phần mới Quản lý truy cập và nhận dạng AWS (IAM) hoặc chọn vai trò IAM hiện có với các quyền cần thiết để truy cập nhóm S3 của bạn.

Ủy quyền này cho phép Amazon Bedrock truy xuất các tập dữ liệu đầu vào và xác thực từ bộ chứa được chỉ định của bạn và lưu trữ các đầu ra xác thực một cách liền mạch trong bộ chứa S3 của bạn.

  1. Chọn Tinh chỉnh mô hình.

Với cấu hình chính xác được thiết lập, Amazon Bedrock giờ đây sẽ đào tạo mô hình tùy chỉnh của bạn.

Triển khai Trình tạo hình ảnh Amazon Titan đã được tinh chỉnh với Thông lượng được cung cấp

Sau khi bạn tạo mô hình tùy chỉnh, Thông lượng cung cấp cho phép bạn phân bổ tốc độ xử lý cố định, được xác định trước cho mô hình tùy chỉnh. Sự phân bổ này mang lại mức hiệu suất và khả năng nhất quán để xử lý khối lượng công việc, mang lại hiệu suất tốt hơn trong khối lượng công việc sản xuất. Ưu điểm thứ hai của Thông lượng cung cấp là kiểm soát chi phí vì việc định giá dựa trên mã thông báo tiêu chuẩn với chế độ suy luận theo yêu cầu có thể khó dự đoán ở quy mô lớn.

Khi quá trình tinh chỉnh mô hình của bạn hoàn tất, mô hình này sẽ xuất hiện trên Mô hình tùy chỉnh' trang trên bảng điều khiển Amazon Bedrock.

Để mua Thông lượng cung cấp, hãy chọn mô hình tùy chỉnh mà bạn vừa tinh chỉnh và chọn Mua thông lượng cung cấp.

Điều này sẽ điền sẵn mô hình đã chọn mà bạn muốn mua Thông lượng cung cấp. Để kiểm tra mô hình đã tinh chỉnh của bạn trước khi triển khai, hãy đặt đơn vị mô hình thành giá trị 1 và đặt thời hạn cam kết thành Không cam kết. Điều này nhanh chóng cho phép bạn bắt đầu thử nghiệm các mô hình của mình bằng lời nhắc tùy chỉnh và kiểm tra xem quá trình đào tạo đã đầy đủ hay chưa. Ngoài ra, khi có sẵn các mô hình tinh chỉnh mới và phiên bản mới, bạn có thể cập nhật Thông lượng cung cấp miễn là bạn cập nhật thông lượng đó với các phiên bản khác của cùng một mô hình.

Kết quả tinh chỉnh

Đối với nhiệm vụ của chúng tôi là tùy chỉnh mô hình trên chú chó Ron và chú mèo Smila, các thử nghiệm cho thấy rằng siêu tham số tốt nhất là 5,000 bước với kích thước lô là 8 và tốc độ học tập là 1e-5.

Sau đây là một số ví dụ về hình ảnh được tạo bởi mô hình tùy chỉnh.

Chú chó Ron mặc áo choàng siêu anh hùng Ron con chó trên mặt trăng Chú chó Ron trong bể bơi với kính râm
Chú mèo Smila trên tuyết Chú mèo đen trắng Smila nhìn chằm chằm vào ống kính Chú mèo Smila đội mũ Giáng sinh

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về thời điểm nên sử dụng tính năng tinh chỉnh thay vì thiết kế lời nhắc của bạn để tạo ra hình ảnh chất lượng tốt hơn. Chúng tôi đã trình bày cách tinh chỉnh mô hình Amazon Titan Image Generator và triển khai mô hình tùy chỉnh trên Amazon Bedrock. Chúng tôi cũng cung cấp các hướng dẫn chung về cách chuẩn bị dữ liệu của bạn để tinh chỉnh và đặt các siêu tham số tối ưu để tùy chỉnh mô hình chính xác hơn.

Bước tiếp theo, bạn có thể điều chỉnh những điều sau ví dụ phù hợp với trường hợp sử dụng của bạn để tạo hình ảnh siêu cá nhân hóa bằng Amazon Titan Image Generator.


Về các tác giả

Maira Ladeira Tanke là Nhà khoa học dữ liệu AI sáng tạo cấp cao tại AWS. Với nền tảng về học máy, cô có hơn 10 năm kinh nghiệm thiết kế và xây dựng các ứng dụng AI cho khách hàng ở nhiều ngành. Với tư cách là trưởng nhóm kỹ thuật, cô giúp khách hàng đẩy nhanh việc đạt được giá trị kinh doanh thông qua các giải pháp AI tổng quát trên Amazon Bedrock. Khi rảnh rỗi, Maira thích đi du lịch, chơi với chú mèo Smila và dành thời gian cùng gia đình ở một nơi nào đó ấm áp.

Dani Mitchell là Kiến trúc sư giải pháp chuyên gia AI/ML tại Amazon Web Services. Anh ấy tập trung vào các trường hợp sử dụng thị giác máy tính và giúp khách hàng trên khắp EMEA đẩy nhanh hành trình ML của họ.

Bharathi Srinivasan là Nhà khoa học dữ liệu tại AWS Professional Services, nơi cô yêu thích xây dựng những thứ thú vị trên Amazon Bedrock. Cô đam mê thúc đẩy giá trị kinh doanh từ các ứng dụng học máy, tập trung vào AI có trách nhiệm. Ngoài việc xây dựng trải nghiệm AI mới cho khách hàng, Bharathi thích viết khoa học viễn tưởng và thử thách bản thân với các môn thể thao sức bền.

Achin Jain là Nhà khoa học ứng dụng của nhóm Trí tuệ nhân tạo tổng hợp (AGI) của Amazon. Anh có chuyên môn về mô hình chuyển văn bản thành hình ảnh và tập trung vào việc xây dựng Amazon Titan Image Generator.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?