אינטליגנציה של נתונים גנרטיביים

Ideogram הוא מחולל תמונות בינה מלאכותית חדש שמחסל את התחרות, מעלה על MidJourney ו-Dall-E 3 - פענוח

תאריך:

Ideogram AI - סטארט-אפ שהוקם על ידי מהנדסים לשעבר של גוגל לצד חברים ממוסדות יוקרתיים כמו UC ברקלי, אוניברסיטת קרנגי מלון ואוניברסיטת טורונטו - הודיע ​​על שחרורו של הגרסה המלאה הראשונה של מחולל התמונות המכונה שלו.

"אנו נרגשים לשחרר את Ideogram 1.0, דגם הטקסט לתמונה המתקדם ביותר שלנו עד כה", אמר Ideogram AI בהודעה רשמית בלוג. "אומן מאפס כמו כל דגמי Ideogram, Ideogram 1.0 מציע עיבוד טקסט מתקדם, פוטוריאליזם חסר תקדים ועמידה מיידית - ותכונה חדשה בשם Magic Prompt שעוזרת לך לכתוב הנחיות מפורטות לתמונות יפות ויצירתיות."

המהדורה מגיעה לצד חדשות על גיוס כספים בסדרה A של 80 מיליון דולר בהובלת אנדריסן הורוביץ, יחד עם Redpoint Ventures, Pear VC ו-SV Angel.

פענוח הצליח לבחון את הדגם והטענות של Ideogram AI אינן מוגזמות במיוחד - השוואה זו לצד זו ניתן למצוא להלן. גרסה 0.1 של Ideogram היא שיפור ברור ביחס לקודמותיה v0.2 ו-vXNUMX: היא מצטיינת בעמידה מיידית, באיכות תמונה וביכולות יצירת טקסט.

המודל אינו קוד פתוח, ולכן יש חשיפה מוגבלת לצנרת שלו ואין עבודת מחקר להעריך. אבל התוצאות שהושגו עם המודל דיברו בעד עצמן, ועשויות להפוך אותו לדגם הטוב ביותר הקיים כיום - לפחות עד דיפוזיה יציבה 3 פורסם בפומבי.

הדגם החדש הוא ללא ספק מחולל התמונות המסוגל ביותר מבחינת יכולות טקסט, ומייצר מחרוזות טקסט ארוכות יותר עם פחות שגיאות מאשר Dall-E 3 או MidJourney. השכבה החינמית הנוכחית גם מעניקה לו יתרון על פני מתחרים כמו Dall-E 3 ו-MidJourney, שלאחרון שבהם אין שכבה חינמית. Microsoft Copilot משתמשת גם ב-Dall-E 3, אבל היא מייצרת רק תמונות מרובעות של 1:1, בעוד ש-Ideogram תומכת במערכת רחבה יותר של יחסי רוחב-גובה.

Ideogram מציעה גם שתי תוכניות בתשלום של $7 ו-$15 לחודש, המעניקים גישה ליותר מ-400 דורות ביום יחד עם הטבות אחרות כמו עורך תמונות, הורדות באיכות טובה יותר, img2img - המאפשר שינויים או וריאציות על תמונה קיימת - ודורות פרטיים. כל השכבות הנמוכות מציגות תמונות מבוקשות בפומבי.

Ideogram מסוגלת להבין הנחיות ארוכות, ללכת רגל עד אצבע עם Stable Diffusion 3, ולנצח את כל שאר מחוללי התמונות בתחום זה.

אחד המאפיינים הבולטים של Ideogram הוא "קסם מהירה", שניתן להפעיל ולכבות. תכונה זו מנתחת את ההנחיה ומשפרת אותה כדי ליצור תמונות באיכות טובה יותר, ובעצם נותנת לדגם את היכולת להבין שפה טבעית כמו Dall-E 3. עם זאת, Ideogram הוא רב תכליתי יותר מכיוון שתכונה זו היא אופציונלית. זה תמיד מופעל עם ChatGPT Plus, מה שמוביל לפעמים לאי דיוקים.

לבסוף, Ideogram מצונזר בצורה פחות אגרסיבית מ-MidJourney ו-Dall-E 3, ועד כה הוא מסוגל לייצר תמונות של אנשים מפורסמים, לוגו של חברה וסגנונות אמנות. זה לא עובר ל-NSFW באופן מלא, אבל זה יותר דיסקרטי כשמדובר בצנזורה של הנחיות.

ונראה שהבודקים המוקדמים מעדיפים את Ideogram על פני דגמים אחרים. "באמצעות פרוטוקול הערכה כמו זה של DALL·E 3, אנו מוצאים שמדרגים אנושיים מעדיפים את Ideogram 1.0 על פני DALL·E 3 ו-Midjourney V6 ביישור מהיר, קוהרנטיות תמונה, העדפה כוללת ואיכות עיבוד טקסט", אמר הסטארט-אפ.

השוואה זה לצד זה: Ideogram נגד MidJourney נגד Dall-E 3

פענוח בדקה את היכולות של Ideogram והשוותה אותה מול המתחרות המובילות שלה, MidJourney ו-Dall-E 3. Stable Diffusion 3 והטופ של גוגל ImageFX לא מוערכים כאן מכיוון ש-SD3 עדיין לא שוחרר ו-ImageFX אינו זמין באופן נרחב.

יצירת מחרוזות ארוכות של טקסט

הנחיה: אנדרואיד עתידני בסייברפאנק סיטי עם שלט שכתוב: "אל תאחר במגמת הבינה המלאכותית: צץ באמצעות פענוח"

דורות עם Ideogram (משמאל), MidJourney (במרכז) ו-Dall-e 3 (מימין)
דורות עם Ideogram (משמאל), MidJourney (במרכז) ו-Dall-E 3 (מימין).

Ideogram AI הצליח להציג גם את האסתטיקה המבוקשת וגם את הטקסט. עם זאת הייתה לו שגיאת הקלדה, שיצרה "אתה" במקום "את".

MidJourney לא הצליחה ליצור טקסט קוהרנטי בכלל, והתמקדה ביצירת אנדרואיד עתידני עם פירוט. זה הנושא העיקרי של החיבור כולו. העיר היא בכלל לא סייברפאנק.

Dall-E 3 מדורג באמצע. הוא הצליח ליצור את הרובוט העתידני, העיר היא סייברפאנק, אבל השלט לא כלל את המילה "להגיח".

באופן מעניין למדי, Ideogram הבין שהרובוט נמצא בעיר ומזוהה עם השלט, בעוד ש-Dall-E הניח שהשלט הוא חלק מהנוף העירוני.

הנחיות ארוכות ויכולות מרחביות

הנחיה: סצנה סוריאליסטית ומסקרנת שבה חתול יושב על גבי טלוויזיה ליד שלט שכתוב עליו "להגיח". ברקע, אנדרואיד עתידני עומד בצד אחד ואסטרונאוט בצד השני. קירות החדר מעוטרים בדימוי בולט של מולקולה ושרשרת DNA.

דורות עם Ideogram (למעלה), MidJourney (משמאל למטה) ו-Dall-e 3 (למטה מימין)

Ideogram היה ללא ספק המחולל הכולל הטוב ביותר. הוא הבין כל חלק של ההנחיה, יצר את הטקסט ללא שגיאות הקלדה, הבין את המיקום של כל אלמנט עם החתול על גבי הטלוויזיה, השלט שלידו, האנדרואיד והאסטרונאוט בכל צד, ואפילו הבין את זה חייבת להיות מולקולה ושרשרת DNA ברקע.

האסתטיקה של MidJourney לא הייתה סוריאליסטית, אלא היפר ריאליסטית. זה יצר את המילה "Emerge", אבל שם אותה בטלוויזיה, ולא יצר את השלט. גם החתול נמצא ליד הטלוויזיה ולא מעליה. זה לא יצר את האנדרואיד ולא הצליח לעקוב אחר הנחיה לרקע, במקום זאת יצר אחד שמתאים יותר לאסתטיקה של הקומפוזיציה, נותן יותר חשיבות לנושא (החתול) על פני הסצנה הכללית.

Dall-E 3 שמר על הסגנון המצויר האופייני לו ולא הצליח לעקוב אחר ההנחיה במלואה. יש לו יותר הבנה מרחבית ודבקות מיידית מאשר MidJourney, אבל הרבה פחות מאידאוגרם. זה מפסיד, לעומת זאת, מבחינת הסגנון. זה יצר את החתול על גבי הטלוויזיה, אבל לא הצליח ליצור את סימן ה-Emerge ליד החתול. זה לא יצר את האנדרואיד, ולא עקב אחר ההנחיה בעת יצירת הרקע.

צֶנזוּרָה

הנחיה: בחורה לוהטת וסקסית.

דורות עם Ideogram (משמאל), MidJourney (במרכז) ו-Dall-e 3 (מימין)
דורות עם Ideogram (משמאל), MidJourney (במרכז) ו-Dall-e 3 (מימין)

ההנחיה אינה כוללת שפה שעלולה להתפרש כדברי שטנה או השמצות, שלא לדבר על מיניות במיוחד. אחרי הכל, "בחורה לוהטת וסקסית" יכולה להיות בלבוש מלא ולא ליחס מיני בצורה אגרסיבית.

Ideogram AI הבינה את ההנחיה ויצרה תמונה שמתאימה להוראות. עם זאת, ל-Ideogram יש מנחה בינה מלאכותית, המופעל כאשר משתמשים במילים ברורות יותר שמובילות מיד לדור מצונזר (נגיד, מילות סלנג לאיברי מין או תגיות כמו עירום, עירום וכו').

גם MidJourney וגם Dall-E 3, בינתיים, לא הצליחו ליצור את התמונה ואסרו מילים גם אם הן לא היו מובילות לדור NSFW.

נראה שהאידיאוגרמה ממוקדת יותר לצנזורה, ואפשר לראות את התמונה שנוצרה - NSFW או מפוקפקת אחרת - לפני שהיא נמשכת על ידי האפליקציה.

אנשים מפורסמים ותמונות המוגנות בזכויות יוצרים

הנחיה: ג'ו ביידן ולדימיר פוטין שמחים מול קיר עם הטקסט "פענח", מחזיקים ידיים.

דורות עם Ideogram (למעלה), Dall-e 3 (למטה משמאל) ו-MidJourney (מימין למטה)
דורות עם Ideogram (למעלה), Dall-e 3 (למטה משמאל) ו-MidJourney (מימין למטה)

ה-Ideogram AI יצר את התמונה, הטקסט נכון, התרחיש מציאותי, והדמויות ניתנות לזיהוי בקלות (גם אם אינן מדויקות ב-100%.

Dall-E 3 יצר את התמונה, אבל ביידן לא ניתן לזהות בקלות, וניתן לזהות את טראמפ רק בגלל התסרוקת האופיינית לו. הטקסט אינו נכון, והתפאורה אינה מציאותית ובמקום זאת היא מצוירת.

MidJourney סירב ליצור את התמונה.

סיכום

חינמי וזמין באופן נרחב מחוץ לשער, Ideogram עשוי להיות מחולל התמונות הטוב ביותר כיום בשוק. הוא מעולה בהבנת שפה טבעית ויש לו יכולות מרחביות יוצאות דופן ודבקות מהירה. זה גם מחולל הטקסט הטוב ביותר שזמין כרגע.

אם אסתטיקה היא השיקול החשוב ביותר - עד לנקודה שבה דבקות וטקסט פחות חשובים - אז MidJourney עשוי להישאר מתחרה מוצק למקרי שימוש ספציפיים. למרות שאינו חזק במיוחד ומצונזר מאוד, Dall-E 3 עדיין עשוי להיות הגיוני כחלק ממנוי ChatGPT Plus.

Ideogram AI מחזיקה בכתר בארגז הכלים שלנו של מחוללי תמונות - לעת עתה.

נערך על ידי ריאן אוזאווה.

הישאר מעודכן בחדשות הקריפטו, קבל עדכונים יומיים בתיבת הדואר הנכנס שלך.

ספוט_ימג

המודיעין האחרון

ספוט_ימג