Nowa narzędzie AI Google wykorzystuje instrukcje obrazkowe zamiast słów.
Najnowszy produkt AI Google, „Whisk”, pozwala użytkownikom przesyłać zdjęcia, aby uzyskać połączone, wygenerowane przez AI obrazy bez pisania ani jednego słowa.
Przed użyciem Whiska, użytkownicy mogą dostarczyć obrazy przedmiotów, ustawień i stylów.
W swoim wpisie na blogu Google nazwał Whiska „narzędziem kreatywnym” do szybkiej inspiracji, a nie „tradycyjnym edytorem obrazów”. Whisk ma być zabawną funkcją AI, a nie narzędziem profesjonalnym.
Duże firmy technologiczne, takie jak Google i OpenAI, spieszą się, aby dostarczyć produkty konsumenckie, które pokazują nową, fajną technologię, chociaż krytycy ostrzegają, że rozwój AI bez ograniczeń jest niebezpieczny dla ludzkości.
Od wprowadzenia Dall-E, narzędzia do produkcji obrazów na podstawie tekstu przez OpenAI w 2021 roku, sztuka generowana przez AI zalewa media społecznościowe i przenika produkty konsumenckie. Google Whisk to generator obrazu do obrazu, który buduje na generatorach tekstu do obrazu.
Użytkownicy Whiska mogą zmieniać swoje wejścia i mieszać kategorie, aby tworzyć pluszaki, przypinki i naklejki. Użytkownicy mogą kierować szczegółami za pomocą słów, ale obraz nie jest konieczny.
„Whisk został zaprojektowany, aby pozwolić użytkownikom odtworzyć temat, scenę i styl w nowy i kreatywny sposób, oferując szybkie zwiedzanie wizualne zamiast edycji doskonałych pikseli”, powiedział dyrektor zarządzania produktem Google Labs, Thomas Iljic.
Google zakupił DeepMind w 2014 roku i wykorzystał jego AI generatywne do zbudowania Whiska.
Whisk korzysta z głównej usługi AI Google, Gemini, wprowadzonej w grudniu 2023 roku, oraz Imagen 3, najnowszego generatora tekstu do obrazu od DeepMind.
Imagen 3 otrzymuje podpisy od Geminiego, kiedy użytkownicy przesyłają zdjęcia. Aby zmiksować końcowy obraz, technika przechwytuje „istotę” tematu, zamiast dokładnej reprodukcji, która może odbiegać od polecenia.
Google napisał na swoim blogu, że stworzony obraz może różnić się od zdjęć od polecenia pod względem wzrostu, fryzury i karnacji.
Google spotkał się z krytyką w lutym, gdy uruchomił konwerter tekstu na obraz Geminiego, ponieważ tworzył obrazy o historycznie nieprawidłowym charakterze.
Whisk, witryna Google Labs dostępna tylko w USA, jest w fazie wczesnego rozwoju, poinformowała firma.
OpenAI zaprezentował Sorę, generator tekstu na wideo, demonstrując konkurencyjność produktów konsumenckich.
Dyrektor zarządzający i starszy analityk w dziale ekwityd Wedbush Securities, Dan Ives, powiedział dla CNN, że Whisk to kolejny „moment pokazania mięśni” dla Google w dziedzinie AI i technologii.
Produkty AI są częścią „skarbca” nowych produktów Google na 2025 rok, który obejmuje nowy system operacyjny Android opracowany we współpracy z Samsungiem i Qualcommem. „DeepMind jest kluczowym aktywem dla Google”, powiedział Ives.