-
MGIE સાથે, વપરાશકર્તાઓ ફક્ત ટેક્સ્ટ પ્રોમ્પ્ટ આપીને પિક્સેલ-સ્તરનું સંપાદન કરી શકે છે.
-
MGIE સૂચના-આધારિત ઇમેજ એડિટિંગ માટે એક આકર્ષક કૂદકો રજૂ કરે છે.
-
આ ઇમેજ એડિટિંગને વધારવા માટે MLLM નો ઉપયોગ કરવાની સંભવિતતા દર્શાવે છે અને ક્રોસ-મોડલ ક્રિયાપ્રતિક્રિયા અને સંચાર માટે નવી શક્યતાઓ ખોલે છે.
Apple એ MGIE નામનું એક આકર્ષક નવું AI મોડલ લોન્ચ કર્યું છે જે લોકોને કુદરતી ભાષાની સૂચનાઓ આપીને ઇમેજ એડિટ કરવાની મંજૂરી આપે છે. MGIE, MLLM-માર્ગદર્શિત ઇમેજ એડિટિંગ માટે ટૂંકું. આ નવું ઓપન-સોર્સ ટૂલ મલ્ટિમોડલ AI માં મોટી પ્રગતિનું પ્રતિનિધિત્વ કરે છે અને સર્જનાત્મક વર્કફ્લોને નોંધપાત્ર રીતે વધારી શકે છે.
MGIE એ Apple અને UC સાન્ટા બાર્બરા ખાતે સંશોધકો વચ્ચેના સહયોગનું ફળ છે. આ મૉડલને આ વર્ષની ઇન્ટરનેશનલ કૉન્ફરન્સ ઓન લર્નિંગ રિપ્રેઝન્ટેશનમાં પેપરમાં રજૂ કરવામાં આવ્યું હતું, જે અત્યાધુનિક AI સિસ્ટમ્સનું પ્રદર્શન કરવા માટેનું મુખ્ય સ્થળ છે. પેપરમાં વર્ણવેલ પ્રયોગો ઇમેજ એડિટિંગ મેટ્રિક્સ અને માનવ મૂલ્યાંકન સુધારવા પર MGIE નું પ્રભાવશાળી પ્રદર્શન દર્શાવે છે. સિસ્ટમ સ્પર્ધાત્મક કોમ્પ્યુટેશનલ કાર્યક્ષમતા પણ જાળવી રાખે છે.
તો MGIE તેનો જાદુ કેવી રીતે કામ કરે છે? સૂચનાઓને સમજવા અને વિઝ્યુઅલ આઉટપુટ જનરેટ કરવા માટે તેમાં મલ્ટિમોડલ લાર્જ લેંગ્વેજ મોડલ્સ (એમએલએલએમ) સામેલ છે. MLLM એ ક્રોસ-મોડલ તર્ક અને ટેક્સ્ટ-ઇમેજ ઇનપુટને યોગ્ય રીતે પ્રતિસાદ આપવા માટે અત્યંત સક્ષમ હોવાનું સાબિત કર્યું છે. MLLM ને સંપાદન પાઇપલાઇનમાં એકીકૃત કરીને, MGIE વપરાશકર્તા આદેશોને સંક્ષિપ્ત, સ્પષ્ટ સંપાદન માર્ગદર્શનમાં અનુવાદિત કરી શકે છે. ઉદાહરણ તરીકે, “આકાશને વાદળી બનાવો” બની જાય છે “આકાશ વિસ્તારની સંતૃપ્તિમાં 20% વધારો.”
MGIE ની બહુમુખી ડિઝાઇન તમામ પ્રકારના ઇમેજ એડિટિંગ ઉપયોગના કેસોને સશક્ત બનાવે છે. તે સામાન્ય ફોટોશોપ ગોઠવણોને હેન્ડલ કરી શકે છે જેમ કે ક્રોપિંગ, રોટેટિંગ અને ફિલ્ટરિંગ. આ મોડેલ વધુ અદ્યતન ઑબ્જેક્ટ મેનીપ્યુલેશન, બેકગ્રાઉન્ડ રિપ્લેસમેન્ટ અને ફોટો બ્લેન્ડિંગ પણ કરે છે. MGIE બ્રાઇટનેસ અને કોન્ટ્રાસ્ટ જેવા ગુણધર્મોને સમાયોજિત કરીને વૈશ્વિક સ્તરે છબીઓને શ્રેષ્ઠ બનાવે છે. તે ચોક્કસ વિસ્તારો અને ઑબ્જેક્ટ્સમાં સ્થાનિક સંપાદનો પણ કરે છે. સિસ્ટમ આકાર, કદ, રંગ, ટેક્સચર અને શૈલી સહિતની દ્રશ્ય લાક્ષણિકતાઓને સંશોધિત કરી શકે છે.
MGIE ChatGPT જેવી એપ્લિકેશન અથવા વેબસાઇટ દ્વારા ઍક્સેસિબલ નથી. પરંતુ જો તમે વિકાસકર્તા છો, તો MGIE સાથે પ્રારંભ કરવું ખૂબ જ સરળ છે. કોડ, ડેટા અને પૂર્વ પ્રશિક્ષિત મોડલ ઓપન સોર્સ GitHub રેપોમાં ઉપલબ્ધ છે. પ્રોજેક્ટમાં એક ડેમો નોટબુક શામેલ છે જે દર્શાવે છે કે MGIE વિવિધ સંપાદનોને કેવી રીતે સક્ષમ કરે છે.