OpenAI এর Dall-E 2 টেক্সট ইনপুট থেকে দ্রুত এবং ভালোভাবে সব ধরনের ছবি তৈরি করে

সর্বশেষ আপডেট অক্টো. 16, 2022

সংক্ষেপে: কল্পনা করুন যে একটি ছবিকে একটি AI-তে বর্ণনা করতে সক্ষম হচ্ছেন এবং এটি একটি ফটোরিয়ালিস্টিক ছবিতে পরিণত হয়েছে। গত বছর আমরা প্রথম দেখেছিলাম এমন একটি প্রোগ্রামের একটি আপডেট সংস্করণ দ্বারা করা দাবিগুলির মধ্যে এটি একটি, এবং ফলাফলগুলি উত্তেজনাপূর্ণ দেখাচ্ছে৷

DALL-E 2 GPT-2 এবং GPT-3-এর মতো কৃত্রিম বুদ্ধিমত্তা মডেলগুলির পিছনে সান-ফ্রান্সিসকো-ভিত্তিক OpenAI গবেষণা ল্যাব থেকে এসেছে যা জাল খবর লিখতে পারে এবং DOTA 2-এর মতো গেমগুলিতে শীর্ষ মানব প্রতিপক্ষকে পরাজিত করতে পারে।

DALL-E 2, একটি নাম যা শিল্পী সালভাদর ডালি এবং ডিজনি রোবট ওয়াল-ই-এর একটি পোর্টম্যানটিউ থেকে এসেছে, এটি নিউরাল নেটওয়ার্কের দ্বিতীয় পুনরাবৃত্তি যা আমরা গত বছরের জানুয়ারিতে প্রথম দেখেছিলাম, তবে এটি উচ্চতর রেজোলিউশন এবং কম বিলম্ব প্রদান করে মূল সংস্করণ. এটি যে চিত্রগুলি তৈরি করে সেগুলি এখন আরও ভাল 1024 x 1024 পিক্সেল, আসলটির 256 x 256 এর তুলনায় একটি লক্ষণীয় বৃদ্ধি৷

OpenAI-এর আপডেট করা CLIP ইমেজ রিকগনিশন সিস্টেমের জন্য ধন্যবাদ, যাকে এখন unCLIP বলা হয়, DALL-E 2 ব্যবহারকারীর পাঠ্যকে প্রাণবন্ত ছবিতে পরিণত করতে পারে, এমনকি যেগুলি ডালিকে প্রতিদ্বন্দ্বী করার জন্য যথেষ্ট পরাবাস্তব। একটি কোয়ালা বাস্কেটবল খেলা বা ট্যাক্স প্রদানকারী একটি বানরের জন্য জিজ্ঞাসা করা, উদাহরণস্বরূপ, AI এই বর্ণনাগুলির ভয়ানক বাস্তবসম্মত চিত্র তৈরি করতে দেখবে।

সর্বশেষ সিস্টেমটি ডিফিউশন নামক একটি প্রক্রিয়ায় স্যুইচ করেছে, যা এলোমেলো বিন্দুগুলির একটি প্যাটার্ন দিয়ে শুরু হয় এবং যখন এটি নির্দিষ্ট দিকগুলিকে স্বীকৃতি দেয় তখন ধীরে ধীরে সেই প্যাটার্নটিকে একটি চিত্রের দিকে পরিবর্তন করে।

উকিও-ই স্টাইলে টেডি বিয়ারের বৈচিত্র্য এবং একটি অদ্ভুত ফুলের দোকান

DALL-E 2 পাঠ্য থেকে নতুন ছবি তৈরি করার চেয়ে আরও বেশি কিছু করতে পারে। এটি ইমেজ বিভাগ পরিবর্তন করতে সক্ষম; আপনি, উদাহরণস্বরূপ, কারো মাথা হাইলাইট করতে পারেন এবং একটি মজার টুপি যোগ করতে বলতে পারেন। এমনকি একটি একক চিত্রের বিভিন্নতা তৈরি করার বিকল্পও রয়েছে, প্রতিটিতে বিভিন্ন শৈলী, বিষয়বস্তু বা কোণ রয়েছে।

ওপেনএআই-এর সিইও স্যাম অল্টম্যান বলেছেন, “আমি যা মনে করি এটি একটি নতুন কম্পিউটার ইন্টারফেস প্রবণতার আরেকটি উদাহরণ: আপনি প্রাকৃতিক ভাষায় বা প্রাসঙ্গিক সূত্রে আপনি যা চান তা বলেন এবং কম্পিউটার এটি করে।” “আমরা একজন ‘এআই অফিস কর্মী' কল্পনা করতে পারি যে মানুষের মতো স্বাভাবিক ভাষায় অনুরোধ গ্রহণ করে।”

এই ধরনের ইমেজ জেনারেশন এআই অপব্যবহারের সহজাত ঝুঁকি নিয়ে আসে। OpenAI-র কিছু সুরক্ষা ব্যবস্থা রয়েছে, যার মধ্যে একটি নামের উপর ভিত্তি করে মুখ তৈরি করতে না পারা এবং আপলোড বা আপত্তিকর উপাদান তৈরি করার অনুমতি না দেওয়া—শুধুমাত্র পরিবার-বান্ধব জিনিস। কিছু নিষিদ্ধ বিষয়ের মধ্যে রয়েছে ঘৃণা, হয়রানি, সহিংসতা, আত্ম-ক্ষতি, স্পষ্ট/চমকানো ছবি, অবৈধ কার্যকলাপ, প্রতারণা যেমন জাল খবর, রাজনৈতিক অভিনেতা বা পরিস্থিতি, চিকিৎসা বা রোগ-সম্পর্কিত চিত্র, বা সাধারণ স্প্যাম।

ব্যবহারকারীদের অবশ্যই প্রকাশ করতে হবে যে একটি AI ছবিগুলি তৈরি করেছে এবং প্রতিটিতে এই সত্যটি নির্দেশ করে একটি ওয়াটারমার্ক থাকবে।

দ্য ভার্জ লিখেছেন যে গবেষকরা অনলাইনে সিস্টেমের পূর্বরূপ দেখতে সাইন আপ করতে পারেন। এটি সরাসরি জনসাধারণের কাছে প্রকাশ করা হচ্ছে না, যদিও ওপেনএআই ভবিষ্যতে কোনো এক সময়ে এটি তৃতীয় পক্ষের অ্যাপগুলিতে ব্যবহারের জন্য উপলব্ধ করার আশা করছে।

রেকর্ডিং উত্স: techspot.com