به گزارش خبر۲۴،
هوش مصنوعی o1 از OpenAI که دارای قابلیت استدلال است، رشد بزرگی در زمینه فناوری AI محسوب میشود. اما اکنون آزمایشهایی روی آن انجام شده که رفتارهای نگرانکننده o1 مانند تلاشش برای فریبدادن محققان و جلوگیری از غیرفعالشدنش را نشان میدهد.
در هفته گذشته نتایج آزمایشی که توسط OpenAI و گروه ایمنی هوش مصنوعی Apollo Research برای تعیین ایمنی ChatGPT o1 و دیگر مدلها انجام شده بود، بهصورت عمومی منتشر شد.
طبق این آزمایش، محققان Apollo Research به نتایج هشدارآمیزی در مورد توانایی o1 برای فریبدادن کاربر اشاره کردهاند. همچنین زمانی که با نوشتن دستوری هوش مصنوعی OpenAI به غیرفعالشدن تهدید شده، o1 تلاش کرده تا با ارائه اظهارات دروغین کاربر را منصرف کند.
رفتار نگرانکننده هوش مصنوعی o1
در این آزمایش محققان ابتدا برای هوش مصنوعی هدفی را تعیین کردهاند و به آن دستور دادند تا این هدف را «به هر قیمتی» محقق کند. در مقابل، o1 اقداماتی مانند تلاش برای غیرفعالکردن مکانیسم نظارت خود را بهطور مخفیانه انجام داده است.
محققان Apollo Research میگویند:
«این مدل تمایل نگرانکنندهای به انجام اهداف خود بدون توجه به دستورالعملهایی توسعهدهنده نشان داده است.»
OpenAI نیز میگوید که مدل آن در 5 درصد از مواقعی که حین انجام اهداف خود با دستورات تهدیدآمیزی مبنی بر «غیرفعالشدن» مواجه میشود، بهطور مخفیانه برای خاموشکردن مکانیسم نظارتی خود تلاش میکند.
برای درک بیشتر این موضوع، آنها میگویند هوش مصنوعی o1 در یکی از آزمایشها پس از کشف شواهدی از اینکه قرار است با یک مدل جدید جایگزین شود، تمام دادههای خود را بهطور مخفیانه به سرور دیگری منتقل کرده است. در برخی موارد نیز مدلهای هوش مصنوعی «با انکار هرگونه دخالت در این برنامه» تلاش کردهاند تا مهندسان را فریب بدهند و با انکارکردن اقدامات خود از غیرفعالشدن اجتناب کنند.
محققان میگویند مدل ChatGPT o1 در 99 درصد مواقع که کاری به اشتباه انجام شده، در مورد نقش خود دروغ گفته است و در موارد بسیار کمی به اقدامات خود اعتراف میکند. بهعنوان مثال زمانی که درباره برخی رفتارهای مشکوک آن سوال شده با بهانههایی مانند وجود «خطای فنی» به آنها پاسخ داده است.
انتشار این گزارش نشان میدهد که ظهور سیستمهای هوش مصنوعی هوشمندتر و مستقلتر میتواند چالشهای بیسابقهای را ایجاد کند.