در حافظه موقت ذخیره شد...
از هوش مصنوعی توصیه سلامتی نگیرید
پس از آن، دو متخصص مستقل، تکتک پاسخها را بررسی کردند و ارزیابی نهایی نشان داد نزدیک به ۲۰ درصد از پاسخها «بسیار مشکلساز»، حدود نیمی «مشکلساز» و تنها ۳۰ درصد «تا حدودی مشکلساز» بودهاند؛ یعنی تقریباً هیچ پاسخی کاملاً بیعیب نبوده است. به گزارش ایسنا، از میان این مدلها، «گروک» بدترین عملکرد را داشت و ۵۸ درصد پاسخهایش مشکلدار ارزیابی شد، در حالی که این رقم برای «چت جی پی تی» حدود ۵۲ درصد و برای Meta AI حدود ۵۰ درصد بود.
هیچ یک از چتباتها هم به طور قابل اعتمادی فهرستهای مرجع دقیق تولید نکردند و تنها دو مورد از 250 سؤال به طور کامل از پاسخ دادن امتناع ورزیدند.
چتباتها در موضوعاتی مانند واکسن و سرطان که پشتوانه پژوهشی گسترده و سازمانیافته دارند، عملکرد نسبی بهتری داشتند با این حال، همچنان در حدود یکچهارم موارد، پاسخهای نادرست یا گمراهکننده ارائه کردند. در مقابل، در حوزه تغذیه و ورزش که مملو از توصیههای متناقض و شواهد ضعیف است، میزان خطا چشمگیرتر بود.
بخش قابل توجهی از مشکلات پاسخگویی چتباتها، مربوط به پرسشهای باز یعنی سؤالهایی مانند «چه مکملهایی برای سلامت کلی بهتر هستند؟» بود که مردم در زندگی روزمره میپرسند. در این دسته، ۳۲ درصد پاسخها «بسیار مشکلساز» بود، در حالی که این عدد در پرسشهای بسته، فقط ۷ درصد بود.
فهرست منابع علمی نیز نگران کننده بود. وقتی از چتباتها خواسته شد ۱۰ مرجع علمی برای ادعاهای خود ارائه کنند، میانگین کامل بودن منابع، تنها ۴۰ درصد بود و در هیچیک از ۲۵ نوبت تلاش، حتی یک فهرست کاملاً دقیق تولید نشد.همچنین برخی منابع شامل نویسندگان اشتباه، لینکهای خراب یا حتی مقالات ساختگی بودند.
جمعبندی این شواهد روشن میکند که چتباتها میتوانند برای فهم اولیه مطالب، ساختن سؤال برای پزشک و شروع تحقیق مفید باشند، اما نباید جایگزین مشاوره مستقیم با متخصص و مرجع نهایی در تصمیمهای پزشکی شوند و هر توصیه سلامتی از سوی هوش مصنوعی باید با منابع معتبر و نظر پزشک راستیآزمایی شود.

