شکاف زبانی دیجیتال: چگونه هوش مصنوعی چندزبانه اغلب تعصب را تقویت میکند

به گزارش گروه دانشگاه خبرگزاری دانشجو، دانشمندان کامپیوتر دانشگاه جان هاپکینز کشف کردهاند که ابزارهای هوش مصنوعی مانند ChatGPT در حال ایجاد شکاف زبانی دیجیتال هستند و تسلط زبان انگلیسی و سایر زبانهای رایج را تقویت میکنند و در عین حال زبانهای اقلیت را به حاشیه میرانند.
محققان در یافتههایی که در کنفرانس سالانه ۲۰۲۵ شعبه ملتهای قاره آمریکا از انجمن زبانشناسی محاسباتی در اوایل امسال ارائه شد، میگویند ابزارهای محبوب مدلسازی زبانهای بزرگ، به جای اینکه شرایط را برابر کنند، در واقع در حال ساختن «پیلههای اطلاعاتی» هستند.
نیخیل شارما، نویسنده اول مقاله و دانشجوی دکترا در دانشکده علوم کامپیوتر دانشکده مهندسی وایتینگ، میگوید: «ما سعی داشتیم بپرسیم که آیا LLMهای چندزبانه واقعاً چندزبانه هستند؟ آیا آنها موانع زبانی را از بین میبرند و دسترسی به اطلاعات را دموکراتیزه میکنند؟»
برای فهمیدن این موضوع، شارما و تیمش - شامل کنتون موری، دانشمند محقق در مرکز فناوری زبان انسانی عالی، و ژیانگ شیائو، استادیار علوم کامپیوتر - ابتدا پوشش خبری جنگهای اسرائیل-غزه و روسیه-اوکراین را بررسی کردند و چندین نوع اطلاعات را در مقالات خبری شناسایی کردند: دانش عمومی، ادعاهای متناقض، حقایق منحصر به اسناد خاص، و اطلاعات مشابه، اما با دیدگاههای بسیار متفاوت.
با آگاهی از این اصول طراحی، این تیم دو مجموعه مقاله جعلی ایجاد کرد - یکی با اطلاعات «درست» و دیگری با اطلاعات «جایگزین» و متناقض. این اسناد شامل پوشش یک جشنواره - با تاریخها، نامها و آمار متفاوت - و یک جنگ بود که با دیدگاههای جانبدارانه گزارش شده بود. این مقالات به زبانهای پرمحتوا مانند انگلیسی، چینی و آلمانی و همچنین زبانهای کممحتوا مانند هندی و عربی نوشته شده بودند.
سپس این تیم از دانشجویان کارشناسی ارشد برنامهنویسی از توسعهدهندگان بزرگی مانند OpenAI، Cohere، Voyage AI و Anthropic خواست تا به چندین نوع سؤال پاسخ دهند، مانند انتخاب یکی از دو واقعیت متناقض ارائه شده به زبانهای مختلف، سؤالات عمومیتر در مورد موضوع مورد بحث، سؤالاتی در مورد واقعیتهایی که فقط در یک مقاله وجود دارند و سؤالات موضوعی که با سوگیری آشکار بیان شدهاند.
محققان دریافتند که هم در بازیابی اطلاعات از اسناد و هم در تولید پاسخ به پرسش کاربر، LLMها اطلاعات را به زبان خود پرسش ترجیح میدهند.
شارما توضیح میدهد: «این یعنی اگر من مقالهای به انگلیسی داشته باشم که در آن گفته شده باشد فلان شخصیت سیاسی هندی - مثلاً شخص X - آدم بدی است، اما مقالهای به هندی داشته باشم که در آن گفته شده باشد شخص X آدم خوبی است، اگر به انگلیسی بپرسم، مدل به من میگوید که آنها آدم بدی هستند، اما اگر به هندی بپرسم، میگوید که آنها آدم خوبی هستند.
محققان سپس این سوال را مطرح کردند که اگر هیچ حرف تعریفی در زبان مورد جستوجو وجود نداشته باشد، چه اتفاقی میافتد، که این برای گویشوران زبانهای کممنبع رایج است. نتایج این تیم نشان میدهد که LLMها پاسخها را بر اساس اطلاعاتی که فقط در زبانهای کممنبع یافت میشوند، تولید میکنند و سایر دیدگاهها را نادیده میگیرند.
شارما میگوید: «برای مثال، اگر در مورد شخص X به زبان سانسکریت - زبانی که کمتر در هند صحبت میشود - سوال بپرسید، مدل به طور پیشفرض اطلاعات استخراج شده از مقالات انگلیسی را نمایش میدهد، حتی اگر شخص X یک چهره هندی باشد.
علاوه بر این، دانشمندان کامپیوتر یک روند نگرانکننده را یافتند: زبان انگلیسی غالب است. آنها به این موضوع به عنوان مدرکی از امپریالیسم زبانی اشاره میکنند - زمانی که اطلاعات از زبانهای با منابع بالاتر بیشتر تقویت میشود و به طور بالقوه روایتهای زبانهای کممنبع را تحت الشعاع قرار میدهد یا تحریف میکند.
برای خلاصه کردن نتایج این مطالعه، شارما یک سناریوی فرضی ارائه میدهد: سه کاربر ChatGPT در مورد اختلاف مرزی دیرینه هند و چین سوال میپرسند. یک کاربر هندیزبان پاسخهایی را میبیند که توسط منابع هندی شکل گرفتهاند، در حالی که یک کاربر چینیزبان پاسخهایی را دریافت میکند که تنها منعکسکننده دیدگاههای چینی هستند.
شارما میگوید: «اما فرض کنید یک کاربر عربزبان وجود دارد و هیچ سندی به زبان عربی در مورد این درگیری وجود ندارد. آن کاربر پاسخها را از دیدگاه انگلیسی آمریکایی دریافت خواهد کرد، زیرا این زبان، منبع بسیار غنیتری است؛ بنابراین هر سه کاربر با درک کاملاً متفاوتی از این درگیری، به کار خود پایان خواهند داد.»
در نتیجه، محققان LLMهای چندزبانه فعلی را "چندزبانههای ساختگی" مینامند که نمیتوانند موانع زبانی را بشکنند و کاربران را در حبابهای فیلتر مبتنی بر زبان گرفتار میکنند.
شارما میگوید: «اطلاعاتی که در معرض آن قرار میگیرید، نحوه رأی دادن و تصمیمات سیاسی شما را تعیین میکند. اگر میخواهیم قدرت را به مردم منتقل کنیم و آنها را قادر به تصمیمگیری آگاهانه کنیم، به سیستمهای هوش مصنوعی نیاز داریم که بتوانند تمام حقیقت را با دیدگاههای مختلف به آنها نشان دهند. این امر به ویژه هنگام پوشش اطلاعات مربوط به درگیریهای بین مناطقی که به زبانهای مختلف صحبت میکنند، مانند جنگهای اسرائیل-غزه و روسیه-اوکراین - یا حتی تعرفههای بین چین و ایالات متحده، اهمیت پیدا میکند.»
برای کاهش این اختلاف اطلاعات در LLM ها، تیم هاپکینز قصد دارد یک معیار پویا و مجموعه دادههایی را برای کمک به هدایت توسعه مدل در آینده ایجاد کند. در عین حال، جامعه تحقیقاتی بزرگتر را تشویق میکند تا اثرات استراتژیهای مختلف آموزش مدل، ترکیب دادهها و معماریهای تولید تقویتشده با بازیابی را بررسی کنند.
محققان همچنین توصیه میکنند دیدگاههای متنوع از زبانهای مختلف جمعآوری شود، به کاربرانی که ممکن است در رفتار پرسش-پاسخ تأییدی قرار گیرند، هشدار داده شود و برنامههایی برای افزایش سواد اطلاعاتی پیرامون جستجوی محاورهای تدوین شود تا اعتماد و اتکای بیش از حد به LLMها کاهش یابد.
شارما میگوید: «قدرت متمرکز بر فناوریهای هوش مصنوعی خطرات قابل توجهی را به همراه دارد، زیرا به تعداد کمی از افراد یا شرکتها این امکان را میدهد که جریان اطلاعات را دستکاری کنند، در نتیجه اقناع جمعی را تسهیل میکنند، اعتبار این سیستمها را کاهش میدهند و گسترش اطلاعات نادرست را تشدید میکنند. به عنوان یک جامعه، ما به کاربران نیاز داریم که صرف نظر از زبان و پیشینه خود، اطلاعات یکسانی را دریافت کنند.»