شکافزبانیدیجیتالچگونههوش مصنوعیچندزبانهاغلبتعصبتقویتimgalignleftclassnewscornerimagesrcfilesfanews14046123001859870jpgpstyletextalignjustifyبهگزارشگروهدانشگاهخبرگزاریدانشجو،دانشمندانکامپیوترجانهاپکینزکشفابزار‌هایChatGPTحالایجادتسلطزبانانگلیسیسایرزبان‌هایرایجعیناقلیتحاشیهمی‌رانندpstyletextalignjustify pstyletextalignjustifyمحققانیافته‌هاییکنفرانسسالانه۲۰۲۵شعبهملت‌هایقارهآمریکاانجمنزبان‌شناسیمحاسباتیاوایلارائهشد،می‌گویندمحبوبمدل‌سازیبزرگ،جایاینکهشرایطبرابرکنند،واقعساختنپیله‌هایاطلاعاتیهستندpstyletextalignjustifyنیخیلشارما،نویسندهمقالهدانشجویدکترادانشکدهعلوممهندسیوایتینگ،می‌گویدسعیبپرسیمLLM‌هایآنهاموانعمی‌برنددسترسیاطلاعاتدموکراتیزهمی‌کنندpstyletextalignjustifyبرایفهمیدنموضوع،شارماتیمششاملکنتونموری،دانشمندمحققمرکزفناوریانسانیعالی،ژیانگشیائو،استادیارابتداپوششخبریجنگ‌هایاسرائیلغزهروسیهاوکراینبررسیچندیننوعمقالاتشناساییدانشعمومی،ادعا‌هایمتناقض،حقایقمنحصراسنادخاص،مشابه،دیدگاه‌هایبسیارمتفاوتpstyletextalignjustifyباآگاهیاصولطراحی،تیممجموعهجعلییکیدرستدیگریجایگزینمتناقضجشنوارهتاریخ‌ها،نام‌هاآمارمتفاوتجنگجانبدارانهپرمحتواانگلیسی،چینیآلمانیکم‌محتواهندیعربینوشتهبودندpstyletextalignjustifyسپسدانشجویانکارشناسیارشدبرنامه‌نویسیتوسعه‌دهندگانبزرگیOpenAI،Cohere،VoyageAnthropicخواستسؤالپاسخدهند،انتخابواقعیتمختلف،سؤالاتعمومی‌ترموردموضوعبحث،سؤالاتیواقعیت‌هاییوجودموضوعیسوگیریآشکاربیانشده‌اندpدریافتندبازیابیتولیدپرسشکاربر،LLM‌هاخودترجیحمی‌دهندpstyletextalignjustifyشارماتوضیحمی‌دهدمقاله‌ایداشتهگفتهفلانشخصیتسیاسیشخصآدمبدیاست،خوبیبپرسم،مدلهستند،سوالمطرحهیچحرفتعریفیجست‌و‌جونداشتهباشد،اتفاقیمی‌افتد،گویشورانکم‌منبعنتایجنشانپاسخ‌هااساسیافتمی‌شوند،دیدگاه‌هانادیدهمی‌گیرندpمثال،سانسکریتکمترهندصحبتبپرسید،طورپیش‌فرضاستخراجنمایشمی‌دهد،حتیچهرهباشدpstyletextalignjustifyعلاوهاین،روندنگران‌کنندهیافتندغالبعنوانمدرکیامپریالیسماشارهزمانیمنابعبالاتربیشتربالقوهروایت‌هایتحتالشعاعقرارتحریفمی‌کندpخلاصهمطالعه،سناریویفرضیکاربراختلافمرزیدیرینهچینمی‌پرسندهندی‌زبانپاسخ‌هاییمی‌بیندشکلگرفته‌اند،حالیچینی‌زباندریافتتنهامنعکس‌کنندهفرضعرب‌زبانسندیدرگیریندارددیدگاهآمریکاییکرد،زبان،منبعغنی‌تریاست؛درککاملاًمتفاوتیدرگیری،کاردادpstyletextalignjustifyدرنتیجه،محققانفعلیچندزبانه‌هایساختگیمی‌نامندبشکنندکاربرانحباب‌هایفیلترمبتنیگرفتارمعرضمی‌گیرید،نحوهرأیدادنتصمیماتشماتعیینقدرتمردممنتقلقادرتصمیم‌گیریآگاهانهکنیم،سیستم‌هاینیازداریمبتوانندتمامحقیقتمختلفدهندامرویژههنگاممربوطدرگیری‌هایمناطقیمی‌کنند،تعرفه‌هایایالاتمتحده،اهمیتپیداLLMها،قصدمعیارپویاداده‌هاییکمکهدایتتوسعهآیندهحال،جامعهتحقیقاتیبزرگترتشویقاثراتاستراتژی‌هایآموزشمدل،ترکیبداده‌هامعماری‌هایتقویت‌شدهکنندpتوصیهمتنوعجمع‌آوریشود،کاربرانیممکنرفتارپرسشپاسختأییدیگیرند،هشداردادهبرنامه‌هاییسوادجستجویمحاوره‌ایتدویناعتماداتکاییابدpمتمرکزفناوری‌هایخطراتقابلتوجهیهمراهدارد،تعدادکمیافرادشرکت‌هاامکانجریاندستکارینتیجهاقناعجمعیتسهیلاعتبارسیستم‌هامی‌دهندگسترشنادرستتشدیدجامعه،صرفنظرپیشینهخود،یکسانی
Loading...
شکاف زبانی دیجیتال: چگونه هوش مصنوعی چندزبانه اغلب تعصب را تقویت می‌کند

به گزارش گروه دانشگاه خبرگزاری دانشجو، دانشمندان کامپیوتر دانشگاه جان هاپکینز کشف کرده‌اند که ابزار‌های هوش مصنوعی مانند ChatGPT در حال ایجاد شکاف زبانی دیجیتال هستند و تسلط زبان انگلیسی و سایر زبان‌های رایج را تقویت می‌کنند و در عین حال زبان‌های اقلیت را به حاشیه می‌رانند.

 

محققان در یافته‌هایی که در کنفرانس سالانه ۲۰۲۵ شعبه ملت‌های قاره آمریکا از انجمن زبان‌شناسی محاسباتی در اوایل امسال ارائه شد، می‌گویند ابزار‌های محبوب مدل‌سازی زبان‌های بزرگ، به جای اینکه شرایط را برابر کنند، در واقع در حال ساختن «پیله‌های اطلاعاتی» هستند.

 

نیخیل شارما، نویسنده اول مقاله و دانشجوی دکترا در دانشکده علوم کامپیوتر دانشکده مهندسی وایتینگ، می‌گوید: «ما سعی داشتیم بپرسیم که آیا LLM‌های چندزبانه واقعاً چندزبانه هستند؟ آیا آنها موانع زبانی را از بین می‌برند و دسترسی به اطلاعات را دموکراتیزه می‌کنند؟»

 

برای فهمیدن این موضوع، شارما و تیمش - شامل کنتون موری، دانشمند محقق در مرکز فناوری زبان انسانی عالی، و ژیانگ شیائو، استادیار علوم کامپیوتر - ابتدا پوشش خبری جنگ‌های اسرائیل-غزه و روسیه-اوکراین را بررسی کردند و چندین نوع اطلاعات را در مقالات خبری شناسایی کردند: دانش عمومی، ادعا‌های متناقض، حقایق منحصر به اسناد خاص، و اطلاعات مشابه، اما با دیدگاه‌های بسیار متفاوت.

 

با آگاهی از این اصول طراحی، این تیم دو مجموعه مقاله جعلی ایجاد کرد - یکی با اطلاعات «درست» و دیگری با اطلاعات «جایگزین» و متناقض. این اسناد شامل پوشش یک جشنواره - با تاریخ‌ها، نام‌ها و آمار متفاوت - و یک جنگ بود که با دیدگاه‌های جانبدارانه گزارش شده بود. این مقالات به زبان‌های پرمحتوا مانند انگلیسی، چینی و آلمانی و همچنین زبان‌های کم‌محتوا مانند هندی و عربی نوشته شده بودند.

 

سپس این تیم از دانشجویان کارشناسی ارشد برنامه‌نویسی از توسعه‌دهندگان بزرگی مانند OpenAI، Cohere، Voyage AI و Anthropic خواست تا به چندین نوع سؤال پاسخ دهند، مانند انتخاب یکی از دو واقعیت متناقض ارائه شده به زبان‌های مختلف، سؤالات عمومی‌تر در مورد موضوع مورد بحث، سؤالاتی در مورد واقعیت‌هایی که فقط در یک مقاله وجود دارند و سؤالات موضوعی که با سوگیری آشکار بیان شده‌اند.

 

محققان دریافتند که هم در بازیابی اطلاعات از اسناد و هم در تولید پاسخ به پرسش کاربر، LLM‌ها اطلاعات را به زبان خود پرسش ترجیح می‌دهند.

 

شارما توضیح می‌دهد: «این یعنی اگر من مقاله‌ای به انگلیسی داشته باشم که در آن گفته شده باشد فلان شخصیت سیاسی هندی - مثلاً شخص X - آدم بدی است، اما مقاله‌ای به هندی داشته باشم که در آن گفته شده باشد شخص X آدم خوبی است، اگر به انگلیسی بپرسم، مدل به من می‌گوید که آنها آدم بدی هستند، اما اگر به هندی بپرسم، می‌گوید که آنها آدم خوبی هستند.

 

محققان سپس این سوال را مطرح کردند که اگر هیچ حرف تعریفی در زبان مورد جست‌و‌جو وجود نداشته باشد، چه اتفاقی می‌افتد، که این برای گویشوران زبان‌های کم‌منبع رایج است. نتایج این تیم نشان می‌دهد که LLM‌ها پاسخ‌ها را بر اساس اطلاعاتی که فقط در زبان‌های کم‌منبع یافت می‌شوند، تولید می‌کنند و سایر دیدگاه‌ها را نادیده می‌گیرند.

 

شارما می‌گوید: «برای مثال، اگر در مورد شخص X به زبان سانسکریت - زبانی که کمتر در هند صحبت می‌شود - سوال بپرسید، مدل به طور پیش‌فرض اطلاعات استخراج شده از مقالات انگلیسی را نمایش می‌دهد، حتی اگر شخص X یک چهره هندی باشد.

 

علاوه بر این، دانشمندان کامپیوتر یک روند نگران‌کننده را یافتند: زبان انگلیسی غالب است. آنها به این موضوع به عنوان مدرکی از امپریالیسم زبانی اشاره می‌کنند - زمانی که اطلاعات از زبان‌های با منابع بالاتر بیشتر تقویت می‌شود و به طور بالقوه روایت‌های زبان‌های کم‌منبع را تحت الشعاع قرار می‌دهد یا تحریف می‌کند.

 

برای خلاصه کردن نتایج این مطالعه، شارما یک سناریوی فرضی ارائه می‌دهد: سه کاربر ChatGPT در مورد اختلاف مرزی دیرینه هند و چین سوال می‌پرسند. یک کاربر هندی‌زبان پاسخ‌هایی را می‌بیند که توسط منابع هندی شکل گرفته‌اند، در حالی که یک کاربر چینی‌زبان پاسخ‌هایی را دریافت می‌کند که تنها منعکس‌کننده دیدگاه‌های چینی هستند.

 

شارما می‌گوید: «اما فرض کنید یک کاربر عرب‌زبان وجود دارد و هیچ سندی به زبان عربی در مورد این درگیری وجود ندارد. آن کاربر پاسخ‌ها را از دیدگاه انگلیسی آمریکایی دریافت خواهد کرد، زیرا این زبان، منبع بسیار غنی‌تری است؛ بنابراین هر سه کاربر با درک کاملاً متفاوتی از این درگیری، به کار خود پایان خواهند داد.»

 

در نتیجه، محققان LLM‌های چندزبانه فعلی را "چندزبانه‌های ساختگی" می‌نامند که نمی‌توانند موانع زبانی را بشکنند و کاربران را در حباب‌های فیلتر مبتنی بر زبان گرفتار می‌کنند.

 

شارما می‌گوید: «اطلاعاتی که در معرض آن قرار می‌گیرید، نحوه رأی دادن و تصمیمات سیاسی شما را تعیین می‌کند. اگر می‌خواهیم قدرت را به مردم منتقل کنیم و آنها را قادر به تصمیم‌گیری آگاهانه کنیم، به سیستم‌های هوش مصنوعی نیاز داریم که بتوانند تمام حقیقت را با دیدگاه‌های مختلف به آنها نشان دهند. این امر به ویژه هنگام پوشش اطلاعات مربوط به درگیری‌های بین مناطقی که به زبان‌های مختلف صحبت می‌کنند، مانند جنگ‌های اسرائیل-غزه و روسیه-اوکراین - یا حتی تعرفه‌های بین چین و ایالات متحده، اهمیت پیدا می‌کند.»

 

برای کاهش این اختلاف اطلاعات در LLM ها، تیم هاپکینز قصد دارد یک معیار پویا و مجموعه داده‌هایی را برای کمک به هدایت توسعه مدل در آینده ایجاد کند. در عین حال، جامعه تحقیقاتی بزرگتر را تشویق می‌کند تا اثرات استراتژی‌های مختلف آموزش مدل، ترکیب داده‌ها و معماری‌های تولید تقویت‌شده با بازیابی را بررسی کنند.

 

محققان همچنین توصیه می‌کنند دیدگاه‌های متنوع از زبان‌های مختلف جمع‌آوری شود، به کاربرانی که ممکن است در رفتار پرسش-پاسخ تأییدی قرار گیرند، هشدار داده شود و برنامه‌هایی برای افزایش سواد اطلاعاتی پیرامون جستجوی محاوره‌ای تدوین شود تا اعتماد و اتکای بیش از حد به LLM‌ها کاهش یابد.

 

شارما می‌گوید: «قدرت متمرکز بر فناوری‌های هوش مصنوعی خطرات قابل توجهی را به همراه دارد، زیرا به تعداد کمی از افراد یا شرکت‌ها این امکان را می‌دهد که جریان اطلاعات را دستکاری کنند، در نتیجه اقناع جمعی را تسهیل می‌کنند، اعتبار این سیستم‌ها را کاهش می‌دهند و گسترش اطلاعات نادرست را تشدید می‌کنند. به عنوان یک جامعه، ما به کاربران نیاز داریم که صرف نظر از زبان و پیشینه خود، اطلاعات یکسانی را دریافت کنند.»

اخبار مرتبط