تعدادی از محققان فعال در حوزه هوش مصنوعی ادعا می‌کنند به روشی دست پیدا کرده اند که امکان بهبود و بهینه‌سازی مدل‌های زبانی با توکن های طولانی را فراهم می‌کند.

این بهبود باعث می‌شود تا این مدل‌ها قادر به پردازش متن با ظرفیت توکن‌های تا ۲ برابر از ظرفیت اصلی خود شوند. به این ترتیب، این مدل‌ها قادر به درک متن‌های بزرگ‌تر و پیچیده‌تری می‌شوند.

شاید هنگام کار با ربات های مختلف هوش مصنوعی متوجه شده ‌اید که چت‌های شما در حین مکالمه به پایان می‌‌ رسد یا اصلاً امکان پاسخگویی به سوال و جواب‌های طولانی تر را ندارد؟ باید توجه داشت که این مشکل به دلیل محدودیت‌ قابلیت‌های پردازشی مربوط به توکن‌ها در آن‌ها رخ می‌دهد. اما تحقیقات جدید محققان حوزه AI نشان می‌دهد که این موضوع به زودی می‌تواند دستخوش تغییراتی شود! دانشمندان این حوزه با این روش جدید موفق به بهبود و تقویت قابلیت‌های این مدل‌ها شده‌اند. این بهبود باعث می‌شود تا مدل‌ها توانایی پردازش متون با تعداد توکن های تا دو برابر از ظرفیت قبلی خود را داشته باشند. با این تغییرات، امکان درک متون بزرگ‌تر و پیچیده‌تر توسط این مدلهای زبانی هوش مصنوعی افزایش می‌یابد. با ما همراه باشید تا این نوآوری جدید را بیشتر بشناسیم و به چگونگی تأثیر آن بر روی تکنولوژی چت‌بات‌ها پی ببریم.

در حال حاضر، مدل‌های زبانی هوش مصنوعی (LLMs) دارای ظرفیت محدودی در پردازش اطلاعات هستند. به عنوان مثال، مدل زبانی ChatGPT با توانایی استفاده از حداکثر 8,000 توکن و مدل زبانی Claude با توانایی پردازش تا حداکثر 100,000 توکنمی باشد. توکن‌ها واحد‌های اصلی از متن یا کد هر زبان هستند که توسط LLM ها برای پردازش و تولید زبان استفاده می‌شوند. این محدودیت تعیین می‌کند که این مدل‌ها برای پاسخ دهی تا چه حد از اطلاعات در دسترس را استفاده کنند. اما محققان یک روش توسعه داده اند که به گفته آن‌ها تعداد مفید توکن های قابل استفاده برای مدل های زبانی متن‌باز مانند Llama متعلق به شرکت Meta را دو برابر می‌کند، البته بدون کاهش دقت مدل در کاربردهای عملی.

این تکنیک بر اساس”مقیاس‌دهی” در مرحله Embedding است که موقعیت کلمات در متن های ورودی را پیگیری می‌کند. بر اساس اطلاعات مندرج در صفحه Github آن‌ها، محققان ادعا می‌کنند که این روش مقیاس‌دهی به طرز چشم‌گیری تعداد توکن‌هایی را که یک مدل می‌تواند پردازش کند، افزایش می‌دهد.

پژوهشگران بر روی مثال‌هایی مانند پرسش و پاسخ بر اساس کتاب‌ها، دو نسخه مقیاس‌دهی شده از مدل زبانی LlaMA را ارزیابی کردند. مدل مقیاس‌دهی با مقیاس 16 بیت دقت خود را در مثال‌های واقعی تا حدود 16,000 توکن حفظ کرد، این در حالی بود که مدل اصلی Llama تنها پاسخ دهی تا 2,000 توکن را پشتیبانی می‌کرد. حتی این مدل نشان داد که حتی توانایی افزایش طول پاسخ‌ دهی تا طول بیش از 20,000 توکن را دارد، چیزی که جز با استفاده از تکنیک‌های بهینه‌سازی دقیق ممکن نبود.


با این حال هنوز هم افزایش طول توکن‌ها و مقیاس دهی عامل تعیین کننده در عملکرد این مدل‌های زبانی نیست.


با توجه به پیشرفت‌های اخیر، همچنان ضروری است که بهبود کیفیت را به‌طور جداگانه مورد بررسی قرار دهیم. فقط مقیاس‌دهی ممکن است خروجی با کیفیت بالا را تضمین نکند. محققان همچنین طرح‌های پیشرفته مربوط به کدگذاری و موقعیت توکن‌ها را از مقالات گذشته بررسی می‌کنند تا ظرفیت و کیفیت توکن‌ها را بهبود بخشند.