تعدادی از محققان فعال در حوزه هوش مصنوعی ادعا میکنند به روشی دست پیدا کرده اند که امکان بهبود و بهینهسازی مدلهای زبانی با توکن های طولانی را فراهم میکند.
این بهبود باعث میشود تا این مدلها قادر به پردازش متن با ظرفیت توکنهای تا ۲ برابر از ظرفیت اصلی خود شوند. به این ترتیب، این مدلها قادر به درک متنهای بزرگتر و پیچیدهتری میشوند.
شاید هنگام کار با ربات های مختلف هوش مصنوعی متوجه شده اید که چتهای شما در حین مکالمه به پایان می رسد یا اصلاً امکان پاسخگویی به سوال و جوابهای طولانی تر را ندارد؟ باید توجه داشت که این مشکل به دلیل محدودیت قابلیتهای پردازشی مربوط به توکنها در آنها رخ میدهد. اما تحقیقات جدید محققان حوزه AI نشان میدهد که این موضوع به زودی میتواند دستخوش تغییراتی شود! دانشمندان این حوزه با این روش جدید موفق به بهبود و تقویت قابلیتهای این مدلها شدهاند. این بهبود باعث میشود تا مدلها توانایی پردازش متون با تعداد توکن های تا دو برابر از ظرفیت قبلی خود را داشته باشند. با این تغییرات، امکان درک متون بزرگتر و پیچیدهتر توسط این مدلهای زبانی هوش مصنوعی افزایش مییابد. با ما همراه باشید تا این نوآوری جدید را بیشتر بشناسیم و به چگونگی تأثیر آن بر روی تکنولوژی چتباتها پی ببریم.
در حال حاضر، مدلهای زبانی هوش مصنوعی (LLMs) دارای ظرفیت محدودی در پردازش اطلاعات هستند. به عنوان مثال، مدل زبانی ChatGPT با توانایی استفاده از حداکثر 8,000 توکن و مدل زبانی Claude با توانایی پردازش تا حداکثر 100,000 توکنمی باشد. توکنها واحدهای اصلی از متن یا کد هر زبان هستند که توسط LLM ها برای پردازش و تولید زبان استفاده میشوند. این محدودیت تعیین میکند که این مدلها برای پاسخ دهی تا چه حد از اطلاعات در دسترس را استفاده کنند. اما محققان یک روش توسعه داده اند که به گفته آنها تعداد مفید توکن های قابل استفاده برای مدل های زبانی متنباز مانند Llama متعلق به شرکت Meta را دو برابر میکند، البته بدون کاهش دقت مدل در کاربردهای عملی.
این تکنیک بر اساس”مقیاسدهی” در مرحله Embedding است که موقعیت کلمات در متن های ورودی را پیگیری میکند. بر اساس اطلاعات مندرج در صفحه Github آنها، محققان ادعا میکنند که این روش مقیاسدهی به طرز چشمگیری تعداد توکنهایی را که یک مدل میتواند پردازش کند، افزایش میدهد.
پژوهشگران بر روی مثالهایی مانند پرسش و پاسخ بر اساس کتابها، دو نسخه مقیاسدهی شده از مدل زبانی LlaMA را ارزیابی کردند. مدل مقیاسدهی با مقیاس 16 بیت دقت خود را در مثالهای واقعی تا حدود 16,000 توکن حفظ کرد، این در حالی بود که مدل اصلی Llama تنها پاسخ دهی تا 2,000 توکن را پشتیبانی میکرد. حتی این مدل نشان داد که حتی توانایی افزایش طول پاسخ دهی تا طول بیش از 20,000 توکن را دارد، چیزی که جز با استفاده از تکنیکهای بهینهسازی دقیق ممکن نبود.
با این حال هنوز هم افزایش طول توکنها و مقیاس دهی عامل تعیین کننده در عملکرد این مدلهای زبانی نیست.
با توجه به پیشرفتهای اخیر، همچنان ضروری است که بهبود کیفیت را بهطور جداگانه مورد بررسی قرار دهیم. فقط مقیاسدهی ممکن است خروجی با کیفیت بالا را تضمین نکند. محققان همچنین طرحهای پیشرفته مربوط به کدگذاری و موقعیت توکنها را از مقالات گذشته بررسی میکنند تا ظرفیت و کیفیت توکنها را بهبود بخشند.