تکنیک‌های Text Summarization: از Extractive تا Abstractive

بازار تحلیل متن که خلاصه‌سازی بخشی کلیدی از آن محسوب می‌شود، در سال ۲۰۲۴ به ارزش بیش از ۱۰.۱ میلیارد دلار رسیده و تا سال ۲۰۳۳ با نرخ رشد سالانه ۱۵ درصد به ۳۵.۵ میلیارد دلار خواهد رسید. این رشد نشان‌دهنده اهمیت روزافزون فناوری‌های خلاصه‌سازی در کسب‌وکارها و سازمان‌ها است.

خلاصه‌سازی متن فرآیندی است که یک سند طولانی را به نسخه‌ای فشرده تبدیل می‌کند، به‌طوری‌که اطلاعات کلیدی و معنای اصلی حفظ شود. این فناوری در حوزه‌های مختلفی از جمله روزنامه‌نگاری، امور مالی، مراقبت‌های بهداشتی و صنعت حقوقی کاربرد دارد. دو رویکرد اصلی در این حوزه وجود دارد: خلاصه‌سازی استخراجی (Extractive) و خلاصه‌سازی انتزاعی (Abstractive).

خلاصه‌سازی استخراجی (Extractive Summarization)

مفهوم و اصول

خلاصه‌سازی استخراجی به‌عنوان یک تکنیک پردازش زبان طبیعی، جملات یا عبارات مهم را مستقیماً از متن اصلی انتخاب و ترکیب می‌کند تا خلاصه‌ای کوتاه تشکیل دهد. این روش هیچ محتوای جدیدی تولید نمی‌کند و تنها بر استخراج مستقیم جملات موجود از منبع اصلی متکی است.

این فرآیند را می‌توان به استفاده از یک هایلایتر تشبیه کرد که مهم‌ترین جملات یک متن را علامت‌گذاری می‌کند. به عبارت دیگر، خلاصه‌سازی استخراجی زیرمجموعه‌ای از جملات متن اصلی را شناسایی و گزینش می‌کند.

معماری و مراحل کاری

خلاصه‌سازی استخراجی از سه وظیفه مستقل تشکیل شده است:

۱. ایجاد نمایش میانی از متن ورودی: در این مرحله، متن به فرمتی قابل پردازش تبدیل می‌شود. این نمایش می‌تواند بر اساس فرکانس کلمات، وزن‌دهی TF-IDF، یا ساختارهای پیچیده‌تر مانند گراف‌های معنایی باشد.

۲. امتیازدهی به جملات: هر جمله با توجه به نمایش میانی امتیازی دریافت می‌کند. معیارهای مختلفی برای امتیازدهی وجود دارد، از جمله موقعیت جمله در متن، حضور کلمات کلیدی، شباهت با عنوان، و طول جمله.

۳. انتخاب جملات برای تشکیل خلاصه: جملاتی که بالاترین امتیازها را دریافت کرده‌اند، برای تشکیل خلاصه نهایی انتخاب می‌شوند.

روش‌های متداول

چندین رویکرد برای خلاصه‌سازی استخراجی توسعه یافته است:

الگوریتم‌های مبتنی بر گراف: روش‌هایی مانند TextRank و LexRank که از الگوریتم PageRank الهام گرفته‌اند، جملات را به‌عنوان گره‌های یک گراف در نظر می‌گیرند و روابط شباهت بین آنها را با یال‌ها نشان می‌دهند. سپس با محاسبه اهمیت هر گره، مهم‌ترین جملات شناسایی می‌شوند.

روش‌های یادگیری ماشین: الگوریتم‌های طبقه‌بندی مانند Naive Bayes، درخت تصمیم‌گیری، و ماشین بردار پشتیبان (SVM) می‌توانند آموزش ببینند تا جملات را به دسته‌های خلاصه و غیرخلاصه تقسیم کنند. این روش‌ها به مجموعه داده‌های آموزشی شامل اسناد و خلاصه‌های استخراج‌شده توسط انسان نیاز دارند.

روش‌های شبکه عصبی: با پیشرفت یادگیری عمیق، معماری‌های مبتنی بر شبکه‌های عصبی بازگشتی (RNN)، LSTM و ترنسفورمرها برای خلاصه‌سازی استخراجی مورد استفاده قرار گرفته‌اند. این مدل‌ها می‌توانند وابستگی‌های پیچیده‌تر را در متن یاد بگیرند.

مزایا و محدودیت‌ها

مزایا:

دقت بالا در حفظ اطلاعات واقعی از متن اصلی
پیچیدگی محاسباتی کمتر نسبت به روش‌های انتزاعی
کاهش احتمال تولید اطلاعات نادرست یا گمراه‌کننده
مناسب برای زبان‌ها و حوزه‌های مختلف بدون نیاز به داده‌های آموزشی گسترده

محدودیت‌ها:

فقدان انسجام طبیعی در خلاصه تولیدشده
عدم توانایی در بازنویسی یا تولید جملات جدید
ممکن است خلاصه‌های تولیدشده حاوی افزونگی باشند
عدم تطابق کامل با نحوه خلاصه‌نویسی انسانی

خلاصه‌سازی انتزاعی (Abstractive Summarization)

مفهوم و تفاوت‌ها

خلاصه‌سازی انتزاعی روشی پیشرفته‌تر است که متن ورودی را تحلیل و درک می‌کند، سپس جملات و عبارات جدیدی تولید می‌کند که جوهره متن اصلی را به شکلی فشرده و منسجم بیان کنند. این کلمات ممکن است در متن اصلی وجود نداشته باشند.

اگر خلاصه‌سازی استخراجی را به هایلایتر تشبیه کنیم، خلاصه‌سازی انتزاعی را می‌توان به یک قلم تشبیه کرد که محتوای جدید خلق می‌کند. این روش به نحوه خلاصه‌نویسی انسان‌ها نزدیک‌تر است، زیرا ابتدا معنای کلی متن را درک کرده و سپس آن را با کلمات خود بیان می‌کند.

معماری و تکنولوژی‌های زیربنایی

خلاصه‌سازی انتزاعی از تکنیک‌های پیشرفته پردازش زبان طبیعی استفاده می‌کند:

مدل‌های Sequence-to-Sequence: این معماری از دو جزء encoder و decoder تشکیل شده است. encoder متن ورودی را پردازش می‌کند و به یک نمایش برداری تبدیل می‌کند، سپس decoder بر اساس این نمایش، خلاصه را کلمه به کلمه تولید می‌کند.

مدل‌های مبتنی بر ترنسفورمر: معماری‌های پیشرفته‌تری مانند BERT، GPT، T5 و BART در این حوزه ظهور کرده‌اند. این مدل‌ها از مکانیزم توجه (Attention Mechanism) استفاده می‌کنند که به آنها اجازه می‌دهد روابط طولانی‌مدت در متن را بهتر درک کنند.

مدل‌های پیش‌آموزش‌دیده بزرگ: مدل‌های زبانی بزرگ (LLM) مانند GPT-4، Claude، و PaLM با آموزش بر روی حجم عظیمی از داده‌های متنی، توانایی قابل توجهی در تولید خلاصه‌های با کیفیت و شبیه به انسان به دست آورده‌اند. بازار LLM در سال ۲۰۲۴ به ارزش ۶.۰۲ میلیارد دلار رسید و پیش‌بینی می‌شود تا سال ۲۰۳۳ به ۸۴.۲۵ میلیارد دلار برسد.

مدل PEGASUS: این مدل با هدف خاص خلاصه‌سازی انتزاعی طراحی شده است. PEGASUS از یک هدف پیش‌آموزش نوآورانه به نام تولید جملات شکاف‌دار (Gap Sentences Generation) استفاده می‌کند که جملات کامل را به‌جای بخش‌های کوچک‌تر متن ماسک می‌کند.

رویکردهای ساختاری و معنایی

دو رویکرد اصلی در خلاصه‌سازی انتزاعی وجود دارد:

رویکرد ساختارمند: این روش از الگوهای از پیش تعریف‌شده، قوانین استخراج و ساختارهای جایگزین مانند درخت، هستی‌شناسی و ساختارهای مبتنی بر قانون استفاده می‌کند. یک الگو برای نمایش کل سند به کار می‌رود و بخش‌های متنی شناسایی‌شده به شکاف‌های این الگو نگاشت می‌شوند.

رویکرد معنایی: این روش بر تحلیل معنایی متن تمرکز دارد. تکنیک‌هایی مانند مدل گراف معنایی غنی (Rich Semantic Graph) و مدل نمایش متن معنایی متن را با استفاده از معناشناسی کلمات به‌جای ساختار نحوی تحلیل می‌کنند.

تکنیک‌های پیشرفته

یادگیری تقویتی: برخی از روش‌های نوین از یادگیری تقویتی (Reinforcement Learning) برای بهبود کیفیت خلاصه استفاده می‌کنند. الگوریتم‌هایی مانند Proximal Policy Optimization (PPO) می‌توانند مدل را در جهت تولید خلاصه‌های دقیق‌تر و منسجم‌تر بهینه کنند.

خلاصه‌سازی سلسله‌مراتبی: برای متون بسیار طولانی، روش‌های سلسله‌مراتبی توسعه یافته‌اند که ابتدا متن را به بخش‌های کوچک‌تر تقسیم می‌کنند، هر بخش را خلاصه می‌کنند و سپس خلاصه‌های بخشی را ترکیب می‌کنند.

خلاصه‌سازی چندمدالی: برخی مدل‌های پیشرفته می‌توانند علاوه بر متن، از تصاویر، صوت و ویدیو نیز برای تولید خلاصه‌های جامع‌تر استفاده کنند. تا سال ۲۰۲۴، ۳۸ درصد از مدل‌های منتشرشده چندمدالی بودند.

چالش‌ها و محدودیت‌ها

تولید توهمات (Hallucinations): یکی از مهم‌ترین چالش‌ها، تولید اطلاعات نادرست یا گمراه‌کننده است که در متن اصلی وجود ندارند. برخی تحقیقات نشان می‌دهند که خلاصه‌سازی انتزاعی بیشتر مستعد این مشکل است، هرچند تحقیقات دیگر نشان داده‌اند که این توهمات اغلب از خود متن منبع مشتق می‌شوند.

هزینه محاسباتی: آموزش مدل‌های انتزاعی پیشرفته نیازمند منابع محاسباتی قابل توجهی است. برای مثال، آموزش مدل GPT-3 حدود ۳۵۵ سال پردازش GPU نیاز داشته است.

نیاز به داده‌های آموزشی: مدل‌های انتزاعی به مجموعه داده‌های بزرگ و با کیفیت برای آموزش نیاز دارند، که ایجاد آنها زمان‌بر و هزینه‌بر است.

حفظ سازگاری واقعی: اطمینان از اینکه خلاصه تولیدشده با واقعیت‌های موجود در متن اصلی سازگار است، چالش دیگری است که نیاز به توسعه تکنیک‌های ارزیابی و اعتبارسنجی دارد.

مطالعات موردی: خلاصه‌سازی متن فارسی

در زمینه زبان فارسی، تحقیقات قابل توجهی در حوزه خلاصه‌سازی متن انجام شده است. فراهانی و همکاران در سال ۲۰۲۰ یک مجموعه داده نوآورانه به نام pn-summary برای خلاصه‌سازی انتزاعی متون فارسی معرفی کردند. این مجموعه داده شامل مقالات خبری از ۱۳ خبرگزاری برجسته فارسی همراه با خلاصه‌های نوشته‌شده توسط انسان است.

محققان از مدل‌های mT5 (نسخه چندزبانه مدل T5) و معماری BERT2BERT که با وزن‌های مدل ParsBERT (یک مدل BERT تک‌زبانه برای فارسی) آغاز شده، استفاده کردند. نتایج نشان داد که مدل BERT2BERT مبتنی بر ParsBERT عملکرد بهتری نسبت به mT5 داشت، که احتماﻻً به دلیل آموزش انحصاری ParsBERT بر روی پیکره گسترده متون فارسی است.

تحقیقات جدیدتر در سال ۲۰۲۴-۲۰۲۵ بر روی بهبود خلاصه‌سازی متون فارسی از طریق رویکردهای سه‌مرحله‌ای fine-tuning و یادگیری تقویتی با مدل mT5 متمرکز شده است. این مدل‌های بهبودیافته توانسته‌اند امتیازهای ROUGE بالاتری (ROUGE-1: 53.17، ROUGE-L: 44.13) کسب کنند.

معیارهای ارزیابی

ارزیابی کیفیت خلاصه‌های تولیدشده یکی از جنبه‌های حیاتی تحقیق در این حوزه است. دو معیار اصلی برای این منظور استفاده می‌شوند:

معیار ROUGE

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) مجموعه‌ای از معیارها برای ارزیابی خلاصه‌های خودکار است که بر روی recall تمرکز دارد. این معیار میزان همپوشانی n-gram بین خلاصه تولیدشده و خلاصه‌های مرجع را اندازه‌گیری می‌کند.

انواع مختلف ROUGE عبارتند از:

ROUGE-N: همپوشانی n-gram را اندازه‌گیری می‌کند (ROUGE-1 برای کلمات منفرد، ROUGE-2 برای دوتایی‌های کلمات)
ROUGE-L: طولانی‌ترین زیردنباله مشترک (LCS) را بررسی می‌کند که برای شباهت ساختاری مفید است
ROUGE-S: همپوشانی skip-bigram را ارزیابی می‌کند که در آن دو کلمه در نظر گرفته می‌شوند، اما لزوماً مجاور نیستند

تحقیقات نشان داده‌اند که ROUGE-2 بالاترین همبستگی را با ارزیابی انسانی دارد، در حالی که ROUGE-1 و ROUGE-L در رتبه‌های پایین‌تری قرار دارند.

معیار BLEU

BLEU (Bilingual Evaluation Understudy) در ابتدا برای ارزیابی ترجمه ماشینی طراحی شد، اما در برخی کارهای خلاصه‌سازی نیز مورد استفاده قرار می‌گیرد. این معیار بر precision تمرکز دارد و درصد n-gram‌های موجود در خلاصه تولیدشده که با خلاصه‌های مرجع همپوشانی دارند را می‌سنجد.

امتیاز BLEU از ۰ تا ۱ متغیر است، که نزدیک‌تر بودن به ۱ نشان‌دهنده شباهت بالا است. BLEU برای وظایف ترجمه مناسب‌تر است، در حالی که ROUGE برای خلاصه‌سازی متن ترجیح داده می‌شود.

معیارهای معنایی مدرن

BERTScore: از embedding‌های BERT برای اندازه‌گیری شباهت معنایی بین جملات استفاده می‌کند و می‌تواند بازنویسی‌ها و مترادف‌ها را به خوبی تشخیص دهد.

METEOR: علاوه بر مطابقت دقیق کلمات، شناسایی مترادف‌ها و stemming را نیز در نظر می‌گیرد، که برای خلاصه‌هایی که به‌شدت بازنویسی شده‌اند مفید است.

کاربردهای عملی

خلاصه‌سازی متن در صنایع مختلف کاربردهای گسترده‌ای دارد:

روزنامه‌نگاری و رسانه: تولید خودکار خلاصه اخبار و مقالات، که به کاربران کمک می‌کند تا اطلاعات را سریع‌تر دریافت کنند.

خدمات مالی: حدود ۳۸ درصد از تحلیلگران مالی از LLM برای خلاصه‌سازی گزارش‌های درآمد و پیش‌بینی استفاده می‌کنند. این فناوری زمان تهیه گزارش را تا ۵۸ درصد کاهش داده است.

مراقبت‌های بهداشتی: خلاصه‌سازی سوابق پزشکی، یادداشت‌های بالینی و مقالات تحقیقاتی. استفاده سیستماتیک از هوش مصنوعی در این حوزه می‌تواند سالانه ۳۶۰ میلیارد دلار صرفه‌جویی در هزینه‌های بهداشتی ایالات متحده ایجاد کند.

صنعت حقوقی: در ایالات متحده، ۳۰ درصد از شرکت‌های حقوقی از LLM برای بررسی قراردادها و خلاصه‌سازی اسناد استفاده آزمایشی کرده‌اند.

تجارت الکترونیک: تجزیه و تحلیل نظرات محصولات و تولید خلاصه‌های مفید برای مشتریان و فروشندگان.

خدمات مشتری: بات‌های خدمات مشتری مجهز به LLM اکنون ۲۵ درصد از تمام درخواست‌ها را مدیریت می‌کنند.

روندها و چشم‌انداز آینده

مدل‌های هیبریدی: ترکیب نقاط قوت خلاصه‌سازی استخراجی و انتزاعی برای بهبود انسجام و محتوای اطلاعاتی. این مدل‌ها ابتدا با استخراج جملات شروع می‌کنند و سپس آنها را بازنویسی می‌کنند.

خلاصه‌سازی شخصی‌سازی‌شده: تولید خلاصه‌هایی که با علایق، سطح دانش و نیازهای اطلاعاتی خاص هر کاربر تنظیم شده‌اند.

چندزبانی: توسعه مدل‌هایی که می‌توانند متون را در زبان‌های مختلف خلاصه کنند یا حتی خلاصه را در زبانی متفاوت از متن اصلی تولید کنند.

اسناد بلند: بهبود تکنیک‌ها برای مدیریت اسناد بسیار طولانی که از محدودیت‌های طول ورودی مدل‌های فعلی فراتر می‌روند.

شفافیت و تفسیرپذیری: توسعه مدل‌هایی که می‌توانند توضیح دهند چرا برخی اطلاعات را برای خلاصه انتخاب کرده‌اند.

کاهش توهمات: تحقیقات فشرده در جهت کاهش تولید اطلاعات نادرست و بهبود وفاداری به متن اصلی.

خلاصه‌سازی بلادرنگ: با رشد ۱۲۵ درصدی در استفاده از LLM توسط دولت‌ها در سال ۲۰۲۳-۲۰۲۴، نیاز به سیستم‌های خلاصه‌سازی بلادرنگ برای پردازش جریان‌های مداوم داده افزایش یافته است.

یکپارچگی با دانش بیرونی: ترکیب خلاصه‌سازی با پایگاه‌های دانش و گراف‌های دانش برای تولید خلاصه‌های دقیق‌تر و غنی‌تر از نظر اطلاعاتی.

نتیجه‌گیری

خلاصه‌سازی متن به یک فناوری کلیدی در عصر دیجیتال تبدیل شده است که با حجم روزافزون اطلاعات به سازمان‌ها و افراد کمک می‌کند تا به‌سرعت به دانش مورد نیاز دسترسی پیدا کنند. از خلاصه‌سازی استخراجی ساده که مانند یک هایلایتر عمل می‌کند تا خلاصه‌سازی انتزاعی پیشرفته که با استفاده از مدل‌های زبانی بزرگ محتوای جدید تولید می‌کند، این فناوری به سرعت در حال تکامل است.