پیکره بزرگ متنی فارسی با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار زبان فارسی دانشگاه صنعتی شریف و یک شرکت دانشبنیان، به صورت رایگان در اختیار محققان حوزه پردازش زبان طبیعی قرار گرفت.
تهران ایرنا- پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر -مثل فارسی- بیشتر احساس میشود.
بدین منظور گروه حرفهای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام کرد: این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
وی گفت: همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
مدیرعامل مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز اعلام کرد: مرکز نوآوری این شرکت دانشبنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه نیز اظهار داشت: از این پیکره میتوان برای fine-tune کردن مدلهای زبانی - که در اصل برای زبان انگلیسی تهیه شدهاند - برای زبان فارسی نیز استفاده کرد، از جمله این مدلهای زبانی میتوان به BERT, BART, T۵ و ... اشاره کرد.
در ادامه وی از همه محققان این حوزه دعوت کرد تا با بررسی این پیکره، این تیم را از نظرات بهرهمند سازند.
پیکره متنی ناب
پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر – مثل فارسی – بیشتر احساس میشود. ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردهایم. این پیکره مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
ناب
در سالهای اخیر، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزههای یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدلهای پایه در این حوزه همان مدلهای زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدلهای زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف میشود و از مدل خواسته میشود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را میشناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبانهایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس میشود. کمبود این منابع متنی باعث میشود که محققان این حوزه نتوانند مدلهای زبانی روز دنیا را برای فارسی آموزش دهند.
بزرگترین پیکره متنی پیکره متنی PersianNLP بود که مجموعهای از حدود ۷۰ گیگابایت متن خام را شامل میشد. این پیکره شامل ۸ زیر پیکره به ترتیب زیر بود:
پیکره Common-Crawl
پیکره Miras
پیکره W۲C
پیکره ویکیپدیا فارسی
پیکره لایپزیک
پیکره VOA
پیکره اشعار فارسی
پیکره موازی فارسی-انگلیسی
با وجود اینکه این داده تا حد خوبی جواب محققان حوزه پردازش زبان طبیعی را میدهد نیاز به داده بیشتر در این حوزه احساس میشد. از طرفی دیگر این پیکره عموما شامل متون رسمی است و کمتر متن غیر رسمی در آن دیده میشود.
در سالهای گذشته افراد و سازمانهای متعددی سعی داشتهاند که برای آسان کردن فرآیند آموزش مدل امکان استفاده و آموزش مدلهای موجود در حوزه یادگیری عمیق علیالخصوص پردازش زبان طبیعی را داشتهاند. از موفقترین این سازمانها میتوان به Huggingface اشاره کرد. این سازمان کتابخانههایی به زبان پایتون به صورت متن باز تهیه کرده است و بدین ترتیب آموزش مدلهای بر پایه یادگیری انتقالی را بسیار آسانتر کرده است. از جمله این کتابخانهها میتوان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاستهای استفاده میشود با یکدیگر ساختار یکپارچهای میسازد که فرآیند آموزش مدلهای زبانی را بسیار آسانتر میکند. پیکرههای فارسی موجود هیچکدام بر روی مخزن datasets قرار نگرفتهاند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس میشد.
ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی به همراه محققین مرکز نوآوری شرکت عصرگویش پرداز پیکره متنی ناب را معرفی میکنیم. این پیکره شامل حدود ۱۳۰ گیگابایت متن تمیز شده کاملا فارسی که متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره بجویند. از مزیتهای پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بدین ترتیب میتوانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.
جزییات ناب
در این قسمت به بررسی تعدادی از جزئیات مربوط به پیکره متنی ناب میپردازیم. برای اطلاعات بیشتر راجع به جزئیات پیکره ناب به مقاله ناب مراجعه کنید. این پیکره از ۵ زیر پیکره تشکیل شده است که جزئیات آن در تصویر ۱ آمده است. در ادامه توضیحات مختصری راجع به هر کدام از پیکرهها داده میشود.
توزیع دادگان پیکره ناب
پیکره PesianNLP
همانطور که در قسمت قبل گفته شد این پیکره شامل حدود ۷۰ گیگابایت متن فارسی است.
پیکره OSCAR-fa
پیکره OSCAR یک پیکره چند زبانه است که شامل زبانهای مختلفی از جمله فارسی است. نسخه اصلی این پیکره ۳۸ گیگابایت دیتای فارسی است که در پیکره ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده میکنیم. این پیکره شامل متون رسمی و غیررسمی است.
پیکره AGP
پیکره شرکت عصرگویش پرداز که حدود ۲۵ گیگابایت است شامل متون رسمی و غیر رسمی است. این پیکره تا قبل از استفاده شدن در ناب به صورت خصوصی مورد استفاده شرکت عصرگویش پرداز بود که از این پس به عنوان قسمت از پیکره ناب در دسترس عموم قرار گرفته است. امیدواریم موارد این چنینی در بین شرکت های فعال در زمینه هوش مصنوعی بیشتر انجام شود و به گونه ای ادامه دهنده راهی شوند که اولین بار در این ابعاد توسط شرکت عصرگویش پرداز در ایران ایجاد شده است.
پیکره LSCP
دیتاست محاورهای LSCP که توسط خجسه و همکاران معرفی شد شامل ۵ گیگ دیتا محاورهای است که جزو معدود دادگان غیررسمی حجم بالای زبان فارسی بود. به کمک این دیتاست پیکره ناب شامل قسمت بزرگتری دادگان غیررسمی به نسبت مجموعه دادگان قبلی شده است.
پیکره Telegram
حدود یک گیگ داده غیررسمی توسط تیم تهیه کننده ناب جمع آوری شده از شبکه پیامرسانی تلگرام که شامل متون محاورهای و غیررسمی است به دادگان ناب اضافه شده است که حجم دادگان رسمی افزایش یابد.
نتیجهگیری
پیکره متنی ناب به عنوان بزرگترین پیکره تمیز شده فارسی آزاد شامل ۱۳۰ گیگابایت داده متنی کاملا فارسی در اختیار محققین حوزه پردازش طبیعی قرار گرفته است. امید است با همیاری یکدیگر فضای کار را برای پردازش زبان طبیعی در فارسی آسانتر کنیم. مرکز نوآوری شرکت دانش بنیان عصر گویش پرداز، واقع در دانشگاه صنعتی شریف، آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
برای مطالعه بیشتر به این لینکهای زیر مراجعه کنید:
+ https://arxiv.org/abs/۲۲۰۸.۱۳۴۸۶