شبکه های واژگانی

پردازش زبان طبیعی یکی از نیازهای عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. از دستاوردهای این رشته می توان به ساخت سیستم های مترجم ماشینی، خلاصه سازی خودکار، خطایاب املایی، شناسایی نویسنده، تولید محتوا، جستجو و بازیابی اطلاعات، دسته بندی اسناد، استخراج و تولید اخبار، واسط های زبان طبیعی برنامه های کاربردی و مانند آنها اشاره نمود.

پردازش زبان فارسی نیز در سالهای اخیر مورد توجه محققان بسیاری در ایران و سایر نقاط جهان قرار گرفته است.

متاسفانه یکی از گلوگاه های پردازش زبان فارسی در دسترس نبودن منابع زبانی کافی و معتبر برای این زبان است. از جمله این منابع که مورد توجه این طرح است می توان به واژگان های تک زبانه و چند زبانه محاسباتی، واژگانهای معنایی و متصل به هستان شناسی، هستان شناسی جامع عمومی و تخصصی اشاره نمود. چنین منابعی می توانند توسط تقریبا تمام کاربردهای پردازش زبان فارسی مورد استفاده قرار گیرند. در حال حاضر در اکثر کارهای انجام شده بدلیل عدم وجود منابع زبانی در دسترس محیط آزمون سیستم به شکل محدود شده و مصنوعی در نظر گرفته شده که این خود باعث می شود اکثرا فعالیت انجام شده قابل تعمیم به متون واقعی نباشد و در شکل های تعمیم یافته دقت بالا و قابل قبول در فعالیت انجام شده حاصل نگردد.

لذا بنظر می رسد یک قدم اساسی در حل مسئله پردازش زبان فارسی تهیه منابع زبانی گسترده خصوصا واژگان های معنایی باشد.

این منابع برای زبان هایی مانند انگلیسی بسیار گسترش یافته اند. به عنوان مشهورترین و پرکاربردترین واژگان معنایی زبان انگلیسی می توان به WordNet اشاره نمود. این واژگان که به عقیده بسیاری محققین یک واژهستان شناسی نیز هست، توسط کاربردهای بسیاری مورد استفاده قرار گرفته و بعنوان مبنایی برای ساخت واژگان های معنایی به بسیاری زبان های دنیا ترجمه شده است. وردنت یک هستان‌شناسی واژگانی است که در طراحی آن از نظریه‌های روان‌شناسی زبان درباره واژگان ذهنی انسان الهام گرفته شده است. طراحی وردنت در سال 1978 در آزمایشگاه علوم شناختی دانشگاه پرینستون زیر نظر پروفسور جی. ا. میلر آغاز شد و نسخه 1.0 آن در سال1985 عرضه شد.

انجمن جهانی وردنت در سال 2000 در آمستردام هلند کار خود را آغاز کرد. هدف انجمن جهانی وردنت پدید آوردن فضایی برای استانداردسازی و اتصال وردنت همه زبان‌های دنیا است و در کنار آن در صدد فراهم آوردن زمینه مناسب برای ایجاد یک پایگاه داده چند زبانی جهانی است.

بر اساس اطلاعات سایت انجمن جهانی وردنت هم اکنون برای حدود 60 زبان در جهان وردنت تک زبانه وجود دارد و حدود 10 وردنت چند زبانه وجود دارد که این وردنت های چند زبانه از 3 تا 200 زبان را پوشش می‌دهند.







معرفی فارس‌نت

فارس‌نت نخستین ، دقیقترین و بزرگترین وردنت فارسی است که در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران توسعه یافته است. آخرین نسخه فارس‌نت (نسخه 3) دارای بیش از 100 هزار مدخل واژگانی (واژه یا عبارت) است که در حدود 40 هزار مجموعه ترادف جا گرفته اند. برای هر مدخل حداقل یک معنی تعریف شده و هر معنی در یک و فقط یک مجموعه ترادف شرکت می کند. کلیه مجموعه‌های ترادف یا در سلسله مراتب شرکت می کنند و یا به عنوان سرگروه معرفی می شوند. درضمن هر مجموعه ترادف یا حداقل یکی از اعضا آن در حداقل یک رابطه غیر سلسله مراتبی شرکت نموده است. همچنین هر مجموعه ترادف در صورت امکان به مجموعه ترادف نظیر در وردنت 3.0 پرینستون نگاشت شده است.

برای هر مدخل واژگانی در فارس‌نت اطلاعات زیر ذخیره می شود:

  • اطلاعات آوایی (شکل اصلی تلفظ و گونه های دیگر)،
  • اطلاعات نوشتاری (صورت مصوب فرهنگستان و صورت های دیگر)
  • اطلاعات نوشتاری (صورت مصوب فرهنگستان و صورت های دیگر)
  • معانی مختلف مدخل

برای مداخل ترکیب صورت نوشتاری + صورت آوایی+ مقوله نحوی کلید است. هر معنی در یک مجموعه ترادف شرکت می کند.

برای هر مجموعه ترادف اطلاعات زیر ذخیره می گردد:

  • توضیح مفهوم به زبان طبیعی
  • مثالی از کاربرد این مفهوم در متن
  • روابط این مجموعه با سایر مجموعه ها

روابط معنایی موجود در فارس‌نت ممکن است میان مجموعه های ترادف یا میان معانی برقرار باشند. روابط میان مجموعه های ترادف در دو دسته روابط میان مقوله ای (دوسر رابطه از یک مقوله نیستند) و روابط درون مقوله ای (دوسر رابطه از یک مقوله هستند) دسته بندی می شوند. انواع روابط تحت پوشش فارس‌نت 2 عبارتند از:

روابطی که در وردنت انگلیسی هم برقرارند مانند:

  • شمول و زیر شمول (مثلا رابطه اتومبیل و وسیله نقلیه)
  • جزء واژگی و کل واژگی (مثلا رابطه اتومبیل و چرخ)
  • علیت (مثلا رابطه کشتن و به قتل رسیدن یا بستن و بسته شدن)
  • استلزام منطقی (مثلا رابطه خرخر کردن و خوابیدن)
  • رابطه اشتقاقی میان مقوله های مختلف: (مثلا رابطه کلماتی چون حاکم، محکوم، محاکمه، حکومت و ...)

روابط جدیدی که در فارس‌نت برقرار شده اند مانند:

  • رابطه میان صفت و اسم ویژگی: (مثلا رابطه میان گرم و دما )
  • رابطه میان اسم و صفت برجسته یا بالقوه: (مثلا رابطه میان خورشید و تابان یا میان نان و بیات )
  • رابطه میان فعل و آرگومانهای آن: (مثلا رابطه میان خوردن و خوراکی یا میان خوردن و قاشق )
  • رابطه بی نام: ( مثلا رابطه باهم آیی یا هم نشینی میان شیر و یارانه یا اقتصاد و دلار در اسناد خبری!)
  • نگاشت میان زبانی (معادل و نزدیک معادل) بین مجموعه های ترادف فارسی و انگلیسی

همچنین در فارس‌نت علاوه بر اطلاعات مندرج در سایر وردنت های جهان اطلاعات ساختار آرگومانی افعال ساده زبان نیز درج شده است. ساختار یک فعل مجموعه سازه هایی است که به عنوان مکمل های فعل همراه آن در جمله ظاهر می شوند. به این منظور آرگومانهای نحوی و معنایی (قاب فعل) برای 200 فعل ساده زبان فارسی بر اساس پیکره بیجن خان استخراج و به افعال وردنت اضافه شده است







تاریخچه فارس‌نت

دادگان فارس‌نت در چهار پروژه تهیه شده اند. در فارس‌نت 1 در سال 1387 تعداد 17000 مدخل در حدود 10000 مجموعه ترادف جای‎گرفت و ساخته شد. فارس‌نت 2 در سال 1389 با تعداد 30000 مدخل در حدود 20000 مجموعه ترادف آزادرسانی شد. و در سال ۱۳۹۶ هم پروژه فارس‌نت 3 با هدف رسیدن به 100000 مدخل در 40000هزار مجموعه ترادف به انجام رسید.

نسخۀ اول فارس‌نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست.

نسخۀ دوم فارس‌نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست.

نسخۀ دوم و نیم فارس‌نت شامل بیش از ۳۳ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است.این نسخه نگارش بهبود یافته و تکمیل شده نسخه دوم می باشد.

نسخۀ سوم فارس‌نت شامل بیش از ۱۰۰ هزار مدخل واژگانی در 40000هزار مجموعه ترادف می باشد. با توجه به وردنت‌های بزرگی که در دنیا وجود دارد و تجربه پژوهش‌های انجام‌شده گسترش فارس‌نت از جهت دامنه پوشش لغات فارسی و هم تعداد روابط بسیار اهمیت دارد. در پروژه توسعه فارس‌نت ۳ هدف توسعه و تکمیل هستان‌شناسی عمومی زبان فارسی تا 100 هزار مدخل واژگانی بود. همچنین با بازبینی دادگان قبلی تضمین دقت 90 درصد روی دادگان فارس‌نت 2 از دیگر اهداف پروژه بود.

فارس‌نت تاکنون در برنامه های کاربردی متعددی در حوزه پردازش زبان فارسی از جمله پرسش و پاسخ، ترجمه ماشینی، خلاصه‌سازی خودکار، جستجوی معنایی، استخراج دانش و اطلاعات، کشف تقلب، بازیابی اطلاعات و ... با موفقیت مورد بهره برداری قرار گرفته و منجر به افزایش کارایی این برنامه ها شده است. گسترش کمی و کیفی این منبع زبانی گام مهمی در پیشبرد توانایی پردازش متون فارسی به شمار می آید.

مقالات فارس‌نت

لیست مقالات منتشر شده مربوط به فارس‌نت :

شرایط وردنت فارسی که در این پروژه تولید می‌شودعبارتند از:

  • Semi_Automatic_Development_Of_FarsNet_The_Persian
  • M. Shamsfard, A. Hesabi, H. Fadaei, N. Mansoory, A. Famian, S. Bagherbeigi, E. Fekri, M. Monshizadeh, and S. M. Assi, “Semi automatic development of farsnet; the persian wordnet,” in Proceedings of 5th global WordNet conference, Mumbai, India, 2010, vol. 29.
  • M. Shamsfard, “Developing FarsNet: A lexical ontology for Persian,” in 4th Global WordNet Conference, Szeged, Hungary, 2008.
  • M. Shamsfard and Y. Ghazanfari, “Augmenting FarsNet with new relations and structures for verbs,” in 8th Global WordNet Conference (GWC 2016), 2016.
  • Taheri and M. Shamsfard, “Mapping farsnet to suggested upper merged ontology,” in Asia Information Retrieval Symposium, 2011, pp. 604–613.
  • M. Rouhizadeh, M. A. Yarmohammadi, and M. Shamsfard, “Developing the Persian WordNet of verbs: Issues of compound verbs and building the editor,” in Proceedings of 5th Global WordNet Conference, 2010.