نرم‌افزار مشابهت‌یاب سمیم به عربی رونمایی شد
کد خبر: 4143479
تاریخ انتشار : ۰۴ خرداد ۱۴۰۲ - ۱۶:۱۵

نرم‌افزار مشابهت‌یاب سمیم به عربی رونمایی شد

مدیر پروژه سامانه مشابه یاب متون (سمیم نور) تاکید کرد: بخش فارسی این سامانه از سال 1393 منتشر شده بود و امروز شاهد رونمایی از نسخه عربی سمیم نور به صورت رسمی هستیم.

اراسل// نرم‌افزار  مشابهت‌یاب سمیم به عربی رونمایی شدبه گزارش ایکنا، مهدی بهنیافر، مدیر پروژه سامانه مشابه یاب متون (سمیم نور) در نشست رونمایی از رونمایی نسخه عربی از سامانه مشابه یاب متون (سمیم نور) با بیان اینکه سمیم برگرفته از حروف اول سامانه مشابه‌یاب متون است و در دنیا با عنوان سامانه‌های تقلب‌یاب مرسوم است، گفت: در دنیا شاید 50 عدد سامانه کشف تقلب و مشابه‌یابی داشته باشیم که عموم آنها مختص زبان انگلیسی و خطوط چپ به راست هستند و اصولا سامانه تجاری‌شده برای خطوط راست به چپ فارسی و عربی نداشته‌ایم تا وقتی سمیم نور از سال 93 آغاز به کار کرده است.

وی افزود: در سال 93، سمیم فارسی برای اولین بار کار خود را شروع کرد و تجازی‌سازی شد؛ البته تحقیق و توسعه این پایگاه از سال 88 شروع شده است و محصول تجاری‌سازی شده ابتدا در زبان عربی و در بخش مشابه‌یاب نرم‌افزار جامع‌الحادیث وارد بازار شده بود تا اینکه در سال 1393 زبان فارسی آن تولید شد و امروز هم نسخه عربی آن در حال رونمایی است.

وی با بیان اینکه نسخه غیررسمی این نرم‌افزار از سال 1401 وارد بازار شده است، افزود: کارکرد این نرم‌افزار آن است که وقتی پایان‌نامه، مقاله و یا کتاب به آن داده شود میزان مشابهت آن را با متون از قبل نوشته نشان می‌دهد تا ناشر بداند قرار است بر روی چه متنی، سرمایه‌گذاری کند یا استاد راهنما می‌تواند تشخیص دهد که پایان‌نامه را از دانشجو قبول کند یا خیر؟

50 هزار کتاب و 140 هزار مقاله در سامانه

بهنیافر با تاکید بر اینکه سمیم نور، متن را با پایان‌نامه‌ها، کتب و مقالات و صفحات وب فارسی و عربی قبلا منتشرشده می‌سنجد، تصریح کرد: سامانه مشابه‌یاب دو بال اساسی دارد؛ اول موتوری که باید روی اطلاعات منتشرشده کار می‌کند و دیگری داده‌هایی که باید به سامانه بدهیم. این سامانه بیش از 140 هزار پایان‌نامه، چهار و نیم میلیون صفحه وب فارسی و عربی، 50 هزار کتاب و 800 هزار مقاله ار در خود دارد که هر کدام از اینها در حال افزایش هستند مثلا 31 هزار کتاب دیگر به این مجموعه اضافه خواهند شد.

وی افزود: سامانه متنی را که در اختیارش بگذاریم با این مجموعه داده‌ها خواهد سنجید که 29 هزار کتاب  همچنین 72 هزار مقاله و دو میلیون صفحه وب و کمتر از 10 هزار پایان‌نامه به زبان عربی است.

مدیر پروژه سامانه سمیم اظهار کرد: معمولا بیشترین حجم برداشت از منابع از مقالات، در درجه بعد صفحات وب، در درجه سوم از کتب و در نهایت از پایان‌نامه‌ها صورت می‌گیرد. این نوع رفتاری است  که از سال 1393 از رفتار کاربران کشف کرده‌ایم لذا عرض بنده این است که فردی که پایان‌نامه می‌نویسد در درجه اول از مقالات بهره می‌برند و بعد سراغ وب و در نهایت کتاب و پایان‌نامه می‌روند و سرقت بیشتر به این شکل صورت می‌گیرد.

بهنیافر اضافه کرد: مرکز نور از سال 368 فعالیت خود را شروع و در عرصه علوم انسانی و اسلامی کار می‌کند و داده‌ها هم بر این محور هستند لذا سمیم نور سامانه تخصصی مشابه‌یاب یا کشف تقلب در زمینه علوم انسانی و اسلامی است که شامل فقه و کلام و سیره و مدیریت و حسابداری و تربیت بدنی و روابط عمومی و... می‌شود.

پوشش مقالات از 100 سال قبل

مدیر پروژه سمیم در پاسخ به پرسش ایکنا مبنی بر اینکه منابع اطلاعاتی که تحت پوشش سامانه است مربوط به چند سال قبل است؟ بیان کرد: داده‌ها به عنوان منابع منحصر به بانک مقالات نورمگز نیست و نورمگز هم مقالات حدود صد سال قبل به این طرف را در خود جا داده است، پایگاه کتب ما هم منحصر به نورلایب نیست و فراتر از آن را تحت پوشش داریم و پایگاه نورداک هم منبع دیگری به همراه صفحات وب است.

وی اضافه کرد: البته واقعیت این است که ما نسبت به تجربه‌ای که در زبان انگلیسی وجود دارد خیلی عقب هستیم یعنی سامانه مشابه‌یاب انگلیسی، ده برابر ما صفحه وب را در خود قرار داده است ولی راه درازی در پیش رو داریم.

وی در  پاسخ به این سؤال که هم اکنون چه میزان تقلب صورت می‌گیرد و سامانه شناسایی می‌کند، تصریح کرد: در سال 1401 در سمیم فارسی، 58 درصد اسنادی که به سامانه سپرده شده‌اند کمتر از 20 درصد مطلب خود را عینا از  منابع برداشته‌اند، 24 درصد هم بین 20 تا 50 درصد مشابهت داشته‌اند و حدود ده درصد هم از 50 به بالا با متون قبلی مشابهت داشته است. البته همه اینها به معنای سرقت علمی نیست و بسیاری از روی ناآگاهی اقدام به این کار می‌کنند و از ضوابط و قوانین نگارش علمی مطلع نیستند ولی به هر حال باید ضوابط اخلاقی را هم تقویت کنیم.

نبود قوانین شفاف

بهنیافر اضافه کرد: این سامانه‌ها در دنیا تقلب‌یاب نام دارند  ولی ما این نام را برای آن انتخاب نمی‌کنیم زیرا در ایران و کشورهای عربی، قوانین  دقیقی برای اعلام اینکه چه درصدی از مشابهت مصداق سرقت و یا انتحال است نداریم ولی در کشورهای غربی، قوانین به روشنی این مسئله را بیان کرده است.

وی با بیان اینکه البته نیاز نیست لزوما مجلس اقدام به وضع قانون بکند و نهادهای مردمی و دانشگاه‌ها و مراکز علمی  هم می‌توانند، اظهار کرد: به همین دلیل ما هم این نام را انتخاب نکرده‌ایم. البته ارتباط ما با نهادهایی چون وزارت علوم خوب است اما انتظار داریم حمایت از این نوع سامانه‌ها هم داشته باشند.

بهنیافر بیان کرد: بیشترین استفاده از سمیم برای مقالات به خصوص مقالات منتشردشه در مجلات است که حتی در زبان فارسی، نمونه‌هایی از آن را سراغ داریم ؛ البته در شهریور و بهمن ماه که معمولا زمان دفاع از پایان‌نامه‌ها است میزان استفاده از سمیم خیلی بالا می‌رود.

دریافت 5 هزار پایان‌نامه از الازهر

وی با اشاره به تعامل با دانشگاه‌های عربی و غیرعربی که با زبان عربی سر و کار دارند، گفت: ما همه پایان‌نامه‌های دانشگاه ادیان و مذاهب و دانشگاه قم را که به زبان عربی هستند وارد سامانه کرده‌ایم همچنین حدود 5هزار پایان‌نامه از الازهر مصر دریافت شده است. همچنین دو میلیون صفحه عربی از 36 سایت‌ عربی است و حدود 60 سایت عربی دیگر هم در دستور کار قرار دارد ضمن اینکه لیست پیشنهادی هزار سایتی هم از دانشگاه‌های مختلف داریم. 

وی افزود: در صدد هستیم منابع سمیم را به صورت مستمر افزایش دهیم یعنی برحسب نظرسنجی و بازخورد از خود دانشگاهیان اقدام به چنین کاری شود و در واقع نظر خود دانشجویان و استادان دانشگاه‌ها مبنای کار ما است.

انتهای پیام
captcha