ریشه یابی کلمات فارسی |Origins of Farsi words

ریشه یابی کلمات فارسی این جزوه را امروز می خواهیم در سایت دانشکده ها برای دانشجویان عزیز قرار دهیم

در ۲۱ اسلاید زیبا با فرمت پاورپوینت جمع آوری شده است.

این مقاله بطور نمونه قسمتی از متن را خواهیم گذاشت.

انواع الگوریتم های ریشه یابی

الگوریتم های مبتنی بر دیکشنری :  کاملترین الگوریتمهای ریشه یابی هستند. مشکلاتی نظیر :

.۱قابلیت گسترش پایین (no scalability)

.۲ناتوانی در دسته بندی کلمات در گروه های معنایی همسان

.۳درجه زمانی و مکانی بسیار بالا

الگوریتم های مبتنی بر قانون : این الگوریتمها، بر روی به دست آوردن ریشه ی کلمات از طریق تعدادی قوانین از پیش تعیین شده کار می کنند.

.۱قوانین موجود ساختارهای زبانشناسی نیستند.

.۲مشکلات روش قبل را ندارند.

.۳از لحاظ مؤفقیت از درصد پایینی برخوردار هستند.

.۴از این دسته الگوریتمها می توان به الگوریتمهای معروف Porter و Lovins و      Krovetz… بر روی زبان انگلیسی و الگوریتم ریشه یابی کاظم تقوی و … بر روی زبان فارسی اشاره کرد.

ریشه یابی کلمات فارسی

ریشه یابی کلمات فارسی بررسی الگوریتم porter :در هر برنامه جداسازی پسوند در سیستم های IR دو مورد بایستی مد نظر باشد.

—اول آنکه در سیستم های IR پسوندها به هدف افزایش کارائی سیستم حذف می شوند و نه به لحاظ عملیات زبانشناسی. این بدان معنی است که لزومی ندارد تا بفهمیم تحت چه شرایطی یک پسوند بایستی حذف گردد.

—نکته دوم آن است که با استفاده از روشی که توضیح داده خواهد شد؛ یعنی با استفاده از لیست پسوندها با قوانین اِعمال متعدد، ضریب موفقیت در حذف پسوندها جدا از آنکه این پردازش چگونه ارزیابی شود، مطمئناً کمتر از ۱۰۰ درصد خواهد بود.

ریشه یابی کلمات فارسی ریشه یاب پورتر ریشه یاب کاهش دهنده ادغامی برای زبان انگلیسی است که توسط مارتین پورتر در دانشگاه کمبریج در سال ۱۹۸۰ ارائه شد.

این ریشه یاب بصورت مرحله ای(۵ مرحله که در هر مرحله قوانین خاصی اِعمال می شود) و خطی می باشد که در ادامه به این مراحل اشاره می کنیم. در هر مرحله عملیات کاهش یا افزایش روی کلمات صورت می گیرد.

در زبان انگلیسی یک حرف بی صدا(Consonant) در یک کلمه حرفی غیر از A,E,I,O,U و Y بعد از یک حرف صدادار است.

(واقعیت آن است که تعریف حرف بی صدا بصورت بازگشتی در اینجا باعث مبهم شدن تعریف حرف بی صدا نمی شود). بنابراین در TOY حروف بی صدا T و Y هستند و در SYZYGY حروف بی صدا S و Z و Gمیباشند.

CVCV … C

CVCV … V

VCVC … C

VCVC … V

[C]VCVC … [V]

قوانین برای حذف پسوند در فرم زیر نمایش داده می شود:

(condition) S1-> S2که به معنای آن است که اگر کلمه ای با پسوندِ  S1 پایان بگیرد و ریشه ماقبل S1 شرطِ(condition) داده شده را ارضا کند، S1 با S2 جایگزین می شود.

—*S: ریشه با حرفِ S پایان می گیرد(همچنین برای سایر حروف).

—*v*: ریشه شامل حرف صدادار است.

—*d: ریشه با دو حرف صدادار یکسان پایان می گیرد(مثل TT وSSو…).

—*o: ریشه با cvc پایان می گیرد بطوریکه دومین c ،حروفِ W،X یاY نیست.(مثل-HOP,-WIL).

بررسی الگوریتم porter – مراحل روش

در مرحله اول بیشتر با قسمت سوم افعال و صورت جمع کلمات سروکار داریم مثل:

SSES à SS                                              caresses à    caress

IES à  I                                                   ponies à    poni

SS à SS                                                   caress à   caress

در مراحل ۲ و۳ و ۴ هم به صورت مشابه قوانین مختلفی استفاده می شود تا به ریشه مورد نظر نزدیک تر شویم مثل :

۲ :   (m>0) ATIONAL à ATE                 relational      à    relate

(m>0) TIONAL à   TION                conditional   à    condition

۳:    (m>0) ATIVE   à                              formative     à  form

(m>0) ALIZE   à  AL                       formalize      à  formal

۴ :   (m>1) IBLE   à                            defensible   à  defens

(m>1) ATE    à                            activate       à  activ

تا اینجا تمامی پسوندها حذف شده است و آنچه که مانده کمی از مراحله تصفیه (مرحله ۵) است. در این مرحله هم عملیاتی نظیر قوانین زیر صورت می گیرد.

(m>1) E     ->                         probate      ->   probat

بررسی الگوریتم porter – فلوچارت

ریشه یابی کلمات فارسی

بررسی الگوریتم porter :

 

در الگوریتم porter هیچ توجه ای به پیش وند ها نمی شود : باعث می شود که نتایج کمی نادرست باشد ولی در عمل این مسئله چندانی نیست چونکه وجود پیشوند احتمال کاهشها و ادغامهای نادرست را کاهش می دهد.

 

مزایای عمده این روش :

.۱این الگوریتم کوتاه ( کمتر از ۴۰۰ خط کد به صورت BCPL) و سریع می باشد. (واژگان با ۱۰۰۰۰ کلمه مختلف را در ۸٫۱ ثانیه  بر روی IBM 370/165 در دانشگاه کمبریج پردازش کرده است).

.۲ساده و کارا می باشد.

.۳قابلیت انعطاف دارد.

 

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “ریشه یابی کلمات فارسی |Origins of Farsi words”