الاثنين، يناير 03، 2005

ابن معجمك اللغوي بنفسك

لطالما بحثت عن طريقة سريعة في بناء معجم لغوي ، يحوي على مفرادت اللغة العربية ، بحيث تكون مرتبة ترتيب هجائي و بدون تكرار ، حيث أنه سيسهل علينا بناء مدقق إملائي للغة العربية ، و كذلك يسهل علينا بناء قواميس ترجمة ، حيث أني فكرت في مرة من المرات عن الطريقة التي تكتب بها المدققات اﻹملائية ، فوجدت أن اﻷساس لها أن يكون لديك قاموس لغوي لمفرادات اللغة العربية ..
و بعدما انتقلت إلى منصة اللينكس أخيرا و بينما كنت أقرأ أحد الكتب التي تشرح نظام اللينكس و جدت طريقة لبناء معجم لغوي ، بكل سهولة ، فقط شغل سطر اﻷوامر ( التيرنل أو Konsole أو ما شابه ) و اكتب هذا السطر :
find *.txt | xargs cat | tr " " "\n" | sort | uniq > mydict.txt
ستجد أنك بنيت قاموسك اللغوي بكل سهولة و يسر .. ، و لكي أبسط لك المسألة سأشرح هذا السطر :
- اﻷمر find هو برنامج نصي للبحث يعمل على سطر اﻷوامر ، و النجمة معناها أي شيء ، فمعنى find *.txt ابحث عن كل نص ينتهي بلاحقة txt في الدليل الحالي .
- ثم نمرر النتيجة إلى البرنامج النصي xargs ، و هو سيأخذ النتيجة و يمررها بدوره إلى البرنامج cat ، الذي بدوره سيستخدم اﻷمر tr لترجمة كل فراغ بين الكلمات إلى رمز بداية السطر و سيبني قائمة من الكلمات .
- سيجري بعد ذلك فرز هذه القائمة عند تطبيق اﻷمر sort ، و سيجري استبعاد أي تكرار في القائمة عند تطبيق اﻷمر uniq.
-ثم يجري تخزين هذه القائمة في ملف اسمه mydict
لقد جربت هذه الطريقة على المصحف الكريم و قد نجحت حيث أعطتني أكثر من 19000كلمة ، و قد رتبها على الترتيب الهجائي .
و لكي تبني معجم بهذه الطريقة ، فقط جمع كل النصوص العربية في ملف واحد ، و طبق هذا اﻷمر ، ثم راجع الخارج من هذه العميلة ... و الله الموفق

ليست هناك تعليقات: