چهارشنبه، بهمن ۱۲، ۱۳۸۴

اشتباه عمده در يونی کد يا اشتباه در پياده سازی مايکروسافت؟

سالهاست همه جا تذکر داده ام که ظاهرا مايکروسافت در ويندوز دو نوع حرف يونيکد ی و دو نوع حرف يونيکد کاف دارد. اين به آن معنی است که بدليل اشتباه يونی کد يا شايد هم اشتباه مايکروسافت ، کاف عربی از کاف فارسی متفاوت است و با کد متفاوتی هم ذخيره می شود. اما از آنجا که از ديد فارسی زبان ها، کاف فارسی و عربی يک حرف هستند و نه دو حرف متفاوت ، لذا تفاوت کد مشکل عظيمی در جستجو ايجاد می کند. درنظر بگيريد هر کلمه ای که در آن ی يا کاف باشد ممکن است در عين موجود بودن ، در نتيجه جستجوی شما وارد نشود!!
نرم افزارها و سايت های بسيارکمی در الگوريتمهای جستجو به اين فکرها هستند و خوب در جستجو هم هميشه مشکل دارند! لذا اگر در هر سايت اينترنتی جستجوی متنی فارسی کرديد بهتر است با هر دو نوع ک و ی اين جستجو را انجام دهيد! لابد می گوييد کيبورد شما ک عربی را تايپ نمی کند و يا بالعکس! اگر اينطور است حداقل برای رفع اين مشکل در جستجوهای وب ، بهترين راه حل استفاده از گوگل تولبار Google Toolbar و استفاده از امکان suggestions است. اين امکان به اين شکل است که با تايپ هر حرف درون باکس جستجوی تولبار ، يک ليست باز می شود و جستجوهای مشابه خلق الله به شما نشان داده می شود.

به عنوان مثال فرض کنيد دنبال اسم شورای عالی انفورماتيک می گرديد. اگر کلمه شورا را تايپ کنيد مثل شکل زير می بينيد که دوتا شورای عالی انفورماتيک پيدا شده است! از ايندو يکی با کاف و ی فارسی و ديگری با کاف و يای عربی) ظاهر می شود. کاف عربی يک 6 کوچک بالای آن و ی عربی دو نقطه زير آن دارد و برای همين از انواع فارسی آن قابل تفکيک است. به هر حال در کار با جستجوگر گوگل شما می توانيد بدون داشتن درايور خاص صفحه کليد ، عبارت موردنظر (فارسی يا عربی) را از ليست suggestions انتخاب و جستجو کنيد.

برای دوستانی که اين ليست ممکن است در تولبار آنها فعال نباشد. اگر خواستيد آن را فعال کنيد در سمت چپ بخش جستجوی تولبار روی کليد google کليک کنيد و options را انتخاب کنيد. سپس به بخش search رفته و تيک روبروی عبارت suggest popular queries as you type را بزنيد.

نتايج پيدا شده در ليست پيشنهادی گوگل از لحاظ آماری هم به شما ديد می دهد که بيشترين جستجو با کيبوردهای عربی صورت گرفته است و البته اين برای من کمی عجيب است. چون ويندوز استاندارد فارسی (مايکروسافت دست نخورده) کاف و ی فارسی را تايپ می کند نه عربی را! به هر حال اين نتايج نشان می دهد که درصد ويندوزهای دستکاری شده در حال کار در جامعه ايرانيان بيشتر از نوع دستکاری نشده آن است!

۴ نظر:

ناشناس گفت...

salam
man taze be farance ameam va ba system haye inja moshkel daram
inja az apple estefade mikonand bad az jostejoo dar internt motavaje shodam ke mac ba unikode farsi moshkel darad; opera va safari nasb kardam ke betavanam farsi bekhanam
ama moshkele digar inast ke dar weblogam gerafike blogfa zaher nemishavad va man font nemitavanam taghir daham va tasvir ham nemitavanam begozaram; az shoma taghazaye rahnamayi daram
kamangeer2000@yahoo.com
sarzamineman.blogfa.com

ناشناس گفت...

سلام
مایکروسافت اشتباهی مرتکب نشده است
نکته در اینجاست که مایکروسافت چیزی به نام ویندوز فارسی تولید نکرد بلکه ویندوز عربی 98 را به بازار ارایه کرد که بعدها با دستکاری شرکت هایی نظیر سینا و نوین و .. به نام ویندوز فارسی به بازار ارایه شد
طراحان وب برای اینکه حروف ی در ویندوز 98 درست دیده شود از آن موقع تا به حال از ي عربی استفاده می کنند در حالیکه این مشکل دیگر در ویندوز های ایکس پی حل شده طراحان وب هنوز به این روش ادامه می دهند

ناشناس گفت...

مشکل سر اين نيست که مايکروسافت مقصرند يا بقيه قضيه اينه که الان واقعا دوتا يا شايد بيشتر کاف وجود داره و اين در ويندوز که استراتژی تک نمادی روبرای ضبط داده ها دنبال کرده يک فاجعه است.

همين که داده های ما داره به دو روش کاملا مجزا توليد ميشه يک راه بی برگشته و بدترين چيز هم توليد اطلاعات به روش غلطه

ناشناس گفت...

در مورد تفاوت ی با ي میدونم که ترتیب الفبای فارسی با عربی فرق داره و عربها ن و ي ه و ما ن و ه ی را درست میدونیم! که با این کلک در sorting ها مشکل ایجاد نمیکنه