با ورود و یا ثبت نام وارد انجمن شوید.
X با کلیک روی تبلیغات سایت می‌توانید در تامین بخش بسیار اندکی از هزینه‌های بالای نگهداری این مجموعه با ما سهیم شوید.
 
امتیاز موضوع:
  • 0 رأی - میانگین امتیازات: 0
  • 1
  • 2
  • 3
  • 4
  • 5
مباحث حوزه Data Warehousing
نویسنده پیام
Mahnaz Nikbakht آفلاین
مهناز نیکبخت
مدیر انجمن
*****

فارغ التحصیل کارشناسی ارشد
مدیریت سیستمهای اطلاعاتی

ارسال‌ها: 86
تاریخ عضویت: شهریور ۱۳۹۰
اعتبار: 16
سپاس‌ها: 133
141 سپاس گرفته‌شده در 44 ارسال
ارسال: #1
مباحث حوزه Data Warehousing
توی این تاپیک هر کس اطلاعاتی در مورد این بخش داره بذاره ممنون میشم - از مبتدی با حرفه ای . (شاید دیگه برای آیندگان چون الان درگیر درس و مباحث هستید بهتر بود این پست رو گذاشتم) 1 53

انباره داده ها (Data WareHouse)

در اين نوشته، نگاهي خواهم داشت به مقدمات مفاهيم انبارکردن داده ها بدون ورود به بحث هاي تخصصي می پردازیم:
تعريف:
مي توان تعاريف مختلفي را براي Datawarehouse بیان کرد:
1- تعريف Ralhp Kimball از انباره داده : يک DW نسخه اي از داده هاي تراکنشي است که به صورت اختصاصي براي پرس و جو ها و گزارش گيري ،سازمان دهي شده است.
A data warehouse is a copy of transaction data specifically structured for querying and reporting.
گرچند به اين تعريف دو ايراد وارد است:که اولاً گاهي داده هايي که در يک DW ذخيره مي شوند ،غيرتراکنشي هستند . اگرچه معمولاً 95 تا 99 درصد داده ها تراکنشي هستند . ثانياً خروجي اصلي سيستم هاي DW ، ليست گيري هاي فهرست وار (queries) در حجم کم و يا گزارش هاي اداري در حجم زياد هستند

2- اگر تعاريف زير برقرار باشد:
داده : حقحيقت قابل مشاهده ، فايل ضبط
اطلاع : مجموعه سازماندهي شده از حقيقت ها ؛ داده هاي با ارتباط و هدف
سيستم عملياتي : محيطي از داده ها و برنامه هاي لازم براي ادامه فعاليتهاي يک سازمان
انبار داده ي اطلاعي :مجموعه اي از داده و برنامه ها، براي "تحليل " و "تصميم گيري "، جدا از سيستم عملياتي

يک انباره داده(DW) معماري جداگانه اي است براي نگهداري داه هاي حساس تاريخي که اين داده ها از انبار داده هاي عملياتي به دست آمده اند و به صورتي قابل درک براي عمليات تحليل سازمان درآمده اند.

3- يک تعريف از W.H.INMON
يک DW مجموعه اي از اطلاعات يکپارچه که داراي قابليت آناليز کردن و استخراج داده ها (query)ميباشد
"repository of integrated information, available for querying and analysis "

بعضي از خصوصيات Data warehouse ها از اين قرارند :
•يکپارچه بودن
•متغير با زمان
•غير فرار
•موضوع گرا (Subject-oriented)

تاريخچه:
بعد از رشد استفاده از TPS ها به عنوان سيستمهاي پرداش تراکنش در بخش هاي عملياتي سازمان، نياز جدي به سيستمهاي اطلاعاتي که بتوانند عمليات گزارش گيري را علي الخصوص در رده گزارشهاي مديريتي ساماندهي کنند احساس مي شد. علي الخصوص بوجود آمدن جزاير فنآوري، سيستمهايي که به صورت جد از هم فعاليت مي کرد و امکان تهيه گزارشات ترکيبي از اطلاعات سيستمهاي مختلف و انجام پرس و جو ها را مشکل و يا غير ممکن مي نمود. بنابراين حرکت به سمت سيستمهاي اطلاعات مديريت (Management Information System) و بويژه سيستمهاي گزارشگيري مديريتي (MRS:Management Reporting System) آغاز شد. اما مشکل آنجا بود که اين سيستمها به شدت به TPS ها وابسته بودند و داده هاشان اغلب يکي بود. اين باعث مي شد که تغيير يکي باعث انتشار تغييرات در همه سيستمها شود. از سوي ديگر ساختار داده اي مشابه، امکان تهيه گزارشات زماني و موضوعي را مشکل مي ساخت. اين شد که مدل جديدي از تفکر ايجاد شد به نام انباره داده ها

دلايل استفاده از DW ها :
1- تهيه گزارشات (Reports) و انجام پرس و جو هايي (Query) که نياز به عمليات ورودي/خروجي (IO) بسياري هستند: از اهداف سيستمهاي پردازش تراکنش (TPS:Transaction Processing System) آن است که گزارشات مورد نياز بخش هاي عملياتي و مديريتي را توليد کنند. تهيه اين گزارشات معمولا سخت و باحجم زياد IO همراه است و باعث کند شدن خود سيستمها مي گردد. بنابراين شرکت هاي تجاري به دنبال راهي هستند تا در کمترين زمان و با کمترين هزينه به سيستم هايي دست يابند که زمان پردازش تراکنش ها در آن ها قابل قبول باشد . بهترين راهکار استفاده از DW هايي بود که از منابع IO مجزايي براي گزارش گيري و انجام پرس و جو استفاده مي کردند.
2- استفاده از مدل هاي داده اي و يا تکنولوژي هاي سرور به منظور بالا بردن سرعت عمليات گزارش گيري و پرس و جو ها که سيستم هاي عادي پردازش تراکنش ها(TPS) براي آن ها مناسب نيست.
3- ايجاد محيطي براي براي تسهيل و آسان نمودن به دست آوردن گزارش ها و پرس و جو ها و يا ايجاد وسيله اي براي سرعت بخشيدن به عمليات گزارش گيري: اغلب مي توان DW اي ساخت که کاربراني باسطح آگاهي کمتر بتوانند گزارش ها و پرس و جوهاي ساده اي را تهيه کنند .
4- براي ايجاد انباري از داده هاي تصفيه شده ي سيستم هاي پردازش تراکنش ها (TPS)که مي توانند به طور پيوسته گزارش از آن تهيه نمود. اين انبار الزاماً احتياجي به ثابت بودت TPS ها ندارد :DW ها اين امکان را به شما مي دهند که داده ها را بدون تغيير دادن سيستم هاي پردازش تراکنش ها ،تصفيه کنند. (clean up) توجه کنيد که در برخي از پياده سازي ها ، DW ها به گونه اي هستند که در آن ها امکان يافتن اصلاحات انجام شده بر روي داده هاي DW و فرستادن feedback به TPS ها براي اعلام اين تغييرات ، وجود دارد. گاهي اوقات اين گونه رفتار کردن با تغييرات داده ها بامعناتر از اين است که تغييرات را به طور مستقيم بر روي خود TPS ها اعمال کنيم .
5- براي آن که بر اساس قواعد ، گزارش گيري و پژوهش را بر روي داده هايي که از چندين TPS مختلف مي آيند و يا از يک منبع داده اي خارجي مي آيند، يا اينکه داده هايي هستند که تنها براي گزارش گيري و انجام تحقيقات بايد ذخيره شوند ، تسهيل بخشيم:براي مدت زمان مديدي ، شرکت هايي که نياز به گزارش هايي بر پايه ي داده هاي چندين TPS مختلف ، داشتند ؛ مجبور بودند داده هاي هر TPS را بيرون کشيده ، سپس آن ها را مرتب نموده و در هم ادغام نمايند تا به داده ي چکيده اي برسند که مناسب گزارش گيري است .در بسياري از موارد اين روش مناسب است.اما در شرکت هايي که با حجم عظيمي از داده هايي مواجه هستند که مرتباً نياز به مرتب سازي و ادغام دارند ؛ در صورتي که نياز به گزارش گيري از داده هاي تصفيه شده ي TPS ها داشته باشيم ؛ DW ها کارايي بيشتري دارند.
6-براي ايجاد مخزني از داده هاي TPS ها ، که شامل داده هاي يک بازه ي زماني بسيار طولاني هستند وبه همين دليل کارايي کنترل آن ها توسط خود TPS پايين مي آيد . :داده هاي قديمي تر غالباً از يک TPS خالي مي شوند تا زمان پاسخ مورد انتظار دراين سيستم ها ، به راحتي کنترل شود .براي انجام تحقيقات و گزارش ها ممکن است داده هاي قديمي و داده هاي جاري مورد نياز باشند که در اين موارد استفاده از DW به علت مهم نبودن زمان انتظار براي پاسخ ، موثر خواهد بود.

روش کار:
در DW فرايندي داريم به نام ETL: Extract, Transform,Load که در طي آن داده ها از سيستمهاي پرادزش تراکنش استخراج مي شود (E) تغيير فرمت هاي لازم در آن صورت مي گيرد (T) و سپس در قالب داده اي جديد مناسب براي گزارشگيري آماده مي شود (L) پس از آن از طريق داده کاوي (Data Mining ) و مکانيزم هايي مانند OLAP پرس و جو ها ايجاد و گزارشات مورد نياز تهيه مي شود. (در مورد داده کاوي و ... در مطلبي در آينده مقدمه اي خواهم آورد)
اما ...
در اين نوشته همانگونه که گفتم قصد ورود به جزييات ندارم و هدفش مروري است بر کاربرد داده پردازي در سازمانها. بنابراين براي کسب اطلاعات بيشتر درمورد Data warehouse و بحث مهمي تحت عنوان معماري هاي مختلف DW به مطالب تخصصي مراجعه کنيد.


DATA MART چیست؟

بخشي از اطلاعات موجود در DWدر Data Mart نگهداري مي شود.H (DWH همون انبار داده ها = انبار داده ها یک فرآیند است نه محصول) اين اطلاعات بر حسب نياز گروه­هايي که در بخش IT سازمان فعاليت مي کنند انتخاب و استخراج مي شوند. در حالت کلي، اطلاعات مذکور از منابع اطلاعاتي مختلف موجود در سطح سازمان قابل تهيه هستند. معمولا اطلاعات موجود درData Mart از يک DWH استخراج ميشود. در مجموع مي توان گفت در يک Data Mart ايجاد شده براي يک گروه knowledge worker، اطلاعاتي وجود دارد که گروه مذکور، از لحاظ تحليلي و محتوايي به آن نياز دارند و اين اطلاعات را مي توان به فرمت مناسب براي گروه مذکور نمايش داد. Data mart ها به سه صورت وابسته، منطقي و Operational Data Store (ODS ذخیره داده های عملیاتی) وجود دارند.

  • Data Mart وابسته: يک پايگاه داده فيزيکي است که ممکن است سخت افزار آن از سخت افزار DWH مجزا باشد و شامل زيرمجموعه هاي کوچکي از اطلاعات مي شود.
  • Data mart منطقي: به صورت فيزيکي وجود ندارد بلکه يک view فيلتر شده از DWH است. اين نوع Data Mart نيازي به حافظه اضافي ندارد و داده ها هميشه بروز هستند. البته در اين نوع Data Mart زمان پاسخ دهي سيستم بيشتر خواهد بود.
  • ODS: يک پايگاه داده يکپارچه از داده هاي عملياتي سازمان هستند که معمولا اطلاعات باارزش يک دوره 30 يا 60 روزه را در بر دارند و براي گزارش گيري هاي مربوط به زمان حال که قابل دستيابي از DWH نيستند، مورد استفاده قرار مي گيرند.
لازم به ذکر است از Data Mart ها به صورت جداول ايندکس هم استفاده مي شود به اين صورت که به جاي آنکه اطلاعات سيستم در يک پايگاه اطلاعاتي مرکزي تکرار شود، اطلاعات سازمان تنها در منابع اطلاعاتي اوليه ذخيره مي شوند و ايندکس هايي از اطلاعات ايجاد مي شوند. در اين ايندکس ها (که همان Data Martها هستند)، مشخص شده است که هر منبع اطلاعاتي شامل چه اطلاعاتي است و چگونه مي توان اطلاعات مورد نظر را از آن استخراج کرد. به اين روش، روش quick and dirty گفته مي شود. زيرا در اين روش Data Mart ها را مي توان به سرعت ايجاد کرد و از طرفي اطلاعات مانند روش قبل پاکسازي نمي شوند.

يک Data warehouse براي جمع آوري تمامي اطلاعات در مورد موضوعات (subjects) مختلف مانند مشتري ها، محصولات، فروش، منابع، پرسنل و... ايجاد مي شود. اين اطلاعات در حوزه کل سازمان قرار دارد. ولي Data Martها اطلاعات زير مجموعه هاي سازماني را که روي يک موضوع خاص متمرکز است، در بر دارند.


براي ايجاد بستر داده اي براي BI به دو روش مي توان عمل کرد:


1- بالا به پايين (top-down): گه در اين روش يک DWH يکپارچه و يا يک ODS براي کل يک سازمان ايجاد مي شود. اين پايگاه داده بزرگ تمامي اطلاعات و داده هاي عملياتي سازمان را در بر دارد. ايجاد، پياده سازي و استفاده از اين نوع پايگاه داده بسيار گران، هزينه بر و سخت است.

2- پايين به بالا (down-top): در اين روش داده هاي مرتبط با هم در يک data mart قرار مي گيرند و چندين data mart در نقاط مختلف سازمان ايجاد شده و در راستاي همديگر يک DWH براي سازمان ايجاد مي کنند. براي ايجاد بستر داده اي يک سازمان روش اول بسيار سخت و هزينه بر است و در بسياري از کاربرد ها غير ممکن به نظر مي رسد.


با توجه به اينکه بسياري از سازمان ها از قبل داراي منابع داده اي جدا هستند، استفاده از Data mart ها بسيار به صرفه به نظرمي آيد و عملا نيز بسياري از سازمان ها از اين روش در BI استفاده مي کنند. يکي از نقاط ضعف اين روش اين است که داده ها و اطلاعات مربوط به يک فعاليت در سازمان ممکن است در چندين data mart نگه داري شود که باعث ايجاد افزونگي در اطلاعات سازمان مي شود.


Data mart ها بنا به کاربرد و انتظاراتی که از لحاظ کارآیی از آنها دارند، طراحی و پیاه سازی می شوند. در کاربرد هایی که نیاز است آخرین تغییرات داده های سازمان در Data mart وجود داشته باشد نمی توان از Data mart های وابسته استفاده کرد و بهتر است در صورت کوچک بودن حجم پردازش مربوط به query از Data mart منطقی استفاده شود. در صورتی که حجم پردازش بالا باشد و نتوان آن را در زمان مناسبی از DWH استخراج کرد بهتر است بنا به مقدار هزینه ای که برای استقرار در نظر گرفته شده است، از Data mart های وابسته و یا ODS ها استفاده شود.

با توجه به تقسیم بندی application های هوش تجاری در سطوح مختلف سازمانی (استراتژیک، تاکتیکی و عملیاتی) می توان گفت data mart هایی که خاص منظور هستند، بیشتر ما بین سطوح عملیاتی و تاکتیکی کاربرد دارند. این data mart های اطلاعات ورودی خود را از سیستم های عملیاتی گرفته و با استفاده از ابزارهای هوشمند در سطوح میانی مدیریت که مربوط به مدیریت تاکتیکی می شود کاربرد دارند.
برای استفاده در سطوح استراتژیک که در سطوح بالای مدیریتی انجام می شود و در دفعات کم معمولا با انبوه اطلاعات enterprise wide سر و کار دارد، می توان از خود DWH و یا data mart های خاص استفاده کرد.
همچنین می توان از ترکیبی از روش های فوق برای پیاده سازی data mart های خاص استفاده کرد. برای مثال می توان از قسمتی از داده های یک Data mart وابسته را با استفاده از تکنیک data mart منطقی از بخش دیگری از یک Data mart دیگر تهیه کرد.





دو تا فایل هم از انبار داده گذاشتم برای مطالعه 53



فایل‌(های) پیوست شده .pdf   مروري+بر+خزانه+يا+انبار+داده+ها.pdf (اندازه: 221.18 KB / تعداد دفعات دریافت: 240) -->
مروري+بر+خزانه+يا+انبار+داده+ها.pdf
دفعات دانلود حجم فایل نوع فایل
240 221.18 KB .pdf
.ppt   data-warehousing-[www.prozhe.com].ppt (اندازه: 1.19 MB / تعداد دفعات دریافت: 304) -->
data-warehousing-[www.prozhe.com].ppt
دفعات دانلود حجم فایل نوع فایل
304 1.19 MB .ppt

آدم ها هرگز نمیخواهند بفهمند
ارزش رفاقت خیلی بیشتر از رقابت است!
۲۶ دى ۱۳۹۰، ۰۷:۵۰ ب.ظ
ارسال‌ها پاسخ



موضوعات مرتبط با این موضوع...
موضوع نویسنده پاسخ بازدید آخرین ارسال
Lightbulb data mining (داده کاوی) 901634 2 1,421 ۲۸ دى ۱۳۹۱، ۰۳:۳۱ ب.ظ
آخرین ارسال: Mahnaz Nikbakht
Question راهنمایی راجع به data mining sjavan 0 748 ۲۱ آذر ۱۳۹۱، ۱۲:۲۵ ب.ظ
آخرین ارسال: sjavan