পান্ডাজ

পাইথনের একটা অসাধারণ লাইব্রেরি হচ্ছে পান্ডাজ, বিশেষ করে ডেটা ম্যানিপুলেশন আর অ্যানালাইসিসের জন্য। মনে আছে 'আর' এনভায়রনমেন্ট এর 'ডেটাফ্রেম' এর কথা। 'আর' যেহেতু স্ট্যাটিসটিক্সকে ঘিরে বানানো, সেকারণে তারা তৈরি করেছিলো ডেটাফ্রেম, কাজে গতি আনতে। এই ডেটাফ্রেমই পাল্টে দিয়েছে ডেটা ম্যানিপুলেশন আর অ্যানালাইসিসের পার্সপেক্টিভ। আচ্ছা, ডেটাফ্রেম কী?

উত্তর দেবার আগে আপনাকে যদি বলা হয় পৃথিবীর সবচেয়ে সোজা, ইউজার ফ্রেন্ডলি ডেটা ম্যানিপুলেশন টুল কী? ঠিক বলেছেন মাইক্রোসফট এক্সেল। এই ডেটাফ্রেম হচ্ছে এক্সেলের মতো একটা টেবিল। এক্সেল যেভাবে টেবিলে ডেটা এক্সেস, সেটার দরকারি মডিফিকেশন করতে যতো সুবিধা দেয় সেটা অতো সহজে কেই করে দিতে পারে না। সেই একই কাজ করা যায় এই ডেটাফ্রেমে।

এছাড়া সিকুয়েল ধরণের কোয়েরি, টেবিল 'জয়েন' করানো তার জন্য মামুলি ব্যাপার। 'নামপাই' থেকে এর সুবিধা অনেক বেশি। 'নামপাই' অ্যারেতে প্রতিটা এন্ট্রি এক ধরণের হতে হয় সেখানে পান্ডাজ টেবিল প্রতিটা কলামকে আলাদা আলাদা ডেটাটাইপ (যেমন, ইন্তেজার, ডেট, ফ্লোটিং পয়েন্ট নম্বর, স্ট্রিং) রাখতে কোন ঝামেলা করে না। এটাই বিশাল পাওয়া। আর কথা নয়। জুপিটার নোটবুকে একটা উদাহরণ দেখি বরং। লিংক https://github.com/raqueeb/ml-python/blob/master/dataframe.ipynb