পান্ডাজ
পাইথনের একটা অসাধারণ লাইব্রেরি হচ্ছে পান্ডাজ, বিশেষ করে ডেটা ম্যানিপুলেশন আর অ্যানালাইসিসের জন্য। মনে আছে 'আর' এনভায়রনমেন্ট এর 'ডেটাফ্রেম' এর কথা। 'আর' যেহেতু স্ট্যাটিসটিক্সকে ঘিরে বানানো, সেকারণে তারা তৈরি করেছিলো ডেটাফ্রেম, কাজে গতি আনতে। এই ডেটাফ্রেমই পাল্টে দিয়েছে ডেটা ম্যানিপুলেশন আর অ্যানালাইসিসের পার্সপেক্টিভ। আচ্ছা, ডেটাফ্রেম কী?
উত্তর দেবার আগে আপনাকে যদি বলা হয় পৃথিবীর সবচেয়ে সোজা, ইউজার ফ্রেন্ডলি ডেটা ম্যানিপুলেশন টুল কী? ঠিক বলেছেন মাইক্রোসফট এক্সেল। এই ডেটাফ্রেম হচ্ছে এক্সেলের মতো একটা টেবিল। এক্সেল যেভাবে টেবিলে ডেটা এক্সেস, সেটার দরকারি মডিফিকেশন করতে যতো সুবিধা দেয় সেটা অতো সহজে কেই করে দিতে পারে না। সেই একই কাজ করা যায় এই ডেটাফ্রেমে।
এছাড়া সিকুয়েল ধরণের কোয়েরি, টেবিল 'জয়েন' করানো তার জন্য মামুলি ব্যাপার। 'নামপাই' থেকে এর সুবিধা অনেক বেশি। 'নামপাই' অ্যারেতে প্রতিটা এন্ট্রি এক ধরণের হতে হয় সেখানে পান্ডাজ টেবিল প্রতিটা কলামকে আলাদা আলাদা ডেটাটাইপ (যেমন, ইন্তেজার, ডেট, ফ্লোটিং পয়েন্ট নম্বর, স্ট্রিং) রাখতে কোন ঝামেলা করে না। এটাই বিশাল পাওয়া। আর কথা নয়। জুপিটার নোটবুকে একটা উদাহরণ দেখি বরং। লিংক https://github.com/raqueeb/ml-python/blob/master/dataframe.ipynb
ml-python/dataframe.ipynb at master · raqueeb/ml-python
GitHub
Last modified 2yr ago
Copy link