BhashaMind (ভাষাMind) is an open-source Bengali language processing prototype focused on text summarization and zero-shot classification using state-of-the-art deep learning and LLM technologies. It integrates a full-stack application built with FastAPI, Spring Boot, and React, designed for real-world applications.
- 🔤 Low-Resource Bengali NLP: Tailored for Bengali, one of the least-resourced languages in NLP.
- 🧠 Transformer-powered: Uses multilingual LLMs like
xlm-roberta
and optionally fine-tunedBanglaT5
. - 🧩 Microservices Architecture: Spring Boot API gateway + FastAPI backend + React frontend.
- 🧪 Full-stack Pipeline: Data ingestion → Summarization/Classification → Evaluation → UI interaction.
- Frontend: ReactJS + TailwindCSS
- API Gateway: Java Spring Boot
- NLP Backend: Python FastAPI with HuggingFace Transformers
- Model Training: PyTorch-based scripts for fine-tuning
- Dataset: Placeholder Bengali datasets (summarization/classification)
Request (POST /api/summarize
):
{
"text": "জাতিসংঘের মহাসচিব আন্তোনিও গুতেরেস বলেছেন, জলবায়ু পরিবর্তনের প্রভাব এখন বৈশ্বিক সংকটের রূপ নিয়েছে। আফ্রিকা, এশিয়া ও লাতিন আমেরিকার বহু দেশ ভয়াবহ খরার সম্মুখীন হচ্ছে, যেখানে খাদ্য ও পানির তীব্র সংকট দেখা দিয়েছে। গুতেরেস উন্নত দেশগুলোকে কার্বন নিঃসরণ কমাতে জরুরি পদক্ষেপ নেওয়ার আহ্বান জানান।"
}
Response:
{
"summary": "জাতিসংঘ মহাসচিব গুতেরেস জানান, জলবায়ু পরিবর্তন বৈশ্বিক সংকটের রূপ নিয়েছে এবং উন্নত দেশগুলোকে কার্বন নিঃসরণ কমাতে হবে।"
}
Request (POST /api/classify
):
{
"text": "বিশ্বব্যাপী অর্থনৈতিক প্রবৃদ্ধি ধীর হয়ে পড়েছে। আন্তর্জাতিক মুদ্রা তহবিল (IMF) জানিয়েছে যে মুদ্রাস্ফীতি, উচ্চ সুদের হার এবং রাশিয়া-ইউক্রেন যুদ্ধের প্রভাব বৈশ্বিক অর্থনীতিতে দীর্ঘমেয়াদি নেতিবাচক প্রভাব ফেলছে। উন্নয়নশীল দেশগুলোতে খাদ্য ও জ্বালানির দাম বেড়ে যাওয়ায় সাধারণ মানুষের উপর চাপ বৃদ্ধি পাচ্ছে।"
}
Response:
{
"label": "economy"
}
Task | Model Name | Reference/Link |
---|---|---|
Summarization | csebuetnlp/banglat5-small |
BanglaT5 - Hugging Face |
Classification | joeddav/xlm-roberta-large-xnli |
XLM-RoBERTa - Hugging Face |
Note: Bengali is supported by XLM-R via multilingual training and subword tokenization.
If you use this, please include the following citation:
Maity, A. (2025) “A Low-Resource Bengali Language Intelligence Platform for Summarization and Zero-Shot Classification”. Zenodo. DOI:10.5281/zenodo.16434434
@misc{maity2025bhashamind,
author = {Maity, Abhishek},
title = {A Low-Resource Bengali Language Intelligence Platform for Summarization and Zero-Shot Classification},
year = {2025},
publisher = {Zenodo and {CERN}},
doi = {10.5281/zenodo.16434434},
url = {https://doi.org/10.5281/zenodo.16434434},
language = {en}
}
This project is licensed under the MIT License.
Google Jules was used for fixing errors in the Continuous Integration (CI) workflow of this repository.
Made with ❤️ and code.