Skip to content

The sensitive word data for java.(敏感词/违禁词/违法词/脏词原始词库。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。内置支持单词标签分类分级。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。)

License

Notifications You must be signed in to change notification settings

houbb/sensitive-word-data

Repository files navigation

sensitive-word-data

sensitive-word-data 作为敏感词库和 sensitive-word 配套使用。

Maven Central Open Source Love

如果有一些疑难杂症,可以加入:技术交流群

创作目的

大家好,我是老马。

一直想实现一款简单好用敏感词工具,于是开源实现了这个工具。

欢迎 PR 改进, github 提需求,或者加入技术交流群沟通吹牛!

以前词库和算法核心库在一起,但是安卓的一些伙伴希望安全检测等原因,所以期望可以单独排除,所以将二者拆分开。

特性

全角半角互换、英文大小写互换、数字常见形式的互换、中文繁简体互换、英文常见形式的互换、忽略重复词等

快速开始

准备

  • JDK1.8+

  • Maven 3.x+

Maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-word-data</artifactId>
    <version>1.0.0</version>
</dependency>

项目推荐

下面是一些日志、加解密、脱敏安全相关的库推荐:

项目 介绍
sensitive-word 高性能敏感词核心库
sensitive-word-data 高性能敏感词核心库数据
sensitive-word-data-admin 敏感词控台,前后端分离
sensitive 高性能日志脱敏组件
auto-log 统一日志切面组件,支持全链路traceId
encryption-local 离线加密机组件
encryption 加密机标准API+本地客户端
encryption-server 加密机服务

敏感词控台

有时候敏感词有一个控台,配置起来会更加灵活方便。

java 如何实现开箱即用的敏感词控台服务?

敏感词标签文件

梳理了大量的敏感词标签文件,可以让我们的敏感词更加方便。

这两个资料阅读可在下方文章获取:

v0.11.0-敏感词新特性及对应标签文件

目前 v0.24.0 已内置实现单词标签,需要的建议升级到最新版本。

拓展阅读

sensitive-word-data-admin 敏感词控台 v1.2.0 版本开源

sensitive-word-data-admin v1.3.0 发布 如何支持分布式部署?

01-开源敏感词工具入门使用

02-如何实现一个敏感词工具?违禁词实现思路梳理

03-敏感词之 StopWord 停止词优化与特殊符号

04-敏感词之字典瘦身

05-敏感词之 DFA 算法(Trie Tree 算法)详解

06-敏感词(脏词) 如何忽略无意义的字符?达到更好的过滤效果

v0.10.0-脏词分类标签初步支持

v0.11.0-敏感词新特性:忽略无意义的字符,词标签字典

v0.12.0-敏感词/脏词词标签能力进一步增强

v0.13.0-敏感词特性版本发布 支持英文单词全词匹配

v0.16.1-敏感词新特性之字典内存资源释放

v0.19.0-敏感词新特性之敏感词单个编辑,不必重复初始化

v0.20.0 敏感词新特性之数字全部匹配,而不是部分匹配

v0.21.0 敏感词新特性之白名单支持单个编辑,修正白名单包含黑名单时的问题

v0.23.0 敏感词结果条件拓展,内置支持链式+单词标签

v0.24.0 新特性支持标签分类,内置实现多种策略

v0.25.0 新特性之 wordCheck 策略支持用户自定义

v0.25.1 新特性之返回匹配词,修正 tags 标签

wechat

NLP 开源矩阵

pinyin 汉字转拼音

pinyin2hanzi 拼音转汉字

segment 高性能中文分词

opencc4j 中文繁简体转换

nlp-hanzi-similar 汉字相似度

word-checker 拼写检测

sensitive-word-data 敏感词

支持开源

开源不易,如果本项目对你有帮助,你可以请老马喝一杯奶茶。

About

The sensitive word data for java.(敏感词/违禁词/违法词/脏词原始词库。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。内置支持单词标签分类分级。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published