• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩龙虎和稳赢: 即时通讯中的垃圾和违法信息检测方法.pdf

    关 键 词:
    即时通讯 中的 垃圾 违法 信息 检测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410020880.9

    申请日:

    2014.01.15

    公开号:

    CN103795612A

    公开日:

    2014.05.14

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):H04L 12/58申请日:20140115|||公开
    IPC分类号: H04L12/58; H04L29/06; H04L12/26; G06F17/30 主分类号: H04L12/58
    申请人: 五八同城信息技术有限公司
    发明人: 张朝阳; 张爱华; 张月; 张鹏; 曹亮
    地址: 300457 天津市滨海新区第一大街79号泰达MSD-C区-C3座2801房间
    优先权:
    专利代理机构: 北京律恒立业知识产权代理事务所(特殊普通合伙) 11416 代理人: 顾珊;庞立岩
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410020880.9

    授权公告号:

    ||||||

    法律状态公告日:

    2017.09.12|||2014.06.11|||2014.05.14

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提供了一种即时通讯中的垃圾和违法信息检测方法。根据本发明的方法包括如下步骤:a)建立包含正、负样本的样本库,所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的;b)基于所述样本库生成判别异常行为的决策树;c)利用决策树实时检测有异常行为的用户IP;d)对步骤c中检测得到的异常行为的用户IP进行处理。利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。

    权利要求书

    权利要求书
    1.  一种用于即时通讯中的垃圾和违法信息检测方法,所述方法包括如下步骤:
    a)建立包含正、负样本的样本库,所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的;
    b)基于所述样本库生成判别异常行为的决策树;
    c)利用决策树实时检测有异常行为的用户IP;
    d)对步骤c中检测得到的异常行为的用户IP进行处理。

    2.  如权利要求1所述的方法,其中所述步骤a中对用户行为样本分析包括如下子步骤:
    a1)抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量;
    a2)设置行为特征向量每个维度上的行为特征阈值,将超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本。

    3.  如权利要求1所述的方法,其中所述步骤a中对用户聊天内容样本分析包括如下子步骤:
    a3)对用户聊天消息内容进行聚类;
    a4)在通过聚类得到的大簇中抽取代表样本;
    a5)对代表样本进行审查,将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本,将审查后的正常信息归为聊天内容样本库的正样本。

    4.  如权利要求2所述的方法,其中所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。

    5.  如权利要求2所述的方法,其中所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值;以及通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。

    6.  如权利要求3所述的方法,其中所述步骤a3中的聚类的算法采用DBSCAN算法。

    7.  如权利要求1所述的方法,其中所述步骤b中采用C4.5算法生成判别异常行为的决策树。

    8.  如权利要求1所述的方法,其中所述步骤c还包括对用户聊天内容进行检测。

    9.  如权利要求8所述的方法,其中在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。

    10.  如权利要求1所述的方法,其中所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。

    说明书

    说明书即时通讯中的垃圾和违法信息检测方法
    技术领域
    本发明涉及即时通讯信息过滤技术,特别是一种即时通讯中的垃圾和违法信息检测方法。
    背景技术
    即时通讯所拥有的实时性、跨平台性、成本低、效率高等诸多优势,使之成为网民们最喜爱的网络沟通方式之一。从即时通讯工具的出现到目前为止,即时通讯经过不到十年的发展,取得了巨大的成功,它即将超越电子邮件服务而成为互联网上最普及的交流方式。
    目前,很多电子商务网站(例如二手商品交易平台等网站)为了增强网站用户的活跃度、网站的互动性,都会在网站中添加即时通讯的功能。而且,为了增强网站的活跃度,有些网站将即时通讯的权限设置为:网站账户的注册门槛很低;任何用户无需登录即可向任意卖家发送消息;卖家可以向访问过他帖子的用户发送消息;即时通讯中用户不能主动选择接收即时消息。由于以上特点,使得用户不可避免的会接收到没有任何价值的即时消息,甚至是黄色、钓鱼、造假等违法信息。而随着即时通讯用户群数目的不断扩大,这种无价值的即时消息不可避免的也越来越多,这也给即时通讯的用户带来了很大的困扰。
    现有的一种即时通讯中垃圾信息的检测方法是采用贝叶斯这种概率算法对非法短信内容进行识别,然而这种方法中存在较高的误判率。
    因此,需要一种即时通讯中的垃圾和违法信息检测方法,来准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
    发明内容
    本发明的目的是提供一种即时通讯中的垃圾和违法信息检测方法。
    根据本发明的一种用于即时通讯中的垃圾和违法信息检测方法,所述方法包括如下步骤:a)建立包含正、负样本的样本库,所述正、负样 本是基于用户行为样本以及用户聊天内容样本生成的;b)基于所述样本库生成判别异常行为的决策树;c)利用决策树实时检测有异常行为的用户IP;d)对步骤c中检测得到的异常行为的用户IP进行处理。
    优选地,所述步骤a中对用户行为样本分析包括如下子步骤:a1)抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量;a2)设置行为特征向量每个维度上的行为特征阈值,将超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本。
    优选地,所述步骤a中对用户聊天内容样本分析包括如下子步骤:a3)对用户聊天消息内容进行聚类;a4)在通过聚类得到的大簇中抽取代表样本;a5)对代表样本进行审查,将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本,将审查后的正常信息归为聊天内容样本库的正样本。
    优选地,所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。
    优选地,所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值;以及通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。
    优选地,所述步骤a3中的聚类的算法采用DBSCAN算法。
    优选地,所述步骤b中采用C4.5算法生成判别异常行为的决策树。
    优选地,所述步骤c还包括对用户聊天内容进行检测。
    优选地,在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。
    优选地,所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。
    利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
    附图说明
    参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
    图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法 的流程图。
    具体实施方式
    通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
    在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
    本发明的一种即时通讯中的垃圾和违法信息检测方法,通过训练及更新判别模型,来对即时通讯中的垃圾和违法信息进行检测。
    图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法的流程图。如图1所示:
    步骤110,建立包含正、负样本的样本库。样本库中的正、负样本的生成是基于用户行为样本以及用户之间聊天内容样本。下面对获取和分析两种样本的方法进行详细说明。
    对用户行为样本进行分析
    首先,抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量。首先以用户IP地址为单位从多个维度统计行为特征,并形成由多个行为特征组成的行为特征向量。
    用户行为例如包括登录、发消息等。用户行为特征例如包括同一IP地址在一天内以多少个账号登录、发送消息量、消息回复比率、夜间发送消息量向单人发送消息的最高值,在多少个城市发送消息,在多少个频道发送消息等。例如,假设1个IP地址一天产生了100个用户行为,系统假设只统计3个维度的用户行为特征,例如以多少个账号登录、发送消息量、消息回复比率。那么一个行为特征向量是(5,200,0.05),这表示这个IP一天当中以5个账号登录,发出去了200条消息,收到回复的消息量除以发出去的消息量是0.05。
    然后,设置行为特征向量每个维度上的行为特征阈值,该行为特征阈值用于区分正常用户行为和异常用户行为,并且只要行为特征向量中有一个维度的行为特征在行为特征阈值以上就将该行为特征向量标记为 异常。以“日消息发送量”这个维度为例,假如这个维度上的阈值定为90,那所有日消息发送量在90以上的IP都认为是异常行为。
    设置行为特征阈值的方法包括如下2个子步骤:
    (1)首先按照初始比例分位点设置初始的行为特征阈值,即将特征向量统计结果的一个初始比例分位点的特征向量值设为行为特征阈值。该初始比例分位点优选为五分之四分位点。对于现有的所有行为特征向量,每个行为特征向量中含有多个行为特征,现以“日消息发送量”行为特征为例,对按照初始比例分位点设置初始的行为特征阈值进行解释。例如,现有1000个行为特征向量,即存在组成1000个行为特征向量的1000个“日消息发送量”行为特征,对1000个“日消息发送量”行为特征从小到大排序,将位于总特征的五分之四分位点的行为特征值初步设为“日消息发送量”行为特征的阈值,该行为特征阈值例如是80。即,对1000个“日消息发送量”从小到大排序,前800个都小于80,后200个大于80,即将位于五分之四分位点的行为特征值80初步为“日消息发送量”的行为特征阈值。
    (2)通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。其中,方差表示样本的离散程度,方差越大说明样本越分散,方差越小说明样本越集中。这里仍以上述“日消息发送量”行为特征为例,“日消息发送量”的行为特征阈值被初步设为80,计算前800个样本的方差X,并计算包括阈值以上的200个样本的1000个样本的方差Y,如果Y-X较?。醋罡叩奈宸种欢宰芴宓姆讲钣跋旖闲。?,,例如(Y-X)/X<0.1,这说明后200个样本中包含正常样本,需要进一步调高行为特征阈值。
    此时需要适当把阈值调高,例如,将其从80调到90。此时日消息发送量大于90的IP只有50个,如果X代表前950个的方差,Y代表全部(1000个)的方差,若此时Y-X的结果比较大,则表示这50个和前950个分隔得比较远,即日消息发送量大于90的样本对总体样本的方差影响比较大。说明把阈值定在90是合理的。
    用于统计行为特征的数据是日志信息中的数据。在利用以上算法确定出行为特征阈值之后,将日志信息中超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本,从而形成了样本库。
    对用户聊天内容进行样本分析
    首先,对聊天消息内容进行聚类。以用户IP为单位对其所有消息进行聚类。
    优选地,当某用户IP的一天内的消息量超过所设定的阈值(例如20)时,对聊天消息内容进行聚类。
    优选地,进行聚类的算法优选采用DBSCAN算法。DBSCAN算法是一种基于密度的聚类算法。该算法的目的在于过滤低密度区域,发现稠密度样本点,跟传统的基于层次聚类和划分聚类的凸形聚类簇不同,该算法可以发现任意形状的聚类簇,与传统的算法相比它有如下优点:不需要输入打算划分的聚类个数;聚类簇的形状没有bias;可以在需要时输入过滤噪声的参数。
    优选地,聚类时的距离计算方法优选采用Jacard相似度。
    然后,在通过聚类得到的大簇中抽取代表样本。
    最后,对代表样本进行审查,将审查后的垃圾信息或违法信息放入聊天内容样本库的负样本中,将审查后的正常信息放入聊天内容样本库的正样本中。
    优选地,将发送垃圾信息或违法信息的用户IP的行为特征向量放入行为样本库的负样本中;
    步骤120,基于所生成的包含正负样本的样本库生成判别异常行为的决策树。优选地,本发明采用C4.5算法生成判别异常行为的决策树。其中,C4.5算法一种决策树算法,具有分类精度高、成的模式简单、以及对噪声数据有很好的健壮性的优点,是目前应用最为广泛的归纳推理算法之一。
    步骤130,利用决策树实时检测有异常行为的用户IP。即,决策树利用决策树对同一IP地址下的各项行为特征进行检测。
    优选地,在步骤130中,还对用户聊天内容进行检测。具体地,检测垃圾消息及违法消息。检测包括敏感词的聊天消息,若发现聊天消息包括敏感词则禁止该聊天消息的发送。
    优选地,检测包括特殊敏感词的组合的聊天消息。通过对敏感词的各种组合进行实验,找出是垃圾消息或违法消息的可能性较大的组合,并对包括该组合的聊天消息进行检测,以提高判定聊天消息为垃圾消息或违法消息的置信度。
    更优选地,在检测聊天内容中的垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法产生的。即,在检测垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法在聊天内容样本库中选取的。并且,优选地,在选取敏感词时,采用关联规则挖掘的方法,找出那些与已知敏感词同时出现的词,将其作为敏感词并加入敏感词库。
    步骤140,对异常行为的IP进行处理。若通过步骤130检测出某IP的行为是异常行为(行为特征向量为异常,或聊天内容含有敏感词),则对该IP的用户进行限制,并对以后一段时期他以送的消息实施更严格的监控。其中,限制优选包括:暂缓该IP的用户的即时消息的发送。更严格的监控包括增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。例如,若正常情况下将日消息发送量大于90的行为判定为异常,在对于某些用户进行“更严格的监控”时,则将日消息发送量大于80的行为判定为异常。又例如,在正常情况下允许即时通讯文本中包含“58”的词汇,在对于某些用户进行“更严格的监控”时,则将包含“58”的消息判定为异常,不允许该消息发送。
    利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
    结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。

    关于本文
    本文标题:即时通讯中的垃圾和违法信息检测方法.pdf
    链接地址://www.4mum.com.cn/p-6185556.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 点滴淘怎么赚钱 小说app 红包 赚钱吗 mlb棒球直播平台 11选5中奖助手 七星彩500期历史开奖号 现在刷什么赚钱 山西11选5任五遗漏 幸运飞艇有什么方法 网上写评论赚钱的软件 贵州快三开奖号码 两期计划防连挂 8号彩票论坛会开奖结果查询 大乐透走势图表 AG水上乐园开奖结果 快乐时时官方网址 虚拟货币要怎么赚钱