图数据库为地址知识图谱存储、推理所用,机器学习平台为承载技术功能所用。- **数据支撑层**:地址标注数据为训练地址词识别模型所用,地址知识图谱为提供标准地址名、地址辖属知识所用。- **技术功能层**:该层主要实现了地址解析各项功能,包括地址词识别、标准名称映射、地址层级补全、虚假地址识别等。- **业务场景层**:该层主要为地址知识图谱主要应用场景,包括地址录入辅助、客户画像、风控反欺诈、精准营销等。## (一)地址...
欺诈和电信诈骗等日益猖獗,且呈现高发、多发态势,急需提升银行对交易的风险识别和防控能力,实现跨渠道、全天候、实时的交易监控。按攻击方式不同,欺诈风险可分4类:身份冒用、团伙欺诈、资料包装、不良用途,如图1所... 此时会有骗贷或恶意不还的欺诈问题。为提升整体风险防控能力,我们在调研先进金融同业基础上,并结合自身业务特点,利用基于深度学习的计算机视觉技术在反欺诈领域做了初步探索。通过在客户贷款申请环节引入纹身、粗...
除此之外还有反欺诈模型、营销评分卡和客户流失评分卡等。它们在风控系统中的先后顺序是:营销评分卡》申请评分卡》行为评分卡》催收评分卡。这几种评分卡算是很普及了,解决的痛点和应用范围这里不再赘述。感兴趣的... 数据不同源是指不同类型的数据存在于不同的数据库中。由于不同源会造成数据的质量与缺失值有所差异,在做表关联与合并时会出现不一致或部分时间内某些变量缺失值较多的情况。在模型训练时,模型会更倾向于选择缺失值...
涉及反欺诈识别、异常交易监控、达标实时送好礼、MGM渠道拉新、实时报表大屏等场景。同时,对于不同的场景,会存在共性逻辑,比如客户购买理财产品、会计科目当日发生额等,为保证实时数据加工指标的一致性,需要沉淀实时数据资产。- 从技术角度看:传统的T+1数据跑批模式,不支持高时效场景需求,需要依赖于Storm、Flink等实时计算引擎;但纯粹依托于Flink计算引擎,只得开展“端到端”的实时数据加工模式,无法沉淀实时数据资产,造成“烟...
使用关联图谱发觉欺诈的新型模式。在异常流量检测场景中,可分析原始数据包,提取数据包长度,时序等特征,使用机器学习算法识别异常流量,并提供加密流量的检测能力,最终可应用于交换机等产品当中。此外,还可以利用无监督的方法区分网络或者用户的状态,识别正常和攻击行为,并加以阻止。 在数据识别与保护场景中,可通过机器学习自动识别可疑的行为,如删除、访问数据库、移动等,从而及时采取防御或者处置措施,以防泄露重要的数据。...
火山引擎云搜索服务 ES 支持基于 Serverless 和容器化能力部署,支持 k-NN,提供向量搜索和向量存储能力。在 ES 的集群基础上,k-NN 向量数据库可以提供大规模分布式能力,为用户带来可扩展数量级的向量搜索。本文介绍... 图片的审核消重、各类素材版权检测。 安全风控:欺诈检测、扫黑检测、危险评估、异常检测。 其他应用:数据挖掘、数据分析、搜索重排序、文本搜图。 以文案相似度识别方案为例,实现流程如下:在用户推送文案的场景中,...
来自字节跳动数据平台分析型数据库团队相信大家都对大名鼎鼎的ClickHouse有一定的了解,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:* 缺少完整... UniqueMergeTree使用的技术方案Mark-Delete + Insert方案刚好反过来,是一个读优化方案。在这个方案中,更新是通过先删除再插入的方式实现的。![picture.image](https://p3-volc-community-sign.byteimg.com/tos...
图像搜索、互动游戏等。虽然端智能存在算力不足的严重限制,但据 `IDC` 预测,**用于推理工作负载的服务器市场份额将在不久的将来超过训练,并在预测期内保持这一趋势**。而且随着各大公司不断推出算力性能更高的 `XP... 进入成熟应用阶段的**反欺诈、风险评估、智能推荐等**- 智能供应链、智能之间、智能设备运维等制造业方面发展迅猛- 受限于发展时间、算力、模型、技术、资金等原因的视觉感知、智能油田等应用场景仍处于发展...
业务风险识别是火山引擎旗下的风控安全产品,基于火山引擎丰富的数据和技术积累,并结合人工智能、风控安全组件和平台等能力,帮助企业精准识别各类黑灰产风险,避免风险对企业资产、业务生态、用户体验造成影响和损失,帮助业务持续健康增长
# 简介众所周知,在数据库存储引擎侧通常有两类存储模型,行式存储NSM(N-ary Storage Model)和列式存储DSM(Decomposition Storage Model),两种存储模型各有其特定的擅长场景。在以前,主流存储设备是机械磁盘的情况... 数据排列结构如下图所示:![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e16f7264796645db9dc2fa09c6b38df8~tplv-k3u1fbpfcp-5.jpeg?)列存和行存的区别主要是在存储时将多行数据的相同colum...
大模型时代下的原生向量搜索和数据库随着推荐、音视频等新兴领域应用的涌现和对大模型场景的需求,引入多模态搜索来满足更加复杂的搜索需求势在必行。我们在全文检索的基础上**增加向量搜索能力来实现对非结构化数... 图片的审核消重,各类素材版权检测;- 安全风控:欺诈检测,扫黑检测,危险评估,异常检测;- 其他应用:数据挖掘,数据分析,搜索重排序, 文本搜图。 以文案相似度识别方案为例。![picture.image](https://p...
这三种数据关联到一起就会形成 **图状结构** 。**自研分布式图数据库**为了满足内部 social graph 在线增删改查的场景,字节跳动自研了 **分布式图存储数据库 ByteGraph** 。针对刚才提到的图状数据结构,... 实际上图计算对于风控反作弊的异常识别和风险检测更适合。* **推荐模型**:图训练系统也支持推荐的核心模型,这也是字节跳动的的一个核心场景。目前 ByteGraph 在字节跳动内部的使用量有多大?这里列举一组数据...
可配合各种数据库使用。 缓存、会话管理、游戏排行榜、地理位置信息,实时分析 Redis、Memcached 文档数据库 结构灵活,半结构数据,层次化,快速查询,强大的索引能力。 内容管理、客户画像、用户配置文件、个性化、移动应用 MongoDB、Couchbase 宽列 结构灵活,高扩展性,单行数据较大。 用于设备维护、队列管理和路线优化的大规模工业应用程序、实时数据分析 Cassandra 图数据库 针对强关系数据,优化查询和遍历。 欺诈检测、社交网络...