内联网平台
内联网知识社区用于企业内部、员工之间共享和交流平台,提升企业知识共创共享
网页一般是设计给人浏览的,所以探码Web大数据采集系统模拟人的智能采集器的工作是非常顺利的,不论后台技术是什么,当数据始终显示在人的面前的时候,智能采集器就能开始提取。最终把计算机的能力发挥到极致,使得计算机可以替代人完成网页数据采集的工作。并且利用大数据云采集技术,把计算机的计算能力也发挥到了极致。目前这一采集技术得到了越来越广泛的应用。各行各业只要是从网络上获取一些数据或者信息,都可以使用此类技术。
探码Web大数据采集系统分为8个子系统,分别为大数据集群系统、数据采集系统、采集数据源调研、数据爬虫系统、数据清洗系统、数据合并系统、任务调度系统、搜索引擎系统。

本系统可以储存TB级采集到的数据,实现数据持久化。数据存储采用MongoDB集群方案,此方案在集群上有两大特点:
分片:分片即MongoDB在服务器之间划分数据的一项技术。MongoDB能够自动在分片之间平衡数据,并且能够在不需要数据库离线的情况下增加和删除分片。
复制:为了保证高可用性,MongoDB维护了许多数据的冗余备份,复制被嵌入于MongoDB,并且在不需要专业网络的情况下就可以在广域网内工作。
本系统配置Kapow、PhantomJS、Mechanize采集环境,运行于Docker容器中,由Rancher编排容器。
本系统是在“数据爬虫系统”开始之前,必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。
爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。
本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,方便我们进行清洗。数据清洗系统主要由两部分组成:
手工清洗:通过Web前端展示出抓取到的数据,对数据进行直观分析,得出哪些条件的数据需要删除,哪些条件的数据需要修改。
自动清洗:经过手工清洗之后,可能会得出一些清洗模式,这种模式适用于所有数据。我们把这种模式记录在程序里,将来的数据只要匹配这种模式,数据将来会被自动清洗,不再需要人工清洗。
本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,对数据进行合并。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。
本系统通过Ruby on Rails + Vue技术框架,Sidekiq队列调度,Redis调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。
本系统通过ElasticSearch集群,实现搜索引擎服务。搜索引擎是PC端检索系统能够从大数据集群中、快速地检索数据的必要工具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。

业务范围
助力企业全场景数字体验管理,AI 时代不掉队
内联网知识社区用于企业内部、员工之间共享和交流平台,提升企业知识共创共享
企业内容管理(ECM)涵盖了从内容的创建、采集、存储、管理、归档到最终废弃的全生命周期管理。
对内容进行结构化、标签化和语义化,为大语言模型(LLM)等 AI 技术提供高质量的训练数据和实时信息。
探码科技提供新一代CMS(内容管理系统)解决方案,赋能企业高效创建、管理和分发内容,为用户提供卓越的数字体验。
助力企业打造统一的知识库,解决信息孤岛,实现知识高效共享与共创。
将分散的数字资源,包括⽂本、图⽚、视频、⾳频、链接、PDF、以及各种⽂档附件,集中存储、统一管理,实现数字资产全生命周期管理。
通过知识管理,将分散的信息转化为结构化和可复用的知识资产,赋能团队成员快速获取所需信息,提升工作效率和决策质量。
销售方案书系统旨在取代传统的 Word、PPT 等低效的离线方案制作方式,通过在线化、模块化和智能化的方式,帮助销售团队快速生成专业、定制化的销售方案。
助力企业构建统一、高效、智能的在线自助服务平台,提升客户满意度。
数字门户平台,凭借其一体化设计和强大的集成能力,帮助企业构建高效、可扩展的数字门户。
AIGC是基于大模型技术,为企业提供自动化内容生成、智能知识管理和个性化内容分发等服务的综合性平台。
AI 智能搜索,帮助企业员工和客户快速、准确地找到信息,并提供个性化的知识推荐。