食品药品监管信息大数据平台.是一款基于网络数据采集技术,打造的食品、药品、保健品、化妆品、医疗器械全维度大数据服务平台

食品药品监管信息大数据平台


是一款基于网络数据采集技术,打造的食品、药品、保健品、化妆品、医疗器械全维度大数据服务平台

随着食品药品监管政务公开工作的不断推进,政府实施食品药品监管数据资源目录管理,制定数据标准,编制数据开放目录,制定总局数据资源年度开放计划,并积极响应公众开放需求,依托国家公共信息资源统一开放平台和总局政府网站,稳步推进食品药品监管数据开放。

探码科技智慧医药平台

食品药品监管信息数据统计

探码食品药品监管信息大数据服务平台主要数据源于政府食品药品安全监管数据以及第三方数据和补充数据。据统计,截止2019年8月食品药品监管信息数据共443,1915条数据。

探码科技智慧医药平台

食品监管信息数据

其中食品监管信息数据共159,8842条,包括134,5215条产品抽检数据;18,5753条食品数据;18,816条特殊食品数据以及49058条广告数据。

探码科技智慧医药平台

产品抽检数据

产品抽检数据包括:国家食品安全监督抽检(合格产品)22415条;国家食品安全监督抽检(不合格产品)1139039条;国家保健食品安全监督抽检(合格产品)130条;国家保健食品安全监督抽检(不合格产品)3681条;省级食品安全监督抽检(合格产品)4163条;省级食品安全监督抽检(不合格产品)175787条。

探码科技智慧医药平台

食品数据

食品数据包括:食品生产许可获证企业(SC)162204条;食品生产许可获证企业(QS)22297条;食品添加剂生产许可获证企业1252条。

探码科技智慧医药平台

特殊食品数据

特殊食品数据包括:国家保健食品16732条;进口保健食品780条;婴幼儿配方乳粉产品配方1269条;特殊医学用途配方食品35条。

探码科技智慧医药平台

广告数据

广告数据包括:保健食品广告49028条;全国收回或撤销保健食品广告30条。

探码科技智慧医药平台

药品监管信息数据


药品监管信息数据共283,3073条,包括6828条全国药品抽检数据、134,8272条药品数据;64,7012条医疗器械数据;259960条化妆品数据;18,4117条广告数据以及38,6884条其他相关数据。

探码科技智慧医药平台

药品数据

药品数据包括:国产药品165425条;药品注册228809条;中药提取物数据3902条;国产药品商品名7084条;药品注册相关专利1935条;药物临床试验机构名单1546条;进口药品4074条;药品生产企业7998条;进口药品商品名5614条;GMP认证15115条;药品经营企业531426条;批准的药包5808条;  批件发送信息4348条;GSP认证352133条;中药保护品种197条;OTC化学药品1198条;OTC中药说明书范本4713条;国家基本药物685条;中国上市药品目录集 非处方药遴选及转换目录数据库-化学药品1091条;非处方药遴选及转换目录数据库-中药3907条;药品出口销售证明878条。

探码科技智慧医药平台

医疗器械数据

国产器械161797条;国产器械(历史数据)40840条;医疗器械标准目录1587条;进口器械53122条;进口器械(历史数据)12487条;体外诊断试剂分类子目录(2013版)766条;医疗器械检测中心受检目录32933条;医疗器械分类目录1624条 ;进口第一类医疗器械(含第一类体外诊断试剂)备案信息9175条;医疗器械生产企业(许可) 2395条;医疗器械生产企业(备案)2468条;医疗器械经营企业(许可)103679条;医疗器械经营企业(备案)224139条 。

探码科技智慧医药平台

化妆品数据

化妆品数据包括:国产特殊用途化妆品42174条;进口化妆品213649条;国产非特殊用途化妆品备案检验机构222条;化妆品生产许可获证企业(历史数据)3880条;化妆品行政许可检验机构.35条。

探码科技智慧医药平台

广告数据

广告数据包括:药品广告93597条;医疗器械广告89875条;虚假广告企业名录82条;可发布处方药广告的医学药学专业刊物名单563条。

探码科技智慧医药平台

其他数据

互联网药品信息服务15669条;互联网药品交易服务992条;网上药店693条;执业药师注册人员369530条。

探码科技智慧医药平台

需求分析

定制国家药监局网站以下数据的采集规则(共12个数据库)官网地址

探码科技智慧医药平台

以国产药品为例(访问地址

探码科技智慧医药平台

抓取整个数据库的每条数据的详细信息

探码科技智慧医药平台探码科技智慧医药平台

可研究通过数据的ID号进行抓取,通过调整抓取ID号的范围获取需要范围内的数据

探码网络大数据采集系统

探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工作,能快速采集大量数据。
探码通过网络爬虫对相关网站进行全方位实时的汇总采集。针对政府开放数据,对相关数据字段进行全自动化采集,借助网络爬虫或网站API,从网页获取食品药品监管信息数据,将其统一储存为本地数据。
网络数据采集平台在获得所需的数据并将其分解为有用的组件之后,通过可扩展的方法来将所有提取和解析的数据存储在数据库或集群中,然后创建一个允许用户可及时查找相关数据集或提取的功能。
整体框架如图:

探码科技智慧医药平台

食品药品监管信息采集方案

食品药品监管信息采集平台是探码针对政府网站数据量大、防爬取措施严格、访问频率限制等问题提供的食品药品监管信息大数据采集方案。
食品药品监管信息采集平台是探码科技基于网络数据采集技术,打造的食品、药品、保健品、化妆品、医疗器械全维度大数据服务平台。它对政府开放数据、第三方数据、补充数据等进行整合并形成数据服务,提升数据共享效率。

探码科技智慧医药平台

食品药品监管信息采集技术架构

  • 采集目标:采集政府食品药品监管信息数据开放网站,实时覆盖网站的食品药品监管信息。
  • 采集细节:实现24h自动化爬虫,网站目录(含子目录)的所有食品药品监管信息数据,如:食品药品抽检、企业生产许可、医疗器械备案、化妆品备案等。
  • 数据治理:根据客户需求对数据进行归类、汇总。
  • 服务方式:提供API高级数据接口,实现数据自动同步到后台数据库,实时掌握数据动态。

探码科技智慧医药平台

采集过程

探码科技智慧医药平台

列表页数据预览,但是列表页里面中href的链接组合成url访问不了详情页,这导致大部分市面上的自动化采集系统无法获得详情页数据。

我们通过自研的可视化采集系统,正确的读取详情页URL,列表页可以获取javascript:commitForECMA(callbackC,"content.jsp?tableId=25&tableName=TABLE25&tableView=国产药品&Id=109228",null)  这个js命令,  采集系统先加载主页 然后执行这个js命令就可以得到详情页。

探码科技智慧医药平台

如果只是通过抓取目录列表的方式去采集数据,这种方式有个问题就是不好监测它哪些是新数据,哪些是旧数据。虽然是可以全库采集下来后再比对选出新数据,但是这样的处理速度就会受到影响,特别是它上面有些数据库的数据量比较大的,例如药品经营企业有60万条的数据,如果每次都全库采集需要几天时间,如果可以通过ID的方式采集的话,每个月只要采集新增的1~2万条ID的数据即可。而且还可以每天监测它新增了多少数据,新增的哪些数据。而通过我们的可视化采集系统,即可方便的解决这个问题。

探码科技智慧医药平台

详情页数据预览

 

总结

通过多维度的共享数据,搭建全国最全的食品药品监管信息大数据平台,实现各级食品药品监管部门间系统互联、信息互通、业务协同、统一高效。目前探码科技已经收集了近千万条食品药品监管信息,并且可实现实时增量采集,为您提供信息最全,覆盖面最广的食品药品监管信息数据服务。

相关链接:

食品安全国家标准

中国食品药品标准及补充检验方法查询

医疗器械强制性行业标准

药品补充检验方法

国家药品监督信息化标准

《食品药品监管局数据统计(截止至2019年8月)》下载:【联系我们】或者关注【探码科技】微信公众号,回复关键词“食品药品”即可。

蜀ICP备15035023号-4