飞虎网络舆情监控软件的核心技术

admin 2021年1月27日舆情监测行业新闻 0

网络爬虫
基于目标网页特征对网页、网站进行抓取、存储和搭建索引。新闻、论坛、电商、社交网站、行业资讯、企业门户、政府网站等各种类型网站都可抓取；服务器侧动态页面、浏览器侧动态页面（AJAX内容）、静态页面都可抓取，没有终点的瀑布流页面、web 的会话过程等类型网页都可以抓取。

全文检索
充分利用开源技术和团队研发能力，搭建我们的全文检索系统。将存储于数据库中的内容信息查找出来的，获得全文中和目标关键词相关的信息同时也可以进行统计和分析。例如，系统可以很快的回答“《红楼梦》一书中“林黛玉”一共出现多少次？”类的问题。

语义分析
充分利用开源技术和团队研发能力，搭建我们的中文自然语言处理引擎。主要包括中文分词、自动聚类、自动分类、自动摘要、褒贬分析、元数据抽取，从海量数据中为用户精准匹配出需求内容。

hadoop大数据技术
基于hadoop框架，搭建可以处理海量数据的分布式并行程序，分析数据、统计数据、挖掘数据，更快速的获得有效信息，更快速的查询反馈，更高效的存储数据。

机器学习
利用开源技术，搭建我们具备机器学习能力的情感训练和判断系统。通过系统来判断的负面信息的准确度可以达到60%，通过机器学习后准确度可以达到80%，随着时间和数据的积累准确度越来越高。目前部分早期服务的用户系统自动判断的准确度可以达到90%以上。

文本挖掘
文本挖掘技术可挖掘文本的特征信息，包括关键词（高频词）提取、术语（词组、短语）提取、基于模板的信息抽取、基于语义词典的概念转换、基于浅层句法分析的语法特征提取、基于浅层语义分析的语义特征提取、基于文本分类的文本类别信息获取等操作。 Cleaning）、数据转换（Data Transform）、数据整合和数据筛选等数据准备工作。

数据跟踪
基于自然语言分析和特征抽取，在信息来源中跟踪那些与目标话题相关的信息。

飞虎网络舆情监控软件的核心技术