飞虎网络舆情监控软件的核心技术
网络爬虫
基于目标网页特征对网页、网站进行抓取、存储和搭建索引。新闻、论坛、电商、社交网站、行业资讯、企业门户、政府网站等各种类型网站都可抓取;服务器侧动态页面、浏览器侧动态页面(AJAX内容)、静态页面都可抓取,没有终点的瀑布流页面、web 的会话过程等类型网页都可以抓取。
全文检索
充分利用开源技术和团队研发能力,搭建我们的全文检索系统。将存储于数据库中的内容信息查找出来的,获得全文中和目标关键词相关的信息同时也可以进行统计和分析。例如,系统可以很快的回答“《红楼梦》一书中“林黛玉”一共出现多少次?”类的问题。
语义分析
充分利用开源技术和团队研发能力,搭建我们的中文自然语言处理引擎。主要包括中文分词、自动聚类、自动分类、自动摘要、褒贬分析、元数据抽取,从海量数据中为用户精准匹配出需求内容。
hadoop大数据技术
基于hadoop框架,搭建可以处理海量数据的分布式并行程序,分析数据、统计数据、挖掘数据,更快速的获得有效信息,更快速的查询反馈,更高效的存储数据。
机器学习
利用开源技术,搭建我们具备机器学习能力的情感训练和判断系统。通过系统来判断的负面信息的准确度可以达到60%,通过机器学习后准确度可以达到80%,随着时间和数据的积累准确度越来越高。目前部分早期服务的用户系统自动判断的准确度可以达到90%以上。
文本挖掘
文本挖掘技术可挖掘文本的特征信息,包括关键词(高频词)提取、术语(词组、短语)提取、基于模板的信息抽取、基于语义词典的概念转换、基于浅层句法分析的语法特征提取、基于浅层语义分析的语义特征提取、基于文本分类的文本类别信息获取等操作。 Cleaning)、数据转换(Data Transform)、数据整合和数据筛选等数据准备工作。
数据跟踪
基于自然语言分析和特征抽取,在信息来源中跟踪那些与目标话题相关的信息。