
以ChatGPT为代表的超大型语言模型的迅猛应用加速了人工智能(AI)的普及,使其更加触手可及,逐渐融入我们的工作和生活中。无可否认,AI大模型等技术现已深刻影响各行业的发展,同时重塑了企业的核心产品,以及用户与企业产品和服务之间的互动方式。
2023年5月26日,上海成功举办了“向星力未来数据技术峰会(FDTC)”。星环科技的创始人兼首席执行官孙元浩在会上表示,未来将实现人人皆为数据科学家的愿景,人与数据的交互方式将经历重大变革,自然语言处理,尤其是语言和视频等形式的交互,将日益普及,届时每个人都将需要一个“虚拟业务助手”。
孙元浩指出,未来的数据处理将朝着智能化、多模态化和平民化发展,其中领域大模型的应用将显著提升数据处理的自动化程度,所生成的结果更符合用户需求;数据处理将从单一模态转向多模态,企业的数据分析也将进入全新的维度;而数据处理的平民化则将使普通用户无需掌握复杂工具也能快速进行数据处理。
为了推动数据处理的智能化、多模态化和平民化,星环科技在“向星力未来数据技术峰会(FDTC)”上推出了多项创新产品。这些产品包括持续提升和开发工具Sophon LLMOps、业界首创的金融大模型无涯、大数据分析大模型SoLar“求索”等不同行业的大模型,形成湖仓集一体化及多模架构的星环大数据基础平台TDH 9.3,能够替代如分布式分析型数据库ArgoDB 5.0和分布式交易型数据库KunDB 3.2等国外产品,以及构建海量数据互联智慧“星”图的分布式图数据StellarDB 5.0、面向多元场景的高性能时序数据库TimeLyre 9.1等。此外,星环科技还提出了“六易、三仓、两中心”的新一代智能分析全流程平台Sophon,以及数据要素流通产品Navier 3.1等一系列卓越产品。
基于前沿技术,这些全系列产品将有力地推动企业的数据化及智能化转型,促进基础软件的国产化替代,助力数据经济的发展。
1. 提供大模型训练工具,使每个企业都能打造属于自己的专属大模型
受ChatGPT主导的对话式AI影响,各行各业正愈发紧密地结合人类与信息的交互。然而,尽管超大模型拥有诸多优势,其训练和维护的技术要求高、难度大,费用亦十分庞大,同时通用大模型在特定领域的适用性不足。
鉴于此,星环科技在行业内率先提出了行业大模型应用的创新场景,并推出相应工具,帮助企业构建自有的行业大模型。通过大模型基础设施,企业得以形成具有“新型人机交互”和“敏捷可持续迭代”的人工智能应用。
为助力企业用户基于大模型构建未来的应用,星环科技推出了Sophon LLMOps,以帮助企业打造其行业大模型。
作为一款管理机器学习模型全生命周期的工具平台,星环Sophon LLMOps专注于大语言模型及其衍生的数据、模型和应用问题,提供相应的增强功能,构成了LLMOps的工具链:
首先,样本仓库能力涵盖了训练数据开发、推理数据开发及数据维护等方面,负责对大语言模型涉及的原始数据、样本数据及提示词数据进行清洗、探索、增强、评估和管理。
其次,模型运维管理能力也得到了提升。除了传统MLOps的六大统一管理(统一纳管、统一运维、统一应用、统一监控、统一评估、统一解释),针对大语言模型的微调、持续提升、评估及对齐,星环科技提供了从计算框架、工具到计算、存储及通信的全方位调度和优化支持。
第三,星环Sophon LLMOps还具备大语言模型与其他任务的编排、调度和上线能力。通过结合多款大数据和数据库产品,如向量数据库Hippo和星环分布式图数据库StellarDB等,星环Sophon LLMOps能够将不同的大语言模型、传统机器学习及其他流程整合为符合用户实际领域与业务需求的任务,并为客户提供支持。
星环Sophon LLMOps有效解决了客户面临的三个核心难题:首先,提供一站式工具链,支持客户从“通用大语言模型”训练或微调,最终获得“契合自身业务特点的领域大语言模型”;其次,帮助客户将原型大语言模型投入实际生产应用;第三,促进客户在生产环境下大语言模型的运营及其持续提升。
此外,星环科技行业内首创推出了两大行业专用大模型:
一是面向金融行业的星环金融大模型无涯。星环科技长期致力于金融领域,服务众多金融客户,积累了上百万条专业语料;依托于深厚的图数据库和深度图推理算法技术,形成了大规模高质量的金融事件训练指令集。这为星环科技开发金融领域的大语言模型奠定了坚实基础。
性问题。在政策及研究报告分析、新闻解读、事件总结和演绎推理方面,无涯展现出强大的理解与生成能力。此外,该模型能够对股票、债券、基金及商品等各种市场事件进行全面的复盘、传播与推演,并能够生成创新的策略因子集合,从而构建设立体的归因解释体系。无涯通过多模感知、事件驱动及深度图计算,从时间与空间、深度与广度等多个维度扩展投资研究视角,创新了智能量化投研的新范式。
此外,星环科技基于其多年在SQL编辑器上的积累,结合大语言模型,推出了大数据分析大模型SoLar“求索”。SoLar“求索”允许用户用自然语言描述多种数据模型下的复杂业务需求,并依托星环大数据平台特有的“多模型”技术,进行不同模态(如图数据、文本数据和结构化数据)的关联分析与展示。用户可以通过自然语言,生成可以成功执行的SQL或Cypher,从而快速获取查询结果,显著降低用户的使用门槛。
星环科技此次推出的SoLar“求索”将作为数据查询与分析的智能助手,为数据工程师、数据科学家及业务人员提供更为优质的使用体验。SoLar“求索”使数据库查询变得更加平民化,允许非专业用户在无需学习及掌握数据库编程语言的前提下,通过自然语言自由按需查询数据。
多模态的数据处理技术为每个人提供个性化的AI助理
孙元浩表示,数据处理正从多模型向多模态转型,企业数据分析迎来了新的发展阶段。
为了顺应这一新趋势,星环科技推出了自研的向量数据库,扩展了大语言模型的时间和空间维度。借助星环科技的向量数据库与分布式图数据库,可以构建基于大模型的应用,让每个人都能拥有个性化的AI助理。
向量数据库因与AI大模型的协同作用而迅速走红。最早的数据库类型是SQL或关系数据库,其数据均为结构化。随着Web 2.0的发展,市场对数据处理需求的不断增加引发了NoSQL革命,使得数据库变得更加灵活,能够处理更大规模的非结构化数据。如今,伴随对人工智能应用的追捧,向量数据库为新一市场流行开辟了空间,AIGC的热潮更是加速了向量数据库的投资趋势。
在本次峰会上,星环科技正式推出了自研的向量数据库Transwarp Hippo。这款企业级云原生分布式向量数据库,具备存储、索引和管理海量向量数据集的能力,能够高效解决向量相似度检索和高密度向量聚类等问题。
与开源的向量数据库不同,Hippo提供高可用性、高性能及易扩展的特性,支持多种向量搜索索引,并具备数据分区与分片、数据持久化、增量数据摄取和向量标量字段过滤混合查询等功能,能满足企业在海量向量数据上对高实时查询、检索和召回等场景的需求。
大模型技术的启发以及图神经网络技术的不断进步,孕育了图智能的发展机遇,并为图库和图智能结合提供了探索的空间。在大数据时代,如何应对海量图数据的存储和计算问题,成为了行业关注的焦点。对此,星环科技推出了面向图智能及业务分析的企业级分布式图数据库StellarDB 5.0。
StellarDB 5.0实现了实时短查询场景性能提升五倍,高并发可达上万QPS,支持近50种图算法,整体运行性能提升8倍,在多重关联关系场景下表现出十倍的改进,成功解决了无限扩层的挑战。
在计算模型方面,StellarDB 5.0经过优化,重新设计了Cypher语言执行器Thunder及BSP查询优化模型,显著提升了短查询的执行效率及查询并发性。同时,该版本对算法进行了优化,通过改进星环Eagle图算法模型,大幅提升了内置图算法的执行效率,且引入了Cypher语言预编译技术以减少语句编译开销,进一步提高了语句的执行效率。
StellarDB 5.0还带来了全面升级的数据可视化分析引擎KG Explorer 1.3,这是一款面向业务且易于使用的数据分析可视化工具。
性能分布式时序数据库TimeLyre 9.1。针对时序数据量大、分析需求高、开源系统局限性(如不支持集群部署、数据规模有限、不支持复杂分析、服务不稳定、缺乏安全可控性等)等问题,TimeLyre 9.1实现了5-20倍的数据压缩率(显著优于传统数据库),大幅降低存储成本并提升单节点磁盘可用容量。 TimeLyre 9.1 还具备以下关键特性:统一标准SQL,完整支持标准SQL查询语言及主流SQL模块化扩展,并兼容通用开发框架和工具,确保数据准确性;支持关联、聚合、嵌套查询等复杂SQL分析模型;支持多模平台的跨模分析能力,打破数据孤岛;采用分布式存储、计算分离架构,支持灵活扩容和异构集群部署,并支持国产化软硬件平台,确保安全可控。
星环时空数据库Spacture则专注于高效处理时空数据,支持多样化数据类型,并具备算子下推、多种标准支持以及主流生态兼容等特性。其应用场景涵盖时序遥感分析、城市扩张变化检测、气象业务支持、全球高温天气预测、轨迹分析、船舶轨迹范围检索、泛在空间分析、湖泊面积统计以及空间聚合统计等。
## 6. 数据处理平民化:人人皆可为数据科学家
星环科技致力于实现数据处理的平民化,使普通用户无需掌握复杂工具即可快速处理数据。 这一目标通过以下产品创新得以体现:
第一,星环大数据基础平台TDH 9.3打破了传统湖仓一体架构的边界,提升数据访问效率。 传统湖仓一体架构采用多系统混合架构,存在存储冗余、数据流转成本高、时效性差、数据一致性难以保障、数据孤岛治理成本高以及元数据同步开发标准不一致等问题。 TDH 9.3 推出的新一代湖仓一体存储格式Holodesk,通过一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,从而避免数据冗余,减少数据流转,并提升业务综合性能和时效性。 Holodesk在数据集市方面支持基于Holodesk存储格式的集市分析,大幅提升分析性能;在数仓方面,支持完整四种事务隔离级别,并支持复杂批处理加工和数仓模型拉链表等功能,自动优化小文件合并;在数据湖方面,支持离线导入/实时写入和时间旅行功能,并与Spark/Flink/Sqoop等生态系统对接。
第二,星环数据基础平台TDH 9.3的多模型统一架构进行了迭代升级,全新发布向量模型存储。 该平台现已支持10大存储引擎以及11种模型数据,实现统一存储管理及跨模型数据流转与关联分析,简化业务开发流程。 TDH 9.3中的全新向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,并具备多租户和强大的资源管控能力,同时支持分布式部署。
第三,星环TDH底座可就地升级至星环TDC,优化大数据云平台及数据共享。 针对大数据云平台及数据共享面临的孤岛建设、数据共享安全隐患以及基础设施异构等痛点,星环数据云平台TDC 3.2支持星环TDH底座就地升级,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,提高资源调度灵活性和利用率。 多租户隔离技术确保各业务部门数据独立,保障数据安全与隔离。 统一管理与精准运维功能则可释放运维人员的时间和精力,并提升运维效率。
体系。在本次峰会上,星环科技发布了数据要素流通产品Navier 3.1,致力于让数据流通更加便利、安全和可控。
星环科技数据流通平台Navier 3.1的三大产品同步升级。其中,星环数据交易门户Datamall旨在打造数据资产目录平台,方便用户浏览数据目录、查看数据字典以及生成交易凭证。
星环科技安全沙箱Sandbox致力于构建一个封闭、隔离的数据开发分析环境,开发人员在此环境下进行分析计算,且无法下载或导出原始数据集,从而保障数据的“可入不可出”。
星环科技隐私计算平台Sophon PC 2.0,可以在保证数据提供方不泄露敏感数据的前提下,允许数据消费方对密文数据进行分析计算,确保数据在各个环节中“可用不可见”。新版本在功能覆盖、数据分析使用灵活度和建模效果等方面均有提升。
星环科技推出了Defensor 4.0版本,并在数据分类分级模块中创新性地引入了大模型技术。相较于传统的机器学习算法,经过调优后的模型能够有效解决分类分级中短文本语义语境识别率低的问题,在有标注样本的前提下,识别准确率可达95%。
第五,在国产化替代方面更进一步。为实现数据处理的平民化,星环科技推出了一系列创新产品,不仅可以替换国外的商业和开源大数据平台、数据库等基础软件产品,而且拥有大量成功的应用案例,能够为用户创造新的价值。
星环科技自主研发的大数据基础平台TDH和星环数据云平台TDC联合,可以完美替代CDH/HDP和CDP,并在功能、性能、稳定性、易用性、扩展性、可靠性、安全性及国产生态支持等方面实现提升,同时提供多种模型支持能力,性能提升可达5到100倍,并提供更强的原厂专业服务能力。
星环分布式分析型数据库ArgoDB强化了实时分析能力,构建了安全高效的国产化多模引擎,能够一站式满足用户在数据仓库、数据集市、实时数仓、OLAP、AETP和联邦计算等方面的需求,可在批处理、OLAP和Ad hoc分析等场景中替代Oracle/DB2/TD/SAP HANA等国外产品。
星环分布式交易型数据库KunDB 3.2可以在交易型OLTP业务场景和高并发在线数据服务场景中替代Oracle/DB2/MySQL,并提升存储计算能力、高可用能力和跨分区事务能力。
星环自研的搜索引擎Scope可以在全文检索、日志分析等多个场景替代ElasticSearch,并提升稳定性、性能和集群扩展性等能力。
星环分布式图数据库StellarDB可以在图查询、图分析等场景替代开源图数据库Neo4j。新发布的StellarDB 5.0产品在延续企业级海量存储、高性能数据查询分析计算、丰富的可视化交互、安全运维一体化等优异产品技术能力的同时,进一步实现了在数据存储、查询计算、可视化交互、深度图学习和多模型数据库等多方面的能力升级,以高水平的产品能力和图智能持续赋能业务生产及应用创新,为国产化图数据应用提供高水平的产品解决方案。
星环科技自研的高性能时序数据库TimeLyre可以替代开源时序数据库InfluxDB,并解决后者不支持复杂分析、只能进行简单点查或指定设备分析的问题。在大规模设备场景下,若不指定设备进行查询,InfluxDB需要使用大量内存加载全量设备数据并进行归并排序操作,导致服务极不稳定,且缺乏安全可控性。
星环科技的智能分析工具Sophon Base可以在可视化建模分析等场景替代SAS/SPSS,实现功能和性能的提升,并降低成本。
大数据产业发展的下一步是打造以平台为核心的大数据生态。星环科技坚持“平台+生态”的发展理念,与软件开发商、硬件开发商和系统集成商等生态伙伴积极合作,打造更多领域的联合解决方案,扩大产品市场影响力,提升竞争力,构建大数据基础软件产品应用的生态体系。
应用是这股浪潮实现落地的基石,也是改变数据处理发展进程的关键因素。
文章中提到的AI工具

OpenAI开发的一款先进AI聊天机器人