搜索到与相关的文章
编程技术

数位之墙的主题式汇整和机器自动聚合

数位之墙的主题式汇整和机器自动聚合Zhengyun_ustc20070315发现数位之墙竟然在半年前曾经这么说过,呵呵,很像我们最开始谈起的概念,只不过不再是搜索引擎人员来做“搜罗”,而是机器自动生成的,从而发现所有热点,并进一步精耕细作为一个一个有趣的话题,继而串连起来形成专题。百度新闻、Google新闻的原理也就是这样。只不过,新闻的自然语言处理还是相对简单的,毕竟文字规整,内容聚焦性强,发散性弱。网民零散的语言则更发散,更无厘头,文字风格更迥异,所以

系统 2019-08-12 01:32:26 2532

各行各业

利用统计进行中文分词与词性分析

利用统计进行中文分词与词性分析-IveelyLiu-博客园利用统计进行中文分词与词性分析今天,翻出了我以前在本科阶段写的一些论文,虽然有几篇没有发表。突然发现很多还是比较实用,虽然学术价值并不是很大,于是我重新整理了下,用最简单的方式,摘要了部分出来拼成此文,当然拼的原料都是自己的,本文适合初学者,如若转载,请著名版权。中文分词已经是老调重弹的话题了,传统的基于词库的分词技术应该是目前最基本的分词技术,在这里我不去深入挖掘,什么好什么不好的问题,今天我只想

系统 2019-08-12 01:31:59 2532

Python

python中的global语句用法

在初学python时想要在函数内修改一个变量的引用,往往会出现如下情况:num=1deffun():num=2print(num)fun()print(num)#输出结果为2#1想改变num的值,在函数中修改后,在函数中调用返回值为修改后的值,但用print输出num的值仍为1。此时在函数内部,num的值是局部变量,而函数外部的num是全局变量。想要修改全局变量此时就应该引入global语句global语句的用法语法:声明此变量为全局变量。用法:globa

系统 2019-09-27 17:57:43 2531

Python

python之正则标志位和模式

标志位说明re.I字母不区分大小写re.S使.匹配包括换行re.X忽略空格和#后面的注释re.M多行匹配,影响^和$re.UUnicode解码,影响\w,\W,\b,\B,\d,\D,\s,\Sre.L本地化识别匹配,影响\w,\W,\b,\B,\d,\D,\s,\S模式说明^匹配字符串的开头$匹配字符串的末尾。.匹配任意一个字符,不包括换行符l或*匹配0个以上+匹配1个以上?匹配最少字符(非贪婪模式)模式说明[]匹配组内字符,[abc]匹配a,b,c[^

系统 2019-09-27 17:56:14 2531

Python

Python基本数据结构之字典类型dict用法分析

本文实例讲述了Python基本数据结构之字典类型dict用法。分享给大家供大家参考,具体如下:词典类型dict字典由键(key)和对应值(value)成对组成。字典也被称作关联数组或哈希表。dict赋值dict整体放在花括号{}中,每个键与值用冒号隔开(:),每对用逗号分割;d={'one':1,'two':2,'three':3}键必须独一无二,但值则不必;值可取任何数据类型,如字符串,数或元组;若创建时同一个键被赋值两次,后一个值会被记住;键必须不可变

系统 2019-09-27 17:55:22 2531

Python

Python中os.path用法分析

本文实例分析了Python中os.path用法。分享给大家供大家参考。具体如下:复制代码代码如下:#coding=utf-8importosprintos.path.abspath("d:\\new\\test.txt")printos.path.basename("d:\\new\\test.txt")printos.path.dirname("d:\\new\\test.txt")printos.path.exists("d:\\new")printo

系统 2019-09-27 17:53:03 2531

Python

在python中利用opencv简单做图片比对的方法

下面代码中利用了两种比对的方法,一对图片矩阵(mxm)求解特征值,通过比较特征值是否在一定的范围内,判断图片是否相同。二对图片矩阵(mxm)中1求和,通过比较sum和来比较图片。#-*-coding:utf-8-*-importcv2ascvimportnumpyasnpimportosfile_dir_a='C:\Users\wt\Desktop\data\image1\\'file_dir_b='C:\Users\wt\Desktop\data\ima

系统 2019-09-27 17:50:03 2531

Python

python数据处理实战(必看篇)

一、运行环境1、python版本2.7.13博客代码均是这个版本2、系统环境:win764位系统二、需求对杂乱文本数据进行处理部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种金额万元)这样,我想着用sql写条件判断,统一转换为‘万元人民币'单位,用sql脚本进行字符串截取即可完成,但是后面发现数据并不规则,条件判断太多清洗质量也不一定,有的前面不是左括号,有的字段里面没有币种,有的数字并不

系统 2019-09-27 17:46:38 2531

编程技术

我所理解的Twitter是什么

单独讨论技术本身,和分析技术实现的驱动理念及其所带来的应用价值是二码事,在此讨论的是"twitter是什么".(1)IM软件的基本功能使用IM软件,例如QQ时,所提供最有价值的功能是什么?能不用见面就可以和朋友交流信息?能在网络上认识到更多的陌生人?是的,IM软件给我们提供了更加便捷的通信功能。将这类IM安装到手机上,安装到PC上,就可以随时随地和朋友或者说和网络保持信息的畅通。这就是IM软件的本质价值:即时(实时)通信。IM软件或许现在已是我们与外界信息

系统 2019-08-29 23:28:35 2531

编程技术

Flex多SWF文件加载之Applicatoin Domain

概要当我们加载外部swf时,必须要了解应用程序域(ApplicationDomain)。从Adobe官方文件中,我们可以得知应用程序域能够把处于同一个安全域(SecurityDomain)中的类分离开,这样就可以让一个类的多个定义共存,或是让多个子应用来共享父应用的类定义。简单点理解就是应用程序域为类定义提供了分区功能。应用程序域一个类的多个定义共存:内存中有多个类,它们名称相同,但定义不同定义,由于处于不同的应用程序域,所以互不干扰,得以共存。子应用共享

系统 2019-08-29 23:02:50 2531