⑴ 证券组合的风险相关性
这个相关系数,是根据股票的收益率求出来的,具体为:
分别计算两支股票过去三年或五年的月度收益率,放在excel表格中,然后在excel中使用corr这个函数,计算两支股票的相关系数(correlation)。如果是多支股票,就需要计算两两的相关系数,形成相关系数矩阵(correlation matrix)。
⑵ matlab程序改错
如果没有上限不用定义为无穷大的,默认就是没有上限,调用linprog时不要写即可
w(:,i)=linprog(f,A,b,Aeq,beq,LB);
希望对你能有所帮助。
⑶ 食品的变质周期数据
你打我电话,0394-8511284我有,给你发到你邮箱10. 协方差函数
BETA(N) 贝塔系数 求当前证券的贝塔系数。
用法:BETA(N) 为当前证券N收益与大盘收益相比的贝塔系数,该系数表明大盘每变动1%,则该股票将变动V%
例如:BETA(5) 表示5周期贝塔系数
BETA2(X1,X2,N) 相关放大系数 求2个序列间的相关放大系数。
用法:BETA2(X1,X2,N)为X1与X2的N周期的相关放大系数,表示Y变化1,则X将变化V。
例如:BETA2(CLOSE,INDEXC,5)表示收盘价与大盘指数之间的5周期相关放大系数
BETADOWN(N) 下跌贝塔系数 求当前证券的下跌贝塔系数。
用法:BETADOWN(N) 为当前证券N收益与大盘收益相比的下跌贝塔系数,该系数表明大盘每下跌1%,则该股票将下跌V%
例如:BETADOWN(5) 表示5周期下跌贝塔系数
BETAUP(N) 上涨贝塔系数 求当前证券的上涨贝塔系数。
用法:BETAUP(N) 为当前证券N收益与大盘收益相比的上涨贝塔系数,该系数表明大盘每上涨1%,则该股票将上涨V%
例如:BETAUP(5) 表示5周期上涨贝塔系数
CORRTPL(TPLNAME,X,D,N) 与模板相关系数 与模板相关系数。
用法:CORRTPL(TPLNAME,X,D,N)D为常数,表示0:开盘价,1:最高价,2:最低价,3:收盘价,4:成交量,5:成交额。N表示仅计算最后多少个有效数据,为0表示计算所有。用于当前选股时N设为1可大大减小计算量,用于历史测试和训练模式应设为0避免有效数据过少而失真。
例如:CORRTPL('一马平川',CLOSE,3,1)表示求收盘价线与一马平川收盘价线的最后一组的相关系数
COVAR(X1,X2,N) 协方差 求2个序列的协方差。
用法:COVAR(X1,X2,N) 为X1与X2的N周期的协方差
例如:COVAR(CLOSE,INDEXC,8) 表示收盘价与大盘指数之间的8周期的协方差
CORR(X1,X2,N) 相关系数 求2个序列间的相关系数。用法:CORR(X1,X2,N) 为X1与X2的N周期的相关系数例如:CORR(CLOSE,INDEXC,5) 表示收盘价与大盘指数之间的5周期的相关系数
TROUGHBARSA(X,N,M) ZIGA前M个波谷位置 前M个ZIGA转向波谷到当前周期数(绝对变化量)。
11. 指标函数
COST(X) 成本分布 成本分布情况。
用法:COST(20) 表示20%获利盘的价格是多少。即有20%的持仓量在该价格以下,其余80%在该价格以上,为套牢盘。该函数仅对日线分析周期比较有效
FLATZIG(X,N) 归一化之字转向 归一化之字转向。
用法:FLATZIG(X,N),当序列或K线变化量超过N%时转向。X为序列或常数,为常数时表示0:开盘价,1:最高价,2:最低价,3:收盘价,4:高点用最高价、低点用最低价。与ZIG函数不同的是本函数返回值在0-1之间。
例如:FLATZIG(3,10)表示收盘价的10%的FLATZIG转向。FLATZIG(MA(C,20),10)表示均线的10%的FLATZIG转向
FLATZIGA(X,N) 归一化绝对变化量之字转向 归一化之字转向(绝对变化量)。
用法:FLATZIGA(X,N),当序列X变化量超过N时转向。与ZIGA函数不同的是本函数返回值在0-1之间。
例如:FLATZIGA(RSI1,10)
LWINNER(N,X) 近期获利盘比例 近期获利盘比例。
用法:LWINNER(20,CLOSE)表示最近20天的那部分成本以当前收市价卖出的获利盘比例。
例如返回0.2表示20%获利盘;该函数仅对日线分析周期有效
PEAK(X,N,M) 前M个波峰值 前M个ZIG转向波峰值。
用法:PEAK(X,N,M)表示之字转向ZIG(X,N)的前M个波峰的数值,M必须大于等于1。
例如:PEAK(1,5,1)表示5%最高价ZIG转向的上一个波峰的数值,
PEAK(MA(C,20),10,1)表示均线的10%的ZIG转向的上一个波峰的数值
PEAKA(X,N,M) ZIGA前M个波峰值 前M个ZIGA转向波峰值(绝对变化量)。
用法:PEAKA(X,N,M)表示之字转向ZIGA(X,N)的前M个波峰的数值,M必须大于等于1。
例如:PEAKA(RSI1,10,1)
PEAKBARS(X,N,M) 前M个波峰位置 前M个ZIG转向波峰到当前周期数。
用法:PEAKBARS(X,N,M)表示之字转向ZIG(X,N)的前M个波峰到当前的周期数,M必须大于等于1。
例如:PEAKBARS(0,8,1)表示%8开盘价ZIG转向的上一个波峰到当前的周期数。
PEAKBARS(MA(C,20),8,1)表示均线的8%的ZIG转向的上一个波峰到当前的周期数
PEAKBARSA(X,N,M) ZIGA前M个波峰位置 前M个ZIGA转向波峰到当前周期数(绝对变化量)。
用法:PEAKBARSA(X,N,M)表示之字转向ZIGA(X,N)的前M个波峰到当前的周期数,M必须大于等于1。
例如:PEAKBARSA(RSI1,10,1)
PPART(N) 远期成本比例 远期成本比例。
用法:PPART(N) 表示N周期前的成本占总成本的比例,如返回0.2表示20%
例如:PPART(5) 5天前的成本占总成本的比例。该函数仅对日线分析周期比较有效
PWINNER(N,X) 远期获利盘比例 远期获利盘比例。
用法:PWINNER(10,CLOSE)表示10天前的那部分成本以当前收市价卖出的获利盘比例。
例如返回0.2表示20%获利盘;该函数仅对日线分析周期比较有效
SAR(N,S,M) 抛物转向 抛物转向。
用法:SAR(N,S,M),N为计算周期,S为步长,M为极值。例如SAR(5,2,10)表示计算5日抛物转向,步长为2%,极限值为10%
SARTURN(N,S,M) 抛物转向点 抛物转向点。
用法:SARTURN(N,S,M) N为计算周期,S为步长,M为极值,若发生向上转向则返回1,若发生向下转向则返回-1,否则为0。其用法与SAR函数相同
TROUGH(X,N,M) 前M个波谷值 前M个ZIG转向波谷值。
用法:TROUGH(X,N,M)表示之字转向ZIG(X,N)的前M个波谷的数值,M必须大于等于1。
例如:TROUGH(2,8,3)表示%8最低价ZIG转向的前3个波谷的数值。
TROUGH(MA(C,20),5,2)表示均线的5%的ZIG转向的前2个波谷的数值
TROUGHA(X,N,M) ZIGA前M个波谷值 前M个ZIGA转向波谷值(绝对变化量)。
TROUGHA(X,N,M)表示之字转向ZIGA(X,N)的前M个波谷的数值,M必须大于等于1。
例如:TROUGHA(RSI1,10,2)
TROUGHBARS(X,N,M) 前M个波谷位置 前M个ZIG转向波谷到当前周期数。
用法:TROUGHBARS(X,N,M)表示之字转向ZIG(X,N)的前M个波谷到当前的周期数,M必须大于等于1。
例如:TROUGHBARS(2,8,3)表示%8最低价ZIG转向的前3个波谷到当前的周期数。
TROUGHBARS(MA(C,20),5,2)表示均线的5%的ZIG转向的前2个波谷到当前的周期数。
TROUGHBARSA(X,N,M) ZIGA前M个波谷位置 前M个ZIGA转向波谷到当前周期数(绝对变化量)。
用法:TROUGHBARSA(X,N,M)表示之字转向ZIGA(X,N)的前M个波谷到当前的周期数,M必须大于等于1。
例如:TROUGHBARSA(RSI1,10,2)
WINNER(X) 获利盘比例 获利盘比例。
用法:WINNER(CLOSE) 表示以当前收市价卖出的获利盘比例,如返回0.2表示20%获利盘;
例如:WINNER(10) 表示10元价格的获利盘比例。该函数仅对比较日线分析周期有效
IG(X,N) 之字转向 之字转向。
用法:ZIG(X,N),当序列或K线变化量超过N%时转向。X为序列或常数,为常数时表示0:开盘价,1:最高价,2:最低价,3:收盘价,4:高点用最高价、低点用最低价。例如:ZIG(3,10)表示收盘价的10%的ZIG转向。ZIG(MA(C,20),10)表示均线的10%的ZIG转向
ZIGA(X,N) 绝对之字转向 绝对变化量之字转向。
用法:ZIGA(X,N),当序列X变化量超过N时转向。
例如:ZIGA(RSI1,10)
12.字符串函数
BLKNAME 所属板块 取证券所属分类板块名称。
例如:Explain(1,STKNAME+STKLABEL+'\n所属板块:'+BLKNAME)
F10FIND(S,N) F10资料查找 当前证券的F10资料中查找字符串。
用法:F10FIND(S,N),将从当前股票的F10资料的第N个字符开始查找字符串S,返回找到的位置,返回-1表示未找到。
例如:F10FIND('发行价',1),将从F10资料的第1个字符开始查找字符串'发行价',返回找到的位置。
F10TEXT(N,M) F10资料子字符串 取得当前证券的F10资料中指定范围的子字符串。
用法:F10TEXT(N,M),将得到当前股票的F10资料中从第N个字符开使的M个字节长的字符串,M=0表示一直取到行尾。
例如:EXPLAIN(1,F10TEXT(F10FIND('发行价',1),0));输出F10资料中'发行价'所在行
INBLOCK(BLKNAME) 是否板块成员 当前证券是否属于板块。
用法:属于输出1否则为0。例如:INBLOCK('上海A股');INBLOCK('金融板块')
LOWERSTR(STR) 小写字符串 将字符串转换为小写。
用法:LOWERSTR(STR)
例如:VAR1:=LOWERSTR(MARKETLABEL,'sh',2)=0输出1表示该股为上海证券
LTRIM(STR) 除去开始空格 除去字符串开始空格。
用法:LTRIM(STR)
例如:LTRIM(' SH') 返回SH
MARKETLABEL STKMARKET 市场代码 取证券所在市场代码字符串。
用法:MARKETLABEL
例如:VAR1:=STRCMP(MARKETLABEL, 'SH')=0输出1表示该股为上交所证券
MARKETNAME 市场名称 取证券所在市场名称。
用法:MARKETNAME
例如:Explain(1,MARKETNAME)
NUMTOSTR(N,M) 数字转化为字符串 将数字转化为字符串。
用法:NUMTOSTR(N,M),将N转化为字符串返回,精确到小数点后M位
例如:EXPLAIN(1, NUMTOSTR(0.12345, 2))输出0.123
RTRIM(STR) 除去尾部空格 除去字符串尾部空格。
用法:RTRIM(STR)
例如:RTRIM('SH ') 返回SH
SELFSTRING(S) 自定义字符串数据 取得自定义字符串数据。
用法:SELFSTRING(S),取得名为S的自定义字符串数据。
例如:EXPLAIN(1,SELFSTRING('所属板块'))输出命名为[所属板块]的自定义字符串数据。注:在[自定义数据管理]中定义单值字符串数据并编辑或从外部提取、导入
STKCOUNT(BLKNAME) 板块含证券数量 板块所包含证券数量。
用法:STKCOUNT(BLKNAME)属于输出1否则为0例如:STKCOUNT('上海A股');STKCOUNT('金融板块')
STKFROMBLK(BLK,N) 取板块成员代码 取得板块成员的证券代码。
用法:STKFROMBLK(BLK,N)返回BLK板块中的第N个成员的证券代码
例如:explain(1,STKFROMBLK('上海A股',1));在[解]中显示[上海A股]板块中的第1个成员的证券代码
STKINBLOCK(STK,BLK) 证券是否板块成员 指定的证券是否属于板块。
用法:STKINBLOCK(STK,BLK)证券代码STK参数表示的证券是否属于BLK板块,属于输出1否则为0
例如:STKINBLOCK(STKLABEL,'上海A股');STKINBLOCK('SH600000','金融板块')
STKLABEL 证券代码 取证券代码字符串。
用法:STKLABEL
STKNAME 证券名称 取证券名称字符串。
用法:STKNAME
STKNAMEEX(S) 指定证券名称 取指定证券名称字符串。STKNAMEEX(S),S为证券代码。
例如STKNAMEEX('600000')或STKNAMEEX('SH600000')返回浦发银行
STRCMP(STR1, STR2) 字符串比较 比较字符串。
用法:STRCMP(STR1, STR2)STR1>STR2输出1;STR1=STR2输出0;STR1<STR2输出-1;
例如:VAR1:=STRCMP(STKLABEL, '000001')为0表示证券代码为000001
STRFIND(STR,S,N) 查找字符串 在字符串中查找另一个字符串。
用法:STRFIND(STR,S,N),从字符串STR的第N个字符开始查找字符串S1,返回找到的位置,若没有找到就返回0。
例如:STRFIND('ABCDEF',UPPERSTR('cde'),1)返回3
STRLEFT(STR,N) 字符串的左部 取得字符串的左边部分。
用法:STRLEFT(STR,N),返回字符串STR的左边N个字符例如:EXPLAIN(1, STRLEFT(STKLABEL,3))输出证券代码前3位
STRLEN(STR) 字符串长度 取字符串长度。
用法:STRLEN(STR)
例如:check:=STRLEN(USERNAME)>0为0表示用户注册名为空
STRMID(STR,N,M) 字符串的中部 取得字符串的中间部分。
用法:STRMID(STR,N,M),返回字符串STR的第N个字符开始的长度为M个字符的字符串,M为0则取到末尾。
例如:EXPLAIN(1, STRMID('ABCDEF',3,3))输出CDE
STRNCMP(STR1,STR2,LEN) 部分字符串比较 指定长度比较字符串。
用法:STRNCMP(STR1,STR2,LEN)
例如:VAR1:=STRNCMP(STKNAME,'ST',2)=0输出1表示该股为ST股
STRRIGHT(STR,N) 字符串的右部 取得字符串的右边部分。
用法:STRRIGHT(STR,N),返回字符串STR的右边N个字符
例如:EXPLAIN(1,STRRIGHT(STKLABEL,3))输出证券代码后3位
STRTONUM(STR) 字符串转化为数字 将字符串转化为数字。
用法:STRTONUM(STR),将STR转化为数字。
例如:STRTONUM('1.2345')返回数值1.2345
TPLDATACOUNT(TPLNAME) K线模板数据数量 K线模板数据数量。
用法:TPLDATACOUNT(TPLNAME)
例如:TPLDATACOUNT('一马平川');“一马平川”K线模板数据数量
UPPERSTR(STR) 大写字符串 将字符串转换为大写。
用法:UPPERSTR(STR)
例如:EXPLAIN(1, UPPERSTR('sh'))输出SH
⑷ 以下是六只股票之间的相关系数,选择哪四只股票
以下是六只股票之间的相关系数,选择四只股票的内容如下:
股票之间的相关系数如下:
Corr(A,B)=0.85;Corr(A,C)=0.60;Corr(A,D)=0.45。
每种股票的期望收益率为8%,标准差为20%。如果投资者的全部资产现在由A股票组成,并且只被允许选取另一种股票组成资产组合,投资者将会选择C。
⑸ 美国财产税
(一)征税对象、财产税的构成
财产税属于地方税的范畴,美国各州对财产税等各种地方税有独立的立法权,因此各州对应纳税财产的规定并不相同。—般来说,美国的各州把财产分为动产、不动产和无形财产三大类。不动产包括土地和土地上的永久性建筑物和构筑物;动产是除了不动产以外,其他任何有形的财产,如飞机、车辆、船只等;无形财产指无形的金融资产,如在股票市场和债券市场的投资。美国各州都对不动产征收财产税,大多数州对动产征税。
在不动产、动产构成的财产税收人中,不动产是财产税的主要成分。在对动产和不动产同时征收财产税的各州的财产税构成中,不动产所占的比例通常远高于动产。不动产、动产包括住宅物业(Residential BRroBRerty)和商业物业(Corrrnercial BRroBRerty)等类别,而在不动产和动产的财产税收入中,住宅物业、商业物业的税收收入占了财产税收入的绝大部分,2002年美国住宅物业占总财产税收收入的65%、商业物业占18%。
(二)财产税税率
1、财产税税率的确定。如何确定财产税的税率是一个复杂的过程,这种复杂性来自于财产税的分散性。财产税是地方税,州、县、市、镇、学区和特区等各级政府均有征收财产税的权力,财产税的总税率是州政府对财产征税税率与各级地方政府对财产征税税率的加总。州政府一般通过税法法典把其财产税税率确定为某个确定值或某个范围,并且在税法没有更改的前提下保持不变;此外,各级地方政府根据当年的预算、应纳税财产的总价值、其他来源的收入等变量确定其当年的财产税税率。由于用于设定税率的变量每年都在变化,因此地方政府确定的税率通常每年都不同。地方政府确定其财产税税率的方法如下:
(1)地方政府对其管理区域内的财产进行估价,确定应纳税财产的价值,并把这些财产的评估价值汇总,在确定财产税税收减免数额后,两者的差额就是应纳税财产的总价值,用Total Value表示。
(2)地方政府确定其下一财政年度的预算总额,以及除了财产税以外的其他收入总额,两者的差额就是该政府要征收的财产税总额,用Total Tax表示。
(3)地方政府把财产税税率确定为要征收的财产税总额与应纳税财产的总价值的比率,即Tax Rate=Total Tax/Total Value。美国各地习惯}BMiIlage Rate作为财产税税率的单位,一个Millage Rate等于1‰。
各级地方政府根据以上方法确定其对财产征税的税率后,把这些税率和州制定的税率加总,得到该地区的财产税总税率:总税率一州税率+县、市税率+其他机构的税率。
此外,各级地方政府都受到州税法的制约。各级政府在确定税率的过程中,应遵守州税法对财产税税率、征税对象、减免条例和征税程序的规定;其提出的财产税税率也要受到州级部门的核准。
2、应纳财产税额的计算。在财产税的征收过程中,地方政府有专门的评估机构对各类财产的价值进行评估,经过评估得出的价值称为公平市场价格(F.M.V—Fair Market Value)。税务部门并不根据F.M.V对财产征收财产税,而是把F.M.V乘以估价折价比率(Assess Ratio.根据州法律一般是40%),从而得到估计价值(Assessed of Value)。估计价值才是税务部门征收财产税时的征税依据;估计价值扣除某个可能的税收减免以后,乘以财产税的总税率,最终得到应纳财产税总额。估计价值一公平市场价格X估价折价比率;应纳财产税总额:(估计价值一税收减免额)×总税率。
(三)财产税的免税政策
直接减免税。减免税对象主要有:政府部门、慈善机构、教育机构等所拥有的专门用于公益目的的房地产;低收入和弱势群体如盲人、老人、退伍军人、烈士遗孀等自住的房地产。在上述免税对象中,各级政府所享受的优惠是最多的。以马里兰州为例,2007年,该州免税房地产价值为585.3亿美元,而享受各级政府免税房地产价值总计419.8亿美元,占71.7%。
⑹ 如何用Python和机器学习炒股赚钱
如何用Python和机器学习炒股赚钱?(图片太多未贴,可以去找原文)
我终于跑赢了标准普尔 500 指数 10 个百分点!听起来可能不是很多,但是当我们处理的是大量流动性很高的资本时,对冲基金的利润就相当可观。更激进的做法还能得到更高的回报。
这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed(当时股票代码是 ENMD)的事件:
「星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85,在周一收盘时接近 52。在接下来的三周,它的收盘价都在 30 以上。这股投资热情也让其它生物科技股得到了溢价。但是,这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了,其中甚至包括《泰晤士报》!因此,仅仅是热情的公众关注就能引发股价的持续上涨,即便实际上并没有出现真正的新信息。」
在研究者给出的许多有见地的观察中,其中有一个总结很突出:
「(股价)运动可能会集中于有一些共同之处的股票上,但这些共同之处不一定要是经济基础。」
我就想,能不能基于通常所用的指标之外的其它指标来划分股票。我开始在数据库里面挖掘,几周之后我发现了一个,其包含了一个分数,描述了股票和元素周期表中的元素之间的「已知和隐藏关系」的强度。
我有计算基因组学的背景,这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知。但是,当我们分析数据时,我们又会开始看到我们之前可能无法预测的新关系和相关性。
选择出的涉及细胞可塑性、生长和分化的信号通路的基因的表达模式
和基因一样,股票也会受到一个巨型网络的影响,其中各个因素之间都有或强或弱的隐藏关系。其中一些影响和关系是可以预测的。
我的一个目标是创建长的和短的股票聚类,我称之为「篮子聚类(basket clusters)」,我可以将其用于对冲或单纯地从中获利。这需要使用一个无监督机器学习方法来创建股票的聚类,从而使这些聚类之间有或强或弱的关系。这些聚类将会翻倍作为我的公司可以交易的股票的「篮子(basket)」。
首先我下载了一个数据集:http://54.174.116.134/recommend/datasets/supercolumns-elements-08.html,这个数据集基于元素周期表中的元素和上市公司之间的关系。
然后我使用了 Python 和一些常用的机器学习工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn,我开始了解我正在处理的数据集的分布形状。为此我参考了一个题为《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel:https://www.kaggle.com/arthurtok/principal-component-analysis-with-kmeans-visuals
importnumpy asnp
importpandas aspd
fromsklearn.decomposition
importPCA
fromsklearn.cluster
importKMeans
importmatplotlib.pyplot asplt
importseaborn assbnp.seterr(divide= 'ignore', invalid= 'ignore')
# Quick way to test just a few column features
# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))
stocks = pd.read_csv( 'supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []
forcolname, colvalue instocks.iteritems():
iftype(colvalue[ 1]) == str: str_list.append(colname)
# Get to the numeric columns by inversion
num_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())
输出:简单看看前面 5 行:
概念特征的皮尔逊相关性(Pearson Correlation)。在这里案例中,是指来自元素周期表的矿物和元素:
stocks_num = stocks_num.fillna(value= 0, axis= 1)X = stocks_num.values
fromsklearn.preprocessing importStandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=( 12, 10))plt.title( 'Pearson Correlation of Concept Features (Elements & Minerals)')
# Draw the heatmap using seaborn
sb.heatmap(stocks_num.astype(float).corr(),linewidths= 0.25,vmax= 1.0, square= True, cmap= "YlGnBu", linecolor= 'black', annot= True)sb.plt.show()
输出:(这个可视化例子是在前 16 个样本上运行得到的)。看到元素周期表中的元素和上市公司关联起来真的很有意思。在某种程度时,我想使用这些数据基于公司与相关元素或材料的相关性来预测其可能做出的突破。
测量「已解释方差(Explained Variance)」和主成分分析(PCA)
已解释方差=总方差-残差方差(explained variance = total variance - resial variance)。应该值得关注的 PCA 投射组件的数量可以通过已解释方差度量(Explained Variance Measure)来引导。Sebastian Raschka 的关于 PCA 的文章对此进行了很好的描述,参阅:http://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
# Calculating Eigenvectors and eigenvalues of Cov matirx
mean_vec = np.mean(X_std, axis= 0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)
# Create a list of (eigenvalue, eigenvector) tuples
eig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) fori inrange(len(eig_vals))]
# Sort from high to low
eig_pairs.sort(key = lambdax: x[ 0], reverse= True)
# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)* 100fori insorted(eig_vals, reverse= True)] cum_var_exp = np.cumsum(var_exp)
# Cumulative explained variance# Variances plot
max_cols = len(stocks.columns) - 1plt.figure(figsize=( 10, 5))plt.bar(range(max_cols), var_exp, alpha= 0.3333, align= 'center', label= 'indivial explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where= 'mid',label= 'cumulative explained variance')plt.ylabel( 'Explained variance ratio')plt.xlabel( 'Principal components')plt.legend(loc= 'best')plt.show()
输出:
从这个图表中我们可以看到大量方差都来自于预测主成分的前 85%。这是个很高的数字,所以让我们从低端的开始,先只建模少数几个主成分。更多有关分析主成分合理数量的信息可参阅:http://setosa.io/ev/principal-component-analysis
使用 scikit-learn 的 PCA 模块,让我们设 n_components = 9。代码的第二行调用了 fit_transform 方法,其可以使用标准化的电影数据 X_std 来拟合 PCA 模型并在该数据集上应用降维(dimensionality rection)。
pca = PCA(n_components= 9)x_9d = pca.fit_transform(X_std)plt.figure(figsize = ( 9, 7))plt.scatter(x_9d[:, 0],x_9d[:, 1], c= 'goldenrod',alpha= 0.5)plt.ylim( -10, 30)plt.show()
输出:
这里我们甚至没有真正观察到聚类的些微轮廓,所以我们很可能应该继续调节 n_component 的值直到我们得到我们想要的结果。这就是数据科学与艺术(data science and art)中的「艺术」部分。
现在,我们来试试 K-均值,看看我们能不能在下一章节可视化任何明显的聚类。
K-均值聚类(K-Means Clustering)
我们将使用 PCA 投射数据来实现一个简单的 K-均值。使用 scikit-learn 的 KMeans() 调用和 fit_predict 方法,我们可以计算聚类中心并为第一和第三个 PCA 投射预测聚类索引(以便了解我们是否可以观察到任何合适的聚类)。然后我们可以定义我们自己的配色方案并绘制散点图,代码如下所示:
# Set a 3 KMeans clustering
kmeans = KMeans(n_clusters= 3)
# Compute cluster centers and predict cluster indices
X_clustered = kmeans.fit_predict(x_9d) # Define our own color map
LABEL_COLOR_MAP = { 0: 'r', 1: 'g', 2: 'b'}label_color = [LABEL_COLOR_MAP[l] forl inX_clustered]
# Plot the scatter digram
plt.figure(figsize = ( 7, 7))plt.scatter(x_9d[:, 0],x_9d[:, 2], c= label_color, alpha= 0.5)plt.show()
输出:
这个 K-均值散点图看起来更有希望,好像我们简单的聚类模型假设就是正确的一样。我们可以通过这种颜色可视化方案观察到 3 个可区分开的聚类。
当然,聚类和可视化数据集的方法还有很多,参考:https://goo.gl/kGy3ra使用 seaborn 方便的 pairplot 函数,我可以以成对的方式在数据框中自动绘制所有的特征。我们可以一个对一个地 pairplot 前面 3 个投射并可视化:
# Create a temp dataframe from our PCA projection data "x_9d"
df = pd.DataFrame(x_9d)df = df[[ 0, 1, 2]]df[ 'X_cluster'] = X_clustered
# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data
sb.pairplot(df, hue= 'X_cluster', palette= 'Dark2', diag_kind= 'kde', size= 1.85)sb.plt.show()
输出:
构建篮子聚类(Basket Clusters)
你应该自己决定如何微调你的聚类。这方面没有什么万灵药,具体的方法取决于你操作的环境。在这个案例中是由隐藏关系所定义的股票和金融市场。
一旦你的聚类使你满意了,你就可以设置分数阈值来控制特定的股票是否有资格进入一个聚类,然后你可以为一个给定的聚类提取股票,将它们作为篮子进行交易或使用这些篮子作为信号。你可以使用这种方法做的事情很大程度就看你自己的创造力以及你在使用深度学习变体来进行优化的水平,从而基于聚类或数据点的概念优化每个聚类的回报,比如 short interest 或 short float(公开市场中的可用股份)。
你可以注意到了这些聚类被用作篮子交易的方式一些有趣特征。有时候标准普尔和一般市场会存在差异。这可以提供本质上基于「信息套利(information arbitrage)」的套利机会。一些聚类则和谷歌搜索趋势相关。
看到聚类和材料及它们的供应链相关确实很有意思,正如这篇文章说的一样:https://www.fairphone.com/en/2017/05/04/zooming-in-10-materials-and-their-supply-chains/
我仅仅使用该数据集操作了 Cobalt(钴)、Copper(铜)、Gallium(镓)和 Graphene(石墨烯)这几个列标签,只是为了看我是否可能发现从事这一领域或受到这一领域的风险的上市公司之间是否有任何隐藏的联系。这些篮子和标准普尔的回报进行了比较。
通过使用历史价格数据(可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用),然后你可以汇总价格数据来生成预计收益,其可使用 HighCharts 进行可视化:
我从该聚类中获得的回报超过了标准普尔相当一部分,这意味着你每年的收益可以比标准普尔还多 10%(标准普尔近一年来的涨幅为 16%)。我还见过更加激进的方法可以净挣超过 70%。现在我必须承认我还做了一些其它的事情,但因为我工作的本质,我必须将那些事情保持黑箱。但从我目前观察到的情况来看,至少围绕这种方法探索和包装新的量化模型可以证明是非常值得的,而其唯一的缺点是它是一种不同类型的信号,你可以将其输入其它系统的流程中。
生成卖空篮子聚类(short basket clusters)可能比生成买空篮子聚类(long basket clusters)更有利可图。这种方法值得再写一篇文章,最好是在下一个黑天鹅事件之前。
如果你使用机器学习,就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机,这是很有趣而且可以盈利的。最后,一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签(即概念(concept))的强大组合的能力。
我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法。也许会基于近乎实时的事件,这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组。
⑺ 投资组合的标准差问题
计算投资组合的标准差的时候,用你说的那个公式,
计算单个股票的标准差的时候,用与预期回报的差,看题目给什么条件了。
⑻ 如何用Python和机器学习炒股赚钱
相信很多人都想过让人工智能来帮你赚钱,但到底该如何做呢?瑞士日内瓦的一位金融数据顾问 Gaëtan Rickter 近日发表文章介绍了他利用 Python 和机器学习来帮助炒股的经验,其最终成果的收益率跑赢了长期处于牛市的标准普尔 500 指数。虽然这篇文章并没有将他的方法完全彻底公开,但已公开的内容或许能给我们带来如何用人工智能炒股的启迪。
我终于跑赢了标准普尔 500 指数 10 个百分点!听起来可能不是很多,但是当我们处理的是大量流动性很高的资本时,对冲基金的利润就相当可观。更激进的做法还能得到更高的回报。
这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed(当时股票代码是 ENMD)的事件:
「星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85,在周一收盘时接近 52。在接下来的三周,它的收盘价都在 30 以上。这股投资热情也让其它生物科技股得到了溢价。但是,这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了,其中甚至包括《泰晤士报》!因此,仅仅是热情的公众关注就能引发股价的持续上涨,即便实际上并没有出现真正的新信息。」
在研究者给出的许多有见地的观察中,其中有一个总结很突出:
「(股价)运动可能会集中于有一些共同之处的股票上,但这些共同之处不一定要是经济基础。」
我就想,能不能基于通常所用的指标之外的其它指标来划分股票。我开始在数据库里面挖掘,几周之后我发现了一个,其包含了一个分数,描述了股票和元素周期表中的元素之间的「已知和隐藏关系」的强度。
我有计算基因组学的背景,这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知。但是,当我们分析数据时,我们又会开始看到我们之前可能无法预测的新关系和相关性。
如果你使用机器学习,就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机,这是很有趣而且可以盈利的。最后,一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签(即概念(concept))的强大组合的能力。
我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法。也许会基于近乎实时的事件,这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组。