Python爬机构持仓_如何用python 爬虫抓取金融数据

㈠如何用python 爬虫抓取金融数据

获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。

本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。

一、网页源码的获取

很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。

为了减少干扰，我先用正则表达式从整个页面源码中匹配出以上的主体部分，然后从主体部分中匹配出每只股票的信息。代码如下。

pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之间的所有代码pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之间的所有信息

其中compile方法为编译匹配模式，findall方法用此匹配模式去匹配出所需信息，并以列表的方式返回。正则表达式的语法还挺多的，下面我只罗列所用到符号的含义。

语法说明

. 匹配任意除换行符“ ”外的字符

* 匹配前一个字符0次或无限次

？匹配前一个字符0次或一次

s 空白字符：[<空格> fv]

S 非空白字符：[^s]

[...] 字符集，对应的位置可以是字符集中任意字符

(...) 被括起来的表达式将作为分组，里面一般为我们所需提取的内容

正则表达式的语法挺多的，也许有大牛只要一句正则表达式就可提取我想提取的内容。在提取股票主体部分代码时发现有人用xpath表达式提取显得更简洁一些，看来页面解析也有很长的一段路要走。

三、所得结果的整理

通过非贪婪模式(.*?)匹配>和<之间的所有数据，会匹配出一些空白字符出来，所以我们采用如下代码把空白字符移除。

stock_last=stock_total[:] #stock_total：匹配出的股票数据for data in stock_total: #stock_last：整理后的股票数据
if data=='':
stock_last.remove('')

最后，我们可以打印几列数据看下效果，代码如下

print('代码',' ','简称',' ',' ','最新价',' ','涨跌幅',' ','涨跌额',' ','5分钟涨幅')for i in range(0,len(stock_last),13): #网页总共有13列数据
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])

㈡ Python 如何爬股票数据

现在都不用爬数据拉，很多量化平台能提供数据接口的服务。像比如基础金融数据，包括沪深A股行情数据，上市公司财务数据，场内基金数据，指数数据，期货数据以及宏观经济数据；或者Alpha特色因子，技术分析指标因子，股票tick数据以及网络因子数据这些数据都可以在JQData这种数据服务中找到的。
有的供应商还能提供level2的行情数据，不过这种比较贵，几万块一年吧

㈢ python爬虫一般都爬什么信息

python爬虫一般都爬什么信息？
一般说爬虫的时候，大部分程序员潜意识里都会联想为Python爬虫，为什么会这样，我觉得有两个原因：
1.Python生态极其丰富，诸如Request、Beautiful Soup、Scrapy、PySpider等第三方库实在强大
2.Python语法简洁易上手，分分钟就能写出一个爬虫（有人吐槽Python慢，但是爬虫的瓶颈和语言关系不大）
爬虫是一个程序，这个程序的目的就是为了抓取万维网信息资源，比如你日常使用的谷歌等搜索引擎，搜索结果就全都依赖爬虫来定时获取
看上述搜索结果，除了wiki相关介绍外，爬虫有关的搜索结果全都带上了Python，前人说Python爬虫，现在看来果然诚不欺我～
爬虫的目标对象也很丰富，不论是文字、图片、视频，任何结构化非结构化的数据爬虫都可以爬取，爬虫经过发展，也衍生出了各种爬虫类型：
● 通用网络爬虫：爬取对象从一些种子 URL 扩充到整个 Web，搜索引擎干的就是这些事
● 垂直网络爬虫：针对特定领域主题进行爬取，比如专门爬取小说目录以及章节的垂直爬虫
● 增量网络爬虫：对已经抓取的网页进行实时更新
● 深层网络爬虫：爬取一些需要用户提交关键词才能获得的 Web 页面
不想说这些大方向的概念，让我们以一个获取网页内容为例，从爬虫技术本身出发，来说说网页爬虫，步骤如下：
模拟请求网页资源
从HTML提取目标元素
数据持久化
相关推荐：《Python教程》以上就是小编分享的关于python爬虫一般都爬什么信息的详细内容希望对大家有所帮助，更多有关python教程请关注环球青藤其它相关文章！

㈣如何用python计算某支股票持有90天的收益率

首先你要先获得这支股票90天的数据，可以存在一个arry中。
然后计算收益率 r = (arry[89]-arry[0])/arry[0]，如果要计算任意连续90天的话只要循环就可以了。
许多人更喜欢去做短线，因为短线刺激，无法承受长线持股待涨的煎熬，可是假如不会做短线，则可能会导致亏得更快。做T的秘籍大家一定很想知道，今天就给大家讲讲。
我准备了好处给大家，机构精选的牛股大盘点！希望大家不要错过--速领！今日机构牛股名单新鲜出炉！
一、股票做T是什么意思
现在市场上，A股的交易市场模式是T＋1，意思就是今天买的股票，只有明天才能卖出。
而股票做T，当天买入的股票在当天卖出，这就是股票进行T＋0的交易操作，投资人在可交易的一天通过股票的涨幅和跌停有了股票差价，在股票大幅下跌时赶紧买入，涨得差不多之后再将买入的部分卖出，就是用这种方法赚钱的。
假如说，在昨天我手里还有1000股的xx股票，市价10元/股。今天一大早发现该股居然跌到了9.5元/股，然后趁机买入了1000股。结果到了下午时，这只股票的价格就突然间大幅上涨到一股10.5元，我就急忙地以10.5/股的价格售出1000股，然后获取（10.5－9.5）×1000＝1000元的差价，这就是做T。
但是，不是每种股票做T都合适！正常来说，那些日内振幅空间较大的股票，它们是适合去做T的，比如说，每日能有5%的振幅空间。想知道某只股票适不适合的，点开这里去看一下吧，专业的人员会为你估计挑选出最适合你的T股票！【免费】测一测你的股票到底好不好？

二、股票做T怎么操作
怎么才能够把股票做到T？正常情况下分为两种方式，分别为正T和倒T。
正T即先买后卖，投资手里，手里面赚有这款股票，在当天股票开盘的时候下跌到了最低点时，投资者买入1000股，等到股票变高的时候在高点，将这1000股彻底卖出，持有的总股票数还是跟以前一样，T＋0的效果这样就能够达到了，又能够享有中间赚取的差价。
而倒T即先卖后买。投资者通过严密计算得出，股票存在下降风险，因此在高位点先卖出手中的一部分股票，接着等股价回落后再去买进，总量仍旧有办法保持不变，然而，收益是会产生的。
比方投资者，他占有该股2000股，而10元/股是当天早上的市场价，觉得持有的股票在短时间内就会有所调整，，于是卖出手中的1500股，等股票跌到一股只需要9.5元时，这只股票差不多就已经能让他们感到满意了，再买入1500股，这就赚取了（10-9.5）×1500＝750元的差价。
这时有人就问了，那要如何知道买入的时候正好是低点，卖出的时候正好是高点？
其实有一款买卖点捕捉神器，它能够判断股票的变化趋势，绝对能让你每次都抓住重点，点开链接就能立刻领取到了：【智能AI助攻】一键获取买卖机会

应答时间：2021-09-23，最新业务变化以文中链接内展示的数据为准，请点击查看

㈤如何用python爬取nba数据中心的数据

爬取的网站为：stat-nba.com，本文爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据

改变url_header和url_tail即可爬取特定的其他数据。

源代码如下：

[python]view plain

#coding=utf-8
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
importrequests
importtime
importurllib
frombs4importBeautifulSoup
importre
frompyExceleratorimport*
defgetURLLists(url_header,url_tail,pages):
"""
获取所有页面的URL列表
"""
url_lists=[]
url_0=url_header+'0'+url_tail
printurl_0
url_lists.append(url_0)
foriinrange(1,pages+1):
url_temp=url_header+str(i)+url_tail
url_lists.append(url_temp)
returnurl_lists
defgetNBAAllData(url_lists):
"""
获取所有2017赛季NBA常规赛数据
"""
datasets=['']
foriteminurl_lists:
data1=getNBASingleData(item)
datasets.extend(data1)
#去掉数据里的空元素
foritemindatasets[:]:
iflen(item)==0:
datasets.remove(item)
returndatasets
defgetNBASingleData(url):
"""
获取1个页面NBA常规赛数据
"""
QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
#html=requests.get(url).text
html=urllib.urlopen(url).read()
#printhtml
soup=BeautifulSoup(html)
data=soup.html.body.find('tbody').text
list_data=data.split(' ')
#withopen('nba_data.txt','a')asfp:
#fp.write(data)
#foriteminlist_data[:]:
#iflen(item)==0:
#list_data.remove(item)
returnlist_data
defsaveDataToExcel(datasets,sheetname,filename):
book=Workbook()
sheet=book.add_sheet(sheetname)
sheet.write(0,0,u'序号')
sheet.write(0,1,u'球队')
sheet.write(0,2,u'时间')
sheet.write(0,3,u'结果')
sheet.write(0,4,u'主客')
sheet.write(0,5,u'比赛')
sheet.write(0,6,u'投篮命中率')
sheet.write(0,7,u'命中数')
sheet.write(0,8,u'出手数')
sheet.write(0,9,u'三分命中率')
sheet.write(0,10,u'三分命中数')
sheet.write(0,11,u'三分出手数')
sheet.write(0,12,u'罚球命中率')
sheet.write(0,13,u'罚球命中数')
sheet.write(0,14,u'罚球出手数')
sheet.write(0,15,u'篮板')
sheet.write(0,16,u'前场篮板')
sheet.write(0,17,u'后场篮板')
sheet.write(0,18,u'助攻')
sheet.write(0,19,u'抢断')
sheet.write(0,20,u'盖帽')
sheet.write(0,21,u'失误')
sheet.write(0,22,u'犯规')
sheet.write(0,23,u'得分')
num=24
row_cnt=0
data_cnt=0
data_len=len(datasets)
print'data_len:',data_len
while(data_cnt<data_len):
row_cnt+=1
print'序号:',row_cnt
forcolinrange(num):
#printcol
sheet.write(row_cnt,col,datasets[data_cnt])
data_cnt+=1
book.save(filename)
defwriteDataToTxt(datasets):
fp=open('nba_data.txt','w')
line_cnt=1
foriinrange(len(datasets)-1):
#球队名称对齐的操作：如果球队名字过短或者为76人队是球队名字后面加两个table否则加1个table
ifline_cnt%24==2andlen(datasets[i])<5ordatasets[i]==u'费城76人':
fp.write(datasets[i]+' ')
else:
fp.write(datasets[i]+' ')
line_cnt+=1
ifline_cnt%24==1:
fp.write(' ')
fp.close()
if__name__=="__main__":
pages=int(1132/150)
url_header='hp?page='
url_tail='&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
url_lists=getURLLists(url_header,url_tail,pages)
datasets=getNBAAllData(url_lists)
writeDataToTxt(datasets)
sheetname='nbanormaldata2016-2017'
str_time=time.strftime('%Y-%m-%d',time.localtime(time.time()))
filename='nba_normal_data'+str_time+'.xls'
saveDataToExcel(datasets,sheetname,filename)

㈥如何使用python 抓取雪球网页

现在关注一个组合，就会有持仓变动的提示了。不过我觉得这事情挺有意思的。比如可以把很多持仓的数据都抓下来，做一些综合的分析，看看现在网站上被持有最多的股票是哪一支，某一天被调入最多的又是哪一支之类。
于是我决定来抓抓看，顺便借此说说我通常用程序做自动抓取的过程。
Step.1 分析页面
要抓一个网页，首先自然是要“研究”这个网页。通常我会用两种方式：
一个是 Chrome 的 Developer Tools。通过它里面的 Network 功能可以看到页面发出的所有网络请求，而大多数数据请求都会在 XHR 标签下。点击某一个请求，可以看到其具体信息，以及服务器的返回结果。很多网站在对于某些数据会有专门的请求接口，返回一组 json 或者 XML 格式的数据，供前台处理后显示。

另一个就是直接查看网页源代码。通常浏览器的右键菜单里都有这个功能。从页面的 HTML 源码里直接寻找你要的数据，分析它格式，为抓取做准备。
对于雪球上的一个组合页面粗略地看了一下它发出的请求，并没有如预想那样直接找到某个数据接口。看源代码，发现有这样一段：
SNB.cubeInfo = {"id":10289,"name":"誓把老刀挑下位","symbol":"ZH010389" ...此处略过三千字... "created_date":"2014.11.25"}
SNB.cubePieData = [{"name":"汽车","weight":100,"color":"#537299"}];

cubeInfo 是一个 json 格式的数据，看上去就是我们需要的内容。一般我会找个格式化 json 的网站把数据复制进去方便查看。

这应该就是组合的持仓数据。那么接下来，一切似乎都简单了。只要直接发送网页请求，然后把其中 cubeInfo 这段文字取出，按 json 读出数据，就完成了抓取。甚至不用动用什么 BeautifulSoup、正则表达式。
Step.2 获取页面
分析完毕，开抓。
直接 urllib.urlopen 向目标网页发送请求，读出网页。结果，失败了……
看了下返回结果：
403 Forbidden
You don't have permission to access the URL on this server. Sorry for the inconvenience.

被拒了，所以这种赤裸裸地请求是不行的。没关系，那就稍微包装一下：
send_headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive',
'Host':'xueqiu.com',
'Cookie':r'xxxxxx',
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()

header 数据都可以从 Developer Tools 里拿到。这次顺利抓到页面内容。
一般网站或多或少都会对请求来源做一些阻拦，通过加 header 可以搞定大部分情况。
Step.3 提取数据
因为这个数据比较明显，直接用通过一些字符串查找和截取操作就可以取出来。
pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')
pos_end = html.find('SNB.cubePieData')
data = html[pos_start:pos_end]
dic = json.loads(data)

dic 就是一个包含数据的字典对象。之后想干什么就随便你了。
对于复杂一点的情况，可以通过 BeautifulSoup 来定位 html 标签。再不好办的，就用正则表达式，基本都可以解决掉。
Step.4 处理数据
因为我想对数据进行持久化存储，并且做展示和分析，所以我用了 django 里的 ORM 来处理抓下来的数据。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])
portfolio.name = dic['name']
portfolio.earnings = dic['total_gain']
portfolio.save()
# add Stock
stocks = dic['view_rebalancing']['holdings']
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])
stock.name = s['stock_name']
stock.count += 1
stock.weight += s['weight']
stock.save()

Portfolio 记录下组合及其收益，Stock则记录每支股票的被收录数和总收录份额。
对于抓取到的，一般也可以存在文件中，或者直接通过 SQL 存入数据库，视不同情况和个人喜好而定。
Step.5 批量抓取
前面的一套做下来，就完整地抓取了一组数据。要达到目的，还要设计一下批量抓取的程序。
一个要解决的问题就是如何获得组合列表。这个可以再通过另一个抓取程序来实现。然后根据这些列表来循环抓取就可以了。
若要细究，还要考虑列表如何保存和使用，如何处理抓取失败和重复抓取，如何控制抓取频率防止被封，可否并行抓取等等。
Step.6 数据分析
数据有了，你要怎么用它，这是个很大的问题。可以简单的统计现象，也可以想办法深入分析背后隐藏的逻辑。不多说，我也还只是在摸索之中。

㈦ python爬虫爬取的数据可以做什么

爬虫的概念是，爬取网上能看到的数据，也就是只要网上存在的，通过浏览器可以看到的数据。爬虫都可以爬取。爬虫爬取的原理就是伪装成浏览器，然后进行爬取操作

哪些数据你需要你就可以爬取。比如爬取公司竞争对手的商业数据，爬取电影，音乐，图片等等的。只要你希望得到的，前提浏览器可以访问的都可以爬取

㈧怎么学python爬取财经信息

本程序使用Python 2.7.6编写，扩展了Python自带的HTMLParser，自动根据预设的股票代码列表，从Yahoo Finance抓取列表中的数据日期、股票名称、实时报价、当日变化率、当日最低价、当日最高价。

由于Yahoo Finance的股票页面中的数值都有相应id。

例如纳斯达克100指数ETF（QQQ）
其中实时报价的HTML标记为

[html]view plain

<spanid="yfs_l84_qqq">87.49</span>

而标普500指数ETF（SPY）

其中实时报价的HTML标记为

[html]view plain

<spanid="yfs_l84_spy">187.25</span>

因此本数据抓取程序根据相应的id字符串来查找数据。具体来说就是先继承HTMLParser，然后在自定义的子类中重载handle_data(self, data)方法，查找包含相应id字符串（例如实时报价的id字符串为"yfs_l84_"+股票代码）的HTML标记，并输出这个HTML标记中的数据（例如qqq的<span id="yfs_l84_qqq">87.49</span>，其中的数据87.49就是实时报价。）

样本输出：

数据依次是

数据日期股票代码股票名称实时报价日变化率日最低价日最高价

[python]view plain

05/05/(IBB)233.281.85%225.34233.28
05/05/(SOCL)17.480.17%17.1217.53
05/05/(PNQI)62.610.35%61.4662.74
05/05/2014xsdSPDRS&PSemiconctorETF(XSD)67.150.12%66.2067.41
05/05/2014itaiSharesUSAerospace&Defense(ITA)110.341.15%108.62110.56
05/05/2014iaiiSharesUSBroker-Dealers(IAI)37.42-0.21%36.8637.42
05/05/(VBK)119.97-0.03%118.37120.09
05/05/2014qqqPowerSharesQQQ(QQQ)87.950.53%86.7687.97
05/05/2014ewiiSharesMSCIItalyCapped(EWI)17.86-0.56%17.6517.89
05/05/(DFE)62.33-0.11%61.9462.39
05/05/(PBD)13.030.00%12.9713.05
05/05/(EIRL)38.52-0.16%38.3938.60

㈨如何用Python写一个抓取天天基金网上每个基金经理业绩的爬虫

摘要亲您好，很高兴为您解答，语言：python

导航:首页 > 汇率佣金 > Python爬机构持仓

Python爬机构持仓

与Python爬机构持仓相关的资料